绪论:写作既是个人情感的抒发,也是对学术真理的探索,欢迎阅读由发表云整理的11篇数据挖掘技术探讨论文范文,希望它们能为您的写作提供参考和启发。
专业
计算机科学与技术
学生姓名
杨宇潇
学号
181719251864
一、 选题的背景、研究现状与意义
为什么大数据分析很重要?大数据分析可帮助组织利用其数据并使用它来识别新的机会。反过来,这将导致更明智的业务移动,更有效的运营,更高的利润和更快乐的客户。
在许多早期的互联网和技术公司的支持下,大数据在2000年代初的数据热潮期间出现。有史以来第一次,软件和硬件功能是消费者产生的大量非结构化信息。搜索引擎,移动设备和工业机械等新技术可提供公司可以处理并持续增长的数据。随着可以收集的天文数据数量的增长,很明显,传统数据技术(例如数据仓库和关系数据库)不适合与大量非结构化数据一起使用。 Apache软件基金会启动了第一个大数据创新项目。最重要的贡献来自Google,Yahoo,Facebook,IBM,Academia等。最常用的引擎是:ApacheHive / Hadoop是复杂数据准备和ETL的旗舰,可以为许多数据存储或分析环境提供信息以进行深入分析。 Apache Spark(由加州大学伯克利分校开发)通常用于大容量计算任务。这些任务通常是批处理ETL和ML工作负载,但与Apache Kafka等技术结合使用。
随着数据呈指数级增长,企业必须不断扩展其基础架构以最大化其数据的经济价值。在大数据的早期(大约2008年),Hadoop被大公司首次认可时,维护有用的生产系统非常昂贵且效率低下。要使用大数据,您还需要适当的人员和软件技能,以及用于处理数据和查询速度的硬件。协调所有内容同时运行是一项艰巨的任务,许多大数据项目都将失败。如今,云计算已成为市场瞬息万变的趋势。因为各种规模的公司都可以通过单击几下立即访问复杂的基础架构和技术。在这里,云提供了强大的基础架构,使企业能够胜过现有系统。
二、 拟研究的主要内容(提纲)和预期目标
随着行业中数据量的爆炸性增长,大数据的概念越来越受到关注。 由于大数据的大,复杂和快速变化的性质,许多用于小数据的传统机器学习算法不再适用于大数据环境中的应用程序问题。 因此,在大数据环境下研究机器学习算法已成为学术界和业界的普遍关注。 本文主要讨论和总结用于处理大数据的机器学习算法的研究现状。 另外,由于并行处理是处理大数据的主要方法,因此我们介绍了一些并行算法,介绍了大数据环境中机器学习研究所面临的问题,最后介绍了机器学习的研究趋势,我们的目标就是研究数据量大的情况下算法和模型的关系,同时也会探讨大部分细分行业数据量不大不小的情况下算法的关系。
三、 拟采用的研究方法(思路、技术路线、可行性分析论证等)
1.视觉分析。大数据分析用户包括大数据分析专业人士和一般用户,但是大数据分析的最基本要求是视觉分析。视觉分析直观地介绍了大数据的特征,并像阅读照片的读者一样容易接受。 2.数据挖掘算法。大数据分析的理论中心是数据挖掘算法。不同的数据挖掘算法依赖于不同的数据类型和格式来更科学地表征数据本身。由于它们被全世界的统计学家所公认,因此各种统计方法(称为真值)可以深入到数据中并挖掘公认的值。另一方面是这些数据挖掘算法可以更快地处理大数据。如果该算法需要花费几年时间才能得出结论,那么大数据的价值是未知的。 3.预测分析。大数据分析的最后一个应用领域是预测分析,发现大数据功能,科学地建立模型以及通过模型吸收新数据以预测未来数据。 4.语义引擎。非结构化数据的多样化为数据分析提出了新的挑战。您需要一套工具来分析和调整数据。语义引擎必须设计有足够的人工智能,以主动从数据中提取信息。 5.数据质量和数据管理。大数据分析是数据质量和数据管理的组成部分。高质量的数据和有效的数据管理确保了分析结果在学术研究和商业应用中的可靠性和价值。大数据分析的基础是前五个方面。当然,如果您更深入地研究大数据分析,则还有更多特征,更深入,更专业的大数据分析方法。
四、 论文(设计)的工作进度安排
2020.03.18-2020.03.20 明确论文内容,进行相关论文资料的查找与翻译。2020.04.04-2020.04.27:撰写开题报告 。
2020.04.28-2020.04.30 :设计实验。
2020.05.01-2020.05.07 :开展实验。
2020.05.08-2020.05.15 :准备中期检查。
2020.05.16-2020.05.23:根据中期检查的问题,进一步完善实验2020.05.24-2020.05.28 :完成论文初稿。
2020.05.29-2020.06.26 :论文修改完善。
五、 参考文献(不少于5篇)
1 . 王伟,王珊,杜小勇,覃雄派,王会举.大数据分析——rdbms与mapreduce的竞争与共生 .计算机光盘软件与应用,2012.被引量:273.
2 . 喻国明. 大数据分析下的中国社会舆情:总体态势与结构性特征——基于百度热搜词(2009—2 012)的舆情模型构建.中国人民大学学报,2013.被引量:9. 3 . 李广建,化柏林.大数据分析与情报分析关系辨析.中国图书馆学报,2014.被引量:16.
4 . 王智,于戈,郭朝鹏,张一川,宋杰.大数据分析的分布式molap技术 .软件学报,2014.被引量:6.
5 . 王德文,孙志伟.电力用户侧大数据分析与并行负荷预测 .中国电机工程学报,2015.被引量:19.
6 . 江秀臣,杜修明,严英杰,盛戈皞,陈玉峰 ,郭志红.基于大数据分析的输变电设备状态数据异常检测方法 .中国电机工程学报,2015.被引量:8.
7 . 喻国明. 呼唤“社会最大公约数”:2012年社会舆情运行态势研究——基于百度热搜词的大 数据分析.编辑之友,2013.被引量:4.
六、指导教师意见
签字: 年 月 日
七、学院院长意见及签字
【中图分类号】G420 【文献标识码】A 【论文编号】1009―8097(2009)06―0104―03
数据挖掘技术可以从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中人们事先不知道的,但又是潜在有用的信息和知识的过程。通过这种技术把获取的信息和知识提供给决策支持系统。这种技术已广泛地用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索等[1,2,3] ,随着信息技术的发展,数据挖掘在网络教学中的应用研究也逐渐深入[4,5,6] 。网络教学成为一种新型教学手段,理论上学习者可以在任何时间、任何地点以任何形式、从任何章节开始学习任何内容,实现个性化学习。但在网络教学实施过程中,教学内容和组织活动却不能随着学生的学习状况发生动态变化,导致了教与学脱离的现象,教学效果达不到预期效果。因此可以利用该技术对收集到的与学生学习相关的历史数据进行分析,从而可以为教师深入理解学生的实际学习情况,制定相关的教学目标供 其学习提供有力的决策支持,是提升教学效果的有力手段。
一 拟解决的关键问题
本文探讨 在现有的网络教学平台基础上,以在教学信息数据库中采集到的学生学习记录为样本,应用数据挖掘技术,挖掘有用的规则,探讨学生的学习习惯, 学习兴趣和学习成绩间的关系,从而及时了解学生对每一章节知识的掌握程度并根据每个学生的情况制定下一章节的教学目标,为其提供不同的教学内容,从而使教学更适合学生
个性的发展,实现网络分层教学,最终实现教学过程的动态调节。
二 数据预处理
由于人为的原因、设备的故障及数据传输中的错误,导致现实世界的数据含有脏的、不完整的和不一致的数据。数据预处理技术可以检测数据异常,调整数据并归约待分析的数据,从而改进数据的质量,提高其后挖掘过程的精度和性能。
本文数据源于《数据结构》网络教学课程,48节理论课,24节实验,4.5个学分。学生111人,其中06级信息与计算科学专业班合计64人,07级地理信息系统专业一个班计47人。针对1节提出的问题,本文通过对网络教学平台教学信息数据库中的学生信息表、学生学习进度表、测试信息表等进行数据挖掘,说明其在网络教学中的应用。各表结构如表1至表3所示(本文中学生信息经过掩饰处理)。
其中内容是指客观性考题,如单项选择题等。主观性考题,如算法设计之类考题可以以教师组织的BBS讨论为依据评分,在此以有效讨论次数(有实质性的讨论内容)计算。
首先去除数据表中的冗余信息,如学生信息表中除学号信息以外的各分项信息,每一章节学习进度表中的节、日期信息,每章测试信息表中的题号、内容、答案等信息;对某些汇总数据项进行离散化处理,如将测试信息表中得分汇总后分为(0,59),(60,85),(85,100)等 3个组并概化为不及格,合格和优秀三个层次;学习时间汇总后分为(0,2),(2,4),(4,6),(6,)等 四个组,单位:小时;学习次数汇总后分为(0,3),(3,6),(6,)等 三个组,BBS讨论汇总后分为(0,3),(3,6),(6,)并 概化为积极,参与和不积极三个层次[7];同时下一章节的教学目标制定为三个层次,内容呈现分别表示为A类、B类、C类三个层次的内容,提供给学生学习。然后检查数据的完整性及数据的一致性,对其中的噪音数据进行处理。经过数据预处理工作,得到一张描述学生学习过程信息的数据表格,表4是我们整理出的某一章节的学生学习情况数据。
三 数据挖掘过程
主要是利用关联分析、序列模式分析、分类分析和聚类分析等分析方法对数据库中的潜在规则进行挖掘。针对1节中提出的问题,根据国内外对各类模式挖掘算法的研究[8,9],本文采用FP-Tree关联规则挖掘算法进行关联规则挖掘和用于 分类模型判定树归纳算法进行数据挖掘。
1 关联规则挖掘
关联规则挖掘可以发现大量数据中项集之间有趣的关联或相关联系,通过这种挖掘技术对表4进行挖掘,可以发现学生的学习时间、学习次数及网络课堂讨论和学习效果之间的关系,使教师了解学生的网上学习行为和目标掌握程度,帮助教师调整教学计划,如设计有意义的讨论课题提升学生的学习兴趣,从而间接增加学生的学习时间和学习次数。
首先给出关联规则的形式化描述:设 是m个项的集合,D是数据库事务的集合,每个事务有一个标识符。关联规则就是形如 的蕴含式,其中 ,并且 。规则的支持度记为 ,是事务D中包含的 事务数与所有事务数之比,置信度记为 ,是指包含的 事务数与包含的 事务数之比。
给定事务数据库D挖掘关联规则问题就是产生支持度、置信度分别大于用户给定的最小支持度和最小置信度的关联规则。
表5是使用FP-Tree算法对学生学习情况表进行挖掘得到的一系列关联规则(因篇幅限制,本文仅列出部分内容)。
从上表可以看出,学习时间在6小时以上并且成绩为优秀的同学占全班的20.51%,学习时间6小时以上的同学中有34.78%的学生成绩为优秀。学习时间在2小时以下的并且成绩不及格的同学占全班的7.69%,学习时间2小时以下的同学中有75%的学生成绩不及格。学习时间在6小时以上,学习次数多于6次且成绩为优秀的学生占全班的7.69%,这部分同学中有75%也积极参与BBS讨论,而学习时间少于2小时,次数少于3次,基本不参与讨论的同学,不及格率为100%,这部分同学占全班的7.69%。比例明显偏高,需要调整教学的内容和设计讨论问题以提高学生的兴趣。从表中还可以看出,学习次数多于6次的学生中有92.31%的学生其学习时间一般也会超过6小时,这部分学生占全班的61.54%,通过关联规则的挖掘,可以掌握学生网上学习行为,从而为教师的教学策略调整提供依据,可以更好地进行学生的培养。
2 分类模型挖掘
著名的心理学家、教育学家布卢姆提出的掌握学习理论认为:“只要在提供恰当的材料和进行教学的同时给每个学生提供适度的帮助和充分的时间,几乎所有的学生都能完成学习任务或达到规定的学习目标”。
通过构造判定树可以建立学生分层教学模型,并依据判定树为学生提供不同层次的教学内容而 实现对学生的网络分层教学。分类模型判定树归纳算法主要表述为计算每个属性的信息增益,将具有最高信息增益的属性选作 给定样本集合的测试属性,创建树的结点,并以该属性标记,对属性的每个值创建分支,并据此划分样本。由于样本数据中存在噪声或孤立点,通过树剪枝去除不合理的分支,以提高在未知数据上分类的准确性。据此算法构造的判定树如图1所示。
判定树的第一层条件为每一章节的单元测试成绩,分别表示为优秀、合格和不及格。不及格的同学下一章节进入C类教学目标学习,优秀的同学则进入A类教学目标学习,合格的同学则根据学习的次数决定下一章节的教学目标。学习次数为0~2次的同学进入B类教学目标学习,3~5次的同学则需要根据学习时间判定,根据判定树可知,所有同学进入B类教学目标学习,这和我们日常的判断逻辑相符,因为学习次数较多,学习时间较长,但成绩却是合格的同学很有可能是因为方法不当等原因导致接受知识能力较差,进入A类目标学习显然是不合理的。当学习次数大于6次时,可以根据学生参与BBS讨论的次数决定学生的下一章节的学习目标,讨论次数0~2次的同学其学习目标定为B类,3次以上的同学其学习目标则定为A类,这类学生表现出对知识的渴求,兴趣较浓,理解知识的能力相对较强。
本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文
根据判定树,可以根据学生学习本章节的实际情况对学生学习下一章节内容的效果进行预测,据此对学生进行分类,提供不同的教学内容供其学习,以提高整体教学质量。
参考文献
[1] 汤小文,蔡庆生. 数据挖掘在电信业中的应用[J].计算机工程,2004,30(6):36-37,41.
[2] 杨引霞,谢康林,朱扬勇等.电子商务网站推荐系统中关联规则推荐模型的实现[J].计算机工程, 2004, 30(19):57-59.
[3] 印鉴,陈忆群,张钢.基于数据仓库的联机分析挖掘系统[J].计算机工程,2004,30(19):49-51.
[4] 杨清莲,周庆敏,常志玲.Web挖掘技术及其在网络教学评价中的应用[J].南京工业大学学报(自然科学版),2005, 27(5):100-103.
[5] 刘革平,黄智兴,邱玉辉.基于数据挖掘的远程学习过程评价系统设计与实现[J].电化教育研究,2005,(7):67-69.
[6] 孙莹,程华,万浩.基于数据挖掘的远程学习者网上学习行为研究[J].中国远程教育,2008,(5):44-47.
[7] 龚志武.关于成人学生网上学习行为影响因素的实证研究[J].中国电化教育,2004,(8):32-34.
[8] Sarwar B, Karypis G, Konstan J,et al. Analysis of Recommendation Algorithms for E-commerce [Z]. ACM Conference on Electronic Commerce, 2000.
[9] Tung A K H, Lu Hongjun, Gan Jiawei,et al. Efficient Mining of Interransaction Association Rules [Z]. IEEE Transactions onKnowledge and Data Engineering, 2003, 15(1).
Application of Data Mining in Network Teaching
SUN Yu-rong1LUO Li-yu2HUANG Hui-hua1
(1.College of Science, Central South University of Forestry and Technology, Changsha ,Hunan, 410004, China;2.The Journal Editorial Department, Hunan University of Technology,Zhuzhou, Hunan, 412007,China)
一、数据挖掘的定义
数据挖掘是一个涉及多学科交叉的研究领域,综合了人工智能、机器学习、数理统计等学科,它把对数据的应用从较低层次的简单的查询提升到从数据中挖掘知识。简单的说,数据挖掘就是从数据中获取知识。从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道、但又是潜在有用的信息和知识的过程。数据挖掘应该更正确地命名为“从数据中挖掘知识”。
二、数据挖掘的过程
数据挖掘过程大概可以概括为三部分:数据准备、数据挖掘、结果的表达和解释。如图1-1。
三、数据挖掘的特点
数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识,所得到的信息具有事先未知、有效、实用三个特征;用户不必提出明确的要求,系统能够根据数据本身的规律性,自动地挖掘数据潜在的模式,或通过分析建立新的业务模型,帮助决策者调整市场策略,这有利于发现未知的事物。因此,它是由数据驱动的一种真正的知识发现方法。
四、学生成绩管理的现状
随着高校招生规模的扩大使成绩管理处理的数据量急剧增加,存放在数据库中的大量的成绩数据,对于一般的查询过程是有效的,管理人员能够通过简单的统计或排序等功能获得一些表面的信息,但随着数据库中存储的数据量的增大,传统的数据库管理系统的数据管理和处理功能就不能满足现实的需要,因为无论是查询、排序还是方差,其处理方式都是对指定的数据进行简单的数字处理,对于学生成绩管理方面,往往只能做一些简单的功能,由于大量数据以不同的形式存储在不同的计算机上,从而使隐藏在其中的大量有用信息无法得到有效的利用,无法发现数据中存在的关联和规则,无法根据现有的数据预测未来的发展趋势。上述问题直接导致教学管理部门无法进行有效的评估,任课教师无法进行有效的教学方法改进。而如何将这些数据信息转化为知识表示,为学校管理者提供决策依据,科学指导教学,提高教学管理水平,将是高校需要迫切解决的问题。
五、将数据挖掘技术在成绩管理中的应用
1、学生成绩分析方面
学生的学习成绩是评估学生表现好坏的重要依据,也是学生是否掌握好所学知识的重要标志,目前高校使用的成绩管理系统大部分只能做一些简单的数据管理和处理,例如:学生的平时成绩输入、考试成绩输入、毕业设计成绩登记,进行各类统计报表和信息查询、分析某一个班学生学习成绩分布的情况等。目前大量的成绩数据只是简单地存储在数据库中,隐藏在这些数据中的潜在信息被闲置,没能被充分利用。在数据库中学生成绩分析从定性的角度考虑不是很精确,而数据挖掘是从定量的角度精确地分析学生成绩分析的各个方面数据。
2、在考试方面
考试是对教师教学效果和学生学习效果的一个检验,是教学中必不可少的环节,虽然按考试成绩可以总体评价在一定时期内学生取得的成绩,但这并不能有效地说明成绩的高低与哪些因素有关,无法知道教师教学环节中的成功与不足之处,对教师教学方法的改进和学生学习成绩的提高都没有实际意义上的帮助,而且,学生考试成绩的高低也与试题的质量有着很大的关系,因此探索有效的方法来评价试题的质量如试题难易度,知识点全面度等在实际的教学过程中同样具有重要的意义。将数据挖掘技术应用于试卷分析数据库中,然后根据学生得分情况分析出每道题的难易度、区分度、相关度等指标,那么据此,教师可以对试题的质量作出比较准确的评价,进而可以用来检查自己的教学情况及学生的掌握情况,并为今后的教学提供指导。
2、在教学评价方面
教学评价是教学中的一个重要环节,是引导教育、培养高素质人才,帮助社会充分利用教育成果和促进教育健康发展的保证。传统的教学评价大多是参考相关评价指标体系和调查问卷等方式实施的,而且更是注重评价的结果,以作为教师晋升、学生评优等的依据.高校每学期都要搞课堂教学评价调查,积累了大量的教学信息数据,利用数据挖掘技术,从教学评价数据中进行数据挖掘,探讨教学效果的好坏与教师的年龄、职称之间有无必然的联系,课堂教学效果与教师整体素质关系如何,合理配备班级的上课教师,使学生能够较好的保持良好的学习态度,从而为教学部门提供了决策支持信息,促使更好地开展教学工作,提高教学质量。
3、选择教师的教学方法方面
在教学过程中,教师可以采用多种方法来完成自己的教学任务,比如讲授法、多媒体演示、分组讨论法、课程实习法等,在通常情况下,一般可以采取一种或几种方法进行.据此可用数据挖掘的方法来挖掘数据库中的数据,判定下一步应采取什么样的教学方法,以满足教学的需要,更有利于学生对知识的吸收。
4、课程的合理设置方面
在学校,学生的课堂学习是循序渐进的,而且课程之间有一定的关联与前后顺序关系,在学一门较高级课程之前必须先修一些先行课程,如果先行课程没有学好,势必会影响后续课程的学习,此外,每一学期安排课程的多少,也会影响学生的学习效果。利用学校教务管理系统中存放的历届学生各门学科的考试成绩,结合数据挖掘技术的相关功能,得出一些有价值的规则和信息,最终找到影响学生成绩的原因,在些基础上,对课程设置做出合理安排。
六、结束语
随着我国各高校管理信息化的不断推进,各类学校的数据库建设不断完善,在学校平时的教育教学管理中累积了大量的数据。在这些海量的数据中,隐藏着大量有用的知识,如果利用好这些知识,将能够对学校的教育教学工作起到积极的指导作用。数据挖掘技术正是为了解决如何从海量数据中挖掘出有用的知识,因此,将数据挖掘技术应用到高校的教育教学中去是非常有必要的。
参考文献:
【1】吉根林,帅克,孙志挥.数据挖掘技术及其应用.南京师大学报(自然科学版),2000,23(2):25-27
【中图分类号】 C81 【文献标识码】 A 【文章编号】 1004-5937(2016)22-0024-02
第八届国际数据挖掘与应用统计研究会年会于2016年7月23―26日在油城大庆隆重召开。本届会议由国际数据挖掘与应用统计研究会主办,东北石油大学、厦门大学数据挖掘研究中心、台北医学大学大数据研究中心、重庆允升科技大数据研究中心和重庆誉锋宸数据信息技术有限公司联合承办。会议主题为“卓越数据共享统计的理论及应用研究”。来自国内外近百所高校、政府和企事业单位的200多位专家学者参会。
会议开幕式由东北石油大学数学与统计学院院长王玉学教授主持。东北石油大学副校长吕延防教授介绍了大庆市貌、学校环境和铁人精神等,对本次会议的作用和意义进行了高度评价。教育部统计学类专业教学指导委员会主任、厦门大学曾五一教授从统计学科如何适应大数据时代的发展角度,对会议的召开提出了进一步的期望。台北医学大学谢邦昌教授结合大庆石油,畅谈了大数据的应用前景。厦门大学朱建平教授从学会的起源到现状,对学会未来的发展前景作了展望。
本届大会除特邀报告外,入选论文52篇。按照论文所涉及的理论领域和方法应用,将入选论文分为数据挖掘与大数据应用、统计理论、统计方法应用及实证分析等专题进行了分组交流讨论。主要学术观点综述如下:
一、数据挖掘与大数据研究现状及未来趋势研究
谢邦昌教授在《大数据发展现况与未来发展趋势》中首先阐述了何谓BIG DATA。当你连上脸书按赞打卡、上传照片到网络相簿与朋友分享、上班收发e-mail、用悠游卡买杯咖啡、通过ATM领钱、走进大卖场刷卡购物甚至是进家门开灯,都正在源源不断地创造“海量数据”。这正是云端时代的新金脉。其次是BIG DATA的理论及其应用。最重要的是如何对大数据进行分析,其基本方面如下:(1)数据可视化分析。决策者需要的不是数据本身及分析后的数值,而是庞大数据经分析之后的结果、趋势或现象,利用可视化效果易于被接受。(2)Data Mining算法。这是大数据分析的理论核心,而深入挖掘和快速处理是两大重要课题。(3)预测性分析。如何找出特性、科学建模、预测未来。(4)语义引擎。非结构化数据的多元化给数据分析带来新的挑战,要提高语义引擎设计的智能化水平。(5)数据质量和数据管理。高质量的数据和有效的数据管理可保证分析结果的真实和有价值。最后,真正制约或者成为大数据发展和应用的三个瓶颈:数据收集的合法性、产业链各个环节企业的均衡、大数据有效解读。
国家统计局潘[博士在《我看当前对大数据的一些非议――兼议大数据应用面临的问题》中指出近几年中国的大数据应用取得了一定的进展,但面临的诸多障碍依然存在,且不断出现一些对大数据的非议之声。这些非议有的有一定道理,有的则失之偏颇。潘[博士针对这些非议指出大数据是科学技术及社会生产力发展到特定阶段的必然。尽管其发展进程中确实出现了失密、造假等严重问题,但这正说明必须正视大数据的扑面而来,并尽快制定各种应对措施,抓住机遇,保存价值,着力解决出现的各种问题。最后,提出完善法律法规、明确牵头单位、统筹各部门和规范标准等措施。
重庆工商大学李勇在《网络舆情数据挖掘方法及其在意识形态传播新特点中的应用研究》中系统研究了当前网络舆情数据挖掘的主要方法,并将这些方法应用于网上意识形态传播新特点的研究中。对互联网出现前后意识形态传播呈现的不同特点进行了对比分析,提炼出意识形态传播在当前DT时代的本质特征,结合主流意识形态提出相应的有效传播方式和防范措施。
东北石油大学辛华博士在《基于密度分布的聚类算法研究》中通过密度聚类方法DBSCAN二次聚类提高了聚类精度。湖北经济学院陈战波、陶前功、黄小舟和王磊的《基于阿里云音乐平台大数据的歌手流行趋势预测及推荐研究》,山西财经大学舒居安、赵丽琴、刘逸萌的《基于网络舆情的居民购买力倾向指数构造研究》和重庆工商大学李禹锋的《基于网络团购的重庆火锅消费行为分析》等进行了大数据的应用研究。光环国际杨恩博的《大数据人才发展与培养》、广州泰迪智能科技赵云龙的《大数据形势下数据科学人才培养初探》和刘彬的《大数据双创实践探索与服务体系》,从业界不同角度探索了大数据人才培养。
二、统计基本理论及应用研究
台湾淡江大学蔡宗儒教授在《Accelerated Degradation Tests》中,回顾了可靠度分析近期的发展,指出随着制造技术的进步,产品可靠度大幅提升,进而提升了对产品可靠度分析的难度。而传统设限方法和近代加速寿命测试法具有一定局限性,通过研究加速退化测试方法,指出如何针对加速退化数据进行统计推断、评价其可靠度,如何在成本的考察下对加速退化测试实验进行设计,以利后续的测试实验参考。
北京大学房祥忠教授在《EM算法及其在置信推断中的作用》中指出医学或产品试验费用昂贵等小样本情况,其精确置信推断尤为重要;Buehler置信限在多维参数或删失数据时,难以计算,并将EM算法用于求精确置信限,给出了可靠性领域中的实证。
重庆工商大学李勇在《灰色统计基本理论及其应用》中系统研究了灰数的统计学基本理论和方法。他从随机样本产生灰色估计量和直接从灰色数据开始,构建了一套从数理统计逐步过渡到主要以灰色系统为研究对象的灰色统计方法,如灰数的区间估计、灰数的假设检验、灰数的相关分析和回归分析等,并进行了实例分析。
哈尔滨工业大学张孟琦、田波平在《空间模型参数拟极大似然估计量的渐近性和实证》中提出了双权重矩阵空间回归模型参数的极大似然估计量,包括对数似然函数、集中似然函数和参数估计;证明了相合性和渐进分布性质,并实例进行了空间自相关检验和空间计量模型分析。
天津财经大学杨贵军、于洋、孟杰的《基于AIC的粗糙集择优方法》和杨贵军、孙玲莉、董世杰的《三种线性回归多重插补法的模拟研究对比分析》分别从粗糙集择优和回归插补进行了研究。云南财经大学张敏博士在《基于高层次结构的多水平发展模型的统计建模及应用》中研究了拟合高层次嵌套数据的多水平发展建模问题。集美大学纪的《模糊数据Jonckheere-Terpstra检验法及应用》探讨了模糊数据检验。广东财经大学的刘照德、林海明在《因子分析五个争议的解答》中定量分析了因子分析的争议问题。湖南大学周四军、王佳星、罗丹在《基于门限面板模型的我国能源利用效率研究》中,基于柯布―道格拉斯生产函数理论构建了我国能源利用效率门限面板模型,并进行了实证分析。
三、统计方法及实证研究
天津财经大学杨贵军、孟杰、邹文慧在《基于模型平均的中国总和生育率估计》中指出目前国内学者对中国总和生育率的估计尚未形成一致性的结论,缺少高质量的数据源以及不完善的估计方法是影响总和生育率估计的主要问题;提出使用社会和经济等“人口系统”外部数据,引入当前统计学和计量经济学前沿的模型平均方法对中国总和生育率进行估计。
华侨大学项后军和浙江财经大学何康在《自贸区的影响与资本流动――以上海为例的“自然实验”估计》中,从自然实验角度考察了样本期内上海自贸区的设立对上海地区资本流动的影响。得出:基于双重差分模型估计的自贸区对上海资本流动的影响显著;基于改进后合成控制法得到的“合成上海”对上海设立自贸区之前的模拟程度更高;基于安慰剂检验,证实了自贸区政策的有效性。
湖南大学晏艳阳、邓嘉宜、文丹艳在《邻里效应与居民政治信任――基于中国家庭追踪调查(CFPS)的证据》中,指出近年来居民对政府的信任危机频发,矛盾不断出现,严重制约着政府的行政效率;基于中国家庭追踪调查(CFPS)截面数据,建立回归模型进行实证分析,证实了其他信息获取渠道与社会互动之间具有相互替代的关系,有效解决了关联效应和反射性问题对邻里效应估计带来的影响。
1 科学数据开放共享中的出版商
1.1 科学数据开放共享
在科学研究过程中,有不同的利益相关者参与其中。这些利益相关者类别多样,性质各异,共同形成科学研究的生态系统。根据各利益相关者的职能,围绕研究人员,将这一系统进行分类研究,确定出4个利益相关者群体,即资助者、数据管理者、研究机构与出版商作为关键参与者,以促进和实现科学研究数据的开放共享。
在这一系统中,每类利益相关者都有各自不同的职能、驱动力及利益点,但总体利益与动机相同,即促进科学的进步。利益相关者的利益与行为动机与各自职能连接在一起,形成了科学研究系统的边界。该系统本质上受到外部和内部因素的双重影响:外部因素可能表现为政治、社会、经济、科学和文化体系等;内部因素包括政治意愿、经济及学术竞争、技术基础设施、法律、道德等因素。该系统的价值与动机是外部和内部因素共同作用的结果,其中外部因素控制资源输入到该系统中,内部因素控制这些资源的可用性和分配。如图1所示:
在此科学开放系统中,利益相关者群体职能众多并偶有重叠,总体上各利益相关方对研究数据的开放获取的意义已达成共识,但各利益相关方对实现开放研究数据的方式的认识并不一致。本研究主要探讨在推动科学数据开放共享中,出版商数据政策的现状、问题,并构建相应模型,提出相应建议。
1.2 出版商在科学数据开放共享系统中的目标
在促进研究数据开放共享方面,各利益相关方发挥不同的作用。出版商通过期刊向作者提供数据共享政策,在数据开放中发挥着重要作用。研究出版商的数据政策,是因为这是在研究过程中将数据政策与研究人员密切关联起来的点,为研究成果,研究人员有动力、有可能遵守数据政策。同时,研究发现,虽然包括出资者和研究机构都可能有适用于研究人员的政策,但遵守这些政策的研究人员的比例还很低。研究人员没有遵守数据政策的直接动力;此外研究人员在需要进行数据存档时,可能也没有合适的机构知识库可以选择。出版商提出的数据政策,是在研究人员完成研究过程后发表研究成果前,研究人员有可能、有动力遵守出版商的数据政策。
1.2.1 科学数据开放共享的价值
科学的思想与科学的证据互相佐证,研究数据和科学实践之间的联系是不言自明的,因此,推动开放获取研究数据,与促进科学严谨的目标相一致。更大程度地共享与获取数据,能加强科学的基础价值,即允许科学研究有效地自我校正,以便二次分析、检验、质疑或改进原有成果[3]。此外,开放获取政策通过减少重复工作,最大限度地减少研究人员用在搜索信息和数据方面的精力,因而改善了他们的工作条件。
JISC以英国高等教育和研究机构为例,指出研究数据的监护与开放共享具有如下利益[4]: ①研究人员能够更广泛地获得数据,从而促进更多的跨部门的合作,研究人员在行业、政府和非政府组织内有可能获得大量的教育和培训机会。数据的开放共享有助于实现数据使用和重用,降低数据的收集和复制成本,分担数据收集的直接和间接成本(如避免调查疲劳,从而提高响应率等),创造出在数据收集时未曾预想到的新的利用方式,进行数据挖掘等。②在项目申请拨款和评估阶段、出版和研究评估阶段,更容易发现欺诈和抄袭,更容易进行评估和同行审查。因此将有机会创造更加完整和透明的科学记录。③通过将研究人员、知识库、资助者与有价值的资源相链接,从而有更多的机会提高研究的可见度。
科学研究系统中的各个利益相关者群体认识到走向开放数据的利益,认同将数据的开放共享置于战略高度进行考虑。科学表现为知识积累的过程,数据在促进早期工作中起着重要作用。开放获取研究数据,通过避免重复劳动,促进协作,有助于显著加快这一科学过程,从整体上使科学成为更加透明的进程,实现推动公众参与,激励创新和改革公共服务的宗旨[5]。
1.2.2 基本情况
出版商作为利益相关者,越来越关注数据密集型研究,认同开放获取研究数据的意义。很多出版商认同布鲁塞尔宣言,即“所有的研究者应能自由地获取原始研究数据。出版商鼓励公开公布原始研究数据结果,将相关的数据集及子数据集与论文共同提交给期刊,应尽可能让其他研究人员自由获取”[6]。很多出版商的数据政策为强制性政策,要求作者将支持出版物的研究数据存储在经认证的知识库中,实现开放获取。研究表明,如果期刊具有强制性数据政策,并且有可获取数据的声明,那么在线找到该数据的可能性,几乎是没有类似政策的期刊的1 000倍[7]。
尽管目前出版商已开始重视出版物的开放获取,将开放获取作为一种出版的商业模式,不过出版商参与研究数据的出版,特别是开放获取研究数据,目前尚未形成规模。出版商关注研究数据及其开放,重要原因在于数据为出版商的主要产品即出版物增加了价值,数据有助于验证研究成果,从而增强了所发表研究成果的可信性,而可信度对于研究具有重要意义[2]。此外,资助机构的政策要求公开获取研究数据,实质上向出版商施加了压力,出版商需要参与到研究数据开放获取中,帮助作者和研究机构符合出资人的要求。现在,领先发展的出版商开始与其他利益相关方合作,试图挖掘研究数据的潜能,形成以数据为基础的新产品和服务,对研究数据进行同行评议,开展提高数据质量的其他服务。
2 出版商主要数据管理政策
本研究根据STM的年度报告[8],确定出以下出版商为主要分析对象(见表1)。这十大出版商所出版期刊占到2014年所有出版期刊的45.2%,另外本研究将开放获取出版商,科学公共图书馆(PLoS)、生物医学中心(BioMed Central)的数据开放政策考虑在内。
2.1 出版商数据政策现状
2.1.1 将开放获取作为默认情况
出版商将数据的开放获取作为订立政策的基础,如PLOS研究数据开放获取强制性政策[9],指出除了极少数例外情况,支持PLOS出版物的所有研究数据都必须开放获取。作者在向PLOS提交稿件时,要同时提交数据可用性声明,在声明中表明遵守PLOS的政策规定,在手稿成功提交后,数据作为最终手稿的部分内容。PLOS要求作者将数据存储于推荐的经认证的数据中心或知识库。小数据集可与稿件一并上传。PLOS的编辑和投稿指南,向研究人员提供指导,协助研究人员遵守期刊开放数据政策。在限制数据获取的情况下,PLOS有权修正说明,联系作者的机构或资助者,甚至撤销出版。
2.1.2 新的出版形式的出现
出版界越来越关注开放数据,产生了一种新型出版产品,即数据期刊。数据期刊的出现,与数据可以单独紧密相关。数据的单独可以确保数据作为科学记录的基本组成部分,以可理解的形式向科学界提供。数据期刊是同行评议的开放获取平台,用于、分享和传播各学科的数据。发表的数据论文包含数据集的具体相关信息,如收集、处理方式等。发表的数据论文与认可的知识库互相关联,数据论文引用存储于知识库或数据中心中的数据集。正如澳大利亚国家数据服务中心(ANDS)在其数据期刊指南中所指出的,“从根本上说,数据期刊寻求促进科学认证和再利用,提高科学方法和结果的透明度,支持良好的数据管理方法,并为数据集提供一个可访问的、永久的、可解析的路径”。ANDS指出,数据论文的出版过程包括对数据集的同行评议,最大限度地提高了数据再利用的机会,并为研究人员提供了学术认可的可能性[10]。
2.1.3 同行评审
对研究数据与数据出版物开放获取的关注,彰显了研究数据的科学质量及研究数据同行评审的重要意义。在此背景下,一些出版商将同行评议的范围扩大到包括数据在内的同行评审。M. S. Mayernik等2014年进行了有关“数据同行评审”的研究,提出因为出版物或资源类型有所不同,进行同行评审的方式也必须有所变化。研究者对几种类型的评审资源进行了区分,包括在传统科学论文中分析的数据,在传统科学期刊上的数据文章,以及通过数据期刊的开放获取知识库与数据集。M. S. Mayernik等针对数据的同行评审、数据的质量保证过程确定了一些共同因素,包括:可通过数据中心或知识库获取数据集;数据集有足够的信息以备评审;期刊有明确的方针指明审核的要点,指导评审者进行数据审查等[11]。
开放考古学杂志(JOAD[12-13])对所有提交的数据论文采用同行评审程序,评审内容包括论文的内容与存储的数据。论文的内容指与数据集的建立和重用相关的信息,以及对数据集的描述。存储的数据指以可持续性模式提交到存储库的数据,包括其许可方式。
2.1.4 数据引用
除对数据进行同行评审外,出版商还逐步引入数据引用政策,以促进研究数据的标准化使用。研究数据对研究过程具有重要价值与意义,为扩大高质量研究数据的传播,形成数据利用的规范方式,FORCE11[14]制定了数据引用的主要原则。FORCE11的引用原则的前提是数据引用需要实现人类和机器均可读。该数据引用原则可能并不全面,主要目的是鼓励各学科制定体现自身特点的引用方式。
FORCE11原则包括:说明数据引用的重要性;通过数据引用促进学术信用;数据引用要实现机器可操作性,包括全球永久唯一标识符;数据引用要促进对数据本身的获取;数据引用应该具有持久性;便于识别,易于获取,可以验证;具有互操作、灵活性等特点。
2.1.5 内容发现和链接服务
出版商逐渐把发展方向转移到内容发现和链接服务,专注于文本与数据挖掘(TDM)工具,以便能开发内容,进而提供相关服务。出版商越来越关注数据挖掘是研究人员利用大型数据库的内容、数据和出版物的需求的直接结果。一份文本和数据挖掘专家小组的报告指出,TDM是一种重要技术,可用于从指数级增长的数字数据中,分析和提取新的见解和知识[15]。该报告的结论是,因为研究人员的技能和技术不断提升,所研究的数据集的复杂性、多样性及规模不断扩大,因此TDM有可能会更加重要。但对于利用文本与数据挖掘工具是否应有所限制,目前仍有争议。
2.2 期刊数据政策问题
2.2.1 数据格式与文件大小的差异
期刊要包括支持文章结果的所有数据,往往是很难实现的。研究的方法不同,产生的数据也大不相同,数据的格式和文件大小差异巨大。定性研究生成的数据,多以文本形式存在,例如实地观察笔记,或采访或报道的文字记录等。定量研究生成的数据,多以电子表格的形式保存。一项研究可能产生多种类型的数据,而论文可能包括附加文本、数值数据集和数字图像,这些都可能增加论文的大小。因此出版商表现出对集成到每篇论文中的数据集大小的关注。某些出版商开始尝试出版在线期刊文章,以包括多种数据,例如爱思唯尔的有关未来的文章的探索[16]。然而,并不是每一种期刊都有包括各种数据的能力。这就要求期刊的办刊方针应清楚说明,作为论文组成部分的数据,在何种程度上可以包括在论文中。
2.2.2 机构知识库的成本
为解决出版商服务器超载的问题,将期刊文章的重要数据链接到一个特定的机构知识库,可能是一个合理的选择,但这将相关的长期运营成本转嫁到了机构中。但资助者目前的基金中并不包括这部分资金,而机构可能也并不愿意在当前的管理费用中增加这种支出。这就使得在机构知识库中存储科学数据的可持续性有待探讨。
2.2.3 研究人员对数据开放的认识
许多研究人员并不知道相关的知识库,为此期刊数据政策应说明,数据是否应该在认可的知识库中存储,是否要使用永久统一资源定位符(URL),是否要采用某种形式的数据引用。数据的时间也是一个需要关注的问题,研究人员并不关心在出版过程中的什么时候数据可被公开访问,而是关心在研究过程中何时数据应被公开访问。研究论文并不是在研究结果全部产生后才会形成,而是在研究过程中逐步产生的。在的同时,是否适合研究数据取决于多种因素,诸如某些形式的数据有敏感性,要保护受试者等因素。
3 构建期刊研究数据策略模型框架
3.1 出版商期刊政策的基本要求
有效的政策制定过程必然需要将注意力集中于数据共享过程中各利益相关方的意见,而目前的数字基础设施在不断变化,出版商、知识库和系统之间,并没有强有力的措施鼓励共享数据。共同点包括:①出版商共享数据的方式差异很大;②在出版过程中,出版商对所接受的数据类型、数据应存储的地点、应存储的时间等说明,模糊不清;③研究人员普遍赞成共享数据,但研究人员不知道该如何克服共享障碍;④研究人员认为出版商和期刊有关数据格式和存放地点等清晰的政策,将有益于研究;⑤出版商也认为在数据的关联与嵌入方面存在障碍。
科学数据共享的许多问题,能够在出版过程中通过期刊强有力而明确的政策加以解决。因此,本研究的目标是确定能推荐给期刊使用的政策模型。研究收集到的期刊政策信息,对材料进行分析后,归纳出目前主要的政策要求,如表2所示:
3.2 框架模型
基于以上所列出的观察,形成基本的期刊研究数据政策的模型框架。由资助者和研究机构作为一方,与出版商的另一方进行合作,发展数据政策。表3为所构建的期刊研究数据策略模型框架。
3.3 实施方式
3.3.1 逐步制定出版物的支持性数据的强制性开放共享政策
出版商应该支持期刊编辑制定研究数据的强制性政策,从而提高研究过程透明度,扩展研究数据的潜力。数据的编辑政策应解决诸如文档、元数据、数据出版格式、许可、引用等问题。编辑政策要求作者在文章提交过程和同行评议过程中,提交数据的可用性描述。对提交的文章不符合规定的情况,政策应提出对应的措施,如撤销发表的文章。
3.3.2 与认证知识库和数据中心协作,简化数据提交流程
出版商可按照相关标准考查知识库与数据中心的可信度,与符合数据认证标准的数据中心与知识库协作。类似的知识库或数据中心可以是主题明确的学科知识库,也可以是机构知识库或综合知识库。二者的合作应该会产生积极影响,为研究人员和研究机构提供高品质的产品和服务,服务具有可操作性、技术上无缝的特点,从而实现以开放格式传播和保存高质量的学术产品和研究数据。对于没有公认的数据中心或知识库的学科,出版商对研究人员提供指导和帮助,提供适合存储与获取的机构知识库建议,或提供商业数据服务。在这方面,出版商的角色应该是更多地促使学术团体建立资源库评估准则,从而帮助研究人员选择合适的存储库。当学术界建立起知识库的认可标准,出版商就可以通过期刊政策执行这些标准。
3.3.3 数据作为一流学术成果,接受同行评议
出版商的主要职责之一是确保出版物的高质量,而研究数据同行评审制度的建立,有助于提升出版产品的品质。同行评审过程,应详细说明评审的标准,要评估研究数据的技术与质量问题,技术方面如考量数据集的完整性和一致性,收集数据的标准,使用的软件等;研究数据的科学质量则由研究团体通过出版前与出版后的同行评审进行评估。同行评审流程中,出版商也应该探索对评审者的激励方式,包括支付酬金,邀请编写特稿,加入编辑委员会,甚至聘用一些专家进行内容评审。
3.3.4 发展有关研究数据引用的策略
研究数据通过传统的出版过程传播,为实现数据的长期可重用,需建立并使用数据的引用标准。在这方面,出版商应要求出版物及相关的数据可引用,并为数据的引用提供明确指导。在说明数据引用时,出版商可参照一些已有的实践,如Force11[14]的原则,参与DataCite[17],加入到研究界和编辑讨论的过程中。数据引用应包括DOI,以及使用许可信息,如创作共用许可,数据的引用方式最好是机器可操作的,可让用户知道可以如何处理研究数据。
3.3.5 建立许可政策鼓励进行文本数据挖掘
出版商的编辑政策应以清晰的方式,说明研究数据的与获取方式,如默认或建议开放获取等。考虑到文本数据挖掘工具可带来显著经济效益,鼓励出版商调整策略,允许研究人员在研究中使用这种技术。
二、数据驱动的高校教育管理智能平台架构
在海量教育数据亟待有效利用的驱动下,为提高高校管理效益,将商业智能技术应用到高校教育管理中,对高校产生的大量数据用数据挖掘等商业智能技术进行分析研究与处理,可以帮助高校决策者做出对学校发展更为有利的科学决策。其关键是建立综合层面上的、能反映高校整体教育教学管理的信息集成系统平台(下文简称高校BI系统平台)。高校BI系统平台体系架构由数据源、数据存储与管理层、数据分析层和用户接口层组成,如图1所示。
(一)数据源
数据源是整个系统的基础,包括高校各类业务管理信息系统的内部数据和其他外部数据。内部数据包括存放于操作型数据库中的各种业务数据和办公自动化系统包含的各类文档数据,如学校财务处、人事处、教务处、科研处、设备处等部门数据库中业务数据;外部信息包括各类教育信息、外部统计和调研数据及文档等。
(二)数据存储与管理
数据存储与管理层是整个系统的核心,包括ETL管理工具、公共数据集、元数据、数据仓库和数据集市。高校BI系统平台建设采用数据驱动设计方法,从学校原有的各个部门的业务处理系统和外部数据源中经过ETL提取数据,并根据常见的分析和统计主题,建设校级数据仓库以及人才培养、师资队伍、科学研究、办学资源、交流合作等主题的数据集市。
(三)数据查询与分析
高校决策者常常希望从不同的角度审视教育数据,比如从时间、区域、学科、教学或科研成果、课程建设、学生层次、交流合作、办学资源等维度全面了解学校的教育质量和状态。高校BI系统平台的数据分析层利用商业智能技术为高校管理主要提供固定报表、即席查询、统计分析、多维分析、预警功能、预测分析、数据挖掘建模分析及优化分析等,根据学校现有学生、教师、资源、科研和人才培养等状况,有助于高校决策者全面地对学校资源配置进行调控、对学校整体办学信息的内部结构进行调整等,做出对学校发展更为有利的科学决策。
(四)用户接口
用户接口层根据高校用户访问需求和角色访问授权机制,提供强大的多用户数据查询操作,并以仪表盘或表格、直方图、饼图等直观方式将查询结果或决策信息呈现给用户。
三、应用案例
下面以高校BI系统平台中的调研数据为商业智能技术应用案例,利用回归方法对大学生学习成果进行数据挖掘分析。
(一)数据来源
案例分析的数据来源于高校BI系统平台中“中山大学学生学习状况调查”项目于2012在中山大学全校范围内开展的在线调研数据。[13]调查覆盖全校36个学院(系),调查总体约为3.3万名本科生。让学生在无压力的情况下答题,共回收问卷7051份,回收率约为21.2%,与国际上通用的问卷回收率相当。案例分析聚焦于本科样本,全部回收的问卷根据答题时长、问卷质量标准等原则,筛选出有效问卷数据6673份,有效率为94.6%。本研究从学生学习经历角度,在“生源-学习-成果”的逻辑框架中,考察分析学校因素和学生因素对于学生学习成果的影响机制。调查把学生学习经历和成果分解为生源情况、学校学习资源供给、学生与学校的融合、学生学习投入、学生成果、学校成果6大维度,各维度下题目的内部一致性均达到0.9以上,具有较高的信度。
(二)数据分析
逐步回归提供了一种识别与学生学习成果相关的具体经历的方法,对于学生学习状况调查中的227项进行相似项合并,用向前和向后逐步回归确定与学习成果相关的项目,对残差图和诊断法的彻底审查,最后确定17个独立变量出现在多元回归模型中(如表2所示),其中,相关系数R为0.994,校正判定系数R2为0.988,因变量变化中有98.8%左右的信息可以由预测变量解释,说明模型的拟合优度较好;Durbin-Watson为1.937,接近最佳理想值,如表1所示。表2显示的是回归系数的相关统计量,可以看出,这17个独立变量的显著性概率Sig.都小于0.05,说明其系数显著不为0,这17个变量均与学生学习成果显著相关。分析表2中的数据可以看出,学生学习经历中的学校学习资源提供、学生学习投入和校园文化及学校成果等四大维度的17个变量均为影响学生学习成果的重要预测变量,包括课程作业评价、专业学习经历评价、学术规范指导、平等文化、多元能力的培养氛围等学校因素变量,以及朋辈交流情况、自主学习情况、活动参与情况、课外阅读情况、论文写作情况、讨论关注的内容情况、师生交流、课业活动及个人闲暇活动时间分配等学生因素变量。同时,在校经历满意度、综合满意度和能力培养满意度等融合学校因素和学生因素的学校成果也对学生学习成果具有一定的影响。通过标准系数可以看出,朋辈交流情况、自主学习情况和讨论关注的内容情况分别是第一、第二和第三重要的预测变量,而性别、年级、所在校区等人口学变量并未出现在该回归分析模型中,对学生学习成果的影响不显著。进一步分析朋辈交流情况和自主学习情况调查指标应答概况,如表3所示,“有时”、“时常”或“频繁”进行朋辈交流的比例为63.7%~97.7%,自主学习的比例为52.5%~92.9%,朋辈交流和自主学习的平均比例相当高(81.8%)。“有时”、“时常”或“频繁”地进行朋辈交流方面的主要比例情况为:“与家庭背景(社会、经济的)不同的同学交流”为97.7%、“与兴趣不同的同学交流”为95.6%、“在与同学的谈话中得到启发,改变自己的想法”为94.4%、“与世界观、价值观不同的同学交流”为93%、“与不同专业的同学交流”为92.6%、“同学与你谈话后,表示受到了你的启发”为90.8%。“有时”、“时常”或“频繁”地进行自主学习的主要比例情况为:“利用图书馆、网络等资源丰富自己的学识”为92.9%、“根据课程安排,做课堂展示”为91.3%、“努力掌握对自己而言较难的课程内容”为91.3%、“随着学习经历的丰富不断整合、梳理自己的知识系统”为88.4%,“因课程设置和教师的要求具有挑战性而更加努力地学习”为85.9%。上述情形符合VincentTinto在研究大学生退学问题时提出的理论模型:学生取得较好的学习成果,依赖于他们在学习经历中能否将自身的经验和目标与学校系统内部的学术系统和社交系统相融合。[10]学术系统代表学生个人的课业表现、智力发展、学业成就等综合表现,如表2中自主学习情况、活动参与情况、课外阅读情况、论文写作情况、讨论关注的内容情况及课业活动等属于学术系统的范畴。社交系统代表学生在校内的同伴关系、师生关系、社交行为等综合表现,如朋辈交流情况、师生交流及个人闲暇活动时间分配等属于社交系统的范畴。学生在其学习经历中,有效地利用学习资源和校园文化氛围、将学术系统和社交系统进行整合,可以从学业和人际关系上自我提升,从而提高学习成果。
2.1Web数据挖掘概述
数据挖掘(DataMining)是从大量的、不完全的、有噪声的、模糊的和随机的数据中提取人们事先不知道的、潜在有用的信息和知识的非平凡过程。
Web数据挖掘(WebMining)是从Web文档和Web活动中抽取感兴趣的、潜在的有用模式和隐藏的信息,是数据库、数据挖掘、人工智能、信息检索、自然语言理解等技术的综合应用,是在一定基础上应用数据挖掘的方法以发现有用的知识来帮助人们从WWW中提取知识。Web数据挖掘可以分为Web内容挖掘(WebContentMining)、Web结构挖掘(WebStructureMining)、Web使用记录挖掘(WebUsageMining)三类。Web内容挖掘是指从文档内容或其描述中抽取知识的过程,又可以分为基于文本的挖掘和基于多媒体的挖掘两种。Web文本挖掘可以对Web上大量文档集合的内容进行总结、分类、聚类、关联分析等。Web结构挖掘是指从Web组织结构和链接关系中推导知识。通过对Web结构的挖掘,可以用来指导对页面进行分类和聚类,找到权威页面,从而提高检索的性能,同时还可以用来指导网页采集工作,提高采集效率。Web使用记录挖掘是指从服务器端记录的客户访问日志或从客户的浏览信息中抽取感兴趣的模式。
基于Web的数据挖掘技术的出现不仅为商家做出正确的商业决策提供了强有力的工具,也为商家更加深入地了解客户需求信息和购物行为的特征提供了可能性。
2.2电子商务中Web数据挖掘的步骤
电子商务中Web数据挖掘的步骤如下:
①明确数据挖掘的对象—业务对象,确定商业应用主题,不能盲目地进行挖掘;
②将与业务对象的各类原始数据收集起来作为挖掘的数据源泉;
③对收集的数据进行预处理,一般包括数据净化、用户识别、会话识别、路径补充、事务识别和格式化等阶段,以提高挖掘效率,剔除无用、无关信息并对信息进行必要的整理。
④根据需要解决的问题建立合适的数据挖掘模型,然后利用已知数据对模型进行训练和测试,并应用该模型得到挖掘结果;
⑤利用可视化技术,验证、解释挖掘的结果,并据此做出决策或丰富知识,即进行模式分析与应用。
在整个Web数据挖掘的过程中,被明确的业务对象是挖掘过程的基础,它驱动整个Web数据挖掘的全过程;同时,也是检验挖掘结果和引导分析人员完成挖掘的依据。
2.3电子商务中Web数据挖掘的数据源
在电子商务中,可以用来作为数据挖掘分析的数据量比较大,而且类型众多,总结起来有以下几种类型的数据可用于Web数据挖掘技术产生各种知识模式。
①服务器数据。客户访问站点时会在Web服务器上留下相应的日志数据,这些日志数据通常以文本文件的形式存储在服务器上。一般包括serverslogs、errorlogs、cookieslogs等。
②查询数据。它是电子商务站点在服务器上产生的一种典型数据。例如,对于再现存储的客户也许会搜索一些产品或某些广告信息,这些查询信息就是通过cookie或是登记信息连接到服务器的访问日志上。
③在线市场数据。这类数据主要是传统关系数据库里存储的有关电子商务站点信息、用户购买信息、商品信息等数据。
④Web页面。主要是指HTML和XML页面的内容,包括文本、图片、语音、图像等。
⑤Web页面超级链接关系。主要是指页面之间存在的超级链接关系,这也是一种重要的资源。
⑥客户登记信息。客户登记信息是指客户通过Web页输入的、要提交给服务器的相关用户信息,这些信息通常是关于用户的人口特征。在Web的数据挖掘中,客户登记信息需要和访问日志集成,以提高数据挖掘的准确度,使之能更进一步的了解客户。
2.4Web数据挖掘能够获取的知识模式
运用Web数据挖掘技术能够对站点上的各种数据源进行挖掘,找到相关的一些知识模式,以指导站点人员更好地运作站点和向客户提供更好的服务。一般运用Web数据挖掘可以在站点上挖掘出来的知识模式有以下几个:
①路径分析。它可以被用于判定在一个Web站点中最频繁访问的路径。通过路径分析,可以得到重要的页面,可以改进页面及网站结构的设计。
②关联规则的发现。在电子商务中关联规则的发现可以找到客户对网站上各种文件之间访问的相互关系,可以找到用户访问的页面与页面之间的相关性和购买商品间的相关性。利用这些相关性,可以更好的组织站点的内容,实施有效的市场策略,增加交叉销售量,同时还可以减少用户过滤信息的负担。
③序列模式的发现。序列模式的发现就是在时间戳有序的事务集中,找到那些“一些项跟随另一项”的内部事务模式。它能够便于进行电子商务的组织预测客户的访问模式,对客户开展有针对性的广告服务。通过系列模式的发现,能够在服务器方选择有针对性地页面,以满足访问者的特定要求。
④分类和预测。分类发现就是给出识别一个特殊群体的公共属性的描述,这个描述可以用来分类新的项。分类的目的是通过构造分类模型或分类器,把数据库中的数据项映射到给定类别中的某一个,以便用于预测;也就是利用历史数据记录自动推导出对给定数据的推广描述,从而能对未来数据进行预测,进行适合某一类客户的商务活动。
⑤聚类分析。聚类分析可以从Web访问信息数据中聚集出具有相似特性的那些客户。在Web事务日志中,聚类顾客信息或数据项能够便于开发和执行未来的市场策略。这种市场策略包括自动给一个特定的顾客聚类发送销售邮件、为属于某一个顾客聚类中的顾客推荐特定的商品等。对电子商务来说,客户聚类可以对市场细分理论提供有力的支持。通过对聚类客户特征的提取,电子商务网站可以为客户提供个性化的服务。
⑥异常检测。异常检测是对分析对象的少数的、极端的特例的描述,以揭示内在的原因,从而减小经营的风险。异常检测在电子商务中的应用可以体现在信用卡欺诈甄别、发现异常客户和网络入侵检测等方面。
Web数据挖掘的各项功能不是独立存在的,而是在挖掘过程中互相联系,发挥作用。
3Web数据挖掘在电子商务中的应用
3.1数据抽取方法在电子商务中的应用
与传统商务活动相比,电子商务具有更多的虚拟和不确定的因素:如客户购买的心理、动机、能力、欲望等。Web数据挖掘要解决的问题就是如何从零散的无规则的网络数据中找到有用的和有规则的数据和知识,基本方法之一就是进行数据抽取,以期对数据进行浓缩,给出它的紧凑描述,如方差值等统计值或用直方图等图形方式表示,从数据泛化的角度讨论数据总结,把最原始、基本的信息数据从低层次抽象到高层次,以便于企业决策。
3.2基于Web数据挖掘的智能化搜索引擎
电子商务企业在活动过程中面临的问题之一是如何通过Internet全面、准确、及时地收集到企业内、外部的环境信息,尤其是一些隐性的、关系到企业经营成败的关键信息,以提高竞争力。目前的搜索引擎存在着查准率低、返回无用信息多的问题,使企业无法得到优质的信息。鉴于此,将Web数据挖掘技术应用于搜索引擎,使之成为智能搜索引擎,从而提高性能,满足电子商务企业的需要。Web挖掘技术主要在以下几个方面对搜索引擎有借鉴作用:文档的自动分类、自动摘要的形成、检索结果的联机聚类和相关度排序及实现个性化的搜索引擎。经过文档的分类处理,可以对搜索结果进行分门别类,可以通过限制搜索范围来使文本的查找更为容易,帮助用户快速的对目标知识进行定位,从而提高用户进行网上信息搜索的效率;自动摘要能够解决大部分搜索引擎机械地截取文档的前几句和固定字数的摘要使信息反映不完整的缺陷,使用户能较准确、快速、方便地了解检索信息;通过对检索结果的文档集合进行聚类,可以使得与用户检索结果相关的文档集中在一起,从而远离那些不相关的文档,将处理以后的信息以超链结构组织的层次方式可视化地提供给用户,由用户选择他所感兴趣的那一簇,将大大缩小所需浏览的页面数量;将Web使用挖掘中的个性化技术应用在搜索引擎中,可以在大量训练样本的基础上,得到数据对象间的内在特征,并以此为依据进行有目的的信息提取,使得搜索引擎可以按照用户的兴趣偏好扩充用户搜索的关键词,以使得检索结果更接近用户要求,或者根据用户历史浏览信息的分析获得用户兴趣库,调用个性化的搜索引擎可以提高用户检索的查全率与查准率。通过借鉴Web挖掘技术可以提高查准率与查全率,改善检索结果的组织,从而使检索效率得到改善。
3.3Web数据挖掘在客户关系管理中的应用
①客户关系管理的核心
客户关系管理(CustomerRelationshipManagement,简称CRM)的核心是通过客户和他们行为的有效数据收集,发现潜在的市场和客户,从而获得更高的商业利润,通过完善的客户服务和深入的客户分析来满足客户的需求,保证实现客户的终生价值。可以说CRM能给传统企业带来在网络经济时代谋取生存之道的管理制度和技术手段。它要求企业从“以产品为中心”的模式向“以客户为中心”的模式转移。
②Web数据挖掘在客户关系管理中的应用
Web数据挖掘能够帮助企业确定客户的特点,使企业能够为客户提供有针对性的服务。将Web数据挖掘用在电子商务CRM中主要体现在客户的获取和保持、价值客户鉴别、客户满意度分析及改善站点结构等几方面。
通过Web数据挖掘,可以理解访问者的动态行为,据此优化电子商务网站的经营模式。通过把所掌握的大量客户分成不同的类,对不同类的客户提供个性化服务来提高客户的满意度,从而保持老客户;通过对新访问者的网页浏览记录进行分析,就可以判断出该访问者是属于哪一类客户,是有利可图的潜在客户还是毫无价值的过客,达到区别对待、节省销售成本、提高访问者到购买者的转化率的目的,从而挖掘潜在客户;通过对具有相似浏览行为的客户进行分组,提取组中客户的共同特征,从而实现客户的聚类,这可以帮助电子商务企业更好地了解客户的兴趣、消费习惯和消费倾向,预测他们的需求,有针对性地向他们推荐特定的商品并实现交叉销售,可以提高交易成功率和交易量,提高营销效果。
此外,站点的结构和内容是吸引客户的关键。利用关联规则的发现,针对不同客户动态调整站点结构和页面内容,把具有一定支持度和信任度的相关联的物品放在一起以有助于销售;通过路径分析等技术可以判定出一类用户对Web站点频繁访问的路径,这些路径反映这类用户浏览站点页面的顺序和习惯,将客户访问的有关联的文件实现直接链接,让客户容易地访问到想要的页面。这样的网站会给客户留下好印象,提高客户忠诚度,吸引客户,延长他们在网站上的驻留时间以及提高再次访问的机率。
通过挖掘客户的行为记录和反馈情况,进一步优化网站组织结构和服务方式以提高网站的效率。通过Web数据挖掘,可以得到可靠的市场反馈信息,评测广告的投资回报率,从而评估网络营销模式的成功与否;可以根据关心某产品的访问者的浏览模式来决定广告的位置,增加广告针对性,提高广告的投资回报率,降低公司的运营成本。③维护客户的隐私权
维护客户的隐私权是商家在商业运作过程中不能忽视的一个基本组成部分。因此,作为电子商务企业,应该尽量避免对单个客户数据进行挖掘。企业管理客户隐私权的保护应该从技术和管理两个方面来实现:技术上,通常是采用加密标志符,并且尽量避免对单个客户数据进行挖掘;管理上,很多电子商务企业现在已经增设了首席隐私官(CPO,ChiefPrivacyOfficer)职位,隐私官将能在个人对隐私的需求和公司以合理手段使用隐私材料的权利之间,建立适当的平衡关系。这种平衡关系的大成,需要以长期的实践和经验为基础。除了电子商务企业以单独的主体身份进行客户隐私权保护的管理之外,行业自律也是保护客户隐私权的一个行之有效的手段。目前,电子商务网站越来越倾向于通过行业自律的方式来树立其在客户心目中的形象,让客户放心地提交数据。
3.4Web数据挖掘在个性化服务推荐系统中的应用
电子商务个性化服务推荐系统是向站点企业提供在电子商务中更好地运作CRM,建立良好客户关系的一种解决方法,是“以客户为中心”、“一对一”的行销的坚实执行者。
该系统主要是将数据挖掘的思想和方法应用到Web服务器日志及Web数据库等资源上,挖掘出客户的访问规律;然后将在线访问客户归结到某一类中去,根据该类用户的访问规律进行Web页面的推荐;并且系统还可以通过不断地跟踪用户的当前访问,实时调整推荐集,为用户提供个性化的访问。该系统由五大模块组成:数据收集模块、数据预处理模块、数据存储模块、离线挖掘模块和在线推荐模块。其系统结构模型如图1所示:
图1基于Web数据挖掘的个性化服务推荐系统结构模型
数据收集模块主要用于收集Web数据库、使用日志等数据,形成数据采集库,为以后的挖掘做准备;数据预处理模块主要是对所收集的数据进行预处理,数据预处理的质量与挖掘的效率和结果紧密相关;数据存储模块将预处理后的数据存入用户事务库;离线挖掘模块中的挖掘引擎使用挖掘算法库中的数据挖掘技术如统计分析、关联规则、聚类分析、序列模式等,来发现用户浏览模式,并通过模式分析对其进行分析与解释,根据实际应用,通过观察和选择,把发现的统计结果、规则和模型转换为知识,经过筛选后得到有用的模式用来指导实际的电子商务行为;在线推荐模块在Web服务器前端设置了推荐引擎,它将用户当前的浏览活动与浏览出的页面推荐集结合起来考虑,生成相应推荐集,然后在用户最新请求的页面上添加推荐集的页面,再通过Web服务器传递到用户端的浏览器,为用户实现实时个性化服务;同时将推荐结果送往网站管理中心,以便调整网站设计,优化网站结构,提高网站效率。
总的来说,在个性化服务推荐系统中运用数据挖掘技术有两个阶段:第一个阶段是学习阶段,离线进行。第二个阶段是模式的使用阶段,在线进行。挖掘和在线推荐的特征获取和规则生成是离线处理的,而当用户访问该网站时通过在线推荐引擎进行在线服务。离线模块和在线模块相互联系,在线模块主要是利用离线模块提供的规则模型对在线用户推荐(推荐引擎);离线模块主要是利用在线模块积累的数据运用系统推荐算法形成相应的规则。挖掘算法和推荐策略可以根据不同类型站点的要求来具体选择,挖掘结果和推荐集通过推荐引擎反馈给用户。电子商务网站的客户登录网站以后,其访问信息将会被记录到服务器端。这些数据将在经过预处理后,在专用的数据挖掘模块中,通过具体的挖掘算法和推荐策略来进行模式识别和模式分析。用户访问信息也会传到推荐引擎,推荐引擎根据客户的会员标识,向挖掘模块抽取对应客户的挖掘结果和推荐集,将其可视化地反馈给用户,达到个性化服务的目的。
3.5基于Web的数据挖掘在商业信用评估中的应用
发达的社会信用水平是发展电子商务的重要基础,通过Web数据挖掘对站点数据统计和历史记录之间的差别,结果与期望值的偏离以及反常实例进行充分的分析,可以有效地防范投资和经营风险。另外,通过数据挖掘技术对企业经营进行跟踪,开展企业的资产评估、利润收益分析和发展潜力预测,构建完善的安全保障体系,实施网上全程监控,监督网上言论,维护企业信誉,强化网上交易和在线支付的安全管理,利用数据挖掘的信用评估模型,对交易历史数据进行挖掘发现客户的交易数据特征,建立客户信誉度级别,有效地防范和化解信用风险,提高企业信用甄别与风险管理的水平和能力。
4结论
本文对Web挖掘技术进行了综述,介绍了其在电子商务中的典型应用。Web数据挖掘高度自动化地对电子商务中的大量信息进行分析和推理,从中挖掘出潜在的模式,预测客户行为,帮助企业的决策者调整市场策略,减少风险,做出正确的决策。Web数据挖掘是近几年来数据挖掘领域的探讨热点,利用它的技术知识将它运用到电子商务,将会解决许多实际问题,具有丰富的学术价值。将Web数据挖掘技术和电子商务两者有机结合,将会为企业更有效的确认目标市场,改进决策,获得竞争优势提供帮助,有着很广阔的应用前景,使电子商务网站更具有竞争力,从而为企业带来更多的效益。面向电子商务的Web数据挖掘能发现大量数据背后隐藏的知识,指导商家提高销售额,改善企业客户关系,提高网站运行效率,改进系统性能,具有良好的发展和应用前景,必将得到越来越多的关注。
参考文献:
[1]毛国君.数据挖掘原理与算法[M].清华大学出版社.2005(07).
[2]张冬青.数据挖掘在电子商务中应用问题研究[J].现代情报.2005(09).
[3]李凤慧.面向电子商务的Web数据挖据的研究[D].山东科技大学硕士学位论文.2004(06).
【中图分类号】G40-057【文献标识码】A【论文编号】1009-8097(2015) 06-0089-07【DOI】10.3969/j.issn.1009-8097.2015.06.014
引言
2011年以来,在美国顶尖大学中迅速发展起来并迅速影响世界的MOOC(大规模开放在线课程)模式无疑给“在线学习”这一学习形式树立了成功应用的典范,该模式证明了只有当大学的课程、课堂教学、学生学习进程、学生体验、师生互动过程等被完整、系统地在线实现…,特别是当辅导教师的存在以及相关系统指导活动实现时,在线学习才是有效的。这从一个侧面说明,在线学习并不是纯粹的学生自主学习,还需要充分发挥辅导教师的主导作用。
在线学习模式下,师生活动在时空上相对分离,尽管有同步教学活动发生,但更多时候是异步教学活动,因为异步教学更有助于满足学习者的个性化学习需要。不同于课堂面授教学,辅导教师难以把握一门在线课程学习者学习开展情况的全貌。但是,通过在线学习平台对学习过程的记录,辅导教师了解课程的教学过程是可能的,而且基于学习过程记录开展在线教学的反思以不断改进在线教学这一做法也是必要的。一文献探讨
“教学反思”,顾名思义,反思对象就是教学过程,反思的基础是对教学过程的忠实记录。波斯纳(Poser)将教师的成长发展与其对自己经验的反思结合起来,提出了一个教师成长的公式:经验+反思=成长。由此可见反思对教师成长以及专业发展的重要性。
教学反思的方法是多样的。王映学、赵兴奎指出教学反思的途径主要有录像反思、日记反思、从学习者角度反思、与同事及专家的交流中反思以及通过向学生征询意见反思。张大均将教师成长的途径从观摩教学、微格教学、教学决策训练和教学反思几个方面来说明。俞国良等则将教师的反思训练列为录像反思法、对话反思法和教学反思法。从上述方法中可以看到,教学反思的基础是对教学过程的忠实记录。在“日记反思法”中,第一步就是对教学中包含问题的教学事件进行详细、忠实的描述。在“从学习者角度反思”中,第一步就是“简要记下学习发生的时间、场合、涉及的学习内容和培训(讲授或主持)人员”。在微格教学法中,则通过录像设备记录教学全过程。
在信息化网络时代,教师可以利用现代教育技术手段来实现教学过程的忠实记录,进行有效的教学反思,从而更好地促进自身的专业发展。各种新的网络技术工具给我们的生活带来了新的便利,同时也为教师提供了新的教学反思工具。近年来兴起的学习分析技术可以成为教师开展在线教学反思的有力工具。学习分析技术是对学生生成的海量数据进行解释和分析,以评估学生的学术进展,预测未来的表现,并发现潜在的问题。对教师而言,学习分析技术可用来开展更为深入的教学分析,以便教师在数据分析的基础上为学生提供更有针对性的教学干预。在线学习中,在线学习平台详细记录了师生行为,犹如课堂教学录像。借助学习分析技术,分析师生行为记录数据,可以再现在线学习过程,使教师能够把握在线教学过程全貌,并了解每个教学环节、重要教学活动以及每个学生的种种细节,使原本模糊的印象数字化、清晰化,辅助教师反思其在教学设计、资源制作、学习引导、学习评价等方面的可取之处与不足之处。
因此,本文选取基于Moodle平台的在线课程为样本,应用学习分析技术,具体包括话语分析、社会网络分析等分析技术,统计分析与可视化、聚类、预测、关系挖掘、文本挖掘等数据挖掘方法,以及SSAS、SPSS、ucrNET、EXCEL、ICTCLAS中文分词系统等工具,从一位辅导教师的视角,开展基于学习过程记录的在线教学反思研究,探索一种全新的教学反思形式。
二 研究样本
本文选取国家开放大学主办的网络教育从业人员培训班为研究对象。该培训班依托Moodle平台开设(网址:http://),有“学生支持服务”、“在线学习辅导”和“在线课程设计”三门课,每门课的培训时间为6周,学生通过Moodle平台开展在线学习,辅导教师提供全程的在线辅导。本文具体选择“在线学习辅导”课程第五期培训班作为研究样本。
三 数据分析与培训反思
1 重温整个教学过程――师生群体平台访问行为分析
通过对平台模块访问、模块访问序列以及师生活动时间分布情况的分析,重新回顾教学过程,并对一些突出的数据表现加以解读,使原本时空分离的师生活动再度整合,还原辅导教师的教学过程与学生学习过程的原貌。
(1)平台模块访问总体情况
表l是该期培训过程中,师生访问Moodle平台各模块的频次统计结果。
从统计结果可知,师生最常访问的模块是“forum”,占总活动频次的近50%,说明课堂讨论是最主要的学习活动,也是这门基于讨论的探究式课程学习的突出特点。其次就是“wiki”、“resource”和“assignment”三类行为。这三类行为的频次和比例较为平均,是位列“Forum”之后的重要学习活动。在讨论的基础上,课程设计中的“wiki”其实是为了给学生协作式小组学习的机会,是除“forum”外学生之间重要的交互空间。“resource”(浏览资源)是学习内容重要的组成部分,在此基础上参加讨论和wiki协作学习,最终的学习成果以“assignment”(小论文、大论文)的形式呈现。这几个模块的频次和比例分配较为合理,较好地还原了教学过程。
(2)平台模块访问序列分析
我们已经了解了不同模块的访问频次,下面我们再来了解一些师生访问平台模块的路径。
这里采用Microsoft顺序分析和聚类分析算法,数据来源则是用户每天浏览课程页面产生的过程数据。笔者选取5个频繁访问模块包括forum、wiki、assignment,resource和user(course除外,因为在该模块主要发生登录行为,并没有实际的学习行为)的数据来分析模块访问序列,得到如图l所示结果。由图l可知,从user、resource、assignment、wiki四个模块跳转到forum的条件概率均比较高(分别为0.40、0.32、0.26、0.16),可见forum是一个活动中心模块,也是一个重要的活动中介模块,诸如resource、assignment、wiki等活动可以从中再次启动。而在由forum跳转到其他模块的情形中,forumresource的转换组合的发生概率是最高的,达到0.06。在发帖参与讨论的过程中,发现问题、深入思考再继续学习相关资源,这符合学习常规,也形成了讨论带动资源的学习两者之间的良性互动,从而实现深度学习和反思。另外,resource模块对其他模块的支撑作用还表现为assignmentresource,这一条件概率达到0.13,即学生在做作业的过程中要求助于资源模块,这也是符合学习常规的。
(3)不同时期各模块访问特点
接下来结合时间维度,了解不同时期平台各模块访问特点,以了解不同时期师生关注重点的变化。计算出本期培训不同周此平台模块访问频次分布情况,并绘制师生在主要学习模块的活动频次占比随时间分布的折线图,得到如图2所示结果。
从图2可以看出,除高频访问模块forum外,在正式学习开始前两周及第1周,学生的访问重点user模块和resource模块反映出学生在熟悉人和内容。这启示我们,在网络课程开始之前,辅导教师可能需要提前两到三周就介入课程的学习,实时跟踪学习进程,为他们提供相应的服务来进行预热,这对于后面课程学习的顺利发展和学生积极性的保持都很有帮助。进入第2周,开始主要的学习活动,主要模块则是wiki以及forum。到第3周,wiki活动达到顶峰一一第3周出现本课程第一次wiki协作式小组学习活动,所以这时达到顶峰是正常的;另外,这些学生从没有接触过基于wiki的小组写作式学习,所以他们有很强的好奇心和强烈的兴趣参与。到第4周,assignment活动达到顶峰。这实际上是学生提交的第3周布置的assignment(小论文),这是本课程第一次提交assignment;课程结束后的三周,assignment模块的活动逐渐增强,伴随着resource模块活动的增强,forum活动相对减弱,进入做作业(撰写大论文)的状态。
2 聚焦重点教学活动一一师生论坛交互分析
师生在论坛的讨论发言是本课程的一项重点教学活动。通过这一活动,相关教学信息得以传递,各种其他教学活动得以依次展开,课程知识也在这里不断呈现,支持服务也在这里相继给出。
(1)师生交互的数量与内容
该课程讨论活动在6个学习单元分散展开,本期培训班发帖数量累计743个,如表2所示。由表2可知,辅导教师的发帖量基本呈缓慢下降的趋势。从该趋势我们可以看到,在第1周“学习指南”和第2周“第一单元:什么是在线辅导?”两周的教学中,由于是在线教学的开始阶段,辅导教师需要更多地引导学生进行讨论,投入相对更多的时间。从第3周开始,数据显示,辅导教师的发帖量开始有所减少,从将近50%的比例下降到40%左右。这是因为,经过前两周的学习,由于辅导教师的有效引导,学生保持了较高的积极性,效果明显。从第3周开始,辅导教师有意减少了发帖的量,注意留给学生更多的时间思考并参与讨论,这时候学生明显上升到了讨论的主角这一角色,这说明辅导教师对于讨论的把握和控制比较成功。
(2)师生交互发帖的内容
作者采用傅骞、魏顺平等研发的术语提取算法从所发帖子中提取了约240个术语,如表3所示。这些术语的出现频次为4909次(其中辅导教师使用976次,约占20%);在481个帖子中出现(其中教师帖为204个),占帖子总数的65%。从另外一个角度说,有1/3左右的帖子没有出现任何术语。由此可见,论坛的主要功能是开展课程知识讨论,次要功能则是激发并维持学生的学习动机,引导、鼓励学生不断参加学习。
在前10位术语中,“辅导”出现了3次,“在线(远程)”出现了4次,这比较好地体现了本课程的特点,即在线学习辅导。而排在前两位的是“辅导教师”和“电大”,这更能说明这次培训的内容和对象的特点。无一例外,本次培训的对象全部来自电大系统,所以他们对本系统是最关注的,另外他们对如何做好“辅导教师”也是最关心的,所以他们选择了这门课。从这些术语可以看出,本期的讨论比较成功,课程的设计也比较合理,能够满足学生的需求。
接着,作者对各单元使用的普通词汇(包括动词和名词等实词,不含虚词,不含术语)使用频次进行统计,以体现辅导教师的语言艺术和辅导特色。其中使用频次排名前十的普通词汇分别是“同学、加油、学生、谢谢、可以、学习、问题、课程、研究、讨论”。“加油”和“谢谢”这两个词的大量使用反映了辅导教师为学生提供的情感支持。辅导教师时时刻刻不忘鼓励、支持任何一位学生的发言和进步,处处对他们的讨论表示感谢,无论发言是否精彩,无论对他们的观点是否赞同,都通过“加油”和“谢谢”表示感谢。
(3)师生交互的动态过程与静态结构
我们从师生交互发帖时间分布以及师生交互网络分析来了解师生交互的动态过程与静态结构。本培训课程设有6个单元外加大论文指导环节(实际上是7个单元),计划教学时间是6周,一个单元用时一周。理想情况下,学生应该在规定的学习时间内完成相应单元的活动,但事实并非如此。以每个单元的“话题讨论”为例,某个单元的话题往往要持续3周才会真正结束。各单元讨论活动随时间分布情况如表4所示。
表4中带*号的数字部分是在单元规定学习时间内的发帖数量,但是每个单元在规定学习时间后,在随后的2至3周还陆续有帖子发出来。于是从第3单元开始,将会有3个单元的活动叠加在一起。出现这种叠加现象,可能较大程度上是由工学矛盾造成的。学生不能及时完成本周的学习活动,所以会往后拖延。其实,从学生的角度是可以理解的,这也要求我们的在线教学要有一定的灵活性。同时,也恰恰是在第3周开始出现第一个assgignment(小论文),学生的负担开始加重。正是当“新债旧债”交织在一起的时候,出现了连锁式叠加的现象。当然,这种现象也会无形中增加辅导教师的负担。
根据辅导教师和学生发帖、回帖的关系,借助UCINET社会网络分析工具,可绘制师生交互网络图,如图3所示。从图3可以看出,所有24个成员(包括辅导教师,如图中编号为68的正方形节点)均在一个网络中,不存在孤立的成员。
2001年以来,信息推送模式成为我国图书情报界关注与讨论的热点,对信息推送的技术、内容、方式、应用和存在的问题等进行了研究[7],尤其在数字图书馆信息推送中得到较多的实践,如浙江大学图书馆推出了入藏新书邮件推送服务[8],西北工业大学图书馆对三大索引收录论文进行邮件推送服务等[9]。期刊拥有3支较大的队伍,即作者队伍、审稿专家队伍和编委队伍,他们是期刊文献潜在的用户群。由于用户以拉取模式获取期刊文献存在以上问题,笔者提出基于用户科研工作文献信息的需要,以电子邮件方式进行期刊文献的推送,以便用户能够及时获取和引用相关文献信息。这样可以宣传与推介期刊,转变服务理念,由过去的用户单向被动获取文献,到现在的期刊主动出击,从而加强用户与期刊的互动与合作,以实现“推”“拉”结合的方式,为用户提供更及时、主动和有针对性的文献服务,提升期刊文献的显示度、利用率和影响力。
2电子邮件系统进行期刊文献推送的策略
2.1用户数据库的建立
要向用户推送期刊文献,必须要有需求期刊文献用户的数据信息和电子邮件地址等,可以通过多种渠道准确获取用户的有关信息:一是通过编辑部的投审稿系统提取投稿作者及评审专家的信息,如用户姓名、研究方向及电子邮箱等;二是通过编委资源库获取相关编委的个人信息;三是通过行业学术会议的通讯录等提取相关专业学者的信息;四是通过高校院系网站获取专业学科带头人及有关学者的信息;五是与其他期刊编辑部进行资源互换,获取有关专家的信息。将收集到的用户数据(用户名、专业方向、电子邮箱等)建立在群发邮件工具Outlook(或OutlookExpress等)中,及时更新用户数据库,并将用户按照专业方向进行归类分组,不断挖掘和发现用户文献信息的需求。
2.2期刊文献的提取
中图分类号:G251.5文献标识码:A文章编号:1003-1588(2015)03-0113-03
服务是图书馆永恒的主题,程焕文提出图书馆精神为“智慧与服务”[1]。2008年孙浩在论文《关于文献计量服务的研究》首次提出文献计量服务(Bibliometric Service)的概念以及相关理论。文献计量服务工作是促进知识生产的配套措施,是采用数学分析工具和计算机技术对各类文献计量特征进行统计分析,从而发现文献情报规律、文献管理方法以及学科发展趋势的情报服务工作,向读者和社会提供全方位的文献分布蓝图[2]。文献计量服务理念恰好符合图书馆智慧服务的精神,迎合了图书馆深层次、学科化服务的理念,作为拓展延伸高校图书馆科研支持服务的新生长点,在一定程度上能够很好地适应当前高校及其科研工作者的信息需求,为图书馆转变职能角色以及深化学科服务提供了切实可行的理论、方法和途径。
1开展文献计量服务工作的基础
随着网络信息技术的飞速发展以及全面的数据库资源的开发,分析型数据库也随之出现,其中比较著名的有SCI、SSCI、ESI、CSSCI、EI、Scopus、Incites等,这些数据库可以为文献计量服务提供全面而可靠的统计源,即硬件条件。文献计量服务要求图书馆员掌握一定量的数学分析工具和计算机技术方法来对各种类型的文献计量特征进行统计分析,这项工作具有很强的知识性与技术性。高校图书馆近年来引进大量高素质高水平人才,其中包含一批既具有学科背景又有图书情报专业知识的全能型馆员,虽然目前他们暂时分布在各个业务部门,但经过专业训练,就会形成一支能够开展文献计量服务的队伍,因此目前高校图书馆已经具备开展文献计量服务的技术保障与人员力量,这为文献计量服务工作的开展奠定了坚实的基础。
2文献计量服务的内容
文献计量服务是使用文献计量(信息计量)分析方法和工具,通过一定的情报分析和文献数据挖掘技巧,对文献进行深层次的加工,技术含量较高,属于高层次的知识服务工作。在高校开展文献计量服务,通过对各类文献计量特征进行统计与分析,从而发现文献情报规律、文献管理方法以及学科发展趋势,达到对研究机构、科研工作者或学科科研竞争力以及学科发展态势发展状况等进行客观评估及分析[3],以评估科研绩效和检测科研发展态势,从而辅助科研管理者进行科研决策,包括学校人才的整体状况分析以及各学科师资力量的分布、科研课题的申报与奖励,科研基金分配、成果奖励、人才选拔与引进等。辅助研究者的科学研究包括分析本学科的发展态势、个人的科研业绩以及在同行中的竞争优势、研究前沿、趋势、引领学科发展等。具体可以通过对学术期刊、文献的统计分析,了解研究机构分布、学科的成长阶段判断、发展趋势预测等,以此作为评价学科发展的依据。通过对科研能力、优势学科分布、发展状况、人力资源状况、科研效率等进行统计分析,可以对学术机构进行评价。还可以通过某一著者的科研论文及专著发表情况、研究领域与专长、学术贡献、科研潜在能力等进行著者评价。文献计量服务在很大程度上是以大型分析数据库作为依据,主要以科研论文作为学科分析与评价统计源,具体的基于论文数据平台的学科分析见表1。表1学科分析常用论文数据库平台
数据库名称评价指标评价内容评价维度ESI数据库国际论文总量排名总体科研表现国际论文总被引排名总体学科影响力学科综合实力Incites数据库WOS数据平台论文占全球的比例科研活跃度论文总被引占全球的比例科研影响力学科H指数学术综合实力学术影响力Incites数据库ESI数据库WOS数据平台篇均被引的全球均值比科研平均质量ESI高被引论文或热点论文比例科研前沿性顶级期刊论文的国际份额同行认可度基金项目的论文质量项目完成质量学术质量Incites数据库国际合作论文占全球的比例国际科研合作国际会议论文占全球的比例国际学术交流国际合作与交流WOS数据平台跨院系的合作论文比例学科交叉活跃度跨院系的合作论文的学科分布学科交叉的聚度跨院系的合作论文的期刊及被引学科交叉的质量学科交叉王芳,庞德盛,杨错:高校图书馆开展文献计量服务的探索与思考王芳,庞德盛,杨错:高校图书馆开展文献计量服务的探索与思考学校的职能部门即科研管理者和科研机构及科研工作者对文献计量服务的关注侧重点各有不同,因此文献计量服务针对不同的对象采取不同的服务内容,这样服务才更合理、更具针对性。
3文献计量服务的模式
根据文献计量服务的特点,将服务模式分为两种,主动推送和用户个性化定制。主动推送就是定期通过微博、微信、图书馆主页、简报等平台主动推送服务产品,或通过培训讲座、问卷调查、读者沙龙等形式让大家充分了解图书馆馆员所做的工作及其价值,特别是工作开展初期,在用户对文献计量服务不了解的情况下,这种模式可以让用户了解文献计量服务人员所能做的科研服务内容及服务价值。图书馆可以提供个性化服务,年龄在40岁以上的副教授和教授由于在业界已经有了一定名誉和地位,可以对他们进行团队学术影响力的分析(包括团队科研成果的产出情况、被引用情况及影响力、H指数以及与其他团队合作情况进行分析),同时也关注教授个人在全球、国内、同行中的位置,如某教授本人的科研状况分析,某教授科研论文发文量和被引情况分析。而对于刚进入科研领域的年轻教师,文献计量服务就要重点关注学者个人学术影响力的分析和所在学科领域的发展态势,还可以对教师本人在本学科领域的成就和影响力进行分析评价。文献计量服务的个性化科研分析,不仅有利于挖掘学科领域中坚力量和有潜力的科研人才,还可以挖掘某一领域的知识渊源、演进脉络、热点研究等内容。通过对高校及其内部的各种计量对象进行统计分析,可以为高校管理者的科研决策提供参考。
4文献计量服务的业务框架
通过分析文献计量服务的对象、模式及核心业务流程,并将这些流程与服务业务框架有机融合在一起,初步建立起文献计量服务的业务框架。文献计量服务工作首先要确定服务对象的层次进而选择相应的服务模式,然后找出与之相匹配的服务方法,再根据文献计量服务的核心业务流程进行有效文献计量产品的创造,最后综合反馈的结果,进行数据的综合分析,形成最终的文献计量服务报告。
5讨论
5.1文献计量服务是图书馆构建主导型服务模式的途径
近年来,随着图书情报事业外部发展环境的不断变化以及图书情报学新理论、新思想的不断呈现,图情专家开始从广义的服务视角,思索探讨发挥图书情报机构的文献计量功能。高校图书馆新时期提升工作水平的一个重要突破口就是着力强化决策服务功能,显著提升参考咨询工作水平。高校图书馆特别是研究型高校图书馆拥有丰富的文献信息资源优势,又集合了专业学科馆员力量,大多具有调研课题的成功经验,完全有条件建立文献计量服务部门。图书馆应加快情报服务水平的提升,提供与教学科研相关的信息和情报研究产品,构建主导型服务模式。
5.2文献计量服务是实现高校图书馆可持续发展的选择
将文献计量服务理念引入高校图书馆,更好地实现智慧服务,不仅可以提高图书馆对高校教学和科研的影响力,而且可以为图书馆寻求和发展服务新的生长点提供有力支持。随着现代信息技术的不断发展,图书馆情报学的技术含量也相应地提高,赋予其全新内涵,可以说,加强并大力发展图书情报领域学科化服务必然成为高校图书馆可持续发展的要求。文献计量服务为高校图书馆在大学中的角色转变打开一扇新的大门,使图书馆参与到高校的科研发展、政策制定和学科引领之中,转变其在高校发展中的边缘角色。通过创新服务,真正迎合用户科研支持服务需求,探索有效的文献计量服务模式,建立可持续发展的长效服务机制,真正实现图书馆服务的不可替代性,实现高校图书馆的可持续发展[5]。
5.3文献计量服务是高校发展的需要
学科建设是高等院校提高教学质量和科研水平的重要基础,而学科发展策略的制定首先需要对自身的学科发展情况进行客观准确的评估和分析,进而合理地完善自身的学科体系、加强重点学科的优势。国内外高校也越来越重视通过各种类型的学科评估把握自身的学科发展态势、本学科的优势和劣势、重点研究方向、资源分配方案等,从而对高校的学科发展战略提供重要依据和指导意义。通过文献计量和相关统计数据的分析能帮助科研人员很好地判断出某一学科的发展现状、发展趋势及潜力,同时也能在一定程度上判断出科研人员的科研能力、学术水平及影响力。随着文献计量理论研究和应用的不断深入,适时在高校图书馆推出文献计量服务模式是一种必然趋势。在信息化大环境下,面对新的机遇和挑战,高校图书馆必须积极分析自己的优势并加以充分利用与发挥,提升图书馆的软实力。
参考文献:
[1]程焕文.实在的图书馆精神与图书馆精神的实在――《图书馆精神》自序[J].大学图书馆学报,2006(4):2-14.
[2]孙浩.关于文献计量服务的研究[J].现代情报,2008(6):64-66.
[3]孙玉伟,刘昌荣,朱玉强.大学图书馆文献计量服务实践探索[J].图书馆杂志,2014(1):56-61.
中图分类号:F299.2 文献标识码:A 文章编号:1672-3198(2010)02-0028-02
1 分部门、分灾种的危机管理决策支持系统
我国防震减灾系统应用和辅助决策系统的发展是与计算机技术,主要是GIS技术的发展相辅相成的。在20世纪80年代初,我国通过世行贷款开始了有关城市地理信息系统的开发研究。“九五”期间,结合950 项目(大中城市防震减灾示范研究与应用),地震系统有关单位在乌鲁木齐、天津、大连、合肥、自贡、泰安、福州、厦门等地建立了各自地区的“基于GIS的防震减灾信息与辅助决策系统”,利用GIS等工具软件,姚保华(2002)将区域地震环境、震害预测成果和应急辅助决策模块等进行集成。云南地震局王景来(1999)将GIS应用到地震灾害的评估提出将地震灾害评估智能化或半智能化的设想,在此基础上建立了玉溪地震减灾信息系统。上海地震局宋俊高、火恩杰等(2000)将GIS应用到城市防震减灾应急研究,以上海市宝山区为试点,建立了上海市防震减灾应急决策信息系统。王晓青等(2004)利用现代通讯技术、GIS技术和信息处理技术,构建了基于GIS的地震现场灾害损失评估系统,实现破坏性地震发生后地震现场灾害损失的快速、动态评估,现场震情和灾情信息的显示以及各种信息的远程交换。
火灾是各种灾害中发生最频繁且具有很强破坏性的一种。谢唤亮(1997)给出了基于GIS的决策支持系统的框架,并在南京市消防指挥中心初步实现。许云,任爱珠(2003)对虚拟现实技术(VR)在基于GIS的城市消防指挥系统中的应用进行了研究。朱霁平(2004)建立城市火灾应急决策支持系统,一旦发生火灾,信息可以迅速传递到指挥中心,并快速模拟灾害现场情况、预测灾害发展趋势,综合各种要素,生成救援方案,有效调度和科学利用消防减灾资源。
国内防洪减灾决策支持系统的研究起源于20世纪80年代末期,特别是国家在“八五”期间安排的“八五”重点科技攻关项目――长江、黄河、淮河防洪减灾DSS研究,出现了很多比较成功的成果,胡四一等(1996)在分析总结长江中下游防洪经验和防洪决策流程的基础上,研究防洪决策支持系统建立的开发模式、程序、方法、技术和应用模式,研制和开发了系统中总控管理――人机界面系统、数据库、知识库、系统接口和通讯软件、洪水演进和调度仿真模型、防洪决策风险分析模型等,初步建立了可运行的原型系统,并通过联机试验运行、检验系统设计、推进分洪决策支持系统的实际应用。到20世纪90年代初,又有翁文斌等开发的安阳市防洪DSS,浙江省洪涝台风灾害预报及省级防洪调度决策系统、黄河防洪调度决策支持系统和长江防洪决策支持系统等投入运行。这些系统都以关系数据库为核心,系统具有一定的可扩展性、可移植性。余达征等(1999)针对防洪减灾DSS的不足和防洪减灾决策的特点,将专家系统中的知识处理思想引入防洪减灾DSS中以解决其不足之处。设计出智能型的城市防洪减灾DSS。
2 城市危机管理决策支持系统
2.1 城市危机管理决策支持系统理论研究
韩燕晖将城市公共危机防范与救助系统分为指挥决策系统这一上位系统与预警系统、预案系统、信息系统、保障系统、动员系统、善后系统等六个下位系统。刘宁认为突发事件应急决策支持系统是用户通过人机交互与系统主推理机连接,并借助规则、案例、模糊知识推理部分共同完成不同库间的调用和内部推理求解。朱晓峰等根据政府决策支持系统的信息复杂程度和时效程度将其分为四大类:日常决策支持系统、宏观决策支持系统、重大活动决策支持系统和危机决策支持系统。惠志斌构造了由危机信息管理预警、危机信息管理知识、危机管理指挥、危机管理反应、危机管理恢复等子系统构成的综合性危机信息管理系统。谷岩,冯华综介运用数据仓库、联机分析处理(OLAP)、数据挖掘、信息智能推拉等多种信息处理技术,以多种形式灵活地生成各种应急方案。徐志胜等以地理信息系统(G1S)为平台,集成决策支持系统(DSS),研究开发了“基于G1S的城市公共安全应急决策支持系统”。唐裙裙认为应该采用五级架构,底层是硬件支持层;其次是基础信息层;基于其上的是决策支撑平台层;再上层是决策应用平台层;最上层是用户界面,需要针对不同类型的用户进行设计。张茜公共危机管理决策支持系统的主要功能包括机理分析、预警预报、资源优化、综合评价和决策建议。柳宗伟,景广军提出利用信息技术促进我国城市危机管理机制创新的思路,即建立以统一机构(城市危机管理中心)为核心的调度统一、联动协调、信息共享的城市综合危机管理机制,研制实用的城市危机管理决策支持系统以支持该模式的高效运作。
2.2 城市危机管理决策支持系统技术支撑
在智能决策支持系统的算法研究方面,研究的焦点集中在GIS路径优化、案例检索算法以及数据挖掘等方面:黄诗峰等对灾民撤退网络流模型及其GIS模拟技术进行了深入研究;罗忠良对案例推理系统中案例检索算法的改进进行了探讨;冯兴杰等对有关数据挖掘及其关联规则算法进行了详细地讨论;陶灵皎,孙继银等对决策树的算法进行详细探讨并针对自己的研究对象作了适当优化;王秀坤等设计了改进的EM算法并实现了在防洪决策中的应用。
2.3 城市危机管理决策支持系统工程实践
2003年“非典”事件后,我国目前许多城市已经开始设置专门的应急管理机构,将应急管理作为政府的一项日常的工作来抓,使城市应急管理逐渐走上正规化和制度化的轨道。已建成的城市应急管理机构有北京市突发公共事件应急委员会、上海市突发公共事件应急管理委员会、深圳市处置紧急事务委员会、广州110社会联动中心、武汉市110联动服务中心、南宁市社会应急联动中心等。城市危机管理信息系统一般由以下四个子系统,即应急指挥系统、应急业务处理系统、信息与资源共享系统、决策支持系统组成。管理决策支持系统作为城市危机管理信息系统的一个子系统,目前大多城市尚未进行专门建设。但在某些城市危机管理信息系统中包含了初步的辅助决策功能,下面分别对具有代表性的北京、天津、深圳、台湾的城市危机管理信息系统中所包含的辅助决策功能进行介绍。
北京市危机管理信息系统主要由以下子系统组成:①网络通信子系统,比如有政府网、应急呼报警网;②信息数据库子系统,城市地理环境数据库、城市社会经济数据库、灾害历史数据库;③应急评估数学模型子系统,危机事件潜势预测模型、社会灾变心理分析模型等;④对策预案子系统,综合应急管理总体预案,单灾种专业应急预案,预案实施决策流程;⑤专业救援子系统,比如医疗急救网、消防网自然灾害现象救援保障,还有公共设施抢修队,治安和反恐防爆队。这里应急评估数学模型子系统和对策预案子系统就包含了初步的辅助决策功能。其应急指挥系统中心设计联动国家减灾中心、水利、气象、地震、消防社区、单位重点区域,城市生命线系统管理部门,它有一些监测设备,比如现场空中监测,还有现场救援指挥车,对突发公共事件进行灾害的动态显示。还有应急对策的显示系统,根据专家的意见和对策,进行会商结果,最后形成一个综合的减灾策指令。
天津市负责突发公共事件应急管理的主要部门是防灾应急指挥中心,配置有线、无线通信系统、指挥辅助决策系统、指挥办公自动化系统、远程图像传输系统、综合视讯系统、应急供电、供水系统、楼宇保安监控系统等,运用现代通信网络和高技术手段,实现各类应急信息的收集、处理、整合,为市领导处置重大灾害和突发事件实施应急指挥提供了基本平台和手段。指挥中心在楼设置了专家会商室和相关单位、抢险专业组、应急救援队工作室,可集中各险种专家和专业组、队共同会商,为领导提供辅助决策。
深圳市应急指挥系统的辅助决策概况:深圳政府特别重视对预案信息系统的设计和开发。深圳有关部门制定和修改了各项应急预案,明确各类突发事件分级分类定量标准,提高预案的可操作性,并建成预案数据库,纳人应急指挥技术平台的“预案生成系统”。深圳市发生重特大突发性事件时,市领导不但可以在应急指挥中心通过视频、音频系统进行现场指挥,还通过地理信息系统和电子地图了解事件发生地点的具置及周边情况。同时,系统还将根据现场和数据库中的各种数据,自动生成多个应急预案以供领导决策选择。
台湾的灾害管理决策支持系统研究结合了地理信息系统(GlS)、遥感(RS)、全球定位系统(GPS)以及日益成熟的网络技术,建立一套整体性的防灾救灾决策支持系统。该系统使用灾害生命周期法来进行决策支持系统整体架构的规划,将灾害从发生前至发生后的整个过程视为一个完整的灾害管理循环周期,并进一步分析各阶段所需的决策支持需求,运用模组化的概念规划其中的各项子系统。完整的灾害防救决策支持系统资料库由地理资料库、气象水文观测资料库、历史性灾害资料库、趋势分析与境况模拟成果资料库、诠释资料库等五大资料库组成。台湾是多发地震的地区,以该系统的地震知识管理为例,通过“案例式推理”的研究方法,搜集台湾历年来都市层级的地震防灾救灾相关研究(不含地质研究、地震工程)案例一百余例,并利用英国Wales大学所开发的CBR软件caspian(1999),建置“地震防灾救灾文献案例式查询系统”,探讨其应用于都市防灾救灾的可行性,初步获得了良好的成果。
参考文献
[1]姚保华,陶夏新.分布式防震减灾系统的可行性[M].南京:东南大学出版社,2002.10.
[2]王晓青,丁香.基于GIS的地震现场灾害损失评估系统[J].自然灾害学报,2004, 13(1):118-125.
[3]许云,任爱珠,潘国帅.基于GIS和VR的消防指挥系统研究[J].土木工程学报,2003,36(5):92-96.
[4]朱霁平.基于GIS的城市火灾应急空间决策支持系统和仿真模型[D].中国科学技术大学博士学位论文,2004.
[5]谷岩,冯华.智能化城市防灾救灾应急处理支持系统的研究[J].计算机工程与设计,2005,(6): 1503-1505.