绪论:写作既是个人情感的抒发,也是对学术真理的探索,欢迎阅读由发表云整理的11篇数据挖掘学习计划范文,希望它们能为您的写作提供参考和启发。
[3]任友群,郑旭东,吴F瑜.深度推进信息技术与教育的融合创新――《教育信息化“十三五”规划》(2016)解读[J].现代远程教育研究,2016(5):3-9.
[4]杨现民,唐斯斯,李冀红.发展教育大数据:内涵、价值和挑战[J].现代远程教育研究,2016(1):50-61.
[5]余鹏,李艳,吕鹏.高等院校大数据挖掘与决策分析体系的应用研究[J].现代教育技术,2016,26(8):102-108.
[6]朱汉民.中国传统文化导论[M].长沙:湖南大学出版社,2010.
[7]欧阳剑波.中国传统文化、、西方文化碰撞的当代审视[J].青海社会科学,2011(6):17-21.
[8]杨玲.从网络流行语看大众文化特征[D].武汉:华中师范大学,2006.
[9]郭志刚.社会统计分析方法:SPSS软件应用[M].北京:中国人民大学出版社,1999.
[10]安兴茹.我国词频分析法的方法论研究(I)――统计分析要素的界定、分类及问题[J].情报杂志,2016,35(2):75-80.
[11]程树铭,吕亚萍.试论语义特征分析法[J].江苏理工学院学报, 2015(3):25-30.
[12]张敏.数据挖掘技术及应用[J].信息技术,2010,34(8):167-169.
[13]齐英艳,李建国.当代西方思想文化对中国青年知识分子的影响[J].中国青年研究,2008(9):25-30.
就连一向以关心国际金融形势为主的世界银行也在2012年11月了一份名为《降低热度》的报告。报告指出,如果我们任由全球变暖的趋势持续,到本世纪末,全球气温将会上升4℃。
报告认为,这一后果将是灾难性的:沿海城市可能被淹没;粮食生产风险增大;水资源匮乏情况将进一步恶化;生物多样性会遭遇不可逆转的损失。
2012年年末,国际能源署(IEA)了《2012年世界能源展望》(下称《展望》),对2035年前的全球能源趋势作出了预测。在报告中,IEA悲观地表示:“各国在哥本哈根气候会议上商定的,到本世纪中叶,将地球温度上升控制在2℃以内这一目标正变得难以实现”。
未来我们该如何应对全球气候持续变暖的挑战?《中国经济周刊》记者独家连线IEA首席经济学家法提赫·比罗尔(Fatih Birol),请他来为我们解读:面对能源和气候危机,我们还能做些什么。
可持续发展任重道远
IEA在《展望》中指出,即使考虑到未来各国的发展政策,我们依然不能确保全球能源体系能够进入可持续发展的轨道。
《展望》预测,从现在到 2035 年,全球能源需求将增长三分之一以上,其中60%的需求增长来自中国、印度和中东地区。尽管世界各国对于低碳能源的使用与开发都处于稳步增长的状态,但是未来化石能源(煤炭、石油和天然气)仍将主导全球能源的消费与使用结构。
在过去10年里,煤炭几乎占据全球能源消费增长的50%,其增速甚至超过了其他所有可再生能源。报告预测,中国的煤炭需求将在2020年达到顶峰,并将持续至2035年。
谁来代替核电?
为了减缓全球气候变暖的趋势,各国都鼓励发展清洁能源,许多国家都把核电作为未来重要的发展方向。但福岛核事故令核电风光不再,许多国家纷纷重新评估核政策。谁来代替核电成为一个棘手的问题。
《展望》指出,目前全世界电力需求正在以近两倍于世界能源需求的速度增长。尽管在2035年前,煤炭依然是全球发电的主要燃料,但在全球新建发电能力规划中,一半的新增能力将以可再生能源作为燃料。
《展望》预测,到2015年,全球可再生能源将成为全球第二大电力来源,并在2035年接近第一大电力来源——煤炭的发电量。
可再生能源迅速增长的原因在于其技术成本逐年下降、化石燃料价格不断上升。此外,各国对可再生能源的补贴不断上升也是一个重要原因。2011年,全球对各种可再生能源的补贴约为880亿美元,2035年将增至近2400亿美元。
对话比罗尔:中国将成为全球绿色能源投资的领头羊
《中国经济周刊》:目前世界各国在能源利用,尤其是节能减排方面的进展如何?
比罗尔:几乎全世界各大能源消费国都已经宣布了自己的目标和措施:中国的目标是到2015年将二氧化碳排放量降低16%;美国则采用了新的燃料经济标准;欧盟承诺到2020年,将把能源需求削减20%;日本试图到2030年将电力消费削减10%。虽然这些举措有助于改善过去10年全球能源效率表现不佳的局面,但是全球节能减排可挖掘的潜力依然十分巨大。
《中国经济周刊》:IEA对于改进能源使用效率有哪些建议?
比罗尔:我们认为世界各国在能源效率利用方面都还存在着巨大的、未被发掘的潜力。一般来说,我们可以从工业产业、交通运输、发电和建筑等四个方面去寻找可降低能耗的机会。大量的研究数据表明,目前世界上在建筑领域方面尚有五分之四的潜力未被挖掘, 而工业产业领域有一半以上的潜力尚待开发。
中国目前在建筑领域的能耗控制已经取得了巨大成就,但在其他方面仍有很大的进步空间。我相信,世界各国只要在这四个领域内制定出一系列可行政策,一定可以降低能耗,提升经济效率。
《中国经济周刊》:在过去的10年里,中国的节能环保产业大约以15%~20%的增长率逐年递增,您如何评价这些产业的增长?
比罗尔:最近这些年中国在降低能耗、提高能源使用效率方面进行了巨大的投资,这些投入也为中国经济带来了巨大的财富。目前全球风机产量约有30%来自中国,全球约有20%的太阳能发电量来自中国,可以说,中国环保产业的发展之路影响全球。
我们预计未来中国将在风能领域投资6000亿美元,在太阳能领域投资2000亿美元,这将使得中国成为全球绿色能源投资的领头羊。我相信,中国在节能环保产业的技术将会不断提升,并将造福世界。
中图分类号:TP311.13 文献标识码:A
0引言
随着我国高等教育信息化建设的快速发展,许多高校都已经建立起了校园精品课程、数字化图书馆、网络实验室等信息化应用,在知识共享上不断完善求新。同时,校园服务、校园信息、在线教学等数字化校园平台的建设实现了数据的共享与系统的整合。
传统的学生成绩分析还停留在简单的查询及简单的数字统计阶段。如查询某个学生的某门课程的成绩,统计某门课程的优、良、中、差各个成绩段的学生人数,统计成绩的均值、方差、置信度等。己有的分析研究仅仅从理论上对可行的评价机制进行讨论,而隐藏在这些数据后的其他有用信息很难能够发掘出来。
另一方面,信息化应用中获取的大量教学信息使得各种新的属性不断出现,增加了学生的信息存量,大量的学生信息以及学习数据没有发挥其相应的作用。这些信息从一定的角度上反映了学生在新的教学模式下所特有的学习行为,为研究学生的学习行为提供了依据与基础。本文就是在这些大量的数据基础上,结合数据挖掘的决策树分类技术,从学生的学习成绩入手,收集、整理和分析学生的行为信息,总结和发掘在新的学习模式下对教学质量及其学习效果的影响,为教师日常教学和学生学习的改进提供依据。
1数据挖掘技术综述
数据挖掘(Data Mining),就是从大量的、不完全的、有噪声的、模糊的、随机的原始数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用、可信的信息和知识的过程 。是一门广义的交叉学科,它的发展和应用涉及到不同的领域,尤其是数据库、人工智能、数理统计、可视化、并行计算等 。
数据挖掘技术有两大基本功能,即描述功能和预测功能。描述功能是指描述数据库中数据的一般性质。预测功能是指对当前数据进行推断,以便做出预测。
数据挖掘研究的对象是大量隐藏在数据内部的有价值的信息,如何获取有价值感兴趣的信息是我们所要解决的主要问题。接下来简单介绍数据挖掘中应用较为广泛的常用的一些技术。
1.1决策树方法
决策树算法的目的是通过向数据学习,获得输入变量和输出不同取值下的数据分类和预测规律,并用于对新数据对象分类的预测。
1.2关联规则
关联规则用来揭示数据与数据之间未知的相互依赖关系。由一个条件和一个结果组成的,形如 IF...THEN 的简单形式就叫做规则,关联规则挖掘就是扫描整个数据集,从中找出具有给定的最小支持度和最小置信度的关联规则。其中最具代表性的是R.Agrawal 提出的 Apriori 算法。
1.3神经网络
神经网络是以人脑为基础的抽象模型,它模拟真实人脑神经网络的结构和功能,将众多结构和功能极其简单的神经元通过各种方式联接成一个复杂的网络结构,以实现复杂的智能行为,构成一个类似于人脑结构的非线性预测模型,通过学习进行模式识别。神经网络具有两大特点――自学能力和自适应能力。
1.4聚类分析
聚类是将数据集分成若干不同的类,使得在同一类的数据对象尽可能相似,而不同类中的数据尽可能相异。聚类与分类的根本区别在于:分类需要事先知道所依据的对象特征,而聚类是在不知道对象特征的基础上要找到这个特征。
以上介绍了数据挖掘的基本知识,包括数据挖掘的概念、数据挖掘的功能、数据挖掘的过程及步骤,以及数据挖掘中常用的各种技术。而且现在的数据挖掘软件,不管是开源还是商用都已经很成熟了,也提供易用的可视化界面,集成了数据处理、建模、评估等一整套功能。本文尝试使用Spss modeler[7,8]数据挖掘工具,采用决策树分类技术,对所采集的学生考试成绩数据进行分析挖掘,形成分类规则,从而更好的分析和预测成绩数据。
2高校学生成绩的决策树模型
2.1决策树技术
决策树技术是通过学习,获得输入变量和输出变量不同取值下的数据分类和预测规律,并用于对测试集的分类预测。它主要由两个阶段组成。
第一阶段,建树阶段。选取训练数据集进行学习,导出决策树。建树的流程图如图1所示:
第二阶段,剪枝阶段。用测试数据集检验决策树,如果所建立的决策树不能正确的回答所研究的问题,我们要对决策树进行剪枝以解决过分适应数据的问题,直到建立一棵正确的决策树。剪枝的目的是降低由于训练集的噪声而产生的起伏。
决策树技术之所以是数据挖掘领域中运用较多的分类和预测主要技术,原因有三:一是决策树构造的分类器易于理解;二是采用决策树分类,其速度快于其他分类方法;三是采用决策树的分类方法得到的分类准确性优于其他方法。
SPSS Modeler提供了包括C5.0、CHAID、CART和QUEST在内的经典决策树算法,C5.0是在决策树的ID3算法基础上发展起来的。决策树的核心问题之一是决策树分枝准则的确定,C5.0以信息增益率为标准确定最佳分组变量和分割点。其关键的概念是信息熵。
2.2学生成绩分析
分析影响学生成绩的因素,可以通过数据挖掘技术从定量的角度精确展现学生成绩分析的多个方面,找出影响学生成绩的主要因素,以此来帮助教师和教学部门制订相应的措施,有利于提高教学质量和增强教学效果。因此,本文采用SPSS Modeler14.1数据挖掘工具,对采集的学生考试成绩数据进行分析挖掘,形成分类规则,从而更好的分析和预测成绩数据。具体的信息挖掘的操作步骤如下:
2.2.1确定挖掘对象、目标及其数据采集
以本校2014-2015 年度第一学期所讲授的“计算机大学基础”为例,对象是 2014 的部分学生,共 931人。希望根据学生的考试情况来分析挖掘出哪些因素对学生成绩有影响。数据的采集来自于考试系统中导出的数据。计算机大学基础考点所占的分数如下:单项选择15分、填空5分、windows基础知识10分、计算机网络10分、word操作20分、excel操作20分、ppt制作10分、access数据库10分,总计100分。由考试系统导出的数据中包含了考生的基本信息如姓名、班级、学号和机器号等信息。也包含了考生所做试卷的编号及其交卷后的剩余时间等重要信息。
2.2.2数据的预处理
所收集的原始数据还不能直接用于挖掘,因为这些数据一般是不完整的、含噪声的、不一致的,需要对这些数据进行预处理,以提高数据挖掘对象的质量,有助于提高后面挖掘过程的精度和性能。因此,对数据变量的管理和样本管理是建立数据模型的前提和基础。图2表示了对学生成绩数据进行的预处理数据流,其中包含了对数据源的追加、合并、填充和过滤。最终确定了进行分类的重要输入字段为:单选、填空、widows、网络、word、excel、ppt、access、试卷编号和剩余时间(已经将时间格式转换为以秒为单位);分类的输出即目标确定为考生的大学计算机基础成绩(已经将其离散化为好、中、不及格),为后续的建模做准备。
2.2.3决策树在学生成绩分析中的应用
决策树的生长过程本质是对训练样本反复不断递归过程, 根据SPSS Modeler提供的的C5.0算法、QUEST算法、CHAID算法和CART算法,对预处理后的数据流分别进行建模和比较,具体的算法思想和内容不再赘述,其建模的流程和C5.0算法结果如图3所示:由图3(b)中的模型结果可以看出评估模型中每个预测变量的相对重要性。通过这一点,我们看到Excel成绩在此个案中最显著,而其他变量的因子依次为:Access、填空、单选、ppt、word等成绩。这也说明了Excel,Access和填空对学生来说不容易得分,大部分同学掌握还有待加强。而学生对ppt、word、网络和windows题目掌握较好。
由图4所示的分析结果可以看出:经过剪枝的决策树模型的准确率为达到了88.1%,模型提取的分类的成绩结果为“好”的规则如图4(a)所示。由决策树提取的分类规则对大学生英语学习有着重要的指导作用,同学们可以根据自己实际学习情况,参考决策树挖掘结果,找出自己的学习薄弱环节,进行针对性的学习训练,对通过大学计算机考试的几种情况有所了解,为自己制定学习计划和学习目标提供参考。从上面的规则我们可以看出:在考试中,单选、excel和Access部分的得分对考试成绩为“好”的影响是最为重要的,其次是填空和word,其余部分对考试的影响较小。因此,同学们在准备考试的时候可以将excel和Access作为重点来进行强化训练,提前调整自己的学习计划、完善自己的学习方法、科学的提高学习成绩。
此外,由图4(b)和图5所示的模型对比结果可以看出:经过剪枝的决策树C5.0算法模型的测试和训练的准确率比其他几个分类算法要高。模型一致性误差对比可以看出:在检验的样本集合上,4个模型对255个样本有相同的预测值,占52.9%。225个样本预测结果不同,占47%。可见,4个模型预测结果相同的比例属于中等水平;进一步,在相同预测结果的255个样本中,有232个预测正确,占91.7%,21个预测错误占8.3%。因此,模型的总体预测精度一般,根据分析可进行样本的平衡处理或在模型参数上更细致的调整。
3小结
本文研究数据挖掘技术中的决策树模型,采用SPSS Modeler工具软件对大学计算机基础的考试成绩进行分析,通过数据预处理,为决策树模型准备数据,实现了成绩分类挖掘的全过程,通过生成的决策树规则分析计算机大学基础考试中的题型对考试成绩的影响情况,从中找出规律指导考生调整学习计划、完善学习方法、科学有效提高学习成绩。从实验分析的结果和模型的对比可以看出,该决策树模型的分类效果是良好的。
参考文献
[1] 伍顺比.新世纪我国高等教育信息化的回顾与展望[J].教育探索,2011(6):135-137.
一、学生成绩管理的现状
随着高校办学规模的不断扩大以及学校专业的不断增多,均使得学校的教育管理工作变得越来越复杂化,越来越难管理,特别是针对学生成绩信息的管理,由于学生的倍增,成绩的管理与维护工作更是艰难。做好成绩管理工作,对学校的发展拥有特定的实际意义,也是各个学校最为关心并且要迫切解决的重要问题,所以随着学校对成绩信息资源利用要求的提高,原本的成绩管理模式已经不能够再满足学校的实际应用需求,只有设计更为有用的,能够挖掘出学生成绩价值信息中隐藏的价值,才是最符合学校应用的应用系统。
二、学生成绩管理的作用
在高等学校的发展过程中,教学质量,一直都是各个高校最为关注的重点问题,而学生的成绩是各个学校教学质量优劣的一个最重要的体现,因此,如何促进学校全体学生更好的提升学习成绩,关系到学校的长远发展计划,而对学生的成绩管理分析工作,是一个系统化的工作,所以通过对学生成绩的综合分析,明确学生在学习过程中的不足,有针对性的为学生解决学习上的困难,提升学生的整体综合素质与学习成绩,不管是对学校还是生活个人都拥有非常重要的积极促进作用。
三、数据挖掘技术成绩管理分析
数据挖掘技术在成绩管理中的应用,主要体现在学生成绩分析、考试题目优化、教学评价、教学方式选择以及课程的合理设置等几个方面。
(一)学生成绩分析。学生的主要任务就是学习,学习成绩也是学生在校期间表现优劣与否的最直观的体现,也是学生在校期间所学知识掌握程度的最直观的表现方式,所以对学生提供一个全面客观的评价,是学校应该拥有的责任,也是对学生最好的关爱表现方式,然而在学校的成绩管理工作进行时,通常的做法只是简单的把学生的考试成绩录入到学校的系统软件,而通过数据挖掘技术对学生成绩进行分析之后,可以充分的找出学生成绩优劣与否与学生自身、与学校环境以及教师的教学质量之间的关系,进而为更客观的评价学生成绩的高低是学生自身原因造成的还是与学校有直接的关联,为进一步的更好的学习计划的制订提供了理论依据。
(二)考试题目优化。考试的目的是为了更好的检验教师的教学效果以及学生的学习成果,是教学过程中一个重要的阶段。学校在教学时,通常是以期末考试成绩为评价学生的学期成绩的一个重要标准,然而在不同的考试教学下,学生的考试成绩是不相同的,如果仅仅以成绩评定一个教师或者学生是不客观的,为了更好的评定教学效果及学生学习的成果就要发掘学生成绩高低相关的影响,是试题较难还是教师教学方式的问题,因此就需要对这些因素进行分析,以探索更为有效的方法来评价试题的难易与成绩的关系,进而为下次试卷的出题提供帮助。
(三)教学评价。评定学生对新接触事物理解及掌握程度是教育工作者的一个重要职责,通过对学生学习成绩的评定,可以触发学生的学习动力,也是考查学生真实水平的一种比较有效的方式。在学生成绩评价时,教师也要注意评价内容要客观全面、评价方式多样并注重自评与互评的结果,获取成绩评价数据才是最可靠有效的。针对学校不同学生的不同成绩评价数据,可以利用数据挖掘工具,对这些数据进行挖掘分析,通过工具获取不同学生最终的成绩结果,进而可以更客观的排除人为因素对学生评价的影响,也可以对学生的不足及时给予及时指正改正,不但减轻了教师的工作量还克服了教师主观评价给学生造成的不利影响,为更好的营造学习氛围以及学生之间的关系提升提供了很大帮助。
(四)教学方法选择。不同的教师在教授课程时因为人员之间的差异,使用的教学方式也互不相同,也因此导致了学生考试成绩可能也互不相同,为了消除因教师教学方式差异给学生成绩造成的危害,就需要对不同教师教学模式下学生的成绩信息进行分析,以选择更优的教学方式实现对学生的教学,学生成绩数据挖掘技术的应用正好可以满足这一要求,通过对不同教学方式下学生成绩差异的研究,可以协助教育工作者更好的判别采取何种教学方式对学生学习才更有帮助,进而提高学生的整体学习水平。
(五)课程合理设置。许多课程之间往往还存在着一定的关联关系,拥有固定的先后顺序,只有把前修课程学习完成之后才可以继续接下来的课程学习,否则会直接影响后续课程的理解与接受,影响学生的正常学习;在高等学校,通过对成绩数据价值信息的挖掘,可以利用学校成绩数据库中存放的历届学生各科考试成绩信息结合数据挖掘的相关技术进行分析,并通过相关的数据挖掘算法分析这些数据信息中隐藏的潜在的影响学生学习的价值信息,最终找出影响学生考试成绩的原因,并根据这些原因制订出相应合理的课程安排计划,为学生更好的学生服。
(六)学生特征挖掘。通过成绩与环境因素的影响数据挖掘的研究,教师可以很好的掌握每个学生的学习状况,学生个人特征,并根据学生之间的不同差异,因材施教,最终把学生往更好的学习发展方向引导。为了更好的研究这一关系,可以利用数据挖掘工具,对学生学习成绩数据进行挖掘分析,通过挖掘工具的分析,不但可以获取不同学生最终的成绩结果,而且可以更客观的排除人为因素对学生评价的影响,最终对学生的不足及时给予及时校正,不但减轻了教师的工作量还克服了教师主观评价给学生造成的不利影响,为更好的营造学习氛围以及学生之间的关系提升提供了很大帮助。
参考文献:
[1]张兴科,王浩. 通过数据挖掘技术预测学生学习成绩[J]. 科技信息(科学教研), 2007,(22) :198-206.
Key words data mining; association rules; teaching management; teaching plan
0 引言
近几年来华留学生教育进入快速发展时期,我国已经成为国际学生流动的重要目的地国家之一。随着我校留学生规模的不断扩大,如何更有效地对来华留学生进行教学管理已成为一个重要的研究课题。而运用数据挖掘技术,从大量的留学生相关数据中挖掘出一些有价值的信息,将更有利于构建切合我校留学生实际的培养体系,更好地保证培养质量。
一方面,从招生角度上来讲。目前我校留学生的生源渠道主要分为三类:第一类是由中国国家留学基金委直接分配至我校学习的获中国政府奖学金的学生。第二类是学生自己通过网上申请,我校根据学生提供的材料进行审核录取。第三类是由国外大学或中介机构根据协议推荐来我校学习的学生。由于外国留学生来自不同的国家,之前在各自不同的教育体系中接受高中教育,文化课背景差异很大,这就导致生源的质量参差不齐。运用数据挖掘技术可以找到其中有价值的信息,如哪个国家的教育水平相对较高,来自哪个国家的学生平均申请成绩较好,使用何种母语更容易融入中国高校教学等。这为招生工作提供了参考,从招生源头提高留学生质量。
另一方面,从教学管理角度来讲。目前,我校留学生数据库中存放着历届学生的各科考试成绩,海量的数据只是单纯地记载了数据信息,对学生信息、成绩等数据的处理一般还停留在简单的数据备份和查询阶段,如传统数据库技术可以查询最高分最低分和平均分等表层信息,但却无法发现隐藏数据之间的规律或者说有指导意义的知识。大量有价值的信息被淹没在海量数据中。事实上不论是课程与课程之间,还是课程的设置之间,与学生成绩都存在着千丝万缕的联系,现阶段已有的数据并没有发挥其真正的价值,而运用数据挖掘技术则可能更好地发现隐藏在数据背后的丰富信息。通过对学生成绩数据库中所包含的各种类型数据进行相应的处理,如:抽取、转换、分析和模型化处理,从中寻找影响学生学习成绩的众多因素,以及这些因素所涉及到的相关问题。应用数据挖掘技术分析学生的成绩水平,使学生深入了解其在学生整体中的相对位置,由此来调整个人学习计划。同时,帮助教师和学校决策者洞悉教学过程中存在的问题,进而反思教学质量。还可以根据关联规则挖掘得到的一系列有价值的规则,分析检查课程体系的合理性,比如:相关课程之间的衔接与先后顺序是否恰当等,根据分析结果最大限度地优化培养计划和决策。此外,利用数据挖掘技术还可以发现数据中存在的潜在关系与规则,比如:根据学生的出勤次数和作业的上交情况预测学生成绩发展趋势等。为教师的教学环节提供建设性的意见和建议,为学生管理工作提供有价值的决策支持,从而帮助学校做出实时适时的决策调整,使得学生管理工作有的放矢。
1 数据仓库与数据挖掘
1.1 数据仓库
传统数据库在联机事务处理(OLTP)中获得了较大的成功,而传统数据库中只保留当前的管理信息,缺乏决策分析所需要的大量历史信息,故不能满足管理人员的决策分析要求。为了解决这一问题,进行相关决策分析,数据仓库应运而生。简而言之,数据仓库就是能够满足决策分析所需要的数据环境。数据仓库的概念,由“数据仓库之父”W.H.Inmom博士提出:数据仓库是一个面向主题的,集成的、与时间有关的,非易失的数据集合,为管理部门提供决策支持。它实际上是一个特殊的数据库,这种系统称为OLAP系统。本文中我们就利用留学生成绩数据库中的各种类型的数据建立相应的数据仓库,为数据挖掘提供数据平台。
1.2 数据挖掘
近年来随着信息技术的迅猛发展,人们所拥有的数据信息急剧增大。如何从大量随机的数据中挖掘出一些有价值的信息,成为一个重要的研究课题,由此带动了数据挖掘技术的产生和飞速发展。数据挖掘就是从大量的,不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的,但又有潜在的有用信息和知识的过程,是数据库中的知识发现的核心。可以说,有数据积累的地方,就有数据挖掘技术的用武之地。
数据挖掘的分析方法分为:聚类分析,关联分析,时序模式分析和分类分析。其中聚类分析是指通过数据本身具有的相似特点把海量数据集归纳为若干个簇,即“物以类聚”。同一簇中的数据之间相距小,相似度高;不同簇中的数据之间相距较大,数据相异度高。关联分析是指利用关联规则进行数据挖掘,其主要评价标准有:支持度、置信度、兴趣度等。本文中我们将数据挖掘技术与留学生教学管理相结合,挖掘在留学生教学管理中隐藏的有价值的信息,为留学生管理提供决策指导与决策支持。
2 数据挖掘在教学领域中的应用
数据挖掘与数据仓库相结合,是完成决策分析的关键因素。教务数据主要存储在关系型数据库中,其主要任务是执行联机事务和查询处理,对其中大量的教学信息及数据的应用仅限于某些单方面的分析,而缺乏相关的综合分析,大部分数据难以再次利用,不能满足决策分析的要求,为此需要对各种类型的数据进行抽取,转换、汇总加载到留学生成绩数据仓库中,借助数据挖掘技术,为教学提供决策支持服务。
在留学生成绩数据库中,包含着多种类型的数据,它们既相互独立又相互联系。运用数据仓库的理论和方法,对这些数据进行适当的预处理,即可产生支持教学决策所需要的信息。留学生成绩仓库的应用模型如图1所示。
根据留学生成绩的特点,以学生成绩分析为主题建立星型结构的留学生成绩仓库。星型结构主要由事实表与维度表两部分构成。事实表是星型模型的核心,维度表是事实表的附属表,一个事实表一般拥有一组维度表,每个维度表都通过主键与事实表相连,维度表之间通过事实表的中介相互建立联系。该数据仓库主要涉及到的信息有:留学生基本信息,教师信息,课程信息,试卷信息,知识点信息及专业信息等。星型结构的留学生成绩数据仓库的具体构建情况如图2所示。
2.1 数据挖掘在成绩分析中的应用
定性评价在生活中有着广泛的应用,我们往往把学生成绩硬性地划分为:优、良、中、差四个等级。而这种传统的硬性区间划分法,存在着众多弊端。例如将成绩90分定为“优”,而成绩79分确定为“良”,这往往只是根据经验但却缺乏理论指导,而实际上二者之间并没有那么明显的差距。如果我们利用数据挖掘中的聚类分析法对学生成绩进行适当处理,就可以有效地对学生成绩进行等级划分,为学生学习和教师的教学提供更合理的参考标准。在合理的等级划分基础上,我们就可以利用关联规则挖掘技术对学生成绩进行多角度、多方向的深入分析,获得可以为教学工作提供决策支持的有价值的隐藏规则。比如:学生成绩的好坏跟作业上交情况有着明显的关系,该规则说明教师可以通过及时督促学生上交作业来提高学生成绩。此外,我们也可以采用决策树挖掘技术来分析影响学生某门课程成绩的主要因素。比如:针对学生出勤率,作业上交情况,国籍,学生中英文水平四个因素对学生成绩的影响程度进行决策树挖掘分析,我们发现学生出勤率、作业上交情况以及学生的中英文水平是影响学生成绩的主要因素,而国籍则是次要因素。由此说明较高的出勤率、良好的作业上交情况以及较好的中英文水平是学生取得良好成绩的重要保障。
2.2 数据挖掘在培养计划制定中的应用
培养计划对一个专业的学习至关重要,一个好的培养计划将会获得事半功倍的效果,反之,将会产生事倍功半的结果。目前我校对于本科留学生虽然部分课程有全英文授课模式,但是就培养方案、教学计划来讲,大部分课程与本专业国内学生的几乎一样。而我国大学课程大纲的起点都是按照和国内高中毕业的程度衔接制定的,特别是数理化这样衔接性很强,对基础和选修课程要求很高的课程,大部分留学生不能跟上学习进度,教学效果较差,学习困难较大。
传统的教务系统无法为留学生的培养计划的制定提供建设性的决策支持。然而,利用数据挖掘技术对留学生信息维表,课程维表和学生成绩维表进行关联规则挖掘,则可以找出不同课程之间的关联,从而为留学生单独制定一套行之有效的特殊培养方案,适当调整外国留学生的必修和选修课程,提高教学效果和质量。如对石油工程专业留学生课程成绩进行关联规则挖掘,获得等级为“优”的课程之间存在的有价值的规则,如表1所示。
相应的规则解释有:(1)规则2 表明,“高等数学(Ⅱ)I”与“高等数学(Ⅱ)II”作为“理论力学”的先行课程的信任度为88.3%,因此“高等数学(Ⅱ)I”与“高等数学(Ⅱ)II”作为“理论力学”的先行课程比较合理。(2)规则3表明,“理论力学”作为“材料力学”先行课的信任度为90.6%,所以“理论力学”作为“材料力学”的先行课程比较合理。(3)规则4表明,“理论力学”和“材料力学”作为“油田开发地质”的先行课程的信任度为86.0%,所以“理论力学”和“材料力学”作为“油田开发地质”的先行课程比较合理。综合(1)(2)(3)可知,高等数学(Ⅱ)(I ,II),理论力学,材料力学,油田开发地质这四门课程的合理开课顺序应该是:(1)高等数学(Ⅱ)(I ,II)(2)理论力学(3)材料力学(4)油田开发地质。如果对上面列出的规则进行多次推导,可以得出“石油工程”这个专业大致合理的开课顺序:(1)高等数学(Ⅱ)I、高等数学(Ⅱ)II;(2)高等数学(Ⅱ)(I ,II),理论力学,材料力学,油田开发地质;(3)测井综合解释,钻井工程、油藏工程、气藏工程,石油工程的全面设计;(4)环境保护在石油和天然气领域,强化开采理论。
由上述的关联规则及相应的结果解释,我们可以清楚地看到,相关课程成绩之间存在较高的关联程度,先行课程的学习情况将直接影响其后续课程的学习。我校即可根据上述结论为学习“石油工程专业”的本科留学生合理安排课程顺序,使其获得良好的学习效果。
2.3 数据挖掘在留学生选课方面的应用
高校愈来愈注重个性化人才培养,学校教育方式越来越人性化、多样化,学生自主选课就成为课程改革的必然产物。但由于留学生初到中国对环境的不熟悉,包括一开始的语言障碍、沟通障碍,显然对中国高校的课程设置了解有限,这样有可能致使他们选课仅仅是凭表面感觉来进行。如:学生在选择“中国概况”这门课的时候,可能仅仅是因为对中国历史文化的好奇,而并不了解应如何合理选择其他相关课程来加深对这门课程的理解。“中国概况”这门课程需要有一定中文语言基础,盲目选课将导致留学生对中国概况的学习仅限于皮毛,而不能深入了解中国历史文化。
现有的选课系统不能为学生选课提供建设性意见,但如果利用数据挖掘技术对学生汉语成绩进行关联规则挖掘,找出课程之间的关联,就可以在学生选择某门课时为其推荐相关课程,完善学生在该领域的学习体系。若获得如下规则:“中级汉语”和“中国概况”成绩等级为“优”;该规则说明汉语水平高低与中国概况的了解程度有较强的关联程度,所以我们在学生选择“中国概况”这门课程的时候,就应当向其推荐“中级汉语”,从而加强学生对该课程的学习。
2.4 数据挖掘在教学中其他方面的应用
1 个性化信息服务概述
所谓个性化信息服务就是针对不同用户提供不同的服务策略和服务内容的服务模式。个性化信息服务基于“用户需要什么,我们就提供什么”的理念。其特征为:以用户满意为中心、双向沟通的零距离及面向用户深层心理需求。
远程教育平台中个性化信息服务通常体现在:
(1)个性化信息检索:通过记录跟踪学习者的检索内容,了解学习者的兴趣、偏好、学习特点和习惯,主动为学习者推送相关信息和对查询结果进行分类。
(2)个性化信息推荐:在分析了解学习者的个人兴趣和习惯的基础上,通过信息检索、信息过滤、数据挖掘等技术,对可提供的资源及服务进行分类组织,将学习者可能感兴趣的学习资源进行智能推荐。
(3)个性化信息咨询:学习者利用交互式咨询台,即通过教育平台的聊天软件、网络会议等方式,与教育专家、名师等进行实时的交流[2]。
(4)个性化信息反馈与辅导:针对学生的认知水平与特点,提供个别指导、提出下一步的学习建议,帮助制定学习计划和方案等。
2远程教育中个性化信息服务的应用领域
远程教育平台中个性化信息服务涉及用户建模、个性化信息检索、信息推送、个性化推荐、机器学习机制、智能Agent技术应用、网站自适应技术应用、数据挖掘技术应用等。
2.1数据挖掘技术的应用
数据挖掘技术是实现远程教育平台个性化信息服务的核心技术之一。判断数据挖掘所得信息是否有价值,就应该看所得信息是否具先前未知、有效和可实用这三个特征。数据挖掘就是深层次的数据分析方法,流程如下图1所示:
常用的数据挖掘算法有决策树算法、遗传算法、粗糙集、神经网络、Apriori算法等。从广义上讲,关联分析是数据挖掘的本质。关联知识挖掘,在远程教育平台中得到了广泛应用。
2.2 其他相关应用领域
(1) 用户模型的创建
用户模型的创建是提供个性化服务的基础和核心,用户建模是指从有关用户兴趣和行为的信息(如浏览行为、浏览内容、背景知识等)中归纳出可计算的用户模型的过程。
(2) 资源文件的描述
资源描述文件可以用基于内容和基于分类的方法来表示。基于内容的方法是利用资源本身的信息来表示资源;基于分类的方法是通过将文档进行归类来表示资源。
(3)个性化信息检索及推送
个性化信息检索技术,是指能够根据用户的兴趣和个性化行为特点进行检索,为用户提供个性化检索结果的技术。
个性化信息检索涉及许多检索算法和建模技术,如基于词汇相关度模型、语义网、智能Agent和概念网的个性化信息检索模型等。个性化信息检索实现流程如图2所示:
信息推送就是在分析了解用户兴趣偏好和信息需求的前提下,通过一定的技术标准或协议,有目的地将用户感兴趣的信息发送给用户。
(4) 协作过滤推荐技术
协作过滤推荐技术是目前应用最为成功的个性化推荐技术,其核心思想是先找到与其有相似兴趣的其他用户,然后将相似用户感兴趣的内容推荐给此用户。
(5) 智能Agent技术应用
智能Agent不需要或很少需要用户的干预和指导而智能完成用户委托任务,根据用户要求自动过滤、收集用户感兴趣的信息,并且能根据用户指定的时间将其传递到用户指定的“地点”,成为用户与资源之间的中介而很少需要用户的干预。
3具有个性化信息服务的远程教育平台
国外比价典型的代表有:加拿大的Simon Fraser大学开发的Virtual―U、美国Pennsylvania 州立大学开发的WISH和挪威fronter公司开发的ClassFronter(课堂先锋)等。
国内的网络教育平台研究还处于起步阶段,但已有越来越多的高校和研究单位意识到网络教育平台的重要性,例如沪江英语网校、Vclass平台等。
4 小结
远程教育平台中的个性化信息服务系统是一个依托信息资源系统,利用相关技术建立起来的标准化知识服务系统平台,可以为用户提供多种类型的信息服务。
【参考文献】
[1]汪锋.基于远程教育个性化服务的研究[D].昆明.昆明理工大学,2004.
[2]李咏梅.浅谈个性化信息服务系统的构建[J].信息服务,2011, 41(1):102-106.
[3]孙丹.基于用户信息行为的个性化知识服务研究[D].武昌:华中师范大学,2012.
[4]毛国君,段丽娟,王实.数据挖掘原理与算法(第二版)[M].北京:清华大学出版社,2007.
[5]陈安.数据挖掘技术与应用[M].北京:科学出版社,2006.
[6]丁琳,吴长永.数据挖掘在远程教育个性化服务中的应用[J].网络教育与远程教育,2002,9(2):15-23.
[7]刘美玲.基于数据挖掘技术的个性化学习系统研究[D].扬州:扬州大学,2009.
[8]曲贵英,冯丽娜.基于用户系统模型的个性化信息服务系统研究[N].哈尔滨商业大学学报,2007-03-25(3):355-360.
[9]Witten I H,Franke.Practical Automatic Key-phrase Extraction[C].Proceeding of the 4th ACM Conference on Digital Library,2000:254-255.
[10]Tumey P D.Learning Algorithms for Key Phrase Extraction [J].Information Retrieval,2000,2(4):303-336.
[11]李树青.个性化信息检索技术综述[J].情报理论与实践, 2009,5(7):109-111.
[12]邹显春,谢中.电子商务与web数据挖掘[J].计算机应用.2000,5(21):36-41.
中图分类号:TP311文献标识码:A文章编号:1009-3044(2012)03-0534-02
Application of Network Teaching Decision Support Platform Based on Data Mining
CAO Zhi-yong1, LU Han-yu2
(1.Department of Science and Technology, Guizhou Radio & TV University, Guiyang 550004, China; 2.Department of Computer and In? formation Engineering, Guizhou University, Guiyang 550003, China)
Abstract: For modern distance education, educational differences in personality characteristics of the object with the traditional mode of distance education resources produced great unity of contradictory problems. Combination of data mining technology, design technology, based on data mining decision support network teaching platform, the platform provides network teaching platform, in addition to basic functions, but also by data mining analysis of server log data, and analysis of the form of graphic interface results of user feedback, and then implement the restructuring of the site and the student’s personalized service.
Key words: data mining; distance education; WEB log; network teaching platform
随着计算机和互联网的应用发展,现代远程教学平台的缺陷日益突出。依据传统的学习理论设计的网络教学平台难以适应现代远程教育的需要。如:缺乏个性化、网站结构不合理等。网络教学作为一种新型的教学手段,由于其时空不限、资源共享和交互性好等优点,较好的增强了学生的学习兴趣,提高了学生的自学能力,培养了学生的学习主动性,为此笔者开发了基于数据挖掘的网络教学决策支持平台。
1数据挖掘
数据挖掘(Data Mining,DM)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取潜在的、不为人知的有用信息、模式和趋势。通俗地说,数据挖掘就是从数据中发掘信息或知识,又称为数据库中的知识发现(Knowledge Discover in Database,KDD)。
数据挖掘技术应用于Internet,于是有了Web数据挖掘,根据数据挖掘的过程,常常把Web挖掘的分为4个基本步骤:数据收集、数据预处理、模式识别、模式分析。
1)数据的收集:在网络教育平台上,有大量的信息可以利用(如用户的访问日志、注册信息、答疑信息、考试成绩、作业情况、交流信息和学习进度等)。根据挖掘的目的明确收集学习者什么样的数据。
2)数据预处理:这保证数据挖掘质量的关键,主要包括进行冗余数据的清除,以及对错误数据和缺失数据的修复,将其转化成适合模式发现的、具有良好格式的数据抽象。对日志中的原始数据进行预处理,包括数据净化、用户识别、会话识别和路径补充等。
3)模式识别:是对预处理后的数据用数据挖掘算法来分析数据。首先确定挖掘的目的是进行分类、聚类、关联规则发现等,确定了任务再决定使用的挖掘算法。
4)模式分析:解释并评估结果,对数据挖掘得到的知识结果进行分析,清除无用或错误的知识,将感兴趣的规则、模式,以图形界面的方式提供给使用者。
2网络教学决策支持平台的模型构建
网络决策支持教学平台由于不受时间和空间限制的优越性,如今越来越受到广大师生的欢迎。图1为笔者开发的网络教学决策支持平台模型,平台按照功能分解分为学生平台、教师平台、个性化处理中心、学习调度系统四个模块,具体模块功能如下:
2.1学生平台模块
首先,获取学习者的基本状况、学习现状,以判断学生的学习特征。其次,系统设计有实时监控学习者行为的功能,通过跟踪采 集子系统进行学习数据的采集,如学生当前所学知识点,在页面停留时间,练习与测试成绩等。这些数据可以通过web服务器、客户端以及服务器来获取。最后,呈现由学习调度系统所推荐的学习内容。
2.2教师平台模块
主要提供教学资源库管理界面。教师既可以利用“课程资料管理”,在线编辑相关课程的基本信息,也可上传资源,平台支持PPT、DOC、PDF等文件类型。教师可以利用“在线考试管理”管理试题库,随机抽题组卷,系统可自动对学生答题情况进行评分,教师可利用论坛管理来管理论坛的帖子。
2.3个性化处理中心模块
个性化处理中心是一个数据挖掘引擎,是个性化智能学习系统中的核心。主要完成两个工作:其一是学习者特征库的构建。结合最新采集的信息与学习者特征库中的数据资源进行新的分析,建立和完善学习者特征库;其二是分析处理模块。应用频繁模式挖掘、分类和聚类技术、序列模式等数据挖掘算法,来处理“消噪”后的数据,最终发现用户的访问模式。
2
.4学习调度系统模块
学习调度系统是根据个性分析处理中心处理后的个性参数来调度其它子系统,并选择合适的教学资源,并将页面反馈给用户以满足其需求;同时,把用户在子系统中的个性活动信息反馈给个性化分析中心,然后由个性分析中心进行再加工,来更新学习者特征库。
图1基于数据挖掘的网络教学决策支持平台模型
3基于数据挖掘的网络教学决策支持平台
笔者设计开发的基于数据挖掘技术的网络教学决策支持平台。平台的教学功能主要有:课程创建与管理、课程资源、互动评价、在线测试、作业和练习及学习记录跟踪分析等。该平台为教师、学生提供了强大的施教和学习的网上虚拟环境,成为师生沟通的桥梁。
3.1系统登录与注册
登陆平台的主要有三种身份:系统管理员、教师、学生。系统管理员:主要负责修改系统配置,维护课程,用户信息,可根据学校的根据实际情况设定、添加、管理用户。教师:管理教学、组织教学内容、编辑课件、在线考试、审批作业、组织在线答疑、统计分析学生学习情况等。学生:选修课程、安排学习计划、查看课程内容、提交作业、参加在线测试、查看学习成绩、协作学习和交流、参与学校社团交流等。
3.2课程管理
教学资源是网络教学平台中的重要部分,资源的种类以及展现方式,很大程度上决定了平台的质量。教师负责自己的课程内容的建设、开展教学。平台支持任何电子文档、Word、PowerPoint、图片、音频、视频等。
3.3作业管理
布置一个任务,学生可以上载合乎要求的文件。作业有三种类型:1)要求学生上载一个文件:教师布置作业,指明交作业的最后日期,然后学生提交一个文件,作业内容在这个文件中;2)离线项目,不提交文件;3)在线文本,这类作业让学生在线编辑文本提交。
3.4测试管理
测验模块允许教师设计、编制测验,包括选择题、是非题、匹配题和简答题,可以生成试题库,今后,教师出题测试就可以直接由题库产生,题目可以随机选题,随机排序,题库的建立,可以手工录入,也可以文件导入的方式进行。
3.5 BBS讨论
平台同时为用户提供BBS交流工具,增强学习效果。通过BBS讨论,可以实时或非实时与学生交流,打破了空间和时间的限制。
3.6数据挖掘功能
统计分析是数据挖掘最基本的技术,通过对采集并存储到数据库中的数据进行加工处理,提供图形化界面实现对学生在线学习行为的实时统计分析。我们的平台通过对Web服务器日志数据进行统计分析。
3.7对学生的学习过程进行评价
平台设置有全面的跟踪和日志功能,对每一个学生学习过程的每个细节、行为和操作,包括访问课程的次数、学习者参与的程度、停留的时间、参与讨论的情况等进行全程跟踪,从而实现对学生学习过程的评价。
4结束语
笔者开发的网络教学决策支持系统已经与计算机应用基础课程集成在一起,并在贵州电大的测试服务器上,通过对网络决策支持系统和电大在线的比较研究可以看出,网络决策支持系统平台的优点主要在于强调远程教育的网络学习过程;加强了教师与学生、学生与学生或学生与资源的互动;突出了网络学习的环境建设,加强了个性化学习的支持;优化了网站的结构。同时借助数据挖掘技术,对学生大量的评教数据进行处理,提高教学评价的效率,为教师和教学管理部门提供决策支持。
参考文献:
[1] Hand D,Maunila H.数据挖掘原理[M].张银奎,译.北京:机械工业出版社,2003.
[2]张峰.基于数据挖掘技术的教学管理应用研究[D].合肥:合肥工业大学,2011.
一、研究背景
对学习效率的研究是多学科、多领域的共同课题,近年来学者在管理学、心理学等领域对其进行了大量研究并取得一定的进展。但是国内外的研究多是从微观因素出发研究其对学习效率的影响,偏重于阐述,很少定量分析其对学习效率的影响。有的学者研究了大学生的角色认知与学习行为之间的关系,得出了“让大学生明白自己的角色地位和历史使命有助于其成长成才”的结论[1]。还有学者将影响学习效率的因素概括性的分为学习主体、学习对象、学习手段和学习环境,特别是对学习环境进行了详述,并提出了改进措施。然而外界客观环境对学习主体的影响毕竟有限。[2]我们面临的现实情况是:大学生对学习效率不满,虽然努力通过各种方式提高学习效率,但收效甚微。
为了全面分析学习效率影响因素,我们查阅了大量的资料并展开深入研讨,设计了内容合适的调查问卷,然后在国防科技大学的本科生群体中展开调查,对回收的问卷数字化处理,之后采用数据挖掘和系统工程方法进行研究。最终,对得出的结论使用社会科学方法开展进一步的研究和解释。
二、问卷调查以及数据预处理
(一)调查问卷
基于研究目的和现实情况,我们以国防科学技术大学学生作为调查对象,采用自填式调查问卷。调查问卷中的问题主要包括以下几个方面。
1.作为学习主体的学生的个人情况。包括学习态度、性格特点、健康状况。关于这方面的问题有“你认为这门功课是不是你所爱好的方向?”“如果今天感到身体不适,那你觉得影响你的学习没有?”“通常在表达一件事情上,我更看重:(A)说话给对方感受到的强烈印象;(B)说话表述的准确程度;(C)说话所能达到的最终目标;(D)说话后周围的人际感受是否舒服”等。这部分更主要的是一些心理测试题,以便准确分析出应答者的个人情况。
2.学习的对象,即所学习的专业课。专业课的性质、难易程度、任课教员等都会对学习过程产生影响。这部分问题设置有“这门课的考核形式(考试/论文/大作业/其他)”、“你喜欢教师的上课风格吗”等。
3.学习环境。主要包括对家庭环境、学校的自然环境以及学校的人文环境的相关调查。
4.学习手段。教师的教学方法、学生的学习方法对学习效率有着重要影响。这部分问题包括“你认为多媒体的应用作用怎么样(很大/比较大/一般/几乎没影响)”、“如果遇到比较难的问题,你向教师或同学寻求帮助吗(总是/经常/有时/很少/从不)”等。
问卷的所有题目均是选择题,选项3~5个不等,共69道题,分两次对同一批学生跟踪调查完成。总共发放350份调查问卷,有效回收调查问卷302份。
通过以上调查问卷内容的设计,利用回收的结果与学生的专业课成绩进行关联分析(数据挖掘),从而得到科学可靠的结论。
(二)调查数据的预处理
问卷预处理包括问卷数据化以及无效数据的甄别。利用Excel表格对回收的调查问卷结果进行汇总,在录入数据前先利用应答者的学号对每张问卷进行编号。在录入时我们将问题的选项分别用1、2、3、4、5替换,然后在这些选项前加上代表题号的数字,从而加以区别(比如:40题的第一个选项被记录为“401”),便于后续的统计分析和数据挖掘。每位学生的问卷结果记录为一列,这样该列就记录了该同学对所有问题的选择。
三、调查结果的数据挖掘
数据挖掘是通过分析大量数据来揭示有意义的新的关系趋势和模式的过程。本次研究的工作就是通过挖掘回收的大量数据得到有价值的结论。
四、挖掘结果的分析
1.关于学习主体的分析。通过研究成绩在80~90分的学生的问卷数据以及得到的有关关联规则(支持度为10,置信度为0.8)(成绩在90分以上的学生太少),发现有关联规则:[(1)对学习内容进行预习、复习比较少;(2)对于实现目标比较努力,态度不强烈,也不迷茫;(3)赞同这门课在上午1、2节上会让你有比较好的听课效果]==>[成绩在80~90分]
取得较高成绩的学生不经常复习和预习。这个结果似乎出人意料,因为我们一般有这样的印象:学习好的除了个别极聪明的(学得轻松),大部分都是非常刻苦学习的人。但是看他们后面的答题情况,问题就迎刃而解了。这部分同学中大多数人都认为自己比较努力,同时表示上午1、2节课的学习效率较高。可以看出他们能为了自己的目标而努力,也可以看出他们学习时的精神状态较好。当代大学生基本都是“春困秋V夏打盹”,在早上表现得尤为明显,晨间课提起精神比较难。而成绩好的那部分同学早上的学习效率很高,说明其每天的学习状态都不错,听课效率比一般人高,因此他们课下复习少却还能取得好成绩就不奇怪了。
2.关于学习客体的分析。通过研究成绩在80~90分的学生的问卷数据以及得到的关联规则(支持度为10,置信度为0.8)(成绩在90分以上的学生太少),发现关联规则:[认为教师上课速度较快,较难];[认为专业课有用]==>[成绩在80~90分]
学习不存在问题的同学认为课程进度较快,难度较大,学习过程中存在吃力的时候。这似乎与我们平时的观察不太一致,而且这不是个别现象。我们采访了部分同学之后发现,“认为专业课有用”的同学,都会相当认真地去完成课程任务,而且课程越是难度大,就越能激起学生的紧迫感,所以他们能取得好成绩就不足为奇了。
3.关于学习环境的分析。通过研究成绩在80~90分的学生的问卷数据以及得到的有关关联规则(支持度为10,置信度为0.8)(成绩在90分以上的学生太少),发现关联规则:[主要课余活动是社团活动],[课后完成作业时需要复习、查找相关资料],[感觉自己的学习投入时间与成绩不成比例]==>[成绩在80~90分]
成绩好的学生,通常会把一定的时间投入到各种社团活动中去,这势必会相应地减少学习时间,然而,学习时间的减少非但没有让他们学习退步,反而对学习有一定的促进作用。大学里,学生应以学业为主,但是学习并不是全部,在不荒废学业的情况下,参加社团活动,以及发展自己的兴趣爱好是必要的。特别是一些像电子、机械、计算机之类的社团,对于提升成绩更具有直接作用。
4.关于学习手段的分析。支持度为20,置信度为0.8的强关联规则:[上课时偶尔开小差,基本在学习]==>[课后完成作业时需要复习、查找相关资料]、[经常制订学习计划]==>[课后完成作业时需要复习、查找相关资料]
从上述的强关联规则可以看出,好习惯呈现“扎堆现象”,一般上课认真听讲的学生也会主动去制订自己的学习计划并且经常调整,大部分学生能够积极自主地完成作业,但这也反映出了大部分成绩较好的学生有比较类似的学习习惯。
五、结论
学生的投入与产出不成正比终究是态度出了问题。我们总结了成绩好的学生的共同特点:有目标、有紧迫感。而成绩不理想的学生通常没有合理分配自己的时间或者是没有找到自己合理的定位,造成“没玩好也没学好”。这足以说明学习态度的重要地位,其次才是学习方法和客观学习环境。
中图分类号:TP301文献标识码:A文章编号:1009-3044(2010)03-753-02
Undergraduate's Major Guidance System: Implementation of Decision Tree Algorithm
DUAN Ying-jie
(Changzhou Liu Guo-jun Vocational Technology College, Changzhou 213003, China)
Abstract: Data mining is a technology that finds information with potential value from a large number of data. The decision tree method is a kind of typical classification algorithm, that processes data, generates readable rules and a decision tree model, and then analyses new data following the decision tree model. As an instance, the process of developing undergraduates' major guidance system is introduced in this paper. The paper tells basic knowledge of concepts, contents, essence, and main methods of data mining, narrates in detail the method and implementation of decision tree algorithm by MATLAB 7.0, and analyses the decision tree model in this application.
Key words: data mining; classification; decision tree; undergraduates' major guidance
随着高校的成长和规模的扩大,在高校内都积累了大量的与学生资源相关的数据。在这些海量的数据的背后隐藏着许多重要的模式和知识。快速、准确、高效地将这些模式和知识挖掘出来,是高校提高学生资源管理水平和增强学校竞争力的一个重要手段。我们可以利用数据挖掘技术从海量数据中发现有价值的信息,帮助管理者通过对学生学习成绩的分析和研究,了解和掌握学生的学习情况、需求、能力等,及时调整学习计划,对学生专业方向选择做出预测性的指导,从而为制订人才需求规划、人才培养提供比较客观的决策支持。
1 决策树分类数据挖掘系统建立和应用的一个典型过程
决策树分类挖掘技术应用于大学生专业方向辅助指导中,可以通过对学生各科学习成绩信息的分析,预测该学生所属的专业类别,从而采取相应的教学计划,这样能够提高学校的教学水平,避免学生的流失;还可以通过最小的教师资源投入获得最大的收益。
下面,我们以计算机系为例,具体讨论一下计算机系的学生的具体专业方向。
计算机学科的专业方向具体可以划分为以下三个方面:
1) 计算机软件专业;
2) 计算机网络专业;
3) 计算机硬件专业。
决策树方法是利用信息论中的信息增益寻找数据库中具有最大信息量的属性字段,建立决策树的一个结点,再根据该属性字段的不同取值建立树的分支,并在每个分支子集中重复建立树的下层结点和分支的过程。在对学生进行专业分类分析的过程中,决策树分类数据挖掘系统建立和应用的一个典型过程是:
首先,根据学生的专业分类的标准,对学生所属的专业进行划分,这样,每个现有的学生都具有一个确定的专业类别。
其次,根据历史数据,主要是学生的各科学习成绩数据和学生的专业分类数据,执行决策树生成算法,生成一棵决策树。
最后,在以上过程执行完毕后,当一个新的学生信息数据进入时,管理者可以在系统中调用决策树模块,根据学生的具体信息数据来预测学生所属的专业类别。
2 系统实施的具体步骤
2.1 数据的收集和整理
数据的收集整理对于任何数据挖掘来说都是必不可少的,虽然对于不同的算法来说,收集数据的途径是差不多的,但是整理方式却大不一样。整个数据的收集和整理可以大体分为数据的选择,数据的预处理,数据的缩减三个步骤。数据挖掘的算法决定了整理的方式,整理结果形式上可以是一个表也可以是多个表,但最终要便于进行数据挖掘,内容上要与数据挖掘的目标一致,这是很明显的。数据库技术的广泛使用,使得现在大量的数据是使用表的形式存放的,因此数据的整理体现在对表中的数据进行处理。
首先,对训练表中的属性进行选择。根据在校学生各科的学习成绩信息,我们将基础课程和专业基础课程作为训练表中的非类别属性也就是条件属性,而将专业课程作为确定类别属性也就是分类属性的依据。如果非类别属性中存在重复属性则取平均值后保留为一个属性,并剔除了成绩表中与专业发展方向无显著相关性的属性如体育等课程属性。类别属性值通过将专业课程归类后取平均,再求得最大值后确定,即:对某一记录,硬件专业平均分为72,软件专业平均分为69,网络专业平均分为82,则该记录确定为网络专业,赋给属性的值为2。2代表网络专业,1代表软件专业,3代表硬件专业。
其次,对训练表中的每一列属性的值进行规范化和离散化处理。考虑到教师的评分标准存在普遍偏高或偏低的情况,我们利用下面公式进行数据规范化处理:
y=(100*(x-min))/(max-min)
x是表中原始数据,max是本属性列中属性值最大的值,min是本属性列中属性值最小的值,得到规范化后的数据y。再将数据y进行离散化处理。若y∈[0 ,20] 则 y=1,若y∈[21,40] 则y=2,若y∈[41,60] 则y=3,若y∈[61,80] 则y=4,若y∈[81,100] 则y=5。
经过上述的工作之后,整个表就只是包含了影响专业发展方向的关键因素的条件属性和分类属性。为了能在以后的工作中使用数据更方便,我们将分类属性提取出来,单独存放在一张表中。
2.2 选取训练实例集
我们从经过数据整理得到的样本数据中进行抽样,将抽样数据作为训练集输入。
2.3 采用“分裂的优良性度量”来产生决策树的每一级节点
使用“分裂的优良性度量”来选择每一级最佳分类字段,当出现以下三种情形之一时可以停止分类:
1) 一个结点上的数据都是属于同一类别;
2) 没有剩余属性可以再对数据样本进行分割;
3) 分枝没有训练样本。
3 决策树模型准确度分析
本挖掘系统主要是通过决策树ID3算法生成可读的规则和决策树模型,然后使用已经得到的决策树模型对预测集里的每一条记录,从树的根结点开始,向下找出该记录所属的类。因此,整个决策树挖掘子系统测试数据的准确度在很大程度上取决于已经建立的这个决策树模型。
通过测试,我们发现这个决策树模型的准确度较一般。
影响决策树模型准确度的因素有多方面,通过对本系统的决策树模型分析,我们可以发现目前存在于本挖掘系统中,影响模型准确度的一些主要因素:
3.1 挖掘库中数据记录的有限性
通过数据收集,我们得到以电子表格形式存储的数据记录为205条,经过数据整理之后,我们实际可以使用的数据记录为173条,由于在系统实现过程中,我们还需要预留一部分数据进行数据分析准确度测试,因此,在放入训练数据集进行决策树模型生成训练的实际数据记录为150条。而使用决策树ID3方法对于越大的数据库使用效果越好,由于本次数据挖掘使用的挖掘库中的数据记录存在有限性,使得对ID3方法的使用效果产生影响。
3.2 数据预处理工作
通过对已经生成的决策树模型的分析,我们发现在存放该模型的文件中出现了许多空训练样本集,尽管在程序设计的过程中已经使用语句if(~isempty(indices))和结束条件对训练集为空的例子进行控制,但是,还是出现了大量的空例子。分析产生这种情况的主要原因之一是在数据预处理的过程中,对数据的处理不当造成的。我们最初对数据进行离散化处理时,用1 表示[0,59]之间的分数,用2表示[60,69]之间的分数,用3表示[70,79]之间的分数,用4表示[80,89]之间的分数,用5表示[90,100]之间的分数,对于考察科目的优、良、中、及格和不及格,我们分别对应用5、4、3、2、1来表示。而在实际应用中,存在这样的情况:(1)由于教师的评分标准不同,导致学生的成绩数据普遍偏高或者偏低;(2)数据表中学生每门课程的属性值取值集中在{2,3,4},而对于属性值取值{1,5}的数据记录非常少。因此,我们在进行数据预处理工作的时候,应该考虑将1表示[0,69]之间的分数,用2表示[70,79]之间的分数,用3表示[80,100]之间的分数,对于考察科目的优、良、中、及格和不及格,也可以将等级为优与良的属性取值合并为3,等级为及格和不及格的属性值合并为1,分别对应用3、2、1来表示。
通过上述分析,我们找到了影响本挖掘系统建立的决策树模型准确度的一些主要因素。
中图分类号:G420文献标识码:A文章编号:1672-3791(2012)02(c)-0000-00
1 引言
随着计算机技术和信息技术的发展,以网络为载体、利用数字电子化方式开展的教学活动逐渐成为了目前最为重要的教学形式,这种教学形式的真正优势在于能为学习者个体提供个性化的学习安排,而这种个性化的教育服务也势必会进一步促进网络教学的发展。
2 Web数据挖掘
Web数据挖掘,是在Web环境下数据挖掘技术的应用,是从Web的超链接结构、网页内容和使用日志中提取有用的模式和隐含信息。Web上信息的表现具有多样性,这也就决定了Web挖掘任务同样也具有多样性。根据处理对象的不同,Web挖掘一般可以分为Web内容挖掘、Web结构挖掘和Web日志挖掘三类。本课题重点研究Web日志挖掘。
Web日志挖掘的主要任务是从Web的服务器日志中抽取有意义的信息和模式。Web日志挖掘处理的是在用户和网络交互的过程中抽取出来的第二手数据。这些数据包括网络服务器访问记录、服务器日志记录、浏览器日志记录、注册信息、用户对话等。对这些数据进行挖掘和分析可以帮助理解用户的行为,进而改进载体站点的结构或者为用户提供个性化的服务。那么在网络教学中应用Web日志挖掘就可以通过挖掘相应站点的日志文件获取学习者的访问内容、停留时间、访问频度等,从而发现其学习访问模式等有用信息,进一步提升整个网络教学的品质。
Web日志挖掘的研究围绕着分析Web站点性能、理解用户意图和改进Web站点设计三个应用方面进行,常用的技术主要有统计分析、关联规则分析、序列模式分析、聚类与分类分析等。Web日志挖掘一般分为数据预处理、模式发现和模式分析三个基本阶段。
2.1 数据预处理阶段
服务器端数据、客户端数据和服务器端数据收集都是Web日志挖掘的数据源。数据预处理阶段的主要任务是将各种数据源得到的使用信息、内容信息和结构信息转换成适合数据挖掘和模式发现所需要的数据模型。数据预处理是在将日志文件转化为数据库文件之后进行的,是为了得到可用于挖掘的可靠和精确的数据。这个过程一般分为数据清洗、用户识别、会话识别和路径补充4个步骤。
1)数据清洗是指删除日志文件中一些与挖掘任务无关的数据,包括删除、合并某些记录,处理用户请求访问失败的记录等内容。2)用户识别的主要任务是处理多个用户通过服务器或防火墙访问站点的情况,是将用户和请求页面相关联的过程。3)会话识别的任务就是把属于同一个用户的同一次访问请求识别出来,也就是将用户的访问记录划分成单个的会话。一般采用超时识别。4)路径补充就是根据引用日志和网络拓扑结构把访问日志中没有记录的用户补充到用户会话文件之中,确保获得用户完整的访问路径。
2.2 模式发现阶段
模式发现阶段是Web日志挖掘的核心部分。经过数据预处理之后,应用一种合理的挖掘算法或综合应用不同的算法,如关联规则分析、聚类和分类技术等,来处理“消噪”后的数据,最终发现用户的访问模式和规律。
2.3 模式分析阶段
Web日志挖掘的最后一步就是模式分析。通过模式挖掘之后,生成的规则数目庞大,表达晦涩,得不到很好的利用,这就需要对模式发现过程产生的规则和模式进行过滤,通过模式分析和应用技术处理之,选择用户易于理解和棘手的方式显示出来。常用技术有可视化技术、联机分析技术和智能查询机制等。
3 网络教学中的Web数据挖掘方法
3.1 关联分析
关联分析是寻找在同一个事件中出现的不同项的相关性。关联分析发现关联规则,运用在Web挖掘环境中的关联规则是指发现用户会话中经常被用户一起访问的页面集合,这些页面之间没有顺序关系。购物篮分析就是一个非常典型的关联规则应用,该应用通过发现顾客放入“购物篮”中不同商品之间的联系来分析顾客的购买习惯。在Web中,关联规则作为启发式规则,可以发现学习者对内容页面之间的访问关系,调整页面之间的结构关系,预测学习者可能访问的内容,使其最快捷地访问到感兴趣的内容。在网络教学中就可以利用关联分析寻找各门课程之间的内在联系,根据A课程与B课程在一起浏览的情况,推导出A和B在一起是起着积极作用还是负面影响,进而可以选定课程之间的关联,及时制定策略建立或删除A和B课程之间的关联。
3.2 分类分析
分类分析是预先定义好几个类,然后将数据项映射到某个类中去。在Web日志挖掘中使用分类能够将用户配置文件归属到特定的用户类别,建立数据各特定类别的用户概图。例如把学生的知识能力水平分成入门级、初级、中级和高级,利用分类技术将学习者投射到某一个级别中,为每个级别提供相应的个性化资源和学习支持服务,还可以用于远程协作的学习小组分配。可以利用有监督的归纳学习算法来实现这种分类。
3.3 聚类分析
分类与聚类是不同的两种方法,分类中的类及相关属性是预先定义好的,其目的是运用分类算法将没有划分类别的数据标记为特定的类标号;而聚类中的类别事先并没定义,其目的是将大量的个体数据,根据属性之间的相似性,将原始数据集合划分为若干个子集。在网络教学中聚类是一个重要的方面,它帮助网站设计人员从用户数据库中发现不同的用户群,并且用学习模式来刻画不同的用户群的特征。通过聚类分析可以帮助网站设计者更好地了解自己的用户,使教学活动能够在一定程度上满足学生的要求。
3.4 序列模式分析
序列模式指在事务之间寻找相应的时序关系,在时序数据集中发现在时间上具有先后顺序的数据项。根据序列模式的特点,利用序列模式分析技术我们可以对用户的浏览趋势进行分析,在网络教学中学生的课程学习是循序渐进的,且具有一定的关联和前后顺序,进行序列模式分析可以预测学生的未来访问模式,且有助于针对特定用户群安排特定内容,可以解决远程教育中针对各种层次学生进行因材施教的问题。
4 基于Web挖掘的个性化网络教学系统
网络教学作为一种基于Web的,以远程方式进行的教学活动,打破了过去教师、学生面对面、共集一堂的时间和空间的限制,使更多的人能够享受到有限的社会教育资源,而引入个性化后的网络教学将是一个智能化的系统,可以更多且及时地了解到学生的状况、需求、能力差异、学习进度、兴趣爱好,并动态地根据这些因素调整学习计划及进度,让学生得到针对其个性化的教育。
4.1 系统模型
基于Web挖掘的个性化网络教学系统设计思想是:通过获取学习者在Web上的个人信息、学习行为信息和Web日志数据,如访问频度、内容、访问时间长短及偏好,经过数据预处理、模式发现找出有用的规则和模式进行综合分析,结合教学资源知识库的信息,得出学习者学习过程的一般模式规律,对学习内容和进度进行自动组合,重构页面间链接,为学习者提供良好的个性化服务,使学习者更好地发展自我。根据上述的设计思想,提出一种基于Web日志挖掘的个性化远程教育系统模型,如图1所示。
4.2 系统结构
4.2.1 数据预处理模块
数据预处理模块负责对服务器端的访问日志进行预处理,以得到满足Web日志挖掘要求的事务数据。主要是根据挖掘任务进行数据清洗、用户识别、会话识别和事务识别。
1)数据清洗 数据清洗是整个预处理的基础,主要是将有噪声的、不一致的、冗余的数据从Web访问日志中清除或合并。可以采用纵向缩减和横向缩减进行清洗,例如当学习者对某个页面发出访问请求时,这个页面中的图形、脚本、图像等资源就会被自动下载,并写入日志数据中,但在网络教学网站中,只有包含教学内容的HTML文件与用户会话有关,而后缀名为.jpg,.gif和.jpeg的图片文件,后缀名为.wav的音频文件以及后缀名为.js和.cgi的脚本文件都属于噪声信息。这时我们就可以利用纵向缩减中的后缀过滤法进行数据清理。2) 用户识别 用户识别是为了得到同一用户访问的所有路径的集合。用户识别在对用户进行访问模式挖掘或聚类分析时尤为重要,因为群体是由个体组成的,只有对个体有了详细的认识才能清楚地识别群体特征。3)会话识别 一个会话是学习者从进入到离开网络教学站点这段时间内的一组网页访问,可以根据学习者登陆系统、完成学习、最后退出的过程来识别会话。Web日志中存储着大量的访问信息,时间跨度大,一名学习者可能在此期间多次访问了该站点,那么会话识别的意义就在于可以将不同时间段内的学习者访问区分开,将学习者多次访问的页面划分成多次用户会话。会话的划分有多种方法,有基于时间划分的,有基于站点拓扑结构划分的。而最为常用的方法就是通过设置一个用户在站点的持续时间或页面停留时间阈值来识别用户会话,如果请求时间超过阈值则认为新会话开始。4)路径补充:由于本地缓存和服务器缓存的存在,使得难以识别学习者访问的网页序列,而路径补充就是补全那些不完整的学习者访问序列。路径补充可以遵循一些原则,比如通过在网页的标志中设置过期时间,使得本地缓存失效,这样就可以保证Web日志记录中保存了用户的真实访问路径;还可以结合访问日志、引用日志、日志和网站拓扑结构来实现路径补充。在完成数据预处理之后会就能得到网络教学系统中的Web访问事务数据库,学习者对网络教学站点的访问情况都将存储在Web访问事务数据库中,每一个事务是一组内容页面的集合,代表着学习者一次有意义的访问。
4.2.2 Web挖掘引擎模块
在Web事务库中已经存储了数据预处理的结果,下一步就可以离线利用统计分析和聚类方法进行Web事务库挖掘。
1)统计分析 统计分析是Web挖掘中最基本的方法,也是分析用户行为最常用的方法。通过记录学习者经常访问的URL,跟踪统计学生访问次数、总停留时间、该学习者的课程数、计算学习者对哪些课程停留时间较长等,得到学习者的学习特征风格,建立和完善学习者学习模型,建立学习者个性数据库,为不同的学习者提供合适的学习策略提供帮助。2)聚类分析 将物理或者抽象对象的集合分组成为类似的对象组成的多个类的过程称为聚类,其目标就是在相似的基础上收集数据来分类。聚类分析不需要预先定义类的特点或属性,而是从用户的访问行为中发现潜在性的知识,从而能更好地体现智能性。页面(资源)聚类和学生聚类是实现个性化网络教学最为重要的两种方法。如果通过聚类发现若干个网页属于同一网页(资源)聚类,当学生访问其中一页(资源)时,可推荐类中其它页面(资源)。当学习者具有相似的学习习惯或学习兴趣时,可以利用学生聚类法对他们提供相同的个性化服务。
4.2.3 知识库应用模块
应用统计分析、关联规则分析、分类和聚类技术和序列模式等挖掘算法对Web事务库进行了挖掘和分析,其结果存放在知识库中,此时网站设计者可利用知识库中的信息和模式为学习者提供合适的学习策略和学习建议,进一步改进网站结构,实现真正意义上的个性化信息服务。
5 结 语
Internet技术的发展和网络的普及扩展了数据挖掘的应用范围,利用Web数据挖掘技术对网络教学网站上的各种数据源进行挖掘,把握用户的兴趣,有助于开展网站信息推送服务以及个人信息的定制服务。
参考文献
[1] 冯春辉.Web日志挖掘在网络教学中的应用研究.计算机技术与发展,2010,6.
[2] ,丁华福,姜伦.Web日志挖掘中数据预处理技术的研究.计算机技术与发展,2010,5.
[3] 李中,苑津莎,徐小彩.基于Web日志挖掘的客户访问兴趣分析.华北电力大学学报,2009,5.
[4] 苏新宁,杨建林,等.数据仓库和数据挖掘.清华大学出版社,2006,4.
[5] 李燕风.Web访问信息挖掘系统.计算机工程,2003,29(15).
[6] 张娥.Web使用模式研究中的数据挖掘.计算机应用研究,2000,3.
[7] 韩晓红.网络教学的特点与模式[J]. 甘肃高师学报. 2004(02).
1、引言
随着互联网应用技术的深入发展,人们对于各种网络应用的需求正在急剧增加,同时各类网络服务的竞争也日益加剧。如何为用户提供更好的服务,是当今网络应用服务商们所急需解决的问题。基于这种需求,个性化的Web服务研究正成为目前的一个研究热点。
远程教育以其便利、快捷、随意的时间安排和廉价的收费正逐渐成为人们接受教育的一种新兴的途径,远程教育作为一种学习手段,适用于高等教育、职业教育和成人教育。其教育对象存在着极大的差异性,主要体现在:个人学习目标的不同、学习能力的不同、认知风格不同。所以就需要针对性的提供差异性的教学内容和教学安排。而在现代远程教育模式下,学生学习的过程就是在远程教育网站页面中跳转活动的过程,他们的每个活动都是以教育网站上的一个页面对象的点击操作,这些点击操作都能被完整地记录在系统日志中,通过对日志的分析挖掘,一方面可以找出学生行为模式;另一方面,可以分析出远程教育网站的结构组织是不是符合学生和教师学习和教学的规律。所以,将Web挖掘运用于远程教育系统中,使之量身定做地为每个个体提供个性化的学习方案,从而进一步指导网站建设,是远程教育获得进一步发展的一个重要手段.
2.远程教育与WebMining
2.1远程教育
现代远程教育是当代社会经济和科技发展到一定程度以后所出现的一种新的远程教育模式。它是在计算机和网络、卫星系统的支持下,实现异地同步的图像、声音以及教学双方的交流互动教学对传统的教育模式带来了一场全新的革命,其显著特点是:
1)完全动态:各种学习资源是动态的,能够采用多种交互方式进行上下传,最新的教学信息也可以及时地反映到网上;
2)实时交互:能与教师、专家进行即时交流;
3)易于协作:学习者能够按照某种划分方式组成各种类型的小组,相互协作完成一定的课题项目,而且能够在需要的时候得到教师、专家的帮助;
4)适应性学习方式:学习者可以根据个人的程度和喜好按排制定自己的学习计划,教学内容能根据其选择动态构建;
5)新颖全面:学校提供了丰富的而且不断更新升级的学习资源,学生能够很方便取得最好最新的学习资源,并以自己喜欢的格式展现出来。
这些特点反映了这样一个趋势,学习者不再是被动的接收教师的知识,他会主动去获取相关信息其自主能力越来越强,由此对远程教育系统提出了越来越高的要求,远程教育系统应该也是一个能够根据学习者行为信息不断学习变化的系统,于是如何能够从众多的访问者的大量访问记录中提取其行为信息来指导系统,从而提供更加完善服务就成为我们必须考虑的问题。
2.2WebMining
Internet的蓬勃发展使WebMining成为一个热点。WebMining就是针对包括Web页面内容、页面之间的结构、用户访问信息等在内的各种Web数据,应用数据挖掘方法提取抽象的、潜在的、有用的知识。Web站点中主要有三类数据:内容数据、结构数据、使用数据。同时WebMining是指在WWW上挖掘有趣的、潜在的、有用的模式和信息的过程。也分成三类:WebContentMining、WebStructureMining、WebUsageMining。
WebContentMining是对Web页面内容进行挖掘,从Web数据中发现信息。尽管人们可以直接从网上通过抓取建立索引,实现检索服务来获得资源,但是大量的“隐藏”信息只能通过内容挖掘来自动挖掘。
WebStructureMining是对Web页面之间的结构进行挖掘。在整个Web空间,有用的知识不仅包含在页面的内容中,而且也包含在页面的结构中。Web结构挖掘主要针对的就是页面的超链接结构,如果有较多的超链接指向它,那么该页面就是重要的,发现的这种知识可用来改进搜索路径等。
WebContentMining和WebStructureMining的对象都是网络上的原始数据,而WebUsageMining不同于它们。它面对的是用户和网络交互过程中抽取出来的二手数据,这些数据主要是用户在访问Web时在Web日志(logs)里留下的信息,以及其它一些交互信息,包括:访问日期、时间、用户IP地址、服务器IP地址、方法、所请求URL资源、服务器响应状态、用户、发送字节等。WebUsageMining就是对ServerLogs、ErrorLogs、CookieLogs等日志信息,以及用户的注册数据等进行挖掘,以发现有用信息,并对学生访问留下的日志文件进行分析提取,获得关于学生学习的信息,作为对学生提供教学服务的依据。
学生在访问网站时会留下许多信息。WebUsageMining技术能对这些信息进行挖掘,并利用这些信息建立起一个智能化的、个性化的远程教育系统。这个系统通过对学习者学习行为的分析和研究,了解和掌握学生学习的情况、需求、能力、进度、兴趣等,及时调整学习计划,呈现符合个性的学习资源,使得每一个学生身边仿佛有了能针对自身特点进行教学的“老师”而获得个性化的教学服务
Web使用记录挖掘的主要目标则是从Web网站的访问日志记录中获取感兴趣的模式,每个Web服务器都能有访问日志文件,它记录了访问者的访问和交互的信息。通过分析这些数据可以帮助网站管理者理解用户的行为和Web结构,从而改进站点的设计。
3、WebUsageMining技术
个性化的远程教育系统有许多可实现的方案和技术,基于WebMining系统的数据输入一般有系统日志文件、用户与系统交互数据(如学生注册信息、考试成绩等),但WebUsageMining技术主要用于对系统日志信息的挖掘。虽然WebUsageMining在具体实现时采用的结构和技术各不相同,但其主要过程都包括预处理、模式发现和模式分析。
3.1.预处理
预处理是Web挖掘中最关键的一个环节,其质量关系到使用挖掘过程和模式分析过程的质量。预处理包括数据清洗、用户识别、会话识别、路径补充和事件识别。
数据清洗其目的在于把日志文件中一些与数据分析、挖掘无关的项清除掉,如剔除CS-Uri-Stem项。还可剔除用户请求访问失败的记录,及用户请求方法中不是GET的记录。
用户识别这是预处理的第二步,因为日志文件只是记录了主机或服务器的IP地址,而要识别每一个用户,则可采用Cookie技术和用一些启发规则来帮助识别。
会话识别在时间区段较大的Web服务器日志中,用户有可能多次访问该站点。会话识别的目的就是将用户的访问记录划分成单个的会话。一般采用超时识别,如果用户请求的页面之间的时间超过一定间隔,则认为用户开始了一个新的会话。
路径补充确认Web日志中是否有重要的页面访问记录被遗漏,这个问题的产生是由于Cache的存在所致。路径补充的任务就是将这些遗漏的请求补充到用户会话文件之中,也可以根据引用日志和网络拓扑结构提供的信息把路径补充完整。
事件识别事件识别是与要挖掘什么样的知识有关,将用户会话针对挖掘活动的特定需要进行事件定义。识别事件的方法有二:一个是ReferenceLength,一个是MaximalForwardReference。
3.2.模式发现(挖掘算法)
这个过程主要用一些挖掘算法来挖掘出规则、模式等。WebUsageMining中用到的Web日志分析及用户行为模式的挖掘方法,主要用了统计分析、关联规则、分类、聚类、序列模式等技术。
统计分析是分析用户行为最常用的方法。通过求出现率、求平均、求中值等,统计最常访问的网页,每页平均访问的时间,浏览路径的平均长度等,以获得用户访问站点的基本信息。除此,还能提供有限的低层次的错误分析,比如检测未授权入口点,找出最常见不变的URL等。在远程教育系统中,可以分析该学生的访问次数,总停留时间;该学生访问的课程数;该学生对哪些课程停留时间较长等,还可统计网站某个时间段内访问的次数,访问次数最多的URL地址等。
关联规则是通过分析用户访问网页间的潜在联系而归纳出的一种规则。关联规则是如下的一种形式规则,如80%的用户访问Web页面/company/product1时,也访问了/company/product2,即只要访问页面A就有可能访问B(或C……),在WebUsageMining中,人们经常使用的就是Apriori算法或其变形算法。在远程教育系统中,关联规则可发现用户会话中经常被学生一起访问的页面集,这些页面之间并没有顺序关系,我们可以根据这些学生群的相同兴趣进行教学安排。同时,关联规则还可作为启发规则为远程学生预取可能请求的页面,以减少等待时间,建立起一个方便有效的学习环境。
聚类是把一组组个体按照相似性归并成若干类别。在WebUsageMining领域包含着两种聚类,即用户聚类和页聚类。“页聚类”将内容相关的页面归在一个网页组,对网上搜索引擎及提供上网帮助很有用;“用户聚类”是将具有相似访问特性的用户归在一起,在电子商务的市场分割和为用户提供个性化服务中,能发挥巨大作用。
分类即将一组组个体分门别类的归入预先设定好的几个类中。在WebUsageMining领域,分类主要在于发展属于特定类的用户模型。它要求抽取出最能反映一个给定类的特性,通过诱导学习机制和分类的过程,并通过用户归入某一特定类,以对同一类别中的用户提供相似的。分类的服务方法有:决策树、贝叶斯算法、K近邻分类器等。
在远程教学中,可通过学生填写的个人信息及学生访问行为模式的分析,用分类或聚类方法划分相似学生群体或个体,以提供相似或个性化的教学。远程教育中的协作性学习也非常重要。根据关联、分类分析,准确划分目标群体,为小组分类提供可能性和依据。小组学习也是为学生个性化服务的最好模式之一。
序列模式试图找出页面依照时间顺序出现的内在模式。如访问Web页面/company/products的客户中,有30%的人曾在过去的一星期里用关键字M在Yahoo上做过查询。序列模式可以用来做用户的浏览趋势分析,即一组数据项之后出现另一组数据项,从而形成一组按时间排序的会话,以预测未来的访问模式,这将有助于针对特别用户群安排特定内容。通过序列模式研究,可以解决远程教育中针对各种层次学生进行因材施教的问题。
3.3.模式分析
模式分析是WebUsageMining中最后一项重要步骤。其通过选择和观察把发现的规则、模式和统计值转换为知识,再经过模式分析得到有价值的模式,即我们感兴趣的规则、模式,采用可视化技术,以图形界面的方式提供给使用者。
在个性化的远程教育系统中,除了对日志文件的挖掘,还要对用户与站点的交互数据库、课件树、站点文件等进行挖掘,对学生作业与考试的完成过程与结果及提问、答疑情况进行分析,进行全方位的个性化教学服务。
4.个性化服务
随着因特网的发展和普及,越来越多的用户利用搜索引擎来搜索网上信息。尽管搜索引擎的发展已较成熟,但人们在使用中却发现要准确、快速地查找自己所需的信息是越来越困难。主要原因有两个:a一次搜索的检索结果(一系列URL地址)可能有成千上万条,而在这过于庞大的信息群中,有用信息只是其中的一小部分,并且常常发生收到或下载的信息难以消化的情况,即所谓的“认知过载”。b.目前的搜索引擎都是服务器端软件,用户需要严格按照各种引擎所要求的格式输入查询词,但种种限制使用户不知道如何贴切地表达自己的信息需求,也不知道如何更准确地寻找所需信息,即所谓的“迷航”。面对网络信息服务的现状,人们在寻求一种将信息用户感兴趣的信息主动推荐给用户的服务方式,这便是个性化信息服务。个性化信息服务是在对用户及其需求了解的情况下,即通过用户研究,从数量庞大、增长迅速、类型复杂的网络信息中提取出用户真正需要的那一小部分提交给用户,是以“用户为中心”的服务原则在网络环境下的具体体现。
5个性化的远程学习框架
5.1个性化的远程学习系统
实现个性化的远程学习系统的关键就是在学习的各个阶段对个体进行差异化的分析和处理。首先需要对参加学习的个体情况进行分类以安排相应的教学内容和进程;其次在学习的过程中,知识表示的内容需要根据对学习者的个性要求具有不同的形式;最后就是要对每一个阶段的学习进行相应的评估和反馈。
个性化的远程学习系统设计的基本思路是对每一个主题知识的学习,分别提供初、中、高三个不同类别的学习方案。通过使用SLIQ算法进行用户分类,将学习者按学习能力分成不同的类别,类别会随个体的学习情况进行调整,分类的依据是用户的个人数据和学习情况历史。
5.2用户分类
不同的个体其背景各不相同,如个人的学习能力、兴趣与学习习惯、原来基础、努力程度,都存在巨大的差异。因此需要区分用户群体,以便系统作出个性化的学习安排。对于每一个用户都有很多属性,有些显然并不对个人的学习能力构成影响,比如地址、电子邮件等。有些是和学习能力密切相关的,比如学历、职业、年龄和学习情况。
当用户第一次注册时,需要填写有关个人信息,系统通过SLIQ算法得到的用户类别信息将用户归入相应类别。用户所属类别会根据用户个人信息的修改和其学习情况的改变而更改,比如某用户原先的学习能力为“低”,经过一段时间的远程课程学习以后,其学习能力提高为“中”,此用户的类别将被重新计算,这样该用户的学习等级就可能会被提升。
显然由于用户的个人资料会随时间而发生更改,而且用户的学习能力也会发生变化,所以挖掘过程需要定期进行以保持结果的正确性。
5.3个性化的学习知识库
学习知识库按相应的主题组织学习素材,把一个主题组织成围绕问题和答案的一系列知识单元来进行,对应每个主题分解成若干知识单元。知识单元之间相互是有联系的,联系有可能是错综复杂的,简单的联系可以是前序知识或后继知识等;同时知识单元的掌握程度是由一组问题答案集来作为评估学生学习的效果,评估效果可以由评估模块来测定,比如对这一单元知识是全部掌握、部分掌握、少量掌握还是没有掌握;另外特定的知识单元对应于不同水平的知识表示,以适合具有不同类别的学生学习。
5.4个性化的知识表示
知识表示是系统提供给不同类别的学生学习的课程知识界面,是预先准备好的适合不同程度的学生学习的不同详细程度的学习材料。
知识表示的示意如图1:
知识表示可依据学生水平、背景的不同体现不同的层次:如简单扼要的表示;带相应解释、说明和示例的表示;配有详尽解释和大量参考链接的表示。通过提供不同层次的知识表示以适合学生的个体差异。当然,不同的表示对应的是同一个知识点的学习,所以对应的问题集和期望的答案应是一致的。
当学生进入某个主题知识的学习时,一个知识单元呈现内嵌的知识给用户,记录他的反应,更新其掌握水平,产生下一个知识表示,当要求的掌握水平被达到了,则可转入流程到另一个单元;如果没有达到,则根据具体的掌握程度,或返回其前序知识的学习或提供更详尽程度知识表示页面的学习。因此学生的学习是根据其自身的基础和掌握知识的快迈程度的不同而不同的。
6.个性化远程教育系统实例
整个解决方案共分三大部分:第一部分是系统的总体结构;第二部分是系统的基本组成及工作流程;第三部分是实施和个性化服务支持。
1.基于Web的数据库远程教育管理系统的总体结构
根据远程教育的实际需求和发展趋势,提出基于Web的数据库远程教育管理系统的总体结构如图2所示.该数据库管理系统包括以下部分:
(1)Web浏览器,它是客户端用于输入查询条件和显示查询结果的交互界面;
(2)Web服务器,它提供Internet服务,管理HTML构成的信息并提供对数据库的存取接口以及用于接收用户输入的信息及形成查询结果;
(3)TCP/IP(TransmissionControlProtocol/InternetProtocol),用于实现Web浏览器
图2基于Web的数据库远程教育管理系统总体结构框图
与Web服务器之间的网络信息交换;
(4)CGI(CommonGatewayInterface),它是Web服务器运行外部程序的一种规范;
(5)数据库服务器,用于实现课件的存储和数据库管理功能以及身份验证、计费等,并提供分布式数据库的搜索路径和搜索规则,以有利于网络资源共享和利用.
2.数据库远程教育管理系统的基本组成及工作流程
数据库远程教育管理系统的基本组成按功能可以大致分成如下几部分:
(1)课件基本信息表
(2)课件存储对应表
(3)课件读取权限表
(4)课件计费表
(5)课件自测结果表
以课件基本信息表为例,其中包含的条目有:
课件编号、课件名称、课程介绍、主讲教师、开课单位、课程分类、浏览方式、计费方法、可否下载等主要内容,其它各表也均包含与自功能有关的项目,在此不一一列出.
对于某一访问者,其简单工作流程如图3所示.
图3访问数据库管理系统工作流程
3、设计说明核心功能的特点:
以知识点为核心组织网络教学:以知识点为核心组织网络教学突破了传统教学以章节为主线的教学方式,有利于教师准确评估自己的教学效果,有利于学生对知识的准确把握,有利于网络教材的编写制作,同时为建立智能化的学习跟踪、智能答疑提供了基础。
自适应的学习机制:根据学生浏览课件的情况,比如哪种知识点看到多少,页面浏览时间长短,就可以判断出学生背景知识水平,知识点的掌握情况,个人的学习能力强弱。根据这些判断的结果动态调整教学资源链接,提供最适合个人的学习资源,达到最佳的教学效果。同时为学生提供方便的个人资源管理工具,使学生能够根据自己的需要组织自己的学习资源,与教师提供的资源形成互补,激发学生自主学习的兴趣,发挥网络教学的优势。
智能答疑系统:系统可以方便快捷地解答学生的问题,同时结合知识点的结构分析学生问题的分布情况,指导教师采取进一步的辅导措施。教师可以根据自身教学的情况调整知识点的结构。
对象的行为跟踪:教师通过查看学生的在线学习记录,能够了解到学生的学习情况,比如学生的自测情况,学生实验的完成情况,作业、测试成绩等,使教师可以方便准确的评估自己的教学效果。教师还可以根据学习跟踪掌握学生在线行为,引导学生正确合理利用网络教学资源。教务人员也可以通过该系统了解教师的教学情况,评估教学质量。
学生自我测评:学生可以随时向系统发出申请,系统根据学生申请的难度要求和学生学习的范围生成相应的试卷。学生完成试卷后系统自动批阅试卷并将批阅结果返回给学生,使学生能够看到哪些知识点存在不足,以便在后续的学习过程中作相应的调整。
远程考试系统:教师可以选择人工或智能组卷方式,生成试卷对学生进行在线考试或测验。学生的考卷经系统自动评分后存入成绩库,教师可按需要获得各类统计分析信息。
先进的网络教学管理系统:以教学服务管理为核心功能,同时提供教学分析和电子结算功能。模块化设计便于不同部门构架适于自己的管理系统,通用标准数据交互为校际管理提供透明交互操作,教学行为分析与数据挖掘为网络教学调整管理提供反馈数据。
7、总结:
从发展来看,利用计算机互连网开展远程教育是必然趋势,本文通过对Web日志的分析挖掘和对不同的用户进行分类并提供相应的知识界面,采用数据挖掘技术,在大量的教学信息的基础上,利用数据分析和挖掘工具,开发教育行为分析工具,指导学生学习和教师教学,提出了一个远程个性化学习的框架模型。个性化学习的服务体现在学习知识库的构建、个性化学习资料的呈现和学习进程的安排上。远程教育的真正优势在于提供符合用户个体的个性化的学习安排,个性化的教育服务势必会促进远程教育的进一步发展,从而提供给用户更加满意的服务,可以相信,其应用前景极为广阔.
【参考文献】
1教育部文件.现代远程教育工程教育资源开发标准.1999.10
2韩家炜,孟小峰,王静,李盛恩.Web挖掘研究.计算机研究与发展.2001.4:405~414
3朱明.数据挖掘.合肥:中国科技大学出版社,2002.5
4汪启军,申瑞民.基于Web的远程教育系统模型的研究.计算机工程.2000.12:157~159
5施建生.伍卫国.Web日志中挖掘用户浏览模式的研究,西安交通大学学报.2001.35(6)621~624
6宋擒豹,沈钧毅.Web日志的高效多能挖掘算法.计算机与发展.2001.3:328-333
7朱晓云.WEB数据与个性化服务中应用研究.情报杂志.2004.2
8李泽文基于WEB数据挖掘技术.现代计算机.2004.7
9童恒庆,梅清WEB日志挖掘数据预处理研究.现代计算机.2004.3
10谢维奇基于“电大在线”远程教学平台的WEB数据挖掘.教育信息化2004.10
11高岩胡静涛WEB数据挖掘的原理、方法及用途2002.7
12陈恩红等Web使用挖掘:从Web数据中发现用户使用模式计算机科学.2001.5