欢迎访问发表云网!为您提供杂志订阅、期刊咨询服务!

大数据分析论文大全11篇

时间:2022-08-23 02:22:39

绪论:写作既是个人情感的抒发,也是对学术真理的探索,欢迎阅读由发表云整理的11篇大数据分析论文范文,希望它们能为您的写作提供参考和启发。

大数据分析论文

篇(1)

1.1反射率分析模块

反射率的大小体现了气象目标的降水粒子的密度分布及体积大小,在实际气象技术中长期用于表示气象目标的强度,在工作上采用dBZ单位表示。对于空管气象雷达图,数据显示采用PPI(PlanPositionImage)显示方式。该方式决定了一张气象雷达图由圆锥俯视平面上分析空间的回波构成。在设计上简单介绍其设计流程,首先必须读取原始数据,并判断是否首次读取,若为首次读取则对其进行预处理,否则进行坐标转换;其次进行图像绘制并判断是否需要改变仰角。此处需要关注的关键是如何进行数据的预处理。在实现上,对接收的数据进行反射率信息结构体赋值。当然该结构体包括了记录实际仰角角度、数据文件路径存储、雷达波段判断以及相关数据的偏移。通过扫描上述结构体可以实现对雷达数据的预处理。

1.2速度分析模块

多普勒雷达采用了速度退化模糊技术以扩大其对径向风速测量不模糊的区间。结构设计主要考虑数据显示的径向方式,流程设计则与反射模块类似。当然在界面设计上,系统将提供对颜色配置的定义,使其人机交互更为快捷。

1.3天线稳定性分析模块

天线是雷达数据采集的关键部位,长期以来是影响雷达运行的主要关键点之一。其依赖于底下的电机进行旋转,目前大多数进口电机可以保证24小时安全运行。而运行时仰角提升和转速的平稳性直接影响雷达数据的采集。为此,我们通过在径向数据上采用方位角及仰角进行扫描实现曲线图监控。通过选择基数据再进行预处理后绘制相关曲线实现对天线运行状态的评估。其中,曲线图的绘制需要的参数为:纵坐标为气象雷达实际运行的每层仰角均值;横坐标为范围角:0-360°。

1.4雷达组网分析模块

按照民航局的总体规划,未来空管将实现多气象雷达覆盖,在这过程,多个气象雷达的组网将成为气象雷达数据的主要来源。这种模式将使得数据覆盖面更大、数据安全性更高、数据准确性更强。而与此同时带来了雷达数据融合组网的技术难点。设计上,首先模块将定义雷达站点配置信息,并与此同时提供组网雷达可选数据;其次对选择雷达数据进行数据预处理;再之则对雷达数据进行统计平均并做坐标转换;最后进行拼图处理。在这过程中,需要对雷达数据的强度进行自适应调整、显示范围自适应调整。与上述同理,系统核心在于预处理。在C#中定义List数据列表,并在定义其结构为[站点标示][距离][方位角],对于数据读取时,需要进行插值算法处理,此时的单时数据拼接分析可以实现不同仰角和方位角的筛选。为了控制系统数据的准确性可以在前端定义雷达数据方位角表,根据表进行映射处理。通常如若出现非连续数据可以在预处理上对其进行差值补偿。在C#上可以采用反差圆补偿方法。

篇(2)

关键词:高校 图书馆 大数据研究 热点可视化

中图分类号:G250 文献标识码:A 文章编号:1672-3791(2016)07(a)-0019-02

大数据是继Web2.0和云计算之后的又一个热门词汇,作为高校的文献信息资源服务机构,高校图书馆拥有大量数据,而大数据在高校图书馆服务的各个方面都有广泛应用[1]。维克托・迈尔・舍恩伯格和肯尼斯・克耶在其编写的《大数据时代》中提出:“大数据”具有4V特点:Volume(数据量大)、Velocity(输入和处理速度快)、Variety(数据多样性)、Value(价值密度低),大数据的这4个特点得到了学者们的普遍认可。大数据背景下,数据量的急剧增长、信息技术的飞速变革都为高校图书馆的发展带来了新的契机,推动了信息服务的升级,也为高校图书馆的研究带来新的视角。数字时代,高校图书馆对数据的处理主要是将纸质文献资料数字化、网络化,信息服务的目的是实现师生对学术数据的充分利用,进入大数据时代,对海量文献数据的分析、处理将成为高校图书馆发展的新趋势,高校图书馆的信息服务重心也会逐步由传统的业务向深层次的数据挖掘服务转移[2]。在这一大趋势下,对大数据背景下高校图书馆研究热点的可视化分析,有助于学者们把握高校图书馆当前的研究热点和发展趋势。

1 数据来源

以中知网及万方数据平台为主要数据库检索对象,检索时间截至2016年7月15日。检索方法一:以“高校图书馆”和“大数据”作为并列主题检索词进行精确检索,不限发表时间及文献类型,共得到488篇相关文献。其中,期刊402篇、会议论文17篇、学位论文9篇,以“高校图书馆”作为检索关键词的文献有303篇。检索方法二:以“高校图书馆”和“大数据”作为并列题名检索词进行精确检索,不限发表时间及文献类型,共得到263篇相关文献,其中,期刊224篇,以“高校图书馆”作为检索关键词的文献189篇。综合以上两种方法对检索结果进行可视化分析,提高查全率和查准率。

2 研究热点及趋势分析

大数据时代,数据将成为图书馆最重要的资产之一[3],高校图书馆的服务不再局限于提供简单的文献和信息服务,而是更加注重运用大数据技术挖掘文献和信息中所包含的数据和知识内容,挖掘隐形知识,为教学和科学研究创新服务。对于大数据背景下高校图书馆研究热点的分析,可以从研究热点领域、研究热点期刊分布和研究基金分布三大方面进行。

2.1 研究热点领域分析

统计结果表明:学者们对于大数据背景下高校图书馆的相关研究在2013年开始呈现逐年增长的趋势,相关知识点如图1所示,圆形大小表示相关研究领域的研究热度高低。

自2013年至今,学者们对于大数据背景下高校图书馆的研究热点领域主要集中在信息服务、知识服务、服务创新、学科服务、数据挖掘方面,对于云计算、信息资源、数字图书馆、数据分析等方面也有涉及。在近两年的研究中,除了一直热度不减的信息服务、知识服务、学科服务问题之外,更加侧重对个性化服务、数据分析的研究。在系统构建方面的研究在近两年兴起,高校图书馆更加关注其自身生态系统的运行问题,学者们也在尝试运用生态学、系统学等多学科方法来进行大数据背景下的高校图书馆研究。研究领域的变化说明了学者们对这一研究主题从理论研究向更加深入的技术性研究靠近。

2.2 研究热点期刊分布

2.2.1 刊种统计

对于大数据背景下高校图书馆的研究,发文最多的期刊前六名依次是农业图书情报学刊、图书馆学刊、科技情报开发与经济、河南图书馆学刊、内蒙古科技与经济、现代情报,其总计刊文量占全部刊种的53.52%。各个期刊对此主题的刊文,反应出大数据背景下高校图书馆问题研究受到学者们的普遍重视。

2.2.2 核心期刊统计

刊文在核心期刊的数量统计分别为:(1)中文核心期刊55篇(59.1%)。(2)CSSCI中文社科引文索引(南大)32篇(34.41%)。(3)统计源期刊(中信所)4篇(4.3%)。(4)CSCD中国科学引文库(中科院)2篇(2.15%)。核心期刊的刊文反应出该主题成为学者们的重点关注领域,在大数据背景下高校图书馆方面的研究成果较深入。

2.3 研究基金统计

近年来大数据背景下的高校图书馆的相关研究基金项目共计38项,其中32项是2015年至今的基金项目。包含省市基金项目21项,占总基金项目的55.2%,国家社科基金项目8项,国家教育基金项目5项,国家自然科学基金项目1项,其他基金项目3项。基金项目立项的数量反映了该主题的研究热度和深度都在不断增加。

3 结语

目前,学者们对于大数据背景下高校图书馆的相关研究正处于高速发展的探索阶段,对于如何利用大数据技术来提升高校图书馆信息服务的研究越来越深入。研究热点不仅局限于信息服务、知识服务和学科服务方面,还涉及数字图书馆、学科馆员、系统构建等多领域,研究更加侧重对个性化服务、数据分析的研究,高校图书馆作为服务教学、服务科研的文献信息资源服务机构,深化基于大数据的相关服务是其未来发展的方向。

由于该文对大数据背景下高校图书馆的热点分析主要是基于“大数据”和“高校图书馆”两个关键词构成的检索式,在文献的查全率方面,漏查了只是应用具体的方法进行高校图书馆数据分析的个别文献,在相关文献检索中,有个别文献是应用具体的数据分析工具进行高校图书馆数据分析挖掘。这类数据分析工具的应用,更加印证了数据分析方面的研究呈现增长的趋势。

参考文献

篇(3)

基金项目:华北理工大学研究生教育教学改革项目资助(项目编号:K1503)

基金项目:华北理工大学教育教学改革研究与实践重点项目资助(项目编号:Z1514-05;J 1509-09)

G643;O21-4

谷歌公司的经济学家兼加州大学的教授哈尔・范里安先生过去说过统计学家将会成为像电脑工程师一样受欢迎的工作。在未来10年里,人们获得数据、处理数据、分析数据、判断数据、提取信息的能力将变得非常重要,不仅仅在教育领域,各行各业都需要数据专家,“大数据”时代的到来使得数据处理与分析技术日新月异,深刻的影响着各个行业、领域及学科的发展,尤其是与数据关系密切的行业及学科,而作为工科各专业硕士研究生重要的公共基础课数理统计学是天生与数据打交道的学科。

怎样在“大数据”时代背景下培养出适应面向企业自主创新需求的数据分析人员或掌握现代数据处理技术的工程师,如何把当下流行的“大数据”处理技术与相关数理统计学课程教学有机的结合,以激发学生对数据处理与分析技术发展的兴趣,这些都是我们在与数理统计学相关的课程教学中不得不思考的问题。然而,当前高校工科各专业硕士研究生数理统计教学的现状却与其重要程度相去甚远,整个教学过程的诸多环节都存在较大的不足,主要表现为:1.教学内容偏重理论,学生学习兴趣不高;2. 轻统计实验;忽略对统计相关软件的教学;3.没有注重数理统计的学习与研究生专业相结合,实用性强调不够。4. 轻能力培养;轻案例分析等。

这些现象导致的直接后果就是学生动手能力上的缺陷和创新能力的缺乏, 不能够自觉利用数理统计知识解决实际问题, 尤其缺乏对统计数据的分析能力。因此,需要数理统计学随着环境的变化不断创新新的数理统计思维和教学内容。避免教学内容与大数据时代脱节。为此笔者在该课程的教学过程中,有意识地进行了一些教学改革尝试。提出了几点工科研究生数理统计教学的改革措施。

(1)调整教学内容,将与数理统计相关的大数据处理案例引进课堂。有很多有普遍性的应用统计实际案例,可以在本课程的教学过程中有选择的引入介绍给学生,让学生们了解利用所学统计方法进行实际数据分析的操作过程和得出结论的思维方法。以期解决工科研究生对确定性思维到随机性思维方式的转变的不适应性。

(2)适应大数据时代数理统计学课程的教学环境。实现教学方式的多样性。大数据时代背景下,互联网十分发达,学生根据自己的兴趣去收集、整理和分析数据,既可以改变他们对统计方法的进一步认识,也可以增加他们的学习兴趣。甚至可以以专业QQ群,邮件的方式和同学、老师之间相互交流,交流者处于相互平等的地位,可以畅所欲言,随时随地都可以交流,起到事半功倍的效果。这种交流使得教师不再是知识的权威,而是把教师上课作为一种更好自主学习的引导,这种交流使得他们的思想变得更加成熟。同时参与各种网络论坛,贴吧回答问题等使得他们更能体现自己的价值,这种交流也使得学生的学习热情和学习精神得到更好的激发。

(3)引导工科研究生开展与本专业相结合的课题研究,强调实用性,注重统计思维能力培养。适应大数据时代数理统计学课程教学环境,实现教学方式的多样性。以期弥补学生缺少数据分析实例的训练,解决学以致用的不足。在目前的数理统计教学安排下,受学时所限,如果相当一部分时间用来学习公式、定理的推导及证明,势必没有时间进行实际的数据分析练习。在大数据时代背景下,随着海量数据、复杂形式数据的出现,使得统计方法的发展和以前有了很大的不同,没有实际的数据分析训练,学生们就无法对统计的广泛应用性及重要性有深刻的体会,也不利于保持和提高他们的学习兴趣。这要求具体工作者提出新的统计思想和方法,加深对已有统计思想的理解,以解决实际问题。

(4)改革成绩评定方式。现有的考试模式为通过有限的一到两个小时的期末考试,进行概念的辨析和理论及方法的推导计算,由此来判断研究生关于数理统计课程的学习情况有很大的不足,特别是对可以利用软件进行的某些实际数据分析的考察没有办法实现。因此,有必要通过日常课堂“论文选题―提交―讨论”与期末理论考试相结合的形式对学生数理统计学习进行考核。加大对学生平时考察的力度,相应地减少期末考试成绩的比重。让学生选择一些与自己专业有关的数据进行尝试性的数据分析、一些统计科普著作的读书报告等并写成论文的形式提交,做为对学生成绩的评定方式,更能综合、客观地评价学生的学习情况。

数据分析在现代生活中发挥的作用越来越大,而道硗臣品椒可以与数据分析有机的结合,从而在提高数据分析效率的同时,保持分析结果的有效性,为生产和实践活动提供准确的参考。以上的思考和建议仅是我们在教学研究和教学过程中的一点体会,还有许多工作亟待深入,比如适合工科研究生数理统计课程的大数据案例选取,与课程内容的有效衔接;案例教学法如何实施;教学方式多样化问题;课堂教学与网络交流结合;理论介绍与软件应用训练结合问题等。教学改革与实践是一项艰巨的任务,以培养学生的实际运用能力和正确解释数据分析结果的能力为目的,强调统计思想和方法应用的培养,让学生们了解利用所学统计方法进行实际数据分析的操作过程和得出结论的思维方法将是一项长期的工作。

参考文献

篇(4)

中图分类号:G64 文献标识码:A 文章编号:1009-3044(2016)33-0123-01

Abstract : With the theme of declare big data and applied technology major, this thesis was written by author from telecommunications engineering academy. It has researched and analysed the composition of big data, related technologies, application requirement about the data mining and the problems has been solved by big data technology; Also it described what kind of related knowledge and skills need to be master by higher vocation education students in school, analysed the teaching qualities contrast with the needs of modern enterprises in details, by all means this thesis will focus on practically personnel training and explore the thinking of vocational colleges’ big data application technology major.

Key words : big data background, professional technology, skills exploration

随着网络和数据信息科学的发展,数据在量和复杂度上的爆炸式增长让人类进入了大数据时代。根据IDC监测,人类产生的数据量正在成指数及增长,大约每两年翻一番,以此速度在2020年之前会持续保持下去。大量数据源的出现则导致了非结构化、半结构化数据爆发式的增长即数据结构日趋复杂。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知I务细节相融合。大数据对各种行业似乎产生了前所未有的巨大影响,从制造商到旅游业,从产品设计到消费者行为分析,大数据能提供前所未有的信息,帮助公商行业做出最好的决策。公商行业对合格的数据分析师或者数据工程师的需求很大。

人才市场需要会分数据并以有用的方式呈现信息的雇员。根据市场需求,高职院校需要培养学生成为具有数据应用技能的人才以满足市场需求。我们研究方向是调查公司企业所需要的技能和大学教的数据分析技能,对比两方面的技能的差别。人才需求调研裼昧宋示矸绞讲杉专家的意,专家分为相关专业学科教授和企业内本行业专家。

大数据应用技术专业的课程设置应跟随新技术的应用,跟随社会及企业需求,在新专业中重视培养专业技能和项目经验人才,课程设置应贴合社会需求培养相应的就业技能。需要研究关于合格的数据分析师或者数据工程师应该具有什么资格及知识技能。调研的结果可以帮助学院开设有关大数据学科的学校及大数据有关的课程教材。

调研内容如下表格:

综上所述,十报告传达的是要重视高等职业教育,强调“要全面实施素质教育,深化教育领域综合改革,着力提高教育质量,培养学生创新精神。”中国的职教体系也在深入发展改革的过程中。本调研是针对高等职业院校的大数据应用技术专业的课程设置的进行探究,通过对大数据应用技术专业在市场人才需求的研究,对全面实施素质教育,重视学生的创新能力的培养具有重要意义。

参考文献:

[1] 王星.大数据分析:方法与应用[M].清华大学出版社,2013.9.

[2] 曹正凤.数据分析统计基础[M].电子工业出版社,2015.2.

[3] 屈泽中.大数据时代数据分析[M].复旦大学出版社,电子工业出版社,2015.7.

篇(5)

对于研究人员来讲,方法论是开展一切研究的基础,也是进行研究的主要工具,能够对于严格设计支持下的统计方法论的掌握,能够帮助研究人员更加深刻的理解学术研究及学术规范。

一般来说,经典的统计方法论也可以叫做严格设计支持下的统计方法论,之所以强调“设计”,是由于一切的环境、变量都具备一定的可控制性。无论是在自然科学领域还是社会科学领域,任何开展实验研究的设计人员在实验设计的过程中都会涉及经典的统计方法论。

对于传统的学术研究来讲,可以分为七大步骤,分别来说是试验设计、数据收集、数据获取、数据准备、数据分析、结果报告以及模型。各部分的介绍及重要性介绍如下:

一、试验设计

对于没有自然科学背景的人来讲,在理解试验设计环节上是具有一定的难度的,当然心理学和教育学研究者是除外的。因为,大部分的社会科学领域学者和学生除了在高中进行过化学课、物理课、生物课做过试验外,进入大学后,就已经将大脑中的试验想法和思维统统扔到了脑后,有的甚至是埋葬了,其实,这样恰恰是不正确的,试验思维对于社会科学领域人员来讲也是至关重要的。对于自然科学背景的学生和老师来讲就容易理解的多,然而受到很多国内学术造假及数据造假的原因,原本热情极高的硕士、博士也不得已加入了数据造假的大军。就自然科学领域的学生和老师而言,数据是论文的主要支持部分,而这一点恰恰是国内的所谓的文管类老师缺少的,而缺少的这一点,就是因为不懂得严格设计支持下的统计方法论造成的。

二、数据收集、获取、准备

在数据收集、获取上,不同专业的人采用的方法也是不同的,对于所谓的数据的理解也是不同的。但是对于学术研究来讲,数据的收集也是要经过设计,以社会科学领域来说,大多的数据来源是文献以及通过调查问卷而获得的数据;自然科学可以通过文献法、实验分析法来获得就可以了。

这里要强调的一点是任何数据收集、获取过程,都是在一个严谨的设计过程下产生的,往往很多硕士因为在实验设计过程中考虑不全,造成了数据收集过程不严谨而带来了很多误差,这些如果在早期的试验设计阶段或者预测试阶段就能够调整的话,会减少很多很多的麻烦。

在数据的准备阶段,也就是分析阶段的前一步骤,需要对全体的数据进行审核和清洗工作,也就是说,尽量把误差降到最低,删除异常数据或者可能带来极大误差的数据,对于自然科学领域人员来讲,异常的数据可以通过平行试验来进行处理,而社会科学领域则可以通过问卷审核的方法进行处理,但是对于两种科学领域来讲,经验丰富的研究者凭借研究经验,可以很容易发现异常数据。

值得注意的是,异常数据往往也能给研究带来许多新的思考方向和研究方向,例如一些心理行为异常的结论、偏僻地区的高消费行为、数据统计中的异常节点都能够帮助研究人员发现新的事物,对异常数据的归纳和总结也可以帮助研究人员锻炼对于数据理解的思维能力,因此,对于异常数据的把握也是非常重要的,研究人员要深入分析才能发现其背后的本质。

三、数据分析

对于数据分析来说,成为更多研究人员的羁绊,因为往往对于同一个学术研究,为达到一个相同的目的,可以采用不同的试验设计以及不同的数据分析方法,而不同的分析方法也可以选择自己擅长的数据分析软件来进行。作为一名学术研究人员来讲,要充分掌握自己所属领域中常用数据分析方法。目前对于大部分的社会科学工作者来说,很多人并没有很好的接受过相关的系统培训,多以求助统计专业朋友或相近专业擅长统计的朋友来帮忙,或者课题组增加统计分析人员来达到目的。其实进行数据分析的过程是一种享受的过程,好比剥洋葱,皮要一层一层的剥开。

现在的数据分析方向受到国际趋势的影响,趋向大数据分析流,未来的市场调研领域也将跟随着大数据分析进行发展,值得注意的是,虽然大数据分析在目前的国际社会和国内社会研究中比较流行,但个体的数据行为也不容忽视,即小数据在一定程度上往往比大数据更具有竞争优势,也是研究机构或企业对于被研究者或客户充分细化掌握的重要方法。

四、结果报告与模型

结果的报告大多以学术报告或者学术论文的形式进行提交。在模型上,需要一定的逻辑辨识能力,这里强调的是,任何模型都是限制在假说之下的,这也是为什么大多数的学者的模型在应用出来的时候,往往经济指数或者消费行为、组织行为都并没有按照既定方式出现的原因。“模型就是模型而已”。

国外已有行为经济学专家开展被试群体的行为模型同被试群体受环境影响与模型之间的差异情况,杜克大学行为经济学教授Dan Ariely在一项研究表明,人们在冷静情况下对于性偏好同性兴奋后对于性偏好程度大为不同,也就是说性偏好模型如果是在被试冷静情况下作答将与性兴奋后作答完全不一样,也恰恰说明了在一定的研究范围内,模型就仅仅是模型而已。

总的来说,对于一名学术研究人员来讲,严谨的按照每一步进行学习和体会都会得到很好的训练,更多的学术体会和研究体会也需要不断地开展各种研究,增加理解。

参考文献:

篇(6)

大数据技术是一种新型技术,其应用领域比价广泛,并且取得一定的成绩。大数据技术在实际的应用过程中,根据各个领域的需要,大数据技术也不断在更新,以适合现代社会发展的需要。大数据技术主要用数据挖掘、数据分析领域中,能对数据进行科学整理、处理、提高数据的利用效率,互联网+时代,各个领域工作基本都离不开网络,网络时代数据量增多,如何科学有效的进行数据处理,提高数据的利用效率,这是需要解决的问题,大数据技术的产生,对数据的处理起到重要作用。

二、大数据技术应用前景

大数据技术是一种新型技术,具有广泛的应用前景,尤其在数据分析领域中,对提高数据的利用效率起到重要作用。大数据技术的进一步发展应用,对科技的交叉融合发展也有着促进意义。科技交叉融合是现代科技发展的需要,现在很多问题利用一种技术不能实现,需要多种技术结合使用,促进科技水平进一步提升,符合现代科技发展的需要。科技人才是企业发展的重要因素,尤其企业发展需要应用型高级技术人才,在互联网+时代,大数据技术方面的人才尤其缺乏,这也是大数据技术具有广泛的应用前景重要因素。

现在各个行业在发展的过程中都需要复合型的高级技术人才,大数据技术的实际应用对促进其它行业的发展起到重要作用,大数据技术具有良好的应用前景,对现代实际的应用型思想起到重要作用。大数据技术在其它行业中的应用提供了技术支持作用,大数据技术对促进其它行业的技术更新与改革起到重要作用,大数据技术在实际应用过程中根据其它行业发展的需要,需要在技术上不断更新,优化环境,完善其职能,为企业行业发展提供技术保障。大数据技术在实际的应用过程提升,符合大数据技术的发展需要。大数据技术在具体的应用过程中,根据各个领域的需要,大数据技术需要不断完善技术,以适合现代各个行业发展的需要,大数据技术能为其发展提供技术支持。

三、大数据技术在高校非计算机专业中的应用进行

(一)大数据技术在电子商务中的应用

电子商务在互联网+背景下得到快速发展,为高校电子商务专业的发展提供了机遇和挑战,电子商务专业在大数据技术作用下需要积极进行教学改革,以适合现代电子商务专业发展的需要,电子商务专业课程体系构建需要符合现代电子商务产业发展的需要。在电子商务体系内发挥大数据的优势,能有效建立完整的商务监督体系,企业决策机制以及运作模式也要依托大数据技术的信息处理功能。电子商务产业的职业岗位能力涉及到大数据知识,电子商务专业在课程构建的过程中需要把大数据相关知识纳入课程体系中,能为学生职业岗位能力提升起到保障作用。大数据技术的实际应用对提升电子商务专业建设,教学模式改革,教学内容整合,教学手段提升等都起到重要保障作用。

(二)大数据技术在会计领域中的应用

大数据技术在会计领域中的应用,对促进会计行业改革,高校会计专业教学改革都起到重要作用,同时完善会计专业人才培养方案,对提升学生职业技能起到重要作用。会计的职业岗位能力涉及到海量数据,会计信息化时代大数据技术的应用对提高会计的工作职能起到重要作用,符合现代大数据技术的应用需要。大数据技术在会计领域中的应用,尤其在会计信息系统建设中的应用,对提高数据挖掘、数据分析、数据处理能力的提升起到重要作用,会计行业涉及到数据很多,数据的种类、数据的形式都是多样化,利用大数据技术处理数据比传统的方式大大提高了工作效率,为会计行业的改革起到重要的技术支持作用,符合现代会计领域中的应用需求。总之,大数据技术在非计算机专业中的应用对促进其教学改革起到技术支持作用,大数据技术是一种新型技术,其具有广泛的应用,大数据技术在高校非计算机专业中的应用是专业发展的需要,也是社会发展对高校专业改革提出了新要求。大数据技术尤其在数据挖掘、数据分析、数据处理等方面起到重要作用,适合互联网+时代,高校非计算机专业发展的需要。

【计算机硕士论文参考文献】

[1]我国大数据应用现状与发展趋势分析[J].李亭亭,赵英豪.电子商务.2016(06).

[2]探讨大数据技术在疾病防控上的应用[J].黄文莉.电子技术与软件工程.2016(06).

篇(7)

中图分类号:G642 文献标识码:B

文章编号:1671-489X(2016)18-0069-03

Abstract The advent of the era of big data has brought new vitality

and challenges for educational research. This paper uses bibliometric visualization software Cite Space to analyze thesis with key words data and education from CNKI based on Co-occurrence analysis of keywords, explore the hot issues in the field of educational research, summarize the research status and trends.

Key words big data; CiteSpace; education

1 引言

近年来,教育领域研究者开始关注大数据背景下的教育管理模式转变、教育决策研究等内容,大量基于大数据背景的教育领域研究论文逐年增加。以“大数据”“教育”为主题关键词在CNKI中国知网进行搜索,仅选择SCI、EI、中文核心、CSSCI四类来源期刊截止到2015年12月出版的文献,共检索到417条数据,从2010年开始呈现出逐年上升的趋势。对这些文章进行浏览和筛选,选择与本研究主题相关的论文,共247篇。对这247篇文章的关键词信息进行研究,分析大数据的出现对教育领域研究热点及发展趋势的影响。

2 教育领域热点问题研究知识图谱

CiteSpace软件是一款引文可视化分析软件,着眼于分析科学知识中蕴含的潜在信息,通过可视化的手段呈现科学知识的结构、规律和分布情况[1],能对文献进行作者分析、关键词共现分析、机构分析、作者共被引分析、文献共被引分析等。关键词共现分析是一种内容分析技术,通过分析在同一个文本主题中的款目对(单词或名词短语对)共同出现的形式,确认文本所代表的学科领域中相关主题的关系,进而探索分析学科领域的发展,发现学科的研究热点和研究趋势[2]。

使用CiteSpace软件对下载的文献进行关键词共现分析,生成图1所示关键词共现知识图谱,分析大数据的出现对教育领域研究热点和趋势的影响。关键词出现的频次由圆圈代表的节点反映,圆圈越大,表明关键词出现次数越多,最大圆圈代表的关键词是“大数据”。

根据图1得到表1所示文献关键词、被引频次、中心性等指标数据。中心性代表共现程度的高低,中心性越强,表明该关键词与其他关键词共同出现的几率就越大,也就表示该关键词在共现网络中的影响力越大。从知识理论角度分析,频次和中心性高的关键词一般是某一段时期内研究者共同关注的问题,也就是研究的热点和前沿。表1中,“大数据”是频次最高也是中心性最高的关键词;“学习分析”频次为23,中心性为0.22;“数据挖掘”频次为13,中心性为0.15,等等这些都是热门的研究主题。

3 大数据背景下教育领域的热点研究

依据图1和表1所示结果,将大数据背景下教育领域的热点研究总结为以下几个方面。

学习分析和数据挖掘 教育数据挖掘是数据挖掘在教育领域的新型应用,主要目标为知识发现、决策支持和推荐等。学习分析是测量、搜集、分析和报告学生及其相关的学习环境的数据,用以理解和优化学习过程和学习环境[3]。

教育数据挖掘专注于技术层面,侧重教育数据模型和模式的抽取,强调挖掘结果的自动化反馈;学习分析更注重研究有利于改善学习的干预措施。

2012年,美国教育部了报告《通过教育数据挖掘和学习分析促进教与学》[4],提出“数据驱动学校,分析变革教育”的大数据时代已经来临,要综合运用教育数据挖掘和学习分析,构建教育模型,探索教育变量,为教育教学提供有效支持。

在CNKI中以“学习分析”和“教育数据挖掘”为关键词进行检索,得到图2所示的文献数量趋势图。如图2所示,2010年以前的文献数量很少,但2010年之后开始呈指数式增长;2016年1―2月份刊登的相关主题期刊论文已有5篇,可以预计本年度,学习分析和数据挖掘仍将是大数据背景下教育领域的研究重点和热点之一。

在线教育――兴起与变革 以“在线教育”和“大数据”为关键词进行搜索,得到图3所示文献数量趋势图。目前在线学习的发展趋势主要有如下表现。

1)移动学习是大方向:随着无线网络的覆盖,移动终端特别是手机用户的增多,移动学习逐渐发展起来。

2)免费是大趋势:目前在线学习存在各式各样的免费现象,如免费试用、前期付费后期免费等形式。

3)细化管理是要求:任何一种在线学习方式,都离不开资源开发、管理和优化等工作,需要设定管理要求,细化规则。

4)实现互动是必然:交互功能是在线学习软件必然要设计的功能,大多数在线学习使用者表示学习过程中希望能有更多的互动交流。

5)个性化学习是亮点:学习分析和教育数据挖掘的出现,使得在线学习存储的大量数据能够被更快速分析和使用,学习者可以随时掌握学习状况,开发商也可以掌握学习者的兴趣点、学习特征等,为学习者推荐或制订个性化的学习方案。

教育信息化 我国的教育信息化主要包含两层含义:一是把提高信息素养纳入教育目标,培养适应信息社会的人才;二是把信息技术手段有效应用于教育,注重教育信息资源的开发与利用。教育信息化的核心是教学信息化,要求在教育过程中较全面地运用现代信息技术,促进教育改革,适应信息化社会提出的新要求,深化教育改革,实施素质教育。随着大数据时代的来临,教育信息化也在不断进步,未来的教育信息化将在教育云平台上进行展现,现有的教育网、校园网将全面升级,实现互联网、电信网、广电网等跨平台使用并支持移动设备。

在CNKI中以“教育信息化”和“大数据”为关键词进行检索,2013年共有3篇学术论文,2015年共有10篇,研究主题包括大数据时代的信息化教学、教师培训、课程资源建设、教育舆情监控等。

教育决策 以“教育决策”为关键词搜索到上千篇学术论文,以“教育决策”和“大数据”为关键词,2013年以来共有8篇论文。大数据将在教育决策中发挥越来越重要的作用已成为共识,但如何利用大数据进行决策是目前面临的难题,如何解决这个难题也是研究者重点关注的领域。教育决策离不开数据,大数据背景下的数据更加复杂、凌乱,呈现碎片化的特征,并且掺杂一些虚假数据,如何收集、选择数据,是第一步需要做的事情。大数据对于教育决策的价值在于为教育服务,将数据转化为支持决策的信息,需要数据分析者具备综合、全面的数据分析素质和能力。大数据的核心是预测,随着教育信息化和在线学习的持续发展,数据呈爆炸式增长,需要对数据进行整合、分析,发现新知识,为教育优化服务。

4 数据推动决策

传统决策过程主要依靠决策者的经验,主观性较强,或多或少存在一些不足,难以充分发现教育过程中的潜在问题,无法真正有效地优化教学、提高学生表现。信息化推动了人类发展,逐渐成为人类生活必不可少的重要部分;信息化技术普及的同时,也产生前所未有的海量数据。大数据时代的来临,颠覆了传统数据分析方法;大数据背景

下,利用数据挖掘方法发现问题、支持决策具有多方面的意义。

1)优化教学、提高教育质量。教师若能充分利用学生学习数据,分析学生学习过程,可以更加快速、便捷、有效地了解学生,发现不足之处并及时反馈,提供改进意见等[5]。

2)为学校管理者制订更加合理的教学计划和方案提供决策支持。基于数据的教育决策能够为管理者提供更加准确、合理的决策支持。基于数据的教育决策能够提供从数据到决策,实施决策后产生的数据再到决策的一种良性循环过程[6]。

3)帮助地区甚至是国家级决策者进行科学判断。数据推动决策具有相当明显的优势,能为决策者提供全方位的视角。大数据分析得到的结果具有全面性、多视角性、参考性强等特点,能够更好地为决策者提供决策支持。

5 结语

上文所分析出的教育领域热点研究问题,都紧紧围绕“数据推动决策”这一主题,学习分析和教育挖掘是分析方法和技术;在线教育是数据来源;教育信息化是信息化大数据环境;教育决策则是根据数据制定决策并运用于教育教学。可见,利用数据推动决策已成为教育领域在大数据背景下最为重要的研究问题之一。

参考文献

[1]陈悦,陈超美,胡志刚.引文空间分析原理与应用:Cite Space实用指南[M].北京:科学出版社,2014.

[2]潘黎,王素.近十年来教育研究的热点领域和前沿主题:基于八种教育学期刊2000-2009年刊载文献关键词共现知识图谱的计量分析[J].教育研究,2011(2):47-53.

[3]Siemens G. Learning and Knowledge Analytics-Knewton-the future of education?[EB/OL].[2011-04-17].http:///?p=126.

篇(8)

与Kaggle合作的公司或机构,提交一些相关数据到Kaggle平台,进而提出一个问题,Kaggle网站上来自世界各地的计算机科学家和数学家,也就是现在所说的数据科学家,将领取任务,通过竞赛产生最好的模型并获得大奖(奖金由那些需要情报的公司提供),而且有机会提供咨询服务,而与Kaggle合作的公司或机构将最终拥有数据分析的结果、模型等知识产权。

换句话说,Kaggle在数据问题和数据解决方案架起了一座桥梁。Kaggle对于参赛的数据科学家是免费的,它在组织这些竞赛时会向企业收取费用。

到目前为止Kaggle已经做出了许多突破性成功,包括帮助改进了微软Kinect体感产品。

在Anthony Goldbloom看来,Kaggle上举行的竞赛,就像是职业高尔夫球巡回赛,他们试图借此找到数据科学世界里面的伍兹(Tiger Woods)。今年29岁的Anthony是Kaggle的联合创始人兼CEO。

Kaggle成功的关键就是它的社区:近11万名在线的数据科学家。这也是目前世界上最大的数据科学家社区。它是怎样吸引到第一批用户的?在Anthony看来,数据科学竞赛是“吸引最聪明的,最奇怪和最有创意的数据科学家的非常有效的方式”。Kaggle早期是通过机器学习竞赛来吸引用户。早期的比赛项目比如基于悉尼的历史交通数据来建立一个算法,来预测在悉尼的旅行时间等。

Kaggle目前的用户主要分布在北美,澳大利亚和东欧。“我们通过与腾讯的合作,得到了一个来自中国的‘招生大户’。” Anthony说。Kaggle与腾讯的合作,帮助后者解决了两个问题,帮助腾讯建立了一套预测腾讯不同广告的点击率效果的算法,以及给腾讯微博建立了一种“关注”算法。

在Kaggle的客户名单上,GE、微软、Facebook、Tesco、福特等赫然在列,甚至包括NASA(美国宇航局),当然它也服务规模较小的企业,帮助客户解决所有的数据科学问题,例如提高销售预测,客户细分,留住客户,优化定价等等。

Kaggle并不是以众包方式专注于大数据分析领域的唯一一家创业公司,类似的还有CrowdAnalytix,TunedIT等。Kaggle的优势是什么?

“超过10万名的数据科学家在线,而且极其活跃,Kaggle已经形成具有流动性的数据科学人才的市场。 TunedIT和CrowdAnaltix没有太多的数据科学家,也不是一个活跃的社区。”Anthony这样回答。

Kaggle还投资于基础设施建设,藉此能够向企业或机构客户提供安全的数据托管服务,据Anthony介绍,这种服务也是大部分客户所要求的。

事实上,Kaggle还有一个创新之处,即该公司的新服务Kaggle Connect。通过该服务,Kaggle可以对接这样的“供需”:有特殊要求的企业或机构客户,可以聘请到最适合解决这个问题、具有特殊技能的数据科学家。Anthony称他们是数据科学家里的“精英”,在Kaggle网站上排名前1%的一半,相当于大约500名数据科学家。

Kaggle是如何发现这些大数据分析领域的精英的?Anthony说,通过他们在科学竞赛中的表现,以及通过“竞赛”积累积分在Kaggle上获得的排名。据悉,Kaggle的排名榜,在专业人士圈内有很大影响力,也成为该领域人员技术水平高低的公认标杆。

如此看来,Kaggle不仅仅是一个大数据分析的众包平台,而是创造了一个全新的劳动力市场和评价体系。对于那些希望利用大数据分析改进业务的企业来说,Kaggle的大数据分析的众包模式,正好解决了两大难题:人才和想法。

篇(9)

中图分类号:TS941 文献标志码:A

The Influence of Industry Big Data Analysis on New Models of Design Thinking

Abstract: Based on discussing big data analyzing technology as well as enterprise case studies and tracking surveys, the paper states that such data analyzing technology will facilitate the generation of new models of design thinking, which will more rely on Internet technology, and systematically reorganize complicated resources and information into data that can be further used as an important guidance for new product design. These data will help enterprises realize cooperation of various participants, information sharing and tier management in the process of product design and R&D and improve the efficiency and benefits of their design and R&D system.

Key words: data analysis; design thinking; market positioning; precision marketing

在全球服装纺织业格局中,中国还处于起步探索阶段,缺少真正有市场竞争力的自主设计品牌。企业们普遍缺乏高效务实的设计创新能力,成为了我国服装纺织行业的发展短板。面对国际品牌的激烈竞争,企业们需要建立自己的新型设计思维模式。更加适应市场需求的新设计思维将是一套有理有据、高效灵敏的产品设计与管理系统,这将有助于企业们更超前的把握市场发展动态,更精准的分析产品的优劣势,更合理的筹划销售策略,更敏锐的找到未来商业机会从而打造企业及品牌的市场竞争实力。

目前在经济发达国家的服装产业中,类似的研究已经进行到了比较成熟的阶段,如法国的Lectra(力克)公司,通过将其CAD/CAM 、三维技术与互联网技术的结合,进行最优化的数据传输,可以满足企业在整个生产过程中从服装系列设计到视觉化销售的所有环节的需求。力克公司的发展资料为本文的研究提供了非常有价值的可参考实例。

1 针对服装纺织产业大数据分析技术的研究

服装纺织产业大数据分析技术是基于互联网大数据分析的专业服装设计和生产管理辅助工具。该分析技术采用的是个性化分布式数据挖掘技术,通过对互联网海量真实的服装销售数据的分析,监控并分析网站,采用JAVA语言对网站中各种内容信息进行智能化的分析和挖掘,多维度、全方位对服装属性数据进行筛选,可甄别出不同时间段、不同地域、不同年龄层次、不同性别甚至不同消费习惯的服装购买者对服装颜色、款式、面料、尺寸等属性的偏好,并形成直观易懂的可视化报表,从而对设计和生产管理者形成指导,更加方便直接的形成“设计指导书”或者“生产指导书”。能够使产品更加符合品牌特征和市场需求,极大地提高设计生产效率,减少成本与避免试错风险。

在数据分析技术的层面上,它是基于html的个性化分布式数据挖掘系统。核心内容是监控并分析网站,生成Excel表格形式的报表,报表包含关键词和网站的链接地址。这种分析为采用Java语言对网站中的各种内容信息进行智能化的分析与挖掘。相当于目标网站名单读取模块,采用Excel表格存储目标网站列表和关键词,并且用Java语言读取信息,并利用web界面即时呈现监控结果。

2 服装纺织产业大数据分析技术对设计思维影响的实例研究

参与本次研究项目的北京相与文化发展有限公司,是一家由中法意等多国设计师和业内人士组成的专业服装纺织品品牌孵化和设计营销整合机构。

2014年公司开始进行自主开发和使用基于互联网的服装设计大数据分析系统,如图 1 所示,针对某款产品的数据分析结果,将对设计工作产生重要的引导作用。设计师们会根据数据分析结果来判断设计思路是否合理,改变了传统设计流程中过于强调设计师主观感受的不稳定性,将基于互联网的海量数据经过精准的筛选和整理,生成直观可视化的数据报表,并且形成多点共享和分级管理的平台化工具,将设计研发流程模块化,迅速找到针对市场切实有效的产品设计卖点和营销方式,可以极大地提高服装设计师和生产管理者的工作效率,降低了设计研发成本并有效减少了企业在新品设计研发方面的试错风险。

为了调研资料的充分性和客观性,本论文还调研了参与10家生产销售与男士T恤相关的服装企业。在男士T恤这个产品品类的设计开发之前,这些企业想去了解该产品的设计研发方向的需求集中体现在以下几个方面,如基础风格、花型图案、面料材质、款式细节和服饰工艺等;并且在这几个需求里面,关于花型图案的调研量最大,这个环节也就成为了企业们最为关注的问题所在,另外占比量22%位居其次的款式细节,也成了男士T恤的另一个设计重点。以上调研的数据比例图示(图2),充分证明了企业对产品的设计研发方向的设定,是有着比较明晰准确的需要点的,占比29%的企业都认为要将花型图案作为男士T恤的设计重点。如果通过产业数据分析技术,能比较清楚地告知这些企业,在服装设计研发的时候,是否要优先关注哪些方面以及如何把握这些方面的设计工作,这无疑对企业把控产品与市场需求的贴合度方面是有重要帮助的。

3 产业大数据分析技术对新型设计思维模式的影响

“积累、效率、协作、降本”―― 代表着新型设计思维模式核心要素的,将给产品的设计研发思维带来全新突破,将有力地帮助中国数以万家企业将设计真正转化为生产力并最终打造核心竞争能力,完善品牌体系并全面提升品牌价值。

将与产品相关的市场数据进行搜集整理和分析,在互联网大数据分析技术的帮助下,找到对企业的产品设计研发最具有参考价值的类比信息,不同于传统设计模式的主观化和分散化,新一代的设计思维模式需要将资源和信息模块化,形成支持系统;从而在企业的整体产品设计研发流程中实现多点协作、信息共享和分级管理,极大地提高了流程的效率,降低了错误判断市场导向带来的经营风险,节省了设计开发的时间和成本,同时新型设计思维模式又会强化对于流程中每个环节的工作指标的评估,从而达成有效良性的管理机制。

篇(10)

中图分类号:G25 文献标识码:A 文章编号:1672-3791(2016)10(b)-0150-02

在科学技术的影响下,学术资源建设速度越来越快。例如:中国最大的学术资源建设商――中国知网,已经从期刊论文向国内外期刊论文发展,在图书资源收藏方面收集了大量资源,可以给行业机构、学术等提供大量文献。在此种发展形式下,数字图书馆承受了较大压力,如何在未来发展中更好生存,已经成为人员研究的主要问题,必须及时对其进行分析。

1 国内外研究与启示

1.1 国内外相关论述对我国的影响

随着大数据时代的到来,人们对数据的需求量不断增大。目前国外相关研究已经从理念、技术和数据等方面进行了很多研究。美国加州大学伯克利分校图书馆的Huwe在《构建数字D书馆》一书中明确指出,大数据与数字化图书馆的发展方向吻合,可以借助数字图书馆进行信息采集和收集,进而挖掘用户行为,帮助人们了解阅读行为与信息的联系。Borgman等人将嵌入式技术成功安装于数字图书馆系统中,增加了数字图书馆功能,可以实现图书分类、收集处理和关联等各项操作,促进了数字图书馆与网络技术的融合,发挥了大数据的作用。

国内研究人员曾建勋曾在《数字图书馆论坛》中明确指出,大数据时代将数据数字图书馆数据管理、收集等服务的深层次发展,对数字图书馆人员提出了较高要求。另外武汉大学生陈传夫等也从理念、发展知识和财政投入机制等,分析了图书馆素质等问题,并提出了相关应对措施。

从上述研究均可看出大数据对数字图书馆带来的发展机遇和挑战,促进了数字图书馆和大数据的融合。为了促进高校图书馆和我国公共图书馆在大数据时代的发展,发挥数字图书馆在人们的生活或科学研究中的作用,必须深入思考,及时转变观念,提高数字图书馆的竞争力。

1.2 启示与思考

从当前的发展状况来看,学术资源建设商已经在大数据时代取得了很大进展,不仅包含网络资源与期刊,还涉及各种文献资源,可以查找作者、文献关系与学者等关系,给数字图书馆的发展带来了很大压力。所以图书馆相关人员必须提高思想认识,将资源建设商带来的威胁作为新的机遇。在实际工作中,必须积极吸取图书馆建设资源,扩展图书馆资源范畴,进行各种资源的有机结合,同时还要充分发挥资源价值,促使各种资源的整合,深入挖掘数据规律,认真分析数据规律,发现数据潜在价值。从服务角度上分析,图书馆还要向众多资源建设商学习,从用户角度探索问题,给用户提供人性化服务,满足用户对资源的需求。

经过分析发现,大数据时代,必须要改变传统的思维模式,形成适合数字图书馆发展的模式,适应大数据时代的发展,充分利用大数据促进数字图书馆的发展,让数字图书馆在人们的生活、学习和工作中发挥更大作用。

2 浅析数字图书馆的大数据思维

数字图书馆的大数据思维主要表示从大数据角度思考并分析数字图书馆发展中存在的问题,实现数字图书馆和大数据时代的有机融合,增加数字图书馆产品种类,提高数字图书馆服务水平。

2.1 建设数字图书馆资源

第一,扩大数字图书馆资源范围。资源是数字图书馆发展的基础,也是提高数字图书馆服务质量的主要方法。在长期发展中,图书馆非常重视资源建设,主要是图书、期刊及学位论文等资源。为了在大数据时代下发展,必须创新思维,引入一些数据库资源或一些社会热点信息等内容,以用户的搜索习惯作为数字图书采集参考,深入挖掘各种数据之间的联系,实现可再生资源的生产、收集和储存,扩大数字图书资源范围。第二,提高数字图书馆资源整合度。大数据时代的主要特点是数据类型较复杂,单纯的文本信息已经不能被大数据时展用户吸取,可以实现资源整合向综合信息服务转变。为了满足不同用户的需求,还可以实现文献和政府等信息的整合,扩大社会资源和数字图书馆的联系,将公众最关注的问题引入到社会资源整合中。第三,加强数字图书馆资源加工深度。在大数据时代,虽然数字图书馆结构信息具有较强的表现形式,但主要体现在资源库内部。在大数据时代下,必须及时扩展数字资源和外界的联系,构建全社会数字图书馆资源架构。同时进行图书馆资源深度加工时,必须从知识结构向知识建构加工方向发展。例如:从图书馆文献资源中分析知识结构,利用知识单位和文献建立知识建构,形成新知识。

2.2 灵活应用数字图书馆技术

大数据时代,数字图书馆技术已经开始从处理局部数据向更广的区域发展。从图书馆技术体系分析主要进行信息处理、组织架构、分析预测、服务技术等操作。

第一,应用语义技术。大数据环境中可以采用语义实现复杂数据的联系。当前数字图书面临的主要问题是将语义加入数字文献信息中。所以必须将本体技术、人工智能等先进技术应用到实际工作中,让数据间形成语义关系,促进收录资源和知识挖掘等各项操作。目前语义技术已经广泛应用到图书领域中,如:汉语主题词表、图书分类法等均是依靠语义发展起来的。知识相互间的语义关系,不仅可以帮助用户及时获取知识,还可以获得有用知识途径。第二, 数据聚类技术。数据聚类是实现信息相互聚集的过程。在繁杂的数据中,只有灵活应用聚类技术,才能发挥信息服务、处理等各种功能。在大数据背景下,利用数据聚类可将不同数据划分成相互联系、主体相近的小数据,给用户信息检索、选择和分析提供很大方便,给用户个性化服务提供了数据支持。第三,信息分析技术。大数据时代可以充分利用信息分析技术。可以将大数据技术融入到书籍图书馆中,拓展了数据分析工作,给用户提供了高端服务。例如:联机分析技术可给在线用户提供数据支持;定量定性分析技术可以在数字图书馆中得到充分应用。

2.3 数字图书馆的定位

第一,打破传统资源框架束缚。大数据给图书馆提供了较广阔的发展空间,满足了用户对不同信息的需求,在信息采集、收集和服务等方面均发生了变化。数字图书馆进行定位时,必须打破传统资源框架,将数据理念融于到数字图书馆建设中,所以不仅要采用传统的方法进行信息采集,还要进行网络信息自动获取,构建语义关系、数据联系等信息组织框架。

第二,建立全方位服务信息。传统图书馆主要进行文献服务。数字化图书馆服务资源发生了变化,服务形式开始从被动化向主动化发展。一方面向全社会提供服务;另一方面,提供全新资源服务;最后不断扩展服务与传播方式,全面扩展数字图书馆服务。

第三,定位数字图书馆员。大数据时代对图书馆员提出了更高要求,每馆员都要有敏锐的数据分析能力;及时了解学术变化;掌握大数据分析技术;熟练使用各种数据分析工具和软件,准确定位网络资源,促进数字图书馆的发展。

3 结语

大数据时代给数字图书馆带来了挑战,是数字图书馆的一种巨大转型,可以扩展数字图书馆数据资源,提高数字图书馆服务功能;同时,还要不断思考资源框架、技术应用模式和服务功能,与广大学术资源建设商共同发展。

篇(11)

中图分类号: G250.2 文献标识码: A 文章编号: 1003-6938(2014)05-0013-07

Preliminary Study on the Big Data Analytics and Its Adaptability in Intelligence Studies

Abstract Big data analytics has brought new opportunities for data-oriented or information-oriented intelligence studies' development. Based on existing research, the author makes a review of three viewpoints of big data analytics based on data, process and information technology, and then summarizes five levels of analytics which including statistics, mining, discovery, predict and integrate, and its 17 kinds of relevant research methods. The adaptability of big data analytics in the intelligence studiesis discussed and it is found that 10 research methods can be directly transplanted to intelligence studies, 2 research methods should be adjusted for transplantation, 2 research methods are inapplicable, and 3 research methods needfurther study.

Key words big data; big data analytics; intelligence studies; adaptability

大数据分析(Big Data Analytics,BDA)是以“深度的发现分析、引领行动”作为目标的工作[1-2],它包括由多个任务组成的高度重复执行的步骤[3-4]。BDA通常要集成多种分析技术与软件工具,以便让海量数据的处理及分析变得更加容易,从数据中提取有用信息并形成结论,用来验证、指导及规范组织或个人的决策行动;BDA的执行过程一般包括问题需求及假设提出、数据获取及记录、信息抽取及清洗、数据整合及表示、选择建模及分析方法、结果诠释、评测结果有效性及监控等几个阶段。从以上BDA的定义及过程来看,BDA与情报学领域中的情报研究(也称情报分析)在本质上是一致的,两者至少在方法与技术(以下简称方法)上可以相互借鉴或补充。本文基于情报学的视角,关注哪些BDA方法可以为情报研究提供借鉴,并解决情报研究的相关问题。因此,本文首先概略总结BDA的方法体系,然后探讨BDA方法在情报研究中的适用性。

1 大数据分析的方法分类

到目前为止,尚没有公认的BDA方法的分类体系,甚至对BDA包括哪些方法,也有不同的认识。本文首先综述现有的相关研究,并以此为基础提出我们的分类体系。

1.1 相关研究

不同学者对BDA方法的看法各有差异,概括起来,主要有三种分类体系,分别是面向数据视角的分类、面向流程视角的分类以及面向信息技术视角的分类。

(1)面向数据视角的BDA方法分类。这类研究主要是以BDA处理的对象“数据”作为分类依据,从数据的类型、数据量、数据能够解决的问题、处理数据的方式等角度对BDA方法进行分类。

Power[5]依据分析需求将数值型数据的分析方法划分为三类:①若是模式理解及对未来做出推论,可采取历史数据及定量工具进行“回顾性数据分析”;②若要进行前瞻及预测分析,可采取历史数据及仿真模型进行“预测性数据分析”;③若要触发事件,可采取实时数据及定量工具进行“规范性数据分析”。美国国家研究委员会在2013年公布的《海量数据分析前沿》研究报告中提出了七种基本统计数据分析方法[6],包括:①基本统计(如一般统计及多维数分析等);②N体问题(N-body Problems)(如最邻近算法、Kernel算法、PCA算法等);③图论算法(Graph-Theoretic Algorithm);④线性代数计算(Linear Algebraic Computations);⑤优化算法(Optimizations);⑥功能整合(如贝叶斯推理模型、Markov Chain Monte Carlo方法等);⑦数据匹配(如隐马尔可夫模型等)。

针对非纯粹的数值型数据,Li、Han[7]梳理了面向“时空数据”(Spatiotemporal Data)的BDA方法,通过对动态数据挖掘出主体的预测性,如运用物理工程领域的傅立叶变换(Fourier Transform)及自相关匹配(Autocorrelation)侦查某一时间区段的信号、发生的事件或生物基因中的周期性节律,也可运用时间序列方法预测地点位置的变化;魏顺平[8]以教育领域为例,梳理了面向学生与学习环境的“学习分析方法”(Learning Analytics),此方法集成了内容分析、话语分析、社会网络分析、统计分析、数据挖掘等多种方法,从中挖掘学习的各种语义关系,并回答“谁在学、学什么、怎么学、学的结果如何”等问题,为教学与优化学习提供参考。

Mohanty等人[3]从数据获取(Data Ingestion)角度,依照处理的数据量从小至大的顺序,区分出八种分析方法:①流分析(Streaming Analytics),以预定模式及时处理数据流;②高速的数据采集(High Velocity Data Ingestion),不转换任何格式,可稍晚处理; ③链结分析(Linkage Analysis),构建不同数据源的关系与链接;④罕见事件侦查(Rare-Event Detection),从庞大数据集中寻找特定模式;⑤数据聚合(Data Mash-Ups),需要对数据属性发展故事线或链接关系进行分析;⑥文本分析(Text Analytics),如观点挖掘或社会网络分析等;⑦时间序列分析(Time-Series Analysis),通过模式侦测及事件发生概率来处理时空数据;⑧数据辩论(Data Forensic),用于数据科学家探索大规模数据集。

Chen等人[9]认为,在商业智能分析发展的过程中,商业智能分析经历了从处理结构化程度较高的数据、到处理网络上半结构化数据、再到处理移动数据的发展,涵盖了五类核心的分析方法:①数据分析,涉及数据仓储、ETL、联机分析及数据挖掘等分析技术,可应用在时间序列挖掘、网站挖掘、空间数据挖掘等;②文本分析,涉及信息检索、查询处理、相关反馈等分析技术,可应用在QA系统、观点挖掘、多语义分析、可视化分析等;③网站分析,涉及信息检索、网络爬虫、日志分析等分析技术,可应用在云计算、社会网络分析、网站可视化等;④网络分析,涉及信息计量、引用网络、数学网络模式等分析技术,可应用在链结分析、社区发现、社会影响力及扩散模式等;⑤移动分析,可应用在移动通讯服务、个性化分析、游戏营销分析等。

(2)面向流程视角的BDA方法分类。这类研究主要是依据BDA的步骤和阶段对BDA方法进行分类。

美国计算社区协会出版的《大数据的机会与挑战》白皮书指出BDA是一个多阶段任务循环执行过程[4],从整体看,其分析的过程包括了五个阶段,每一个阶段都包含该阶段需要使用的方法:①数据获取及记录,从各种感知工具中获取的数据通常与空间时空相关,需要及时分析技术处理数据并过滤无用数据;②信息抽取及清洗,从异构数据源抽取有用信息,并转换为结构化的格式;③数据整合及表示,将数据结构与语义关系转换为机器可读取、自动解析的格式;④数据建模及分析,从数据中挖掘出潜在规律及知识,涉及可扩展的挖掘算法或知识发现等方法;⑤诠释,为了让用户容易解读分析结果,可视化分析技术变得十分重要。此外,严霄凤、张德馨[10]依照搜集、分析到可视化的流程,梳理了适用于大数据的关键技术,包括:遗传算法、神经网络、数据挖掘、回归分析、分类、聚类、关联规则、数据融合、机器学习、自然语言处理、情感分析、网络分析、空间分析、时间序列分析等多种方法。

(3)面向信息技术视角的BDA方法分类。这类研究强调大数据技术本身涉及到的新型信息技术,将大数据处理架构、大数据计算模式、大数据系统等作为BDA方法分类的依据。

孟小峰、慈祥[11]着眼于大数据处理框架,梳理了数据抽取与集成、数据分析及数据解释所使用的分析方法,在数据抽取与集成方面,可区分为基于物化(Materialization)或ETL的方法、基于联邦数据库或中间件的方法、基于数据流的方法以及基于搜索引擎的方法等四类;在数据分析方面,传统的数据挖掘、机器学习或统计分析面临数据规模、算法调整等困难,需进一步发展;在数据解释方面,引入可视化技术或交互式的数据分析过程,有助于用户理解分析结果。覃雄派等人[12]认为,非关系数据管理(如MapReduce)扩展了数据分析的多维视角,使数据分析的生态系统从“大量数据的移动”转向“直接对数据进行分析”。

2012~2013年在印度召开了两次BDA国际研讨会[13-14],会上分别就BDA中的机器学习面临数据规模与多维度问题、可扩展的机器学习算法(如随机映射、随机梯度下降等)、机器学习在MapReduce的应用、社交媒体数据挖掘(如话题检测与跟踪、地点推理、语义连接等)、高维数据降维分析(如主成分分析、因子分析、经典相关分析等)、图像挖掘(如Main Memory Approach、Disk-Based Approaches、Database-Oriented Approach)及图像比对分析(如特征提取、Iterative Methods)等进行了探讨。2013年IEEE计算机协会在美国召开大数据国际研讨会,BDA结合MapReduce、Hadoop等模型的分析方法仍是主流,研究的内容包括了Map-Based Graph Analysis、Sketch-Based Load Balancing Algorithm、Large Scale Neural Networks等方法。

1.2 BDA方法的分类――面向层次的BDA方法框架

上述三种视角的BDA分类各有特点,都有一定的道理。从面向数据的视角来看,BDA方法正从统计(Statistics)转向挖掘(Mining),并提升到发现(Discovery)和预测(Prediction)。基于流程的BDA分类则更能反映BDA过程的集成性(Integration),也就是说,在完成一项分析任务时,需要综合使用多种方法。从面向信息技术的BDA分类中可以看出,这种分类方式强调使用新技术对传统数据处理方法进行改进和创新,同时更重视新型系统架构与分析方法的集成,例如,各种数据挖掘算法的MapReduce化,就是这方面的典型实例。

本文认为,如果综合上述三种分类体系中体现的层次性,将可以更准确描述BDA方法。在此,本文提出一个面向层次的BDA分类框架,将BDA方法分为统计、挖掘、发现、预测及集成五个层次,并初步归纳出17种BDA相关方法(见表1)。

2 BDA方法在情报研究中的适用性探讨

如前所述,BDA与情报研究在本质上有共同之处,BDA方法可为情报研究提供借鉴,因此,探讨BDA方法对情报研究的适用性就很有必要性。以下综合考虑方法本身的完善性及可操作性、情报研究的分析对象特征、方法的可移植性[15]等因素,对本文所列举的17种面向层次的BDA方法在情报研究中的适用性进行分析。

2.1 可直接移植的方法

可直接移植方法是指这些方法的原理、流程、算法等可以直接应用于情报研究,用来对情报研究的数据源(如科技文献、网络资源等)进行处理,解决情报研究过程中的一个或几个步骤中要解决的问题。在本文所列举的17种面向层次的BDA方法中,数据挖掘、文本挖掘、知识发现、观点挖掘、话题演化分析、多元统计分析、时间序列分析、海量数据的基本统计方法、高维数据降维分析方法、多源数据融合方法等10种方法均属于可直接移植方法,其中有些方法在情报研究中已经有多年的应用历史。

(1)数据挖掘与文本挖掘。数据挖掘与文本挖掘是不同概念,两种方法分别使用不同的发现技术,文本挖掘属于基于计算机语言学及统计方法的发现技术,用来揭示文本中的词与句法特征;数据挖掘以数据库中的大量结构化的数据挖掘为基础,用来揭示数据中潜在的、可能的数据模式及关联规律[16]。在情报学领域的实践应用中,数据挖掘多应用在图书馆自动化技术与服务方面,例如,馆藏采购决策、个性化服务、信息检索、读者管理、馆藏布局等。文本挖掘在情报研究的价值在于弥补了情报学专门分析方法对科技文献内在知识挖掘不足的缺欠,例如,祝清松、冷伏海[17]为了解决引文分析方法无法揭示论文的研究内容这个问题,提出引文内容分析,先建立基于规则的引文内容抽取来识别引用句,再通过基于C-value多词术语识别算法找出高被引论文主题,相比于引文分析,这种方法较能提供客观的语义信息与文献之间的语义关系。

(2)知识发现。情报研究中所说的知识发现,主要是指基于文献的知识发现,例如,张树良、冷伏海[18]在共词、共引、文本挖掘等方法基础上,提出了“基于文献的知识发现”,包括:基于相关文献、基于非相关文献及基于全文献三种条件下的知识发现,完整揭示文献的知识结构与演化情况。在网络环境下,李楠、张学福[19]认为关联数据的RDF数据模型、数据访问机制、URIs及自描述数据等规范所形成的数据共享环境,为知识发现提供了新的研究潜力,包括知识发现的范围被扩展成全球数据空间、高效率理解及处理数据间的语义关系等。简言之,知识发现从不同数据源之间的复杂关系中获得隐含的知识或规律,甚至可对未来进行预测。

(3)观点挖掘与话题演化分析。观点挖掘与话题演化分析两种方法实际上是数据挖掘及文本挖掘的具体及深化应用。观点挖掘主要有三种挖掘任务:情感分类、基于特征的观点挖掘、比较语句和关系挖掘[20],例如,黄晓斌、赵超[21]通过对网络舆情信息的文本挖掘,找出不同民众对某一社会事件的情绪、态度及观点,再通过关联分析找出网络舆情信息的各种关联性。赵洁、温润[22]认为微博情感分析的关键是观点句识别,并根据文本特征的差异性,提出了基于新词扩充和特征选择的观点句识别方法,即先扩充情感词典来提高分词准确率,再结合微博特征进行句子选取。话题演化分析方法是近年文本挖掘的研究热点,借助不同的话题模型,包括基于LSI模型、基于pLSI模型、基于LDA模型等,获取文本中的一组词语,表示为某一话题的集合,再引入时间信息模拟该话题随着时间推移所表现的受关注程度及关注点的变化[23]。又例如,贺亮、李芳[24]利用LDA模型抽取科技文献中的话题(即主题词),再计算话题的强度与内容演化,从而区分热门与冷门话题及其历年特征词的演化趋势。

(4)多元统计分析与时间序列分析。多元统计分析与时间序列分析两种方法也是情报研究常见的定量分析方法[25],前者研究客观事物中多个变量(或多个因素)之间相互依赖的统计规律,后者则是基于随机过程理论和数理统计学方法,研究动态数据序列的规律性。这两种分析方法的一个重要特点在于能基于历史数据的变化,评价事物现状或预测事物未来的发展。

(5)海量数据的基本统计分析方法。海量数据的七种基本统计分析方法适用于情报研究的原因是,专家们普遍认为,在现有硬件技术条件下要开发一个海量数据分析系统的难度过高,且高性能计算领域也面临许多困难,因而转向寻找共通的基础性计算方法来帮助运算[6],同时这些统计方法也经常应用于数据挖掘或文本挖掘。对情报研究来说,处理的数据量不及高性能计算领域的海量数据,因此可以容易地应用这些基本统计分析方法。尽管如此,随着情报研究处理的文本量增加,包括文献计量或信息计量方法在内的定量分析方法,仍然要经常借鉴基础性的计算方法,并进行公式改进。

(6)高维数据降维分析方法。高维数据降维分析方法反映了海量的数值型数据在数据缩减的重要性,常见的降维(Dimensionality Reduction)方法包括主成分分析、因子分析、典型相关分析、独立成分分析、投影寻踪等[26]。高维数据经常存在大量的弱相关内容或噪音,通过线性(如主成分分析、典型相关分析等)或非线性(如投影寻踪、核方法等)映射可以将数据样本从高维空间映射到低维空间,从而提高机器学习的效率[27-28]。情报研究在处理文本语料时,广泛使用基于向量空间模型来表示文本,形成的高维特征集会对文本分类或机器学习的效果产生很大影响,通过特征选择(如特征频率、互信息等)进行特征抽取(如PCA、LSI、NMF等),转换成一个低维的特征集来提高训练效果,是非常必要的[29]。

(7)多源数据融合方法。多源数据融合方法是解决大数据环境下异构数据整合而提出的方法,例如,为了解决不同研究阶段产生的各类科学数据集成问题,白如江、冷伏海[30]认为解决关键在于中间件构建,例如,通过基于XML模型将异构数据源的元数据映射到全局视图,解决了不同数据源的关系描述问题,并提供用户可灵活订制查询规则;但基于XML模型只能提供语法层次的整合,为了提供数据在语义层次的整合,可通过基于语义模型对XML的对象进行分类,在对象模型的基础上生成逻辑规则,揭示隐含在科学数据中的语义信息。此外,也可以通过基于物化或ETL方法、基于数据流方法或其他方法对异构数据源中的数据抽取出实体与关系,再进行数据集成或数据清洗[11]。多源数据融合方法是进入数据分析之前的重要任务,对情报研究来说,需要多种来源支持情报分析工作,包括同型异源信息、异质异构信息、多语种信息等,都需要通过异源信息字段的映射、拆分、滤重、加权等进行融合分析[31]。

2.2 调整后移植的方法

调整后移植的方法是指其在原本的领域已经成功应用,但由于该方法最早或成功应用的领域在任务需求、数据处理、分析过程有自身的特点,若移植到情报研究时,需要根据情报研究自身的特征进行调整。数据可用处理及分析方法、时空数据分析等两种分析方法就属于这类情况。

(1)数据可用处理及分析方法。大数据环境中容易产生许多劣质数据来降低数据可用性,为了提高数据可用性及数据质量,李建中及刘显敏[32]梳理了数种数据可用性的相关方法,包括高质量数据获取与整合、数据错误自动检测与修复、弱可用数据处理与分析等,分别解决了大规模数据集预处理阶段常见的一致性、精确性、完整性、时效性及实体同一性等问题。对情报研究来说,情报素材、产品形式及工作任务分解的质量控制是情报工作的核心[33],其中,情报素材的质量对后续的情报分析成败存在着至关重要的作用,当数据或信息是错误或不完整时,提炼出来的情报势必会存在缺陷或错误。过去对情报研究的质量控制取决于人,如果能引入数据可用处理及分析方法解决数据或信息源可能存在的不一致、不精确、遗漏、滞后或重复等问题,有助于提高情报分析素材的可用性与正确性。

(2)时空数据分析。时空数据分析是地球信息科学相关领域的研究热点,其中最常使用“周期”(Periodic Behavior)分析,例如天气预报、环境监控、地理信息系统、城市交通网络管理等都是常见的应用实例[7]。现有研究的多数做法是采取基于时间序列的方法进行周期建模,但建模过程容易出现对象可能没有周期、时间点分布不一定呈现周期性等问题,为了解决这些问题,王阅等人[34]提出基于ERP的周期检测方法解决周期长度定义问题,孟志青等人[35]提出多粒度时间文本下的周期模式挖掘算法解决时态文本数据挖掘问题。对情报研究来说,时间是文本中一个重要的属性,如文献发表规律、舆情监控、科研人员的研究主题周期等。在原有数据基础上增加时间维度进行长时段分析是多数研究的常见做法,但并没有呈现出其中的周期性规律,特别是文本中的规律特征较难发现,如果能引入此类方法,将有助于找出情报演化的周期模式。

2.3 不适用的方法

考虑学科领域差异,本文认为 “翻译生物信息学分析”及“学习分析方法”两种专门研究方法不适合情报研究。

(1)翻译生物信息学分析。翻译生物信息学分析是生物信息学的专门分析方法,这种方法是依据特定目的整合多数据源及促进领域知识的有效利用,其结果可应用在生物医学研究、产生支持医疗人员在治疗点中的“可操作的决策”(Actionable Decision),同时能对人类与疾病的关联关系提供更好的理解。生物信息学为了找出更多基因与疾病的关系,通过翻译生物信息学分析,可以将分析方法与工具开发从系统层面横跨到分子、个人或全人类层面,分析视角从单一基因或多肽(Polymorphic)挖掘的研究转向新基因或遗传性状组合与预测研究[36]。从分析方法的操作过程来说,考虑到数据源的特殊性(如DNA编码数据、蛋白质结构等)、分析视角、工具构建及使用等因素,并不符合情报学的学科研究特色。

(2)学习分析方法。学习分析方法是搜集、分析及评测学习者及其学习语境的分析方法,目的在于理解与优化学习及其学习环境[8]。从UNESCO IITE机构在2012年11月出版的学习分析方法政策简报可知,学习分析方法的数据分析功能是基于数据挖掘从而开展相关分析内容,包括行为分析、学习资源浏览分析、各种关联分析与影响因素分析等。虽然数据挖掘是情报研究的常见方法,但学习分析方法的结果意义在于解释学习者的学习语境,为教师或管理者提供决策支持,从而改善学习者的学习习惯及促进学习效果。由于这种方法有其特定的含义和应用环境,离开了学习语境,方法的内涵和外延可能就会产生变化,因此,难以移植到情报研究。

2.4 需要继续关注的方法

基于MapReduce或Hadoop的衍生分析方法、图模型分析与挖掘以及商务智能分析,是近年研究探讨较多的方法,但目前尚未形成一个成熟且完善的方法体系,例如,MapReduce或Hadoop等之类的工具还在持续发展中,本身也存在不断的改进空间,它们与各种分析方法的集成缺乏公认的标准和规范,同样地,对于关注图像与事物之间关联的图模型分析与挖掘也尚没有发展出固定的技术,又例如,商务智能分析被定义为由数据仓库、ETL、联机分析、数据挖掘、客户关系管理、知识管理等多种技术融合的一组系统,通过BI系统管理组织内部及个人相关的商业数据、专家信息及知识,涉及数据的融合、取用及分析等方法与工具[37-38],目前也没有标准化的体系架构。

因此,本文还无法明确回答上述三种方法将如何应用于情报研究、在应用过程中需要做哪些调整、这些方法与现有的情报研究方法的关系如何等相关问题,但可以肯定的是,这些方法对未来的情报研究具有借鉴价值,例如,一旦情报研究的处理对象(即数据)积累到了一定程度,成为传统关系数据库处理不了的大数据,那么,使用基于MapReduce或Hadoop的衍生分析方法就成为了必然。又如,图模型分析与挖掘可补充情报研究在图像分析的不足,而商务智能分析可理解为一套集成系统,可应用在情报机构的知识库或机构典藏,找出组织的知识缺口等方面。

3 结语

大数据时代就是一个数据分析的时代,学界和业界提出了很多大数据分析的方法与技术,这些方法与技术对情报研究产生了积极的借鉴作用,本文总结了大数据分析的方法,提出面向层次的BDA方法框架,归纳总结了其中的17种BDA方法,并从可直接移植、将调整后移植、不适用于情报研究以及需要继续关注等四个方面对这些方法在情报研究中的适用性进行了分析,以期为情报研究借鉴或移植BDA相关方法提供参考,促进情报研究的理论与实践发展。

参考文献:

[1]Lavalle S, Lesser E, Shockley R, et al. Big Data, Analytics and the Path From Insights to Value[J].MIT Sloan Management Review,2011,52(2):21-32.

[2]Russom P. BIG DATA ANALYTICS[R].The Data Warehousing Institute,2011.

[3]Mohanty S, Jagadeesh M, Srivatsa H. Big Data Imperatives - Enterprise Big Data Warehouse, BI Implementations and Analytics[M]. New York: Apress, 2013.

[4]Computing community consortium. Challenges and Opportunities with Big Data[R]. Washington, DC:Computing Research Association,2012.

[5]Power D J. Using "Big Data" for analytics and decision support[J].Journal of Decision Systems,2014,23(2): 222-228.

[6]Nationalresearchcouncil.Frontiers in Massive Data Analysis[R].Washington,DC:The National Academies Press, 2013.

[7]Li Z H, Han J W. Mining Periodicity from Dynamic and Incomplete Spatiotemporal Data[A]. Chu W W,Data Mining and Knowledge Discovery for Big Data[M].Germany:Springer Berlin Heidelberg, 2014:41-81.

[8]魏顺平. 学习分析技术:挖掘大数据时代下教育数据的价值[J]. 现代教育技术,2013, 23(2): 5-11.

[9]Chen H C, Chiang R H L, Storey V C. Business Intelligence and Analytics: From Big Data to Big Impact[J]. MIS Quarterly,2012, 36(4): 1165-1188.

[10]严霄凤,张德馨. 大数据研究[J].计算机技术与发展, 2013, 23(4): 168-172.

[11]孟小峰,慈祥. 大数据管理:概念、技术与挑战[J]. 计算机研究与发展,2013, 50(1): 146-169.

[12]覃雄派,王会举,杜小勇,等. 大数据分析――RDBMS与MapReduce的竞争与共生[J].软件学报,2012, 23(1): 32-45.

[13]Sengamedu S. Scalable Analytics-Algorithms and Systems[A].Srinivasa S, Bhatnagar V.Big Data Analytics[M].India:Springer Berlin Heidelberg, 2012:1-7.

[14]Mehta S, Subramaniam L V. Tutorial : Social Media Analytics[M].Bhatnagar V, Srinivasa S.Big Data Analytics[M].India:Springer International Publishing, 2013:1-21.

[15]王炼,武夷山. 方法移植对科学计量学研究的方法论启示[J]. 科学学研究,2006, 24(4): 503-507.

[16]Kroeze J H, Matthee M C, Bothma T J D. Differentiating Data-and Text-Mining Terminology: The 2003 annual research conference of the South African institute of computer scientists and information technologists on Enablement through technology[Z]. South Africa:2003:93-101.

[17]祝清松,冷伏海. 基于引文内容分析的高被引论文主题识别研究[J]. 中国图书馆学报,2014,(1):39-49.

[18]张树良,冷伏海. 基于文献的知识发现的应用进展研究[J]. 情报学报,2006, 25(6): 700-712.

[19]李楠,张学福. 基于关联数据的知识发现应用体系研究[J]. 图书情报工作,2013,(6):127-133.

[20]王辉,王晖昱,左万利. 观点挖掘综述[J]. 计算机应用研究,2009,26(1):25-29.

[21]黄晓斌,赵超. 文本挖掘在网络舆情信息分析中的应用[J]. 情报科学,2009:(1): 94-99.

[22]赵洁,温润. 基于新词扩充和特征选择的微博观点句识别方法[J]. 情报学报,2013,32(9): 945-951.

[23]单斌,李芳.基于LDA话题演化研究方法综述[J]. 中文信息学报,2010, 24(6): 43-49.

[24]贺亮,李芳. 科技文献话题演化研究[J]. 现代图书情报技术,2012,(4): 61-67.

[25]查先进.信息分析[M].武汉:武汉大学出版社,2011.

[26]Lakshminarayan C. High Dimensional Big Data and Pattern Analysis: A Tutorial[A].Bhatnagar V, Srinivasa S.Big Data Analytics[M].India:Springer International Publishing, 2013: 8302, 68-85.

[27]胡洁. 高维数据特征降维研究综述[J]. 计算机应用研究,2008,(9): 2601-2606.

[28]吴晓婷,闫德勤. 数据降维方法分析与研究[J]. 计算机应用研究,2009,(8):2832-2835.

[29]陈涛,谢阳群. 文本分类中的特征降维方法综述[J]. 情报学报,2005,24(6): 690-695.

[30]白如江,冷伏海. “大数据”时代科学数据整合研究[J]. 情报理论与实践,2014, 37(1): 94-99.

[31]化柏林. 多源信息融合方法研究[J]. 情报理论与实践,2013,(11): 16-19.

[32]李建中,刘显敏. 大数据的一个重要方面:数据可用性[J].计算机研究与发展,2013,50(6):1147-1162.

[33]王延飞,王林兰. 论情报研究质量[J].图书情报工作,2010,54(10):35-39.

[34]王阅,高学东,武森,等. 时间序列周期模式挖掘的周期检测方法[J]. 计算机工程,2009, 35(22): 32-34.

[35]孟志青,楼婷渊,胡强.多粒度时间文本数据的周期模式挖掘算法[J]. 计算机科学,2013,(S2): 251-254.

[36]Bellazzi R, Diomidous M, Sarkar I, et al. Data analysis and data mining current issues in biomedical informatics[J]. Methods of Information in Medicine,2011,50(6):536-544.