绪论:写作既是个人情感的抒发,也是对学术真理的探索,欢迎阅读由发表云整理的11篇大数据开发的过程范文,希望它们能为您的写作提供参考和启发。
大数据技术事实上是将人类日常生活中产生的各种数字信息,将这些信息收集起来之后分类处理,设定不同类别的存储空间,按照类别存储。大数据技术从功能的角度出发可以划分为多个类别,诸如分析技术、机器学习技术、遗传算法技术、自然语音处理技术等。应用大数据技术分析,就是基于当前的科学技术发展起来的一种分析技术。它主要依靠现代科技手段发挥技术的作用,特别网络技术发挥着基础性的作用。整理基础数据,对数据信息进行分类整理,应用相应的计算机算法,将相似特性的数据划分为一类,最终得到大量的数据,应用大数据技术对这些数据进行分析。大数据分析应用于互联网行业中,所发挥的优势是有目共睹的,而且还不断地引入新技术,在软件工程技术中应用,对该技术的发展起到了促进作用[1]。
大数据时代,社会各个领域都已经实现了信息化发展,人们对软件工程的概念越来越熟悉。事实上,软件工程的历史始于20世纪的中期,其研究重点是软件技术和工程管理。将相关工程内容引入其中,使得工程系统化运行,其中所涵盖的研究内容包括软件的生命周期、软件工程设计、软件的技术维护等方面。因此,在软件设计的过程中,要控制好技术开发成本,保证工程质量,使其生命周期不断延长,不同项目的技术需求和用户的各种技术需求都能够得到满足。
2大数据背景下的软件工程基础
处于大数据时代环境中,软件工程的发展中关乎到不同的领域,需要高度重视。大数据技术具有专业性的特点,还具有很强的实用性价值。在软件工程技术的研究中,要从应用需求出发不断创新软件技术,对于传统的技术要不断摒弃,对软件工程的发展创造良好的客观条件。大数据技术环境下,软件工程基础是基于互联网技术建立起来的,对各种数据信息系统化管理,根据需要进行处理,对工业的发展非常有利[2]。在软件工程技术中,大数据的安全性问题是需要高度重视的,否则,就会对软件工程技术造成不良影响,引起严重的后果。
2.1软件服务工程
在软件工程的研究范畴中,软件服务工程的数量不断增多。软件工程服务化方向发展,就是发挥服务的作用,使其成为软件开发的基本原则,按照服务项目内容为用户展开服务。由于软件工程发展的主题有所,服务内容也要做出相应的调整,同城是对软件工程的进行技术维护。在具体的服务工作中,需要软件开发人员使用分布式应用程序,在管理工作中采用虚拟操作的方法为用户2019.08提供服务[3]。软件工程技术应用中,结合使用大数据技术,可以对网络数据进行编程,使得软件具有互操作性,对于数据主动协调,使其符合动态场景的变化节奏,软件系统的集成度有所提高。
2.2软件开源
软件开源更为注重用户对软件技术的体验。在对软件开源进行研究的过程中,采用常规的方法,虽然获得一定的成果,但是应用价值不是很高。一些研究人员在研究软件工程技术的时候,就是将软件开源作为突破口,将开发项目划分为多个模块,将每个模块分给指定的研究人员进行开发。
2.3群体软件工程
群体软件工程是通过网络的方式进行软件开发,具体的实施中采用工程众包的形式,使得软件开发技术发挥作用。群体软件工程是一个分布式软件开发模型,这个工程项目的运行中,可以通过网络实现,对各项任务进行分配,也可以进行创造性的查询,通过众包解决软件开发过程中遇到的一些困难和重要问题。同时,在软件工程开发过程中,软件工程可以在任何阶段通过众包进行开发[4]。
3大数据与软件工程技术的未来发展方向
3.1大数据与软件工程技术开放式的发展
大数据技术的主要前提是大量的数据流,需要技术不断地升级和创新,寻求开发的研究途径是非常必要的。计算机网络的发展意味着计算机可以在开放的环境中相互通信,共享数据资源,软件等信息的有效利用能力也会有所提升。通过网络运行可以增加利润,使得用户的各种需求得到满足,提高资源的利用率。
3.2大数据与软件工程技术融合到其他领域
软件工程技术在当今许多科学领域有着广泛的应用。由于软件工程技术给予各个领域非常大的帮助,从航空到生活中都发挥着软件工程技术的作用[5]。应用程序的运行,可以使用数据平台对信息进行收集并分析。比如,用户在进行股票交易的过程中应用大数据技术,可以使用软件工程技术构建数据模型,通过对数据模型的分析,预测股票的变化趋势。
4众包软件服务工程中的大数据技术
在软件开发过程中,必须有足够的硬件和软件基础来支持数据流,随着数据流的量逐渐增多,对硬件和软件就有了新的要求。专家学者在分析数据流的时候,还对在线服务进行了研究。数据流是重点内容,主要是对数据流的使用方法进行研究,对支撑数据流的软件和硬件进行研究[6]。从软件工程开发的角度而言,软件运行中都会产生大量的数据流,包括服务端、用户端等,都会有很多的数据信息产生,这些数据流对软件和硬件的使用寿命起到了决定性的作用。软件工程的开发中,要做好数据流的管理工作。有必要对原始数据进行深入的研究,为提高软件的使用寿命创造条件,对数据流的分析要高度重视[7]。
5密集型数据科研第四范式
第四种科学研究范式是指根据实际情况建立独立的科学研究方法,探索第四种范式的理论基础,以及大型数据存储设备在发展中的重要性。软件工程中,采用传统的大数据研究方法,大数据的有效分析是不可能的,大数据的研究还没有取得突破性的成果。因此,目前大多数软件不能在短时间内同时实现数据信息的存储、数据信息的传输和有效识别。在探索第四范式理论和研究方法的过程中,首先需要对集成大数据的软件服务价值进行估计,抛弃传统的大数据统计方法,建立新的大数据信息统计方法和分析方法[8]。此外,有必要从多个方面研究大数据的处理,对大数据信息进行管理并深入分析,讨论大数据的价值以及存在的可变性,这对软件工程的发展起着重要的作用。在研究软件工程技术的时候,必须更新传统的软件开发理念,重视软件处理和分析大数据能力的发展,使得软件产业呈现出新的发展面貌。
在当今大数据时代,软件工程技术的研究已经区域复杂。随着数据的指数的不断增长,软件技术对硬件设备数据处理能力产生一定的影响。因此,在对软件工程技术的研究中,就需要对大数据技术的特点进行研究,基于此研究软件工程技术,使得硬件设备的数据处理能力有所提高。在研发开发软件技术的过程中,要从应用领域的需求出发对大数据技术进行分析,在大数据开发理论的基础上创新软件开发理论,促进软件技术更好地发展。
二、大数据对高等教育的重要性
1.大数据便于分析学习行为
在教育活动中,教育数据是对教育成效、创新思维、创新能力、科研活动、学习主动性、学习积极性和教学活动进行分析的重要依据,它为教育教学和科研活动提供重要的科学依据和可行性论证的材料。教育数据可以通过面授的方法即面对面的教育互动获取,如一问一答、讲座交流、分组讨论、课题合作、兴趣小组等,教育数据也可以通过网络课程平台或慕课等多媒体课程获取,以这种方式获取的数据样本大、效率高、存储方便。教育大数据可以呈现学生学习的即时效果以及学生参与课堂教学和科研活动的情况,这是智慧教育的客观分析的依据和比较研究的素材。教育大数据以其便利性和可操作性为学生学习行为的研究和分析提供了便利条件。首先,教育大数据便于对学生学习行为进行分析。教育大数据便于留存,方便调阅,有助于评价和分析学生的学习行为,进而有针对性地解决问题。其次,教育大数据便于教师从全局把控学生的学习情况。利用数据的关联性和演绎规律,可以从中获取课堂上学生互动、课堂接受程度和专注度等教学反馈信息,有利于挖掘个体学生的学习特点,推进个性化教学,或从整体上评估学习行为,对学生进行科学指导。最后,便于教育管理者更好地组织教育资源。教育管理者可以从教育大数据中挖掘有价值的信息,制定教育改革的方向和措施,并采取和风细雨、滋润心田的管理方式。
2.大数据促进教育科学化发展
首先,大数据提供智能学习平台。将众多的高校信息收集起来,资源共享,信息互通,让世界高校变成地球村,这给教育智能化发展创造了极好的条件。芝加哥大学等多所世界名校达成共识,联合建设在线教育公共课程,通过网络平台免费开放课程,供全球几十万人同时收听或观看同一知名教授的课程,共享学术精髓。这是教育资源的高效利用,也是高教发展的必然。同时,还可以在网络平台上通过MOOC等多种形式进行学术讨论和交流。智能化学习平台让学习和交流变得更便捷。其次,大数据构建全新教学模式。大数据的应用给高等教育带来了革命性变革,面对面的课堂讲授形式面临建立在教育大数据基础上的在线、视频、多维度、全视角的立体化教育模式的挑战。教育大数据时代的教学模式,其知识传授途径已从课堂走向网络,从线下走到线上;其知识传授不受时空限制,可以随时随地上网学习在线课程,接受世界名师的网络课程教育;其教学方式也更灵活。通过观察或记录鼠标对某一知识点的点击量、在一张幻灯片上停留的时间的长短、回答问题后有针对性的关注的有无等情况,可以判断不同的人对不同知识点的关注和接受程度,从而使得视情况而定的详解或弱讲,或个性化、差异化教学得以实现。教育大数据时代的教学模式还有效地延伸了教学资源和师资。在线上接受世界名师授课,这是高等教育全方位、全时空的重大突破。最后,大数据促进教育科技创新。高等教育大数据通过提供科技创新所需要的信息资源、科研知识和科技问题交流的平台以及科技信息的实时交流,促进了产学研协同创新,促进了成果的转化和创新。高等教育大数据之所以能够发挥这样的作用,是因为它积聚了科研、教学、工程信息、管理科学、音乐艺术等海量信息,而且这些集音频、视频、文字、图形于一体的立体化信息是可以即时查询或交流的。高等教育大数据的双向性和交互性,对于提高科研效率、促成科研成果转化有很大帮助,间接地促进了高校的进一步发展。
三、高等教育大数据的建设途径
1.搭建数据平台,开发大数据处理技术
建立高校大数据应用平台,在整合原有信息系统的基础上,升级、建设数据釆集设备、数据传输网络、数据储存和分析系统,并通过对数据和应用的高度集成将复杂的大数据处理程序交给专业人员处理,为一线教师减轻负担。高校大数据应用平台拥有强大的数据收集和分析能力,可以有效地提高数据管理质量和效率,促进资源共享,为高校管理决策提供支撑,推动高校资源配置的优化。大数据应用可以在人才培养、科学研究、社会服务和文化传承创新等多个方面全面推动高等教育的发展。
海量数据包含了许多冗余和杂质,这样的数据不便使用,甚至不能使用。要发挥大数据的功用,提高其价值密度,就必须开发大数据的相关技术。首先,开发大数据集成技术。对数据进行有效的集成和整合,以剔除无关信息而不使有用的信息流失。完成这种除冗降噪过程的,是大数据技术中的数据采集和算法技术。不同来源的数据存在结构化、半结构化和非结构化三种结构形式,数据之间的差异给数据的集成带来了巨大的困难。这需要开发比Hadoop分布式处理软件更先进的系统进行集成。其次,改进大数据存储技术。存储设备容量不可能跟上数据规模的扩张,而大数据存储技术又与数据成本、计算和分析速度直接相关,这就要求开发一种既能够存贮多元异构数据又满足数据格式统一、标准统一要求的存储技术。再次,开发高效的实时分析技术。传统的分析技术可以对大数据中结构化静态数据进行分析,但数据的一致性、可用性和容错性不可兼得。大数据的可扩展性和可用性不能得到满足,影响它的使用。只有开发一种横向扩展能力强、能大规模处理非结构性数据的分析技术,才能满足高效地进行动态分析的要求。最后,开发可移植处理模型。目前的大数据处理框架大多是针对各行业、各领域的情况开发的,不具有广适性和可移植性,限制了大数据的应用。在高等教育领域,大数据专业人员应同各领域专家合作,开发可移植处理模型。
DOIDOI:10.11907/rjdk.161946
中图分类号:TP319
文献标识码:A文章编号文章编号:16727800(2016)009013202
作者简介作者简介:杨洋(1995-),女,湖北武汉人,华中师范大学信息管理学院学生,研究方向为信息管理与信息系统。
0引言
随着互联网时代的来临,越来越多的数据都来源于网络,网络数据呈爆炸式增长,如何对这些网络信息资源进行有效的采集、组织、分析和利用成为急需解决的问题。运用先进的技术和管理经验来对网络信息资源进行开发是大数据时代急待解决的问题。
1大数据概述
2011年,位于美国的全球知名咨询公司麦肯锡最早提出了“大数据时代”概念,随即在全球掀起了轩然大波,似乎所有学科都被冠以大数据的头衔。随着网络时代的发展,数据以惊人的速度增长――每秒钟有60张照片上传到网络;每分钟有60个小时的视频上传到YouTube;每天,全球互联网中产生的数据可以刻满1.68亿张DVD,发出的论坛帖子达到200万个,相当于美国《时代》杂志770年的文字量。
到目前为止,大数据还没有一个完全准确且被公认的定义。麦肯锡全球研究所给出的定义是:大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。现在被广泛认可的是大数据的4V特征:海量的数据规模(Volume)、快速的数据流转(Velocity)、多样的数据类型(Variety)、价值密度低(Value)。
随着科技时代的发展,大数据的处理要求与日俱增,特别是面对海量的网络信息资源,亟需大数据技术的特殊处理,才能够得到充分的组织利用,才会为社会创造更大的价值。
2大数据时代网络信息资源开发利用现状
2.1网络信息资源概念
广义上讲,信息资源是指一个贯穿于人类社会信息活动中从事生产、分配、交换、流通、消费全过程的多要素集合,包括信息劳动的对象、信息劳动设备、信息劳动技术、信息劳动者等[1]。而网络信息资源作为知识经济时代的产物,即虚拟的信息资源,是指借助于网络环境可以利用的各种信息资源总和。网络信息资源可以指以数字化形式记录的、通过计算机网络通信方式进行传递的信息内容集合,也可以是为满足人类需求,借助计算机等设备开发、生产和传递的、通过网络获取的信息集合。
2.2大数据时代网络信息资源开发利用机遇
过去,很多行业对网络数据只是进行传统挖掘,比如点击率、网络流量以及其它仅局限于网络数据的指标。因为技术、人才的缺乏,导致很多详细的网络行为数据没有被充分挖掘。但是现在,在基于大数据的有关技术以及在全行业大数据的浪潮中,来自于网页浏览器、移动应用终端、自助服务终端、社交媒体等地方的网络数据被挖掘整理为有价值的网络信息资源,为科研、商业、教育等领域提供源源不断的可用情报,从而促进各大行业蓬勃发展。在大数据时代,网络信息资源中可挖掘的有用信息更加丰富。
早在大数据概念提出不久的2012年,美国就已经将大数据研究和发展计划提升为国家发展战略。美国作为一个科技与经济强国,其对大数据的重视程度可见一斑。虽然我国互联网起步较晚,但政府在实行大数据战略时也给予了充分的经济与政策支持。2016年中国大数据产业峰会暨中国电子商务创新发展峰会的主题便是大数据开启智能时代,国务院总理出席开幕式并发表致辞。信息处理技术作为四项关键技术创新工程之一,涵盖了海量数据存储、图像视频智能分析、数据挖掘等信息处理技术,是大数据技术的重要组成部分。
2.3大数据时代网络信息资源开发利用的挑战
大数据时代,网络信息资源开发利用有着良好的发展条件,机遇和挑战并存。首先,我国现阶段在数据挖掘、数据仓库、搜索引擎、元数据等技术上与科技发达国家还存在着差距[2],如何使用先进的大数据技术来处理庞大的网络数据,增强信息的采集、组织、分析和运用能力成为亟待解决的难题;其次,如何有效管理庞杂的信息资源也是急需解决的问题[3]。在互联网时代甚至是移动互联网时代,网民产生的海量数据杂乱无序,需要合理管理才能组织利用好这些数据,为生产生活创造价值。
大数据时代,网络信息资源利用发展迅速,但人们的从众心理会导致盲目投资,很多人往往在没有彻底弄清大数据的发展形势前就跟风操作,这会加重网络信息资源管理的负担,不良的大数据产业还会带来行业风险,信息的真实性和可靠性得不到保障。
3大数据时代网络信息资源开发利用策略
3.1提升大数据技术水平
我国的大数据技术水平与美国等科技发达国家还存在差异,要利用好网络信息资源,进行有效合理的开发,就一定要掌握核心技术。
大数据核心技术有:①Hadoop,是一个能对大量数据进行分布式处理的软件框架,Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的;②Storm是自由的开源软件,一个分布式的、容错的实时计算系统。Storm可以非常可靠地处理庞大的数据流,用于处理Hadoop的批量数据;③RapidMiner是世界领先的数据挖掘解决方案,其数据挖掘任务涉及范围广泛,包括各种数据技术,能简化数据挖掘过程的设计和评价。
3.2加强网络信息资源的引导和管理
大数据时代的社会舆论环境非常复杂,互联网时代,每个网民都是大数据的生产者和接受者[4]。首先,有关部门要疏通网络舆论环境渠道,善于利用大数据技术分析解剖舆情问题,提取采集有价值的网络信息,整理网民关注的焦点和热点问题;其次,对于网络信息资源反映的问题提出有效的解决方案,甚至可以预测问题、提出预警。对于网络行为进行数据挖掘,从而得到经济、政治、社会层面有价值的信息资源。比如在淘宝网上,通过用户的购买数据和浏览数据得出用户偏好,在后台处理这类信息,形成商品推荐呈现给用户,以此增加用户购买行为概率,提高潜在经济效益。
大数据时代应以先进的管理方式来进行网络信息资源的开发利用。基于大数据的4V特征,一般的管理方式是难以驾驭大数据的,所以新型的先进管理经验应运而生。要利用数据挖掘和数据仓库技术对大数据进行管理。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系的信息过程。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。这都需要专业的管理人员进行操作与管理,对大数据时代下的网络信息资源管理提出了更高的要求。
3.3制订相应的政策推动网络信息资源开发利用
在大数据时代,网络信息资源的开发利用可以深入到上至国家下到个人的各个层面,数据的真实可靠性、个人的隐私也都会受到影响。国家不仅要在促进大数据发展上制定相应的政策,还应该加强宏观调控,制定政策和法规,用相应的法律来进行约束管理。
我国相关机构要建立符合实际的技术、人才、财政等政策保障体系[5],为大数据产业发展营造良好环境,生产并提供适合受众的网络信息资源与服务。在经济政治条件允许下,可以建立大数据创业园区,集聚大数据开发运营企业,对相关企业提供便利条件或相关支持,从而促进网络信息资源的开发利用。
4结语
大数据时代的历史潮流势不可挡,大数据与互联网相辅相成,共同发展。大数据时代的网络信息资源开发利用成为连接两者的桥梁。随着科技发达国家对大数据的重视,国家之间的实力对比也逐渐成为信息力量的权衡,网络信息资源在国家领域和日常生活中越来越占据主导地位。我国应紧跟大数据时代的发展潮流,加紧对网络信息资源进行有效地开发和利用,以提升综合国力和核心竞争力。
参考文献参考文献:
[1]张欣.大数据时代的网络信息内容建设管理[J].新技术,2015(5):119.
[2]严颂.大数据时代的网络信息内容建设管理[J].成都行政学院学报,2014(1):1922.
【关键词】大数据 基础数据结构 软件工程 数据标准
随着智慧城市建设项目的开展,作为智慧城市建设的重要基础就是围绕大型基础数据平台的建设,在业界定义为大数据时代的来临。围绕大数据的概念,在全国范围内的各领域各行业都在大数据的如何组织、如何应用、如何共享、如何关联召开了各类研讨会。大数据应用的云计算技术、数据仓库技术等成为业内讨论的重要话题。本人认为,在做了这些工作后,应回过头来看一看,无论数据量有多大,都离不开基础数据结构与体系的建设,在此要阐明的一个基本观点就是在大数据时代更应该重视基础数据结果的研究与应用。
1 大数据的概念
什么是大数据, IBM 最早的定义是:将大数据的特征归纳为4个“V”(量Volume,多样Variety,价值Value,速Velocity),或者说特点有四个层面:第一,数据体量巨大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T);第二,数据类型繁多。比如,网络日志、视频、图片、地理位置信息等等。第三,价值密度低,商业价值高。第四,处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。
在大数据概念中的第一条是数据量大,这是大数据的特点,而却随着信息系统应用的深入,数量的数量级也在不断的提高,这是毋容置疑的。我们在此要讨论的是第二条数据类型繁多的问题。
2 目前大数据应用存在的主要问题
随着信息化系统应用的深入,在社会、自然界、生活中所涉及的数据面越来越广,由此使得数据类型也越来越多,数据类型的数量在不断增加,这些数据类型之间的关系和相互关联性也越来越复杂,大数据量下的数据应用造成了困难。数据结构类型繁多造成问题主要表现在以下几个方面。
2.1 数据类型是有限量的认识不清楚
未来大数据情况下,数据类型是有限量的还是无限量的概念模糊,为此首先要么明确一个基本的概念,那就是,数据类型在繁多,但是数据类型的数量是有限量的,只是这个限量的数量级大一些而已。在数据类型是有限量的情况下,对于解决数据类型繁多的方法是完全不同的。
如果数据类型的量是无限量的,那么解决问题的方法是要研究解决数据类型问题的方式是研究规律,拿出解决问题的方式与方法,对于具体数据类型时,按照方式方法理论与技术去解决问题。如果数据类型是有限量的话,那么解决问题的方式就不只是从理论上的解决问题方法,而应该更加切合实际的去针对每一种数据类型直接进行研究,形成数据标准,指导各个系统对每一个具体数据类型的应用。
2.2 相同数据在不同系统中的表现类型繁多
由于系统开发方各自的开发经验、所开发系统的规模不同,系统应用方对系统要求不同,系统应用行业的不同,使得在开发过程中,对于数据类型的定义只遵循本系统使用需要进行定义,没有完整的标准,即是有相应的国家或国际标准,也不能完全遵循。
2.3 各个行业制定的标准相互矛盾
各个行业在制定相应的标准时,是以满足自身需要为主导,造成了数据类型在其数据定义时不但长度不同,就是数据类型都不相同。这也就造成了各个系统在未来大数据应用中出现了严重的数据应用障碍。
2.4 大数据应用的实现效率低
由于不同系统技术数据结构的不统一,使得对于大数据的应用上要对不同系统的数据结构进行分析,构建关联,而后才能进行数据的应用,这项工作的工作量大,技术含量高,降低数据的应用效率。这些都是事后分析数据存在的问题。
2.5 数据浪费巨大
由于数据各个系统间数据结构的不同,加上分析手段的局限性,使许多的数据无法进行使用,由此也降低了数据的使用率。并造成数据的大量浪费。
3 造成目前对大数据应用存在问题原因
由于以上几方面的问题存在,为了做好大数据的应用,许多相应的技术应运而生,数据仓库技术、网格技术、云计算的数据处理技术等等。这些技术促进了数据应用的发展,提高了数据应用效率,为大数据应用发挥了巨大作用。但是这种做法只能针对具体的大数据应用项目起到作用,不能从根本上解决问题。那么造成这种问题根本是什么呢?
3.1 理论基础有偏差
目前所有这些高精尖技术的发展,为大数据应用的发展起到了不可替代的作用,但是这些技术在理论出发点上存在偏差,那就是,这些技术的理论出发点设定的是,数据类型是无限量的,是无穷尽的,所以所有的技术研究都不面对具体的数据项,这样做的结果是促进技术的发展,弊端是不能面对具体的应用,所有的技术应用都要在这就技术下进行二次应用研究。也就是,这些理论是治标不治本的做法。
有限量数据类型与无限量数据类型是两个根本不同的概念,对于技术的发展影响也是完全不同的。为此,目前在无限量数据类型概念下的大数据应用技术与体系将会存在极大的局限性,对未来的大数据应用造成影响。
3.2 对大数据认识有偏差
目前在各个系统对大数据的应用中,对大数据的认识是,只要有足够量的数据,就是大数据,而对于数据之间的关系,整体的数据结构体系没有很深的认识,甚至将原有的多个分散的系统中的数据库,做一个小的关联数据库,就认为是数据云计算,就是综合数据平台了,而在这种情况下,对于大数据的应用,因为系统的独立,数据库的独立、数据结构的不统一造成了大数据应用的瓶颈和障碍,在系统应用到一定程度后,数据量是很大,但是无法进行大数据应用,或者说是要进行大数据的应用,需要另外投入很高的成本进行数据整理、数据管理和数据分析。所以应该明确的是,在数据结构混乱的情况下,在大的数据量也不能称为大数据,这个观念上的偏差,是造成目前数据应用困难的原因之一。
3.3 数据结构不规范
这些情况的出现,归结的一起,就是数据结构不规范,不统一。在三方面主要原因造成这个局面,一是目前的应用系统的开发,由不同的公司进行,每个开发单位对数据结构的定义有各自的标准,基本都是按照多年开发经验总结出来的,因此各个公司开发的系统在数据结构上相差很远。二是对于同一个公司不同时期开发的系统所涉及的数据结构不统一,到后期,开发单位不愿意在投入成本对前期开发的系统进行重新开发,这就造成了前期开的的系统中的数据结构与后期开发的数据结构不统一。三是对于应用开发单位在开发每一个具体应用项目时,由于是不同的开发小组在进行,为此,在进行数据结构设定时,只为了满足本系统开发的需要,而没有考虑系统未来的发展和系统的整体架构,这也造成了不同应用系统中对相同字段的设定不相同,数据结构不统一。以上这些都是在应用系统开发过程中遗留的问题,而这些问题严重影响了大数据的使用。
3.4 有统一的标准不用
在系统开发过程中涉及的数据结构,许多都有相应的标准,主要有以下几个方面,一是国家法律层面的,对于一些重要的数据要求以立法方式进行规范。二是国家标准,制定和规范了国家层面的有关方面的数据要求和限定。三是部颁标准,由各个部委办局制定的相应标准,这些标准有一大部分直接针对信息化系统建设的应用和数据标准。四是行业标准,作为每一个行业内进行行为约束的标准,这种标准虽然不具备强制性,但是在行业内是一个自觉遵守的标准。四是国际相关标准,虽然国际标准没有任何的法律约束性,但是为了走出去,各行各业都在遵循这个标准。
这些标准都是在系统建立时的数据结构依据,但是目前许多系统在进行数据结构设定时,都没有按照这些标准执行,而是根据自己系统的需要进行设定的。这使得许多的系统中的数据不能相互交换使用,由此而影响了大数据的应用。
3.5 不同行业对标准的设定不统一
在国家标准体系中,由于标准制定的年代不同,同是一个部门颁布的标准对相同的数据要求也不同,各个部门由于独立制定标准,同样出现相同数据在不同部门制定的标准中规定的不同,这几方面原因也就造成了即使遵照标准,也存在着相同数据在不同应用系统中的数据结构不同的现象。
以上是大数据应用问题出现的主要原因,作为大数据应用的刚刚起步阶段,应针对这些问题进行研究给出相应的解决方案,为未来大数据应用的发展打下一个良好的基础,避免今后的大数据应用走弯路。
4 解决大数据应用问题的对策
解决大数据应用存在的问题,应从最基础的数据结构建立开始,从根本上去解决问题,也为未来大数据应用的发展打下一个良好的基本数据结构基础,对此提出以下几方面的对策。
4.1 开展和加强对基础数据结构建立的理论研究
从软件工程学的角度出发,以数据结构类型是有限量的概念为依托,围绕具体的数据类型开展数据结构体系的理论研究。依托一个数据结构分类的理论体系来支撑整个数据结构体系的划分,其中包括划分方法、划分层次、划分的软件工程学理论支撑等内容,制定大数据底层数据结构划分的理论体系,形成在大数据下的数据结构构建的理论体系。
4.2 开展对具体数据结构的研究
按照建立的数据结构理论体系要求,对每一个具体数据结构进行研究,针对数据项的名称、类型、含义、层次、结构、与其他数据的关系、涉及内容规定等方面制定出具体数据的标准。这项工作可以在有组织的情况下由全社会共同参与,按照指导理论的要求进行研究,这样,随着应用系统的不断深入,所涉及的数据类型项将逐步扩展,最终实现数据的全覆盖,而完成整个架构体系的建立。
4.3 制定相应的数据结构标准
对于由各个方面制定的数据结构进行分类、筛选、审核,而后想这些结构形成一个统一的架构体系,制定相应的技术标准,通过这个标准来规范应用系统的开发,形成完整的、规范的、统一的数据结构体系,为大数据应用打下坚实的基础。
4.4 成立相应的机构来负责这项工作的完成
对于这项工作的开展,应在软件工程相应的有关组织下,建立一个专门的机构,负责指导这项工作的完成。由这个机构成立专门的实验室,负责整体架构的制定,数据类型项的搜集、分类、筛选,并形成统一的数据库体系,为所有的应用系统的开发提供数据库基础支撑和服务。
综上所述,通过对基础数结构的研究与体系的建立,从根本上解决大数据应用的效率,充分发挥未来大数据的作用,简化大数据应用的方式与过程。
参考文献
[1]严霄凤,张德馨.大数据研究[J].计算机技术与发展,2013(04).
[2]李学龙,龚海刚.大数据系统综述[J].中国科学:信息科学,2015(01).
[3]方璐.大数据时代的科学研究方法[J].浙江工业大学,2014.
作者简介
全国乃至全球范围内,政府部门将大数据运用作为顺应经济发展规律、提升政府治理能力、增强地区竞争优势的新动力、新机遇、新途径。加强对数据的分析和应用,有助于政府部门通过数据来合理制定产业政策、引导企业投资经营、培育新模式和新业态,推动实体经济与虚拟经济的融合发展;有助于政府部门提升经济数据分析的能力,推动社会事业数据的共享,创新行业管理服务的模式,加快建设法治服务型政府;有助于储备基础战略资源,带动科技创新,释放经济潜能,创造区域经济发展的潜在空间。
大数据在政府行业统计监测中应用的基本情况
目前,大数据在政府行业统计监测中的应用主要包括两个方面,一是成为政府统计数据来源的补充渠道,实现原有的统计直报方式和大数据方式相结合,尤其是网络交易数据的重要获取来源,如利用信息技术手段整理第三方电子商务平台交易数据以测算地区网络零售额;二是成为政府统计数据质量的评估依据,将获取的大数据作为传统统计方式获得数据的质量评估参考,如国家统计局利用中国银联跨行银行卡消费数据评估社会消费品零售总额数据质量等。
大数据对政府行业统计监测带来的机遇和挑战
大数据在政府行业统计监测中机遇与挑战并存,机遇大于挑战。其中,机遇主要表现在数据获取方式更加便利,先进技术逐步取代人工劳动使得统计效率更高、成本更低;数据获取频率更加密集,可以实现全天候实时监测,逐日更新更替数据信息;获取数据数量更加丰富,可以实现多维度、多区域的数据开发和整理;获取数据质量更加精准,尤其针对小而散的网络零售企业,信息技术获取的数据更加全面和准确;挑战主要表现在对政府统计能力和统计理论带来的挑战,一方面政府统计对大数据运用的需要一个漫长的周期,原有统计制度和现行统计方法双轨运行的模式需要磨合,另一方面政府统计人员对大数据的理解和认识需要一个较长的周期,缺少具备大数据理论和技能的专业统计人才。
大数据环境下政府行业统计监测的发展原则、内容和方向
电子商务行业统计监测是新形势下政府行业管理的一项基础性、开创性的工作,应在摸索中不断创新突破,使得电子商务行业统计监测能够满足政府行业管理的需要。
(一)主要原则
电子商务领域应用大数据开展统计监测具有涉及面广、技术要求高、公益性明显、变化性大、安全性要求高等特点,因此在应用过程中应坚持以下原则:一是合法性原则,应用大数据技术进行数据采集和整理过程中,要遵守现行的法律法规,在合法的范围内安全使用;二是科学性原则,对数据进行过滤和加工时,数据模式和方法要科学合理,确保数据的权威性;三是开放性原则,数据不仅作为政府决策依据,还应将大部分作为公共资源向全社会共享;四是稳定性原则,数据来源实现多渠道,技术手段、数据模型等要及时更新,以保证数据根据实际需要实时;五是标准化原则,加快数据采集、指标口径、分类目录、数据交易、安全保密等关键共性标准的制定和实施,充分发挥标准在数据开发应用中的保障和支撑作用;六是市场性原则,数据开发要与市场需求结合,以保证数据开发应用的具有持久生命力。
(二)建设内容
作为一项系统性的工作,电子商务领域应用大数据开展统计监测工作过程中要着力构建三大系统:一是技术系统。要把先进技术放在基础性的地位,包括信息技术、数据模型、智能设备等,采用的技术要与行业最新发展的趋势相匹配,同时还要着力打造具有自主知识产权的技术和平台。二是应用系统,针对不同市场主体和需求,开发标准化和个性化的产品和服务,并打造方便用的可视化界面和系统,实现需求方和服务方的有效沟通,推动技术研发与市场应用的融合互补。三是制度系统,建立一套从数据采集、存储、整理、分析、、保密等管理制度,建立相应的数据管理组织构架和绩效评价机制,以保障电子商务大数据开发应用工作的有序进行。
(三)发展方向
未来政府在电子商务领域开展大数据应用与开发,个人认为既要遵循电子商务发展的规律,也要立足现行的政策条件、技术条件,并根据各地实际情况和需求,按照“统计规划与行业管理相结合、统计成果与产业应用相结合、统计手段与先进技术相结合、统计水平与国际水准相结合”等“四个相结合”的方向,建立健全应用大数据开展电子商务统计监测工作的体系,为经济社会发展提供有力的大数据支撑。
统计规划与行业管理相结合。电子商务大数据的开发应用首先要以服务政府行业管理工作为出发点和落脚点,确保大数据的开发应用与行业管理的热点、难点、重点领域相吻合,做好以电子商务交易额、网络零售额、居民网络消费等为代表的政府考核数据的开发,同时不局限于电子商务领域,逐步向旅游、票务、交通、餐饮、住宿、中介、医疗、文化等经济领域延伸,确保统计工作服务于各领域行业管理部门的需要。
统计成果与产业应用相结合。数据是基础,应用是关键。电子商务大数据统计的成果要与政府部门在电子商务领域具体的工程、项目相吻合,使得统计的成果能够直接应用和服务于电子商务促消费、稳增长、调结构、惠民生等方面的具体工程,为电子商务领域各项重点工程和项目的设计、监测和评估提供数据参考,同时也为企业经营决策、个人创业创新提供数据参考,提高数据成果落地的实施速度和社会经济效益。
统计手段与发展前沿相结合。在电子商务大数据开发过程中,一方面,创新统计方法, 逐步扩宽通过技术手段获取数据的范围,探索建立符合电子商务发展特点的测算和分析方法,同时与原有的统计方法做好衔接,实现两条腿走路;另一方面,提升统计技术,充分利用先进智能设备和前沿获取技术,使得统计技术能够适应电子商务快速发展和变化莫测的特点,及时、全面的获取行业最新业态和模式的相关数据。
统计水平与国际水准相结合。政府部门在电子商务大数据开发的过程中,一是要加强与阿里巴巴、京东、亚马逊等第三方电子商务平台企业的数据共享和交换,二是要加强与高等院校和科研机构的理论探讨,提升数据分析和研究的水平,推动电子商务理论的发展,三是加强艾瑞咨询、尼尔森等国内国际知名第三方大数据公司的合作交流,确保数据来源、获取方法、分析水平等全面科学、引领行业、接轨国际,提升政府电子商务行业统计分析的国际水准。
【关键词】计算机技术 软件技术 大数据时代 应用分析
1 引言
21世纪是科技的时代,计算机应用技术改变了工作的传统模式,在市场竞争如此激烈的今天,企业要想在市场中取得发展就需要从计算机软件技术方面入手,在节约人力物力的同时实现工作的整体效率,让企业的运营模式更加的专业化、科学化。随着云时代的到来大数据也逐渐被人们所关注,大数据时代给计算机信息处理技术带来了好消息,可以说,大数据是继IT行业在云计算与物联网之后的又一次技术变革,对人们的生活、工作以及学习的影响很大,在企业的运营过程中数据是最为核心的资产,在大数据时代所有的企业都将面临着来自多方面的挑战,但这同时也是一种机遇与资源。就目前形势来看,大数据时代的到来给了计算机处理技术带来了机会,也对提高社会经济效益有很大作用,本文就对计算机软件技术在大数据时代的应用进行具体的分析与研究。
2 计算机软件技术在大数据时代的应用
大数据时代最主要的应用核心就是在大量的数据中找到规律,从而找出与用户的需求相一致的特点来进行设计、生产以及服务,大数据时代的计算机信息处理关键技术主要包括三个部分:
(1)虚拟化技术。该技术是根据虚拟的资源来进行管理,同时也能对这些大数据资源进行优化配置,在提高信息处理效率的同时也能提高灵活程度。
(2)云存储技术。云存储是由多个存储单元组成的,它是一种由多种功能联合在一起的协同工作,大数据时代下出现的云存储技术为更好的解决海量信息提供了方便,同时完成对大量信息数据的计算也是在大数据时代下数据处理必不可少的环节。
(3)信息安全技术。在大数据时代之下,各种数据信息是有一定关联的,这种关系之间的影响对数据的安全有一定的威胁,需要调整整个的数据管理系统,从而提高数据集群的安全水平。在未来的发展中,如果想要保证大数据信息的安全性就需要不断的推进信息安全技术的发展。虽然大数据在我国的应用时间很短但是效果却是很大的,大数据已经成为了一种发展趋势并得到了人们的广泛应用与支持,在未来的发展过程中,我国的计算机软件技术方面还会遇到更多的挑战,因此就需要各行业根据自身的问题制定出最符合自我发展的方案,让数据处理技术能够得到改革与完善,计算机技术应用于大数据时代下让数据有更高的真实性、有效性。
在计算机软件技术发展的过程中应该主要从三个方面入手:
(1)信息通信方面。通过利用IBM SPSS预测分析软件就可以从很大程度上降低客源的流失,还可以从中找到行业运营过程中的问题,从而提供更快捷、更方便的发展平台。例如通讯行业的发展就需要一些通信运营商通过计算机软件技术来对客户的相关资料进行整理,在这些信息中分析出目前的发展趋势,然后将这些资料交给企业促进其经济效益的提升。
(2)企业信息解决问题。利用企业运营管理软件能够有效的解决客户资料获取、风险分析以及雇员流动等问题,根据大数据时代的特征能够为企业提供更好、更新的方法,在数据开发的过程中主要分成五个部分:1.抽样。所谓抽样就是在产品生产的过程中选取比较有代表性的作为样本,样本容量的选择可以进行定位,但必须具有一定的代表性这样更加方便于分析与操作。2.开发。通过开发、探索的方式来对数据进行分析能够加深人们对数据的进一步认识,在开发过程中可能会涉及到对数据的导入、合并、选择等步骤。3.修改。人们可以通过创建与选择来对数据集进行修改,在修改的时候可能会涉及到变量的转换、产品的编码等等,然后再根据对应的数据进行分箱操作。4.模型。利用模型是为了让预测的结果更加准确、可靠,同时这一步骤在企业解决方案的制订中占有重要地位,也可以推动经济效益的提升。5.评定。评定技术是先与模型进行对比然后由人员进行仔细的分析,在数据挖掘的过程中相关技术人员应该开发出新的方式,对数据进行分析与整合才能确保信息的准确性。在可视化的工具中用户可以将数据找出来并以图形的方式进行表示,人员就可以对数据动态有更加深刻直观的了解,此外,SAS/EM还有一些特殊的工具,其中包括可以进行流程图的评分操作的工具以及用于考察执行结果的工具等等。
3 结束语
综上所述,计算技术在我国的发展迅速,我国在数据采集、分析以及存储方面已经取得了很大的成效,随着这些技术的不断推进,使得我国相关部门与企业的整体效率得到明显提高,企业的生产模式基本实现了自动化的运行方式,这是大数据时代带来的优点,大数据的改革与创新让计算机处理大量信息变为可能,这样一来不仅信息处理的效率提高了,同时也能降低一定的成本,目前已经有越多越多的专业人员投入到了计算机软件技术开发的工作中来,相信在众多专业人员的共同努力之下,未来我国计算机软件技术将会得到更大的发展,买上新的历史阶段。
参考文献
[1]吴子红.计算机软件技术在大数据时代的应用[J].中小企业管理与科技,2014(09).
[2]崔宁.计算机软件技术在大型结构实验及现场检测数据处理中的应用[J].产业与科技论坛,2013(21).
[3]刘涛.计算机整编软件技术在地下水监测资料整编中应用[J].地下水,2013(05).
[4]刘孔瑜.浅析计算机软件技术的发展与应用[J].企业导报,2016(08).
作者简介
【摘要】大数据时代已经到来,在此时代背景下,各行各业都面临着对庞大而复杂的数据进行有效管理的巨大挑战,越来越认识到对自身产生和拥有的大数据进行有效管理的重要性和迫切性,档案管理工作也不例外。
关键词 大数据时代;档案管理工作;功能作用
军队档案管理是以保存部队档案并提供档案资料为其他各项工作的一项重要工作,其直接面对着对元数据的收集、整理、鉴定、保管、检索、利用等任务。然而面对当今各类信息、数据的大爆炸,传统档案管理的方式方法已明显感觉有些吃力。为了较好的利用这庞大的数据为我部队建设所用,我们引进当前时代的一个新名词——大数据,用新的理念、方法和手段不断改进、革新档案管理工作。
1大数据对档案管理工作的影响
哈佛大学社会学教授加里金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程”。大数据技术能实现所有数据的融合,减弱了对“因果关系”的要求,取而代之的是数据间的相关关系,给人们的生活、工作乃至思维都产生了巨大变革。可见,大数据时代的到来,对整个世界都已经产生了巨大影响,具体到军队档案管理领域,大数据的功能作用以及其对档案管理工作的影响则主要表现在以下几点:
一是分析判断能力强,方便了电子文件的鉴定和索引。大数据时代,电子文件以指数级的速度增长,给电子文件的管理带来了前所未有的挑战,虽然我们知道浩瀚的电子文件中蕴藏着巨大的“金矿”,但我们逐渐发现想要从这些电子文件中“淘金”比纸质文件还困难。面对着巨量的电子文件,逐一阅读每一份电子文件的原文恐怕实在是无能为力。而大数据技术的强大功能作用为上述问题的解决提供了有效的帮助。在普通的硬件上安装大数据转发器,就能收集数据形成的庞大的系统数据,大数据软件可以为机器生成的海量数据建立索引,将其整理成可以搜索的链接,这正是档案工作迫切需要的技术。除此之外大数据技术还能完成数据的分类、数据的挖掘,从而使档案管理拥有应对越来越复杂的数据的分析能力。
二是处理技术手段高,解决了非结构化数据的处理难题。大数据类型繁多,包括结构化数据、半结构化数据和非结构化数据,至2012年末,非结构化数据占有比例达到整个数据量的75%以上。面对着快速增长的非结构化文件,档案工作者在进行电子文件管理时困难重重,现在基于大数据技术的数据库,如SQL已经既可以做关系数据,也可以做空间数据、图像、数据流等非结构化数据,而且基于对象的存储架构可以在一个系统中管理十亿级别的文件数量,还不会像传统存储一样遭遇元数据管理的困扰,大数据技术为档案工作者管理非结构化电子文件的问题提供了解决之道。
三是数据存储容量大,避免了海量信息和数据的丢失。近年以来,在档案数据库的使用过程中,常常会碰到无法向数据库中增加新的档案数据的情况。要想安全地存储巨量的档案数据,不可能一味的盖大楼、盖机房,这就要求我们必须优化存储、提高效率和节约成本,其实比起其他诸如电信行业、通信行业、电子商务等行业面临的数据存储空间问题,其实档案行业的存储空间问题只是小巫见大巫,大数据在计算机领域已经具有相当的成熟度,这也说明大数据技术对于解决存储海量数据问题的有用性,这些公司使用大数据的经验对档案行业解决数据的存储问题具有高度的借鉴意义。
2档案管理运用大数据的策略
既然大数据时代已经到来,而且其功能作用对部队档案管理工作有着较为深远的影响,运用得当,大数据将给我军档案管理工作带来前所未有的成功,那么如何将大数据的理念较好地运用到档案管理工作中来呢?
2.1建立档案资源管理中心
大数据技术支持庞大数据的存储和处理,使档案资源的统一管理成为可能。为了维护档案的安全及对档案资源的综合掌控,档案需要备份,目前档案馆采用的是档案的电子备份,档案部门是否可以在全军范围内建立一个区域或者档案备份中心,并且各部队档案部门能够做到资源共享呢?只要通过严密验证和科学规划,这一措施是完全可行的。若全军的档案数据资源能集中起来,那么利用大数据进行档案资源的管理、开发和利用将指日可待。
2.2培养大数据分析的专业人才
外界企业通过寻求和专门的大数据开发公司合作,较好的运用了大数据技术。而档案管理牵扯到部队保密工作,若想引入大数据,又要有效防止信息数据的泄露,就必须加紧健全信息化档案管理人才队伍,花大力气培养大数据分析的部队专业技术人才,方能有效避免拥有大量数据却不懂数据分析的尴尬。
2.3开发大数据分析工具
部队档案管理区别于地方,存在特殊性和敏感性。这就要求我们必须结合部队实际及档案建设的特点,开发出一套符合我们自己的大数据分析工具。
3档案管理运用大数据应注意的事项
尽管大数据能给档案管理工作带来诸多好处,但是这也不能掩盖大数据背后存在的风险和隐患。一是失泄密问题。档案信息资源的开发和利用会涉及到档案信息的泄密、档案信息的丢失和篡改等问题,如果这些数据信息被敌特分子窃取,将给我们国家安全造成强烈的影响。二是预测分析错误问题。毕竟,大数据的核心思想就是用规模剧增来改变现状,其打破我们传统思维模式,将重点关注在“相关关系”上,所有预测分析都会有失误的时候,运用大数据预测来判断和惩罚官兵的潜在行为,这是对公平公正以及自由意志的一种亵渎,同时也轻视了决策过程中深思熟虑的重要性。三是滥用职权的工具。如果我们冒险把部队事故案件的防范交到数据手中,这实际上是一种滥用。应用得当,大数据会是我们合理决策过程中的有力武器;倘若运用不当,它就可能会变成部分人员滥用职权的工具,轻则伤害官兵的利益,重则损害官兵的人身安全,所冒的风险比想象中要大很多。
大数据时代的来临,对档案管理工作来说既是机遇也是挑战,档案工作者需要努力抓住这个机遇,同时也要严肃对待风险与挑战,随着大数据技术的发展和完善,大数据必有广阔的应用前景,档案管理在大数据时代将获得巨大的突破,档案信息资源中蕴藏着的巨大知识宝藏将会真正得以开发和利用。
二、大数据管理工程档案与工程管理模型
大数据管理工程档案也是一个信息的整理的过程,本文在整合管理工程档案现有模型研究的基础上,结合大数据时代的来临给管理工程档案的实施带来的挑战和机遇,通过大数据管理工程档案来促进工程的发展,分析了的大数据时代来临下针对管理工程档案的双向决策模型,分别从工程评估与预测及工程监测与预警两个维度构建了针对大数据管理工程档案的方案[6]。因此,在本文中,针对大数据管理工程档案构建了两种工程档案管理的模型,第一个模型是数据驱动下的的工程监测和预警的模型,采用的技术是跟踪以及聚类;第二个模型是目标驱动的工程评估与预警模型采用的技术是推送以及表征,如下图1所示。1.工程内部集成档案数据目标驱动管理的工程评估与预测模型。工程评估与预测模型的是目标驱动的一个模型,也即在工程内部的目标驱动下的模型,也就是说在这一模型中,工程的决策者需求清楚的界定自己目标需求,根据自己的目标寻求实现目标的路径。可以使用普通的数据挖掘和收集的方法,利用工程信息系统中关于工程档案数据收集、整理以及分析计算等方法来达到,通过收集的数据表征、检索、可视化以及推送等技术实现工程档案大数据开展有针对性目标的挖掘,从而把这些收集整理的数据转化为可以为工程决策目标所利用的信息及建议。此外,工程评估与预测模型是于传统的数据挖掘和收集的方法上发展的,结合计量学学科中的相关技术方法应用于工程档案管理工作中,在目标驱动下对大数据时代来临时工程的策划、工程的实施以及工程的评估等工程档案数据中的海量信息进行有效整理和探析,以达致管理工程档案的效用,从而有效评估工程的发展情况,有效及时的对工程发展的最终目的进行预测。2.工程外部网络信息建档数据驱动管理的工程监测与预警模型。大数据时代来临时工程外部网络中有着海量的有用信息,这些信息对于工程建设中的新思维、新想法能起着启发或促进作用,大数据管理工程档案可以通过实时建档对这些有效核心数据加以收集和利用,在工程实施过程中,可以通过大数据收集对工程发展有积极作用的新信息和新技术,同时对于工程的不利影响因素和工程竞争对手的一些相关技术进行监测,在监测后针对所有会发生的情况进行分析,最终建立起工程的预警和监测档案数据库,从另一个角度说,这也是建立工程监测与预警模型的最终目标。与工程评估与预测模型的目标驱动不同的是,工程评估与预测模型通过预先定下的目标,来根据目标收集和整理相关数据,而工程监测与预警模型则不同,其更为重视通过数据系统自主分析来对网络舆情进行研究,大数据时代来临时的舆情分析系统有聚类、热点主题检测等相关的计算机文本信息的内容识别技术。3.工程管理档案大数据安全战略体系构建。以档案大数据的方式来对工程的实施进行管理有着安全的风险,这也是大数据管理工程档案的存储存在的新安全问题,一般来说,工程档案数据的数量以及质量会对安全存储系统的运行状况带来影响,大数据管理工程档案中的安全存储技术的升级速度较之数据增长的速度慢,因此,相应的面临的大数据安全防护预警风险也大。
2大数据驱动下的教学模式探索
大数据在为软件行业的发展带来机遇的同时,也带来了挑战。从软件工程教学的视角,我们分析大数据时代对于软件工程教学的影响,提出运用大数据服务软件工程教育、提升学生素质。
(1)理论与实践并重。
软件工程是一门兼顾理论与实践的课程,为了实现培养应用型人才的目标,在实际教学活动中,往往围绕着能力培养开展教学,重视培养学生的工程实践能力,却忽视以知识为中心的教学模式。我们并非提倡以讲授软件开发过程中的理论知识为中心,而是要求不但注重学生实践能力的培养,还要重视强化学生的理论基础。重视软件工程前导课程知识的衔接,例如数据结构、算法设计与分析,还要将软件行业发展的最新研究成果和热点内容,例如大数据下的软件工程思维,及时地安排到课程教学中。通过将工程实践的新技术与新方法融入到软件工程的理论教学中,促使学生在掌握扎实的基础理论知识的同时,引导学生自我构建与现代软件工程发展相适应的知识框架。
(2)协同开发。
当前软件工程面临的主要挑战是合理分工,如何明确软件企业内部的职能分工、各技术岗位的职能范围、权责和工作内容。大数据环境下,软件工程方法由逻辑驱动转变为由数据驱动。由于主要面向分布型应用和程序,软件开发从封闭走向开放,开发人员通过分享和交互进行开发。在此过程中,应重视协同开发。采用团队协同模式开发软件项目过程中,根据学生的知识和能力进行组队,不仅要明确团队成员的职能范围和工作内容,还要明确需求分析、系统设计、代码编写、系统测试人员之间的权责。此外,在参与大型软件的开发实训中,还有细分相同角色人员的具体分工。在协同开发教学过程中,我们要避免学生自由组队造成的“马太效应”。根据教学实训发现,学生自由组队,容易造成强强联合。编程能力强的学生组队,能够较好的完成实训项目,但是弱弱组队却无法顺利的完成实训任务。为了在协同开发中,培养学生的沟通表达能力、团队合作能力,我们在教师的引导下,引进团队制约机制。每个开发团队通过强弱联合组队,每个团队既是软件开发者,同时也是软件需求者。作为软件开发者时,需要和软件需求方讨论需求分析、系统设计;作为软件需求者时,需要提出自己的软件应用要求。开发者和需求者的双重身份,保证团队之间只有经过充分的沟通,才能完成软件的开发。团队制约机制使得学生在较短的时间内,能够扮演多种开发角色,熟悉软件企业的业务流程。
(3)合作创新。
大数据时代,面向服务的软件工程、群体软件工程得到了广泛的应用和发展。在开放环境下,面向分布式应用和分布式的开发模式,需要充分利用网络进行任务分配、创新解决方案。作为实践性较强的学科,在实践中研究以数据为驱动的软件设计模式,有利于增强学生的创新意识。学校重视在软件工程的实训中培养学生的创新能力,积极鼓励学生利用学校软硬件平台,申请学校科技创新课题,或者参加教师的软件设计相关的科研项目。依托校企合建的软件工程创新实验室,通过完成“基于计算机视觉的胡萝卜智能分级系统”、“基于MVC的上机考试与在线练习系统”等科技创新课题,激发学生的合作沟通技巧,提高学生软件工程的创新能力。通过参与教师的“基于计算机视觉的花生品质品种自动检测系统”、“茶树病虫害远程专家系统”等应用项目开发,在实际的项目研发中促进学生解决问题能力、创新能力的提高。通过分析当前的校企合作办学模式存在的问题,以及大数据时代的产业需求,学校与软件企业在教材建设、教师培训、实训平台、企业服务等方面建立合作关系,充分利用企业的技术优势,以培养应用型人才为共同目标的基础上,实现学校、企业各自创新活动。出版了《设计模式(Java版)》等应用型教材,从理论、应用和实例三方面出发,帮助学生了解软件工程的最新模式,提高学生的实际动手能力和创新能力。在软件企业实训基地,通过定制的实训解决方案和软件企业提供的实训服务,学生在企业技术人员的指导下,重新开发“海尔OEC日志管理系统”等大型软件。不但锻炼了学生的团队合作精神、增强了自身的创新意识,而且在工程实训中个人能力和素质也得到锻炼和提升。
随着信息技术的广泛应用,人们逐渐步入到大数据时代,大数据时代让人们的生产生活方式都发生了改变,让人们的生活变得更加便捷,同时也为企业提供了发展的条件,促使企业在新时代背景下得到更好的发展,但在便捷的同时也为人们带来了新的挑战和机遇,尤其是软件工程的发展,相关研究技术人员要在掌握软件工程技术的基础上,加强对软件工程技术应用的创新和改革,为软件工程技术提供更多的发展条件。
一、大数据和软件工程技术的发展方向
(一)大数据和软件工程技术的开放式发展随着科学技术的快速发展,互联网技术逐渐应用到各个领域的发展中,随之随着互联网技术的广泛应用,人们逐渐进入到大数据时代,大数据的到来让计算机技术得到了改革。大数据要想得到更好的发展,就必须要开发和寻求发展的途径,在产生大量数据流的基础上,不断的创新优化技术。计算机软件工程技术要想得到更好的发展,就要加强建设计算机网络的开发环境,让计算机在开发的环境中实现相互通信、资源共享,提升软件的利用率。此外,网络在运行的过程中可以增加利润,让不同用户都能满足需求,从而节约资源,提高资源的利用率。
(二)大数据和软件工程技术应用到其他领域随着大数据时代的到来,对计算机软件工程技术又提出了新的要求,要将计算机软件工程技术和大数据技术进行有效的融合,从而更好的服务于社会。目前,软件工程技术已经得到了各行各业的广泛应用,由于软件工程技术对各领域都起着推动作用,让各个应用程序都能得到有效的运行,同时还可以对相关平台的数据信息进行收集并整理分析。如:用户在购买股票对大数据进行分析时,可以利用软件工程技术对大数据信息进行构建数据模型,利用数据模型,预测股票的变化形势。
二、大数据时代下软件工程技术的应用
(一)安全信息技术的应用在大数据时代背景下,其产生的大量数据流之间会有一定的联系,但数据也会因此产生不同程度的影响,所以,要想提高数据的实效性和安全性,就必须要科学、合理的管理数据系统。在一般情况下,大型的数据信息平台都是开放式的,随着互联网信息技术的快速发展,互联网信息技术逐渐应用到各个领域中,它让人们的生活更加的便捷,但在便捷的同时也存在一定的风险,随着时代的发展,人们逐渐进入到大数据时代,在大时代背景下出现了较多的黑客,这些黑客利用大数据的漏洞进行违法操作,这对数据的储存和分析产生严重的影响,因此,在大数据背景下,要加强软件工程技术的应用和建设,为数据的实效性和安全性提供有效的保障。
(二)进行数据信息采集大数据的发展依据是对数据信息进行采集整理分析,在软件工程技术中对数据信息进行采集整理分析也是非常重要的部分,因此,在大数据时代背景下,可以通过软件工程技术的应用,对相关数据信息进行采集整理分析,同时还要提升各个软件之间的协作能力,扩大数据信息的储存空间。此外,用户在运行软件工程技术过程时,可以根据用户的需求,对相关对数据信息进行采集整理分析,同时还要将多余的数据进行删改,从而降低大数据的数据采集成本,让用户在对大数据进行进行采集整理分析时,提升处理效率,以此来为软件工程技术的提供更好的发展和应用条件。
(三)进行数据信息储存随着大数据时代的到来,数据信息逐渐从G和T转变成ZB,且数据信息在进行储存时,储存在内容不再单一的文字了,其内容包含图形、文字、视频等形式,由此可见,在大数据时代背景下,对计算机的性能和储存空间又提出了新的要求和挑战,要求在大时代背景下进行数据储存时,避免出现数据信息缺失的现象,而软件工程技术可以有效的解决这一问题,它不仅可以提升数据信息的储存空间,而且还能提升储存数据信息安全性能,可以有效的防止储存的数据信息缺失。除此之外,在大数据时代下应用软件工程技术,可以通过利用软件工程技术中的云技术,将数据信息进行云端储存,提升计算机的储存空间,以此来提升计算机储存空间的利用率。
从解决实际问题出发,不论是需要作出重大决策还是改变小小的设计,腾讯在利用大数据的时候有其自身的优势,那就是腾讯拥有海量的数据。业界有一种声音是忽略大数据的“大”,关注数据本身的价值,而在腾讯这里,“大”甚至无法回避。比如,根据腾讯云分析《2014年第二季度移动行业数据报告》的数据,接入腾讯云分析的APP覆盖设备超过15亿。
如果单个数字不足以说明什么,那么还有以下这几个数字:
即时通信QQ活跃帐户数达到8.29亿;
QQ智能终端月活跃帐户数5.21亿;
即时通信QQ最高同时在线帐户数达到2.06亿;
“微信和WeChat”合并月活跃帐户数达到4.38亿;
“QQ空间”月活跃帐户数达到6.45亿;
QQ空间智能终端月活跃帐户数4.97亿;
(数据来源于网络)
探寻大数据先行者的足迹,腾讯是国内最具代表性的企业之一,而其对“大数据、小场景”的认知,更是在大数据的实际应用中走到了前列。
从一个小小的按钮说起
很多人无法将大数据概念和具体实践联系起来,是由于对大数据这一概念的“仰望”,好像大数据是突然有一天凭空生出来的一样。而事实上,“在大数据这个概念被包装出来之前,互联网公司就已经很认真地在使用相关的方法和技术,” 陈磊表示,“这些方法和技术实际上是一直应用在我们日常工作当中的。”
陈磊讲到腾讯在设计产品时的一个场景:“我们界面的设计都是在测试用户行为的基础之上进行的,我们很少凭空去想用户会喜欢什么样的设计。”比如在设计一个按钮时,其摆放的位置、包含的文字,包括颜色、形状这些都会做各种各样的尝试,而最后采用哪一个选择,要看用户在实际使用中对这个按钮的点击率。可以说,除了要在整体的风格上保持一致,很多设计都是以最终用户的行为作为依据的。
互联网是大数据最先改变的产业,这与互联网企业的文化也有关系。陈磊表示,互联网企业不认为通过自己的想法能够很准确地把握用户需求,而让用户去试的时候,用户会用他的行为投票。“所以互联网公司讲究摸着石头过河,最主要的原因是希望在不断尝试的过程当中,发现用户真正的需求而更好地满足它。”他说。
通过大数据的方法来准确地把握用户需求,来指导一个按钮的设计,腾讯就是这样将大数据应用到这些小的场景中。实际上,腾讯对产品的每一个功能都会去做AB测试。
动态运营,将决策权交给用户
腾讯的很多产品版本更新非常快,由于每次新版本下发都需要用户去下载安装才能更新。这需要对每个产品都进行用户管理的研究:从用户开始使用这个产品,到这个产品的使用达到一个高峰,再到最后一些用户选择弃用,腾讯将这些环节叫做拉新、留存和流失。陈磊表示:“我们会分析流失客户的特征是什么。他在使用这个产品的时候,和在流失之前行为发生了哪些改变。通过用户使用产品的数据做了这样的分析之后,我们大致就能够理解某一类用户离开这个产品的主要原因,进而在产品上做一些改造,让这类用户对我们的产品更有黏性。这些都离不开数据和数据分析。”
产品在研发过程当中根据用户的使用习惯不停的调节,这个过程叫作“动态运营”。所谓动态运营的理念,将每一件事情都看作是一个小小的实验,或者将大项目分解为很多小的产品步骤,每一步都很小,这样每一步走对了或走错了,能够快速得到反馈。
陈磊说,过去很多企业运营的方法是先制订战略,然后根据战略去分解执行,半年之后总结执行情况。在今天,这种缓慢的应变机制是行不通的。
动态运营将产品更新的决策权交到用户手中,这就是业务前线化(FOT)中后段决策让位于分布式前端一线决策的例证。大数据为动态运营提供了有力支撑。
让广点通脱胎换骨
大数据对广点通影响可谓脱胎换骨,关键的一件事情就是对数据的实时处理和采用。据陈磊介绍,过去广点通只能将前一天的用户点击行为进行数据分析,在第二天来使用,显然无法满足广告业务的要求。在大数据的支撑下,腾讯逐步将分析方法变成相隔一个小时,15分钟,到最后做成只差几秒,数据就能够回流,并且能够在下一次给用户展示广告的时候去使用。
据悉,广点通不仅对数据的实时性要求非常高,对数据的准确性要求也一样。例如,一些用户填写的数据未必是真实的,在数据的采集和流转的过程中,对海量数据的保真提出了挑战。腾讯在应对数据的海量、精准和实时的挑战过程中研发了大量的产品。
为不同的用户做精准推荐
腾讯与小米曾有过两次合作,第一次是红米手机,在90秒钟订出十万部手机,第二次是红米Note开售,在第一秒的时间有41.9万次点击。从最后的结果上看,这两次活动做得非常成功,其背后除了小米营销策略的功劳之外,腾讯利用大数据找到对红米手机有潜在需求的用户并精准推荐也是原因之一。
另外一个案例是腾讯通过大数据的手段去运营《穿越火线》这款游戏。在这个游戏的热度开始下滑的时候,腾讯利用大数据做了大量的留存活动,这些活动是针对玩家喜欢这个游戏的原因去做的。陈磊介绍说:“比如一些玩家是因为有几个比较好的朋友经常组队去打游戏,那么我们通过好友邀请他,重温一下过去打游戏的好时光,让他再回来使用这个游戏;有一些用户把某一类武器玩得非常好,但是这个武器已经打到极致了,这时候我们就会创造新的武器。通过这样的方式来让用户持续玩这个游戏,要对这个用户的特点有很清楚的认知。”
精准推荐的前提是用户画像,在游戏领域的应用着实超出想象。据悉,腾讯微博建立SocialData体系挖掘社交大数据为用户画像。
腾讯的大数据服务
大数据的实现需要IT基础设施和工具的支撑,这里涉及很多技术方面的问题,腾讯很多的系统都是自主研发,比如数据采集的系统和任务调度的系统。至于其中的技术,并不是我们这次要探寻的重点,但这里还是要介绍腾讯的三类大数据服务,它们是腾讯在自身利用大数据以及用大数据服务客户过程中留下的坚实的足迹。
目前,腾讯通过腾讯云给客户提供三类免费的大数据服务:
TOD Tencent Open Data
Tencent Open Data是基于腾讯的大规模计算集群,提供数据采集、自助加工、任务调度等能力的云端大数据解决方案。其优势在于:不用采购任何物理设备,即开即用;不用担心数据量膨胀的时候无法扩展;只需要开发业务逻辑,其他部署、运行、监控都交给TOD。
例如,你可以用TOD分析apache访问日志,定义一个每天都执行的任务收集访问日志的有用信息,然后定义一个每周运行的任务汇总加工访问信息,最后定义一个数据导出任务将数据导出生成周报。TOD能够处理真实数据加工中各种不确定性因素。只要你设定了运行规则,TOD就可以确保任务流按照设定的规则运行。
信鸽
信鸽,是一款移动APP推送平台,支持亿级的通知/消息,能在Android/iOS平台进行各类高级自定义的推送操作,秒级触达移动终端用户。开发者可以方便地嵌入SDK,通过API调用可或视化操作界面,实现对特定用户发送通知/消息,提升用户活跃度,激活沉睡用户,并实时查看推送效果。
信鸽可为应用用户设置多种标签,包括地理位置、应用版本号、活跃度,更可结合行为的记录自定义为“在深圳喜爱川菜的女白领”,“超过7天未登录游戏的大学生”、“有高消费潜力的土豪”等。根据业务、用户行为等圈定不同用户群体并将其账号保存成号码包文件,通过信鸽前台上传,做特定的运营推广活动,达到精准触达用户的目的。
信鸽pro高级标签,可基于腾讯大数据优势,基于玩家的在线时长,使用频率,付费、登录行为,游戏关卡的失败率、道具使用购买统计等因子,建立流失用户预测模型与付费用户预测模型。模型可精准预测潜在流失与付费用户,预测覆盖率超过85%,准确率超过91%。利用信鸽对潜在流失用户群推送针对性的营销活动,回流率比随机推送提升120%。
MTA 腾讯云分析
腾讯云分析是专业的移动应用数据运营平台,支持iOS和Android。开发者可以方便地通过嵌入统计SDK,实现对移动应用的全面监测,实时掌握产品表现,准确洞察用户行为。前面我们已经提到,2014年第二季度报告中,接入腾讯云分析的APP覆盖设备超过15亿。
腾讯云分析的功能及优势包括:
(1)APP数据的收集:比如新增、活跃、留存、用户画像、渠道数据等等;
(2)行为分析:用户在使用APP的时候其实是一系列的过程,尤其像支付购买这样的操作,到底是中间那个环节导致用户流失,通过行为分析中的路径分析、页面来源就可以清楚的了解到,其次像用户在页面的停留时长、打开次数也会有统计;
(3)自定义事件和漏斗模型:帮助用户自主的去统计小到按钮的点击行为,完全可以自主控制,还可以将用户行为串联起来形成一条自主路径,观察用户的行为;
(4)错误管理:帮助开发者管理应用错误,找到错误根源,同时对于应用数据的突变支持通过微信服务号告警;
(5)专门的游戏分析:针对游戏应用这个庞大的群体,云分析推出专门的游戏分析,可以细致的分析到玩家在关卡、对战中的行为,充值、购买道具的行为。
腾讯云分析对开发者的作用主要有两方面:一是开发者可以通过自己的数据波动找到产品优化的方向,比如一款游戏,如果发现某个关卡用户流失严重,那是不是要优化关卡,或者推出游戏攻略、关卡奖励等活动;二是开发者可以通过数据知道自己运营效果,比如一款应用,在相关媒体网站上发送文章,引来一部分用户,引流的量是多少,是否和之前的的预期一样,效果会持续多久,这样就可以预估活动的频率和范围。