绪论:写作既是个人情感的抒发,也是对学术真理的探索,欢迎阅读由发表云整理的11篇云计算数据论文范文,希望它们能为您的写作提供参考和启发。
二、大数据与云计算对会计信息化的推进
(一)大数据拓展了会计信息化的资源利用范围。
随着数字化、软件和处理能力的发展,对可利用的数据的范围进行了进一步的扩大,企业必须敏感地认识到不同类型的信息通过深加工后能给企业带来怎样的财富,更要掌握哪些信息可以通过信息化技术和软件的进步来实现。大数据时代,会计信息化不再只针对会计作业上产生的数据进行分析,而且云计算是世界各大搜索引擎及浏览器数据收集、处理的核心计算方式,因此可以通过云计算将零散的数据整合在一起,提炼其有价值的信息,再将这些信息与传统的会计信息融合,挖掘被忽视的重要信息,提高会计管理决策能力和企业管理水平,这样就能从行业中脱颖而出。
(二)促进了会计信息化成本降低。
传统的会计信息化需要企业自身投入大量的基础设施建设,同时还要考虑硬件与软件的升级和维护,这方面是阻碍会计信息化发展的重要原因,特别是对中小企业的发展。而大数据与云计算融合后,用户可以根据自己的利用资源的多少和时间的长短付费,不再需要前期大量的工作和资金投入。这样,企业也能将重点放在自身的发展上,增强竞争优势。
(三)提高了会计信息化的效率。
传统的会计信息化受到时间和地域等条件的限制,这样信息交流不及时,可能错过稍纵即逝的机会,尤其是竞争激烈的大环境下,信息获取的及时性更加重要的。在大数据时代的背景下,提供云计算的会计信息化系统只需通过互联网就能随时随地的实现与客户的沟通,及时地掌握所需的信息。同时,云计算强大的计算能力,可以更快地形成所需的各项指标,管理者能更快的了解企业的经营状况并识别潜在的风险。
三、大数据和云计算对会计信息化的挑战
(一)会计信息化共享平台发展滞后。
目前,企业信息化逐步在向社会信息化发展,各企业在加工处理自己的会计信息时会形成这个行业整体的信息流。通过会计信息化共享平台,各企业可以随时知道自己的企业在整个行业或地区的地区和影响力,了解自己的强势和弱势,不断强化自己的优势并弥补自己的不足,实现动态地对公司的持续改善管理。这一平台需要在云计算的基础上发挥作用,而云计算供应商要求能够满足不同用户、不同地域和不同业务规则的需求,所以对其适应性、扩展性以及灵活性要求比较高。我国在这方面起步比较晚,国内的云计算平台建设滞后,使云会计这种新型会计信息化发展面临很大的阻碍。
2云计算环境下工作流执行模型
科学工作流由工作流管理系统提交和管理,工作流管理系统驻留在提交主机,协调调度工作的流执行。工作流管理系统将工作流中的任务分配到虚拟机的工作节点,任务的执行所需要的数据可以从一个或多个输入数据存储点输入。中间文件在工作流执行期间驻留在数据暂存站点。当工作流结束时,工作流管理系统删除中间数据,同时将输出文件从暂存站点转存到输出站点,然后永久性保存。根据工作流管理系统和目标执行环境的不同,多个数据站点可以协同工作。例如,在输入数据已经驻留在计算节点的情况下,该计算节点和输入点是相同的。图2显示了具有两个任务的工作流,来说明工作流所需的文件是如何在逻辑上独立的站点之间移动的。
3对象存储应用于科学工作流中的数据管理
对象存储系统主要包括存储服务器、元数据服务器、客户端等组成部分,其核心思想是将数据的读和写与元数据存储分离,如图3所示。存储服务器主要负责数据存储、智能的数据分布以及每个对象元数据的管理;元数据服务器主要提供对象存储访问、文件和目录访问管理以及客户端缓存的一致性管理等功能。为了提供可扩展的可靠服务,对象存储器的内部结构非常复杂。例如,亚马逊的简单存储服务(S3)[12]通过REST(RepresentationalStateTransfer)、SOAP(SimpleObjectAccessProtocol)和APIs(ApplicationProgrammingInterfaces)提供检索和删除操作;它将一个对象的多个副本布局在存储服务器上以提供错误情况下的冗余。很多网格存储服务和为数据密集型应用设计的协议可以认为是对象存储,这种架构对构建来自不同的执行环境的数据管理模式而言具有重要的借鉴意义。针对面向大数据工作流,利用对象存储的优点,本文提出两个方案:一是工作流中的3类数据文件都使用远程的对象存储;二是在计算节点上使用共享文件系统作为数据暂存点来存储中间数据。
3.1单独使用对象存储
在这种情况下,所有的数据都存储在对象存储系统中,工作流管理系统需要从对象存储中无缝检索数据,为本地工作流任务使用。在这样的设置中,工作流管理系统从对象存储中检索输入文件和中间文件,然后,工作流中的任务对本地的POSIX文件系统做必要的输入/输出设置,任务完成时,工作流管理系统能够将中间数据和输出数据存储到对象存储中。这样,即使工作流被部署在分布的资源上,科学应用只需要对POSIX做常规的输入/输出设置,就能完成工作流的执行。工作流管理系统与对象存储的多次交互增加了工作流执行的开销,而该开销与分布资源上的计算相比并不算大。对象存储中既有输入数据也有中间数据,只要工作流系统与对象存储能够无缝检索和存储,那么任务执行可以在任何地方。如图4中,任务t1可以在校园计算机集群上完成,而属于同一工作流的任务t2可以在亚马逊的EC2上完成,t1、t2使用亚马逊的S3对象存储作为中间数据文件的暂存。总之,数据存储和执行环境的分离,使得工作流在分布资源上的执行更为容易。一个常见的情况是,当计算需求超过本地或校园计算所提供的资源时,将使用云资源。图4也说明了工作流的数据移动情况。在这里,文件F-i被传送到云中的高性能计算集群工作节点的本地文件系统。任务t1从该节点开始,读入输入文件F-i,然后写入本地文件系统的中间文件F-t,F-t被传回到作为数据暂存点的对象存储中。F-t文件将从对象存储中被检索进入到EC2节点的本地文件系统。任务t2启动后读取F-t文件(该文件是由t1创建),然后将F-o写到本地磁盘,再传送到对象存储中。以上所有的数据传输工作都由工作流管理系统完成。科学工作流中单独使用对象存储的明显不足之处是,数据重复传输会引起在大数据处理过程中的延迟。工作流中的多个任务使用相同的文件,所以重复传输是显而易见的[13][14]。对象存储将对同一资源的重复请求认为是不同的请求,对象存储通常以其良好的扩展性减轻这种重复对工作流性能造成的影响。另外,工作流系统可能在本地节点选择缓存文件,或者利用集群中的共享文件系统来减轻此问题。延迟是整个工作流性能应该关注的问题,云对象存储的设计提供了很高的带宽,但对单个检索或对象操作可能需要数秒钟的延迟。对具有大量文件的数据密集型的科学工作流而言,这种延迟显著增加了工作流运行的时间开销。大型工作流中的另一个问题是多数中间文件需要被传输到对象存储中由相关后续任务检索并使用。由于商业对象存储提供以GB为单位的存储,并按迁移、存储和检索的请求数付费,所以重复传输也就意味着费用的增加。
3.2共享文件系统作为数据暂存
解决由数据重复迁移造成的延迟问题的方法之一,是工作流管理系统将中间文件暂存在POSIX兼容系统中,由多个计算节点文件系统共享,然后在一个资源节点上运行所有的计算。文件共享系统保存了工作流管理系统中所有任务的中间数据,在这种情况下,只有输入输出文件存储在对象存储中。由于中间文件不需要在对象存储与计算节点之间传送,从而可降低使用商业云对象存储的费用。如图5所示,是一个具有文件共享系统的高性能计算环境下具有2个任务的简单工作流。文件F-i被工作流管理系统传送到集群文件共享文件系统。任务t1在计算节点1上启动,从共享文件系统中读入文件F-i,然后将中间文件F-i-t写入到共享文件系统中,任务t2在计算节点2上启动,从文件共享系统中读入F-i-t(由任务t1创建),然后将其输出写入到F-o,F-o由工作流管理系统送到对象存储中,这种方法的优点在传统的有高速并行超级计算环境中尤为显著。例如,XSEDE(ExtremeScienceandEngineeringDiscoveryEnvironment)节点对多数科学工作流点有极大扩展性[15]。值得注意的是,如果第一个计算节点忙而需要将计算溢出到另一个节点时,这种随数据布局任务的方法,损失了布局计算的灵活性。以上两种方法各有所长,选择使用哪种方法取决于工作流的类型和工作流执行的目标环境,这就要求工作流管理系统的开发具有弹性的数据管理方案,允许科学家有效使用对他们有用的基础设施。工作流中的数据管理方案应该具有如下特征:首先,科学工作流管理系统允许任务和数据后绑定,任务依据资源的可用性映射到计算资源上,任务在执行时能够发现资源,并从众多存储中选择数据暂存位置;其次,在科学家只有一个计算资源可用的情况下,允许任务和数据的静态绑定;再次,支持使用不同协议和不同安全机制访问对象存储。
4相关工作
工作流管理系统处理数据的方法很多,Swift[16]采用与本文所描述的第二种模式类似,使用本地文件系统或共享文件系统作为数据缓存,提交主机扮演数据暂存的角色。系统首先选择一个计算站点来运行一个任务,然后将数据从提交主机推向该站点的文件系统,任务执行后,输入的文件被回传给提交主机,中间文件被留在共享文件系统中以便后续任务的执行。相对而言,本文将数据文件(包括输入、输出、中间文件)与提交主机分离,并使用不同的协议,具有更好的灵活性。其他工作流管理系统如Kepler[17],Triana[18]和Taverna[19]关注的是流式工作流中任务的调度和其他Web资源的调用,这些工作流具有图形化的用户界面,允许用户搭建具有不同部件的工作流,但通常没有涉及访问大量数据集的问题。这些工作流中的数据管理很大程度上依赖于用户,数据管理自动化非常有限。Kepler[20]引入了一个MapReduce执行器,允许执行采用MapReduce算法的混合工作流。Hadoop平台通常用来运行数据密集型的科学应用,它所提供的文件操作与POSIX类似,允许随机读,但不允许随机写。在这种情况下,Hadoop平台负责将输入文件切片并分布在各个数据节点。而本文提出的方法主要针对工作流运行在多个不同的执行环境中,代码不能MapReduce的情况。在XSEDE中,任务利用分布式文件系统如GPFS-WAN[21](GeneralParallelFileSystem-WAN)来访问数据,分布式文件系统支持POSIX操作,可以对输入和输出文件进行远程访问。研究表明[22],将大型数据集布局在本地计算节点会更好,但这一策略也会带来新的问题,如不同类型工作流的融合以及数据布局策略算法等。
【 Abstract 】 With the development of information technology in the electric power system, the requirement for data security is also more and more high. The problem of data security has become a common problem. This paper mainly analyzes the multidimensional immune cloud data security technology, analyzes the concept of cloud computing and data security, data security in cloud computing model, has made the thorough discussion on multidimensional immune security cloud data, for reference.
【 Keywords 】 cloud computing; multidimensional immune; data security
1 引言
云计算是目前计算机领域研究的重点课题,采用云计算技术可以设计出一种先进的信息应用模式,充分利用计算机资源。随着互联网技术的发展,计算机技术促进了云计算的开发和应用,使云计算的应用更加廉价和强大。基于多维免疫的云计算,可以给用户的硬件使用带来方便,云计算使用的是先驱简单存储服务和弹性云计算服务。随着世界各大企业开始关注云计算,关于云计算安全的问题也出现了。只有保证云计算系统的数据机密性和完整性,才能促进云计算系统的科学性和安全性。云计算的安全正面临着威胁,通过研究云计算技术,建立云计算的数据安全模型,多维免疫的云计算模型,这个模型是建立在云计算技术架构上的。运用免疫学原理,提出适合云计算架构的多维免疫算法。这个算法的优势是以克隆算法为主要对象,是一种面向云计算的免疫算法。
2 云计算数据安全模型
云计算是下一代的IT架构。运用云计算,可以把应用软件和数据迁移到很大的数据中心。云计算的这一特点带来了很大的安全问题。要研究云计算数据的安全特征,就要首先了解云计算的数据安全模型。
2.1 云计算数据应用系统模型
云计算的平台构架主要技术有并行编程的模式,分布式文件系统,数据处理模型。其层次如图1所示。
云计算的数据应用共分为三个层次:应用层、索引层和数据存储层。同时要了解云计算数据应用系统的三个要素:用户、应用服务器和数据中心。这三个要素各有着不同的功能,用户的功能是存储数据,在数据计算的基础上,计算个体用户和组织用户的数据。应用服务器的功能是维护云计算的系统。数据中心的功能是存贮实际的数据信息。但是,在云计算数据应用系统模型中,存在着很大的安全威胁,主要是来自传统数据的威胁,容易受到影响的对象有客户端、主从结构和病毒的传播,通信的安全性。其中,病毒的传播主要是通过互联网的数据交易服务,病毒侵入计算机网络系统,它的破坏性远远大于单机系统,用户也很难进行防范。现在的互联网中,病毒一般有隐蔽性,传播速度也很快。另外,病毒的制造技术也越来越高级,不仅可以破坏用户的程序,还可以窃取信息,造成系统的交叉感染。这种感传染性的病毒危害性非常大。对于通信故障,网络中通常分为两种类型的安全攻击类型:主动攻击和被动攻击。常见的攻击手段有偷窃、分析、冒充、篡改。对于数据安全来说,除了上述的数据安全,还有新数据的安全威胁,主要表现在几个方面:保密失效威胁、分布式可用威胁、动态完整性威胁。
2.2 云计算数据安全模型
该数据安全模型主要分三个层次:第一层的功能是负责验证用户的身份,保证云计算中数据的安全;第二层的功能是负责对用户的数据进行保密处理,保护用户的隐私;第三层的功能是恢复用户误删的数据,是系统保护用户数据的最后一道防线。这三层结构是相互联系,层层深入。首先要验证用户的身份,保证用户的数据信息不被篡改。如果非法用户进入的系统,则进入系统后还要经过加密保护和防御系统。最后是文件恢复的层次,这一层次可以帮助用户在数据受损的情况下修复数据。
3 多维免疫的云数据安全
3.1 多维免疫算法
多维免疫算法的组成主要依靠生物原理、免疫系统的多维模型、多维免疫的基本原则组成。其中,生物原理是把生物学的理论应用在云计算中。人工免疫系统发展到现在,在免疫能力的发挥方面有了很大的发展。免疫能力的增长是一个漫长的过程,后天的免疫的生成更是一个艰难的过程。在一个系统生成初期,完全没有后天的免疫能力,但是随着身体的成长,免疫细胞逐渐增多,免疫系统也开始形成。多维免疫系统的形成也是这样的。
3.2 多维免疫的数据安全原理
阻碍多维免疫的数据安全的因素主要有不可靠网络、节点故障、超大规模的用户访问、数据更新引起的数据不一致性等。为了提高数据管理的安全性,云计算为用户提供了一个一致的入口,只有向用户提供透明的文件,进行文件数据的定位数据选择。对于数据管理服务,应该注意,这项服务是连接用户和系统的。应用服务器和数据中心共同组成了云计算数据应用系统。应用服务器主要目的是方便用户访问历史和相关的文件信息。
3.3 多维免疫的云数据安全策略
主要包括文件分布的策略,HDFS 文件冗余度计算,多维免疫的文件分布,数据块选择机制等。对于云计算中的用户文件,需要考虑到数据块的数量分布、数据块的颗粒度和数据库的创建时间。多维免疫的文件分布中,首先要掌握文件分布的原理,多维免疫算法和云计算中文件的创建和文件块的分配法是一致的。
4 结束语
多维免疫算法及其数据安全应用非常重要,首先需要制定科学的多维免疫算法的实现方案,通过研究云计算技术,建立云计算的数据安全模型,多维免疫的云计算模型,这个模型是建立在云计算技术架构上的。运用免疫学原理,提出适合云计算架构的多维免疫算法。然后全面了解多维免疫算法的数据安全的原理,掌握云计算的数据安全要素的特征。采用定量分析的方法,才能完善多维免疫的云计算数据安全管理内容。只有保证云计算系统的数据机密性和完整性,才能促进云计算系统的科学性和安全性。
云计算的安全正面临着威胁,通过研究云计算技术,建立云计算的数据安全模型,多维免疫的云计算模型,保证云计算数据的安全性。
参考文献
[1] 戴跃发.基于多维免疫的云计算数据安全技术研究[D].国防科学技术大学,2010.
[2] 李志勇,易灿,刘彦姝等.云计算数据保密与安全问题研究综述[J].硅谷,2014,(19):52-52,66.
[3] 赵莉,王魁t.基于加密机制的云计算数据可靠存储方案研究[J].信阳师范学院学报(自然科学版),2014,(4):593-596.
云计算发展至今,安全问题一直是影响其发展和推广的因素之一,在云计算平台应用过程中,由于云计算自身技术原因、应用者自身原因等导致的数据泄密、数据丢失等严重影响了用户对云计算的信任和应用热情,随着计算机网络安全的研究和发展,云计算安全问题得到了一定的解决,但面对当前云计算应用的现在,安全问题仍是重中之重。
1 云计算的发展概略
云计算机的发展大致经历了四个阶段,电广模式阶段、效用计算机阶段、网略计算阶段和云计算阶段,当前意义上的云计算是近十几年兴起的,也就是云计算进入第三阶段后得到了突飞猛进的发展,进入第四阶段后不仅保持了持续发展的劲头,还在应用推广上得到了很大的拓展,当前云计算普遍应用于军事、教育、经济等各行各业,部队对于云计算的应用非常重视,这一服务被广泛的应用于部队管理、通讯联络等方面,极大的促进了部队的发展。回顾云计算的发展,最初是上世纪六十年代,“虚拟化”的提出及相关论文的发表是云计算发展的基础,这一理论思想的提出是计算机的发展进入一个新的领域。此后三十多年间云计算虽有发展,但发展缓慢。直到1997年提出云计算学术定义,云计算的发展才进入实质性发展阶段,紧接着虚拟技术的发展、软件革命的开启,将云计算的发展和应用推向了一个新的高度。2006年,弹性云计算服务的推出及“云计算”概念的提出促使云计算的发展应用区域成熟,这一技术服务得到了广泛的应用,但其应用过程中的安全问题却不容忽视。
2 云计算的特点分析
云计算的发展和广泛应用离不开他强大的运算功能和其他辅助功能,每秒十万亿次的运算能力为用户提供了很大方便、快捷,因此,强大的运算功能是云计算的一个重要特点,它运算不仅快且能同时解决大量的运算任务,其运算规模超大、计算机能力超强。其次,云计算是一个虚拟化的概念,它是依托于网络存在的,可模拟核武爆炸、军事演练等等,对部队的信息化、智能化建设非常关键,这点也突显了云计算的服务性。再次,云计算客户端的接入非常方便,可以是常见的台式计算机,也可是笔记本、手机等等,很多通信工具都可以接入云计算的数据中心,对其中的数据进行调用、存储等。第四,云计算可以按需分配资、共享资源,用户可以同时访问,不受影响。且云计算有很强的可扩展性,其性价比非常高。综上所述,云计算的应用效率高、可靠性强、可用性强,但也是因为云计算的这些特点,其应用过程中的安全问题备受关注,特别是牵扯商业机密、军事机密等的一些数据信息的安全性更是受到了重视,而云计算的数据共享性、开放性,使这些机密的数据面临很多的泄密风险、损坏风险和丢失风险。
3 云计算的安全问题及解决对策
3.1 云计算的安全问题
云计算的安全问题主要集中于数据的安全性和可靠性问题上,一方面,云计算是一个开放的服务平台,云计算中的各种数据虽对数据所有者以外的其他用户保密,但对于云计算的提供方是不保密的,这就增加了数据泄密的风险。此外,云计算数据库为很多用户提供服务,也就是说任何一个用户端如果对云计算发起攻击而且成功的话,云计算中的各种数据他都能够很轻松的获得、破坏,这些特性都将云计算的安全问题推向了一个更严峻的形势,其应用过程的数据安全问题更显重要,特别是部队云计算的安全问题更是不可忽视。另一方,云计算的核心技术是资源虚拟和分布式并列构建,其数据存储的关键是服务机构提供的服务平台,这一服务平台的安全性直接关系着云计算数据的安全性,一旦发生不可抗拒的自然灾害(如水灾、火灾等),这些数据很容易被毁为一旦,很难修复。综合以上两点,云计算的安全问题主要集中于数据的泄露、丢失、损坏、被劫持几个方面。导致这一问题的原因主要存在于三个方面,第一,黑客的恶意攻击,在云计算平台,黑客只要攻击一个用户的应用程序,就能够获得多用户的数据信息,对云计算中的数据库进行破坏、删除、劫持等,因此黑客攻击是云计算安全问题的首要问题。第二,用户自己操作失去,导致数据丢失、泄密等问题发生,如用户使用不安全的接口,导致数据信息泄密或不可用。第三,云计算的技术问题引起的云计算安全问题,如云计算技术不够成熟,而被轻易的放入云端,导致云计算的应用程序存在漏洞进而导致云计算数据信息的安全问题。又如,云计算平台数据共享和隔离问题,致使云计算平台组件或应用程序只要收到攻击,每一个用户的数据信息都会面临安全风险。
3.2 云计算安全问题的解决对策
当前解决云计算安全问题没有特别有效的办法,最常见的就是安装杀毒软件、防火墙等防治黑客攻击,同时注意数据加密、备份,以防止数据泄密或被破坏、丢失,但数据加密也面临着一些风险,例如,用户对自己的数据加密后忘记了密码,那么这些数据就会永远的被“封存”,再也无法查看,又如用户不小心泄露加密密匙,这就增加了数据的泄密风险。因此,除了常见的技术预防云计算安全途径外,还应重视对云计算使用者的安全意识培养,例如,在数据加密时,一方面注意数据密匙的保护,以防遗忘和丢失。另一方面,数据密匙的设置不能太简单(如用单纯的一个数字、手机号码等),而且应该定期更换,避免数据密匙泄露。此外,还要重视云计算相关软件、技术的研发,在云计算安全问题上有突破性的建树,以促进云计算平台的应用和拓展。
4 结语
部队应用云计算的方向很多,如部队日常管理,研究项目模拟、信息采集处理等等,而且部队云计算的安全性、可靠性要求较一般的社会企业、单位更高,研究云计算的发展及当前的应用缺陷,是对云计算安全性的探知,更是对如何更好的发挥云计算平台效益的探索,对建设现代化部队、信息化、智能化部队意义重大。
参考文献:
一、云计算基本概念
近些年,云计算这一概念在行业内被普遍提及,也随之为这一技术带来了巨大的发展。维基百科()对云计算的定义如下:一种基于互联网的计算机新方式,通过互联网上的异构、自治的服务为个人和企业用户提供按需即取的计算。分析这一概念我们可以了解到,在互联网时代,计算能力已经成为了一种“商品”在进行销售,它就像我们日常生活中的水电、煤气一样,价格便宜,使用方便。目前,国内外的互联网商业巨头纷纷推出自己的云计算平台,如google、微软、IBM、亚马逊等,并将其作为未来发展的重要战略之一。因此,针对云计算的研究不仅是互联网时代业界技术发展的重要趋势,也具有十分重要的应用价值。
二、云计算的体系结构
云计算是一个革命性的举措,它不仅带来了IT模式的变化,也引发了IT服务的变革。在云计算时代,数据是自己的,而对于数据的计算、处理等操作,都可以交给云计算数据中心进行。云计算平台可以看成是一个强大的“云”网络,不仅将众多并发的网格计算和服务连接起来,还利用虚拟化技术对每一个服务器能力进行拓展,这样就通过云计算平台使得各自的资源整合起来,拥有超级计算和存储能力。从总体上看,云计算由三个基础部分组成:基础设施,网络和终端。
三、云计算的关键技术
云计算是以数据为中心的一种数据密集型的超级计算方式,它在数据存储和管理、编程模式和虚拟化等方面都具有自身独特的技术。
(一)数据存储和管理。云计算的数据一般采用分布式方式进行存储和管理。为了保证数据的高吞吐率、可靠性及高利用率,冗余存储的方式也时常采用。此外,鉴于云计算中对数据读取和分析的频率高于数据更新频率,云计算系统的数据管理常采用列存储的数据管理模式---将表按列划分后存储。
(二)编程模式。在云计算系统的编程实现过程中,应当尽可能的简单化。究其原因,主要是因为简单化的编程模式能够为基于云计算服务的开发人员提供便利,可以帮助他们在进行后台并行执行和任务调度时获得相对透明的流程,进一步得帮忙他们专心于业务逻辑。
(三)虚拟化技术。虚拟化技术是云计算有别于一般并行计算的根本性特点,也是云计算中的一个关键技术。采用虚拟机技术对云计算资源进行管理具有以下几点优势:移动性、独立性和高整合性。
四、云计算中的网络拓扑设计
云计算作为基于互联网的商业计算模型,其后端的网络拓扑结构十分复杂。对云计算系统中后端大量的服务器进行有效地组织和管理一直是云计算研究中重要的方面,这是保证云计算系统稳定运行的关键。和一般的企业网络、公网相比,云计算网络结构的特点有以下几方面不同:
(一)云计算系统后端网络的复杂程度远远大于一般公司的网络,因此,合理高效的网络拓扑结构是云计算系统中的关键,其主要的作用在于为网络中数据传输的畅通和稳定提供保证。
(二)云计算系统网络内部的数据流量大,主要由于系统主要面向大量的用户和大规模的业务处理。同时,还可能会有服务等级区分度较大的问题。
(三)云计算系统的中网络需要保证高稳定性,这主要是由于用户所有业务及数据都依赖云来开展。
(四)云计算系统需要有良好的可扩展性。云计算系统的规模较大,不可能一次性建设完成,而且用户规模会随服务的增加持续扩大,因此,如果没有良好的可扩展性很难满足要求。
图 1. 云系统后端网络结构示意图
云计算系统中整个网络的效率、稳定性和复杂度由核心交换层的网络拓扑结构决定。显而易见的,如果核心交换节点直接两两相【摘 要】本文的出发点为云计算的网络需求,针对云计算系统中的网络拓扑结构特点进行研究与分析,提出了云计算系统中网络拓扑结构的基本思想――由中心的主干交换部分和树状子网组成;并给出了相应的实现解决思路。
【关键词】云计算 网络拓扑设计 算法实现
连,由此形成的全连通网络抗稳定性是最优的,网络的畅通性也能够得到保证。但是,这样拓扑结构的网络其建设和维护的成本较高,各个核心交换节点中的路由和管理复杂度极高。另一方面,直接以各自交换节点为根生成最小生成树也可以构建网络,这样的网络拓扑结构相对简单,成本低,但是其稳定性较差,容易造成网络的不连通。
因此,一种合理且有效的方式可以简化为如图1所示的结构。通过对该网络抽象化,将需要研究的问题突出显示,即抽象化每一个子网为一个节点,给每个节点附上交换能力、子网流量和地理位置信息等特性。此时,针对网络主干拓扑结构的设计问题就可以表示为如何在已知若干节点容量、地理位置信息和可能流量等信息的前提下,将这些节点互相连接并形成一个冗余小、网络架设开销小的网络拓扑。
针对云计算网络拓扑设计已有众多研究者进行了深入的研究和讨论,该问题可以表示成图论中的一个数学模型:即抽象化云计算系统中的网络节点和所有可能的链路,表示为图论中图的顶点和边,抽象化带宽、延时、链路长度等表示为图的边权重。
本文针对云计算系统后端网络的特点,给出了云计算网络拓扑结构组成---主干交换部分为中心和树状子网为结构。通过将该问题抽象化为数学模型,并求解该抽象化问题,能够有效地计算出云计算系统的网络拓扑结构。
参考文献:
[1]邓自立, 云计算中的网络拓扑设计和Hadoop平台研究,[D].中国科学技术大学. 2009. 学位论文
中图分类号:P2文献标识码: A 文章编号:
一.引言。
随着我国对建筑行业的工程质量和工程设施安全要求的不断提高,相对的对其建筑前的设计和在建筑施工过程中也提出了更高的要求。尤其以GPS技术在测绘学的领域中起到了革命性的变革。,GPS测绘技术在科学技术的突飞猛进的现实面前是最好的映射。随着时代的发展与进步,计算机技术作为相对社会高科技的结晶,在社会生活中各个领域都起到了相当重要的地位。
二.对GPS的认识。
GPS全球卫星定位技术、GIS地理信息系统和RS遥感技术等其他科学被利用到测绘工程中,测绘技术和各学科相互交叉、渗透,测绘工程中产生新的综合性信息采集、处理、监控管理系统。
GPS的工作原理是通过高空的24颗卫星,由地面控制系统和用户接收装置组成,具有精度高、速度快、全天候、距离远等特点。在工程测绘中,GPS定位技术的应用使的测量范围大大延伸。利用GPS技术和水准测量资料可精化大地水准面,在进行城市、矿山等控制网时不需要造标观测,在工程测绘中及灵活又方便,同时使用成本相对较低。再者GPS技术在测绘应用中的特点也是很明显的,譬如定位精度高、观测时间短、提供三维坐标、全天候作业、观测站间无需通视、操作简单、经济效益好。
这样的发展,使得GPS技术在工程测量、地形测绘、竣工测量及工程机械控制中都得到了广泛的应用从现在形式不难发现,GPS定位系统在测绘中的应用朝着高精度、多功能、和集成式的方向迅速发展,当然GPS也将广泛地应用于众多的行业,甚至进入更高端的科学领域,促进人类文明的高度发展。
三.影响GPS测绘存在误差的主要因素。
1.信号误差
美国政府从其国家利益出发,通过降低广播星历精度,在GPS基准信号中加入高频抖动信号等方法,人为降低普通用户利用GPS进行导航定位时的精度。
2.卫星星历误差
在进行GPS定位时,计算在某时刻GPS卫星位置所需的卫星轨道参数是通过各种类型的星历提供的,但不论采用哪种类型的星历,所计算出的卫星位置都会与其真实位置有所差异,这就是所谓的星历误差。
3.卫星钟差
卫星钟差是GPS卫星上所安装的原子钟的钟面时与GPS标准时间之间的误差。
4.卫星信号发射天线相位中心偏差
卫星信号发射天线相位中心偏差是GPS卫星上信号发射天线的标称相位中心与其真实相位中心之间的差异。
5.电离层延迟
由于地球周围的电离层对电磁波的折射效应,使得GPS信号的传播速度发生变化,这种变化称为电离层延迟。电磁波所受电离层折射的影响与电磁波的频率以及电磁波传播途径上电子总含量有关。
6.对流层延迟由于地球周围的对流层对电磁波的折射效应,使得GPS信号的传播速度发生变化,这种变化称为对流层延迟。电磁波所受对流层折射的影响与电磁波传播途径上的温度、湿度和气压有关。
7.控制网布设不合理或起算数据利用不合理引起的误差。
8.GPS控制部分人为或计算机造成的影响。
9.由于GPS控制部分的问题或用户在进行数据处理时引入的误差等。
10.数据处理软件的影响。
11.数据处理软件的算法不完善对定位结果的影响。
四.提高GPS定位精度的有效办法。
1.硬件的改进
2.采用合适的GPS接收机作业
当基线边长大于10 km时,采用双频接收机。双频接收机的优点是:
①可以基本消除电离层延迟对点位坐标的影响,点间距离可达100 km;
②在快速静态和动态测量中观测时间比单频机短。当基线边长小于10 km时,可以采用单频接收机。
3.作业前对GPS接收机进行鉴定
4.作业方法和手段的改进
5.选点的要求
选点的要求:
①点位应便于接收设备的架设和操作,视野开阔,被测卫星的地平高度角应大于15 °。
②应尽量消除多路径影响,防止GPS信号通过其他物体反射到GPS天线上,因此应避开强反射的地面,避开强反射环境,如山谷、山坡、建筑物等。
③避开强电磁波干扰,设站应远离雷达站、电台、微波中继站等。
综上所述,GPS接收机常存在钟误差、通道间的偏差、锁相环延迟、码跟踪环偏差、天线相位中心偏差等,所以必须先了解仪器性能、工作特性及其可能达到的精度水平。它是制定GPS作业计划的依据,也是GPS定位测量顺利完成的重要保证,所以对GPS测量仪器必须先进行作业前的检验,没有检验的仪器是不能用于作业的。
五. 南方GPS的单点校正。
由于在实际测量工程中控制点个数不足,不能正常求取GPS的转换参数,往往无法满足工程的精度要求, 因此GPS单点定位精度的提升成为解决一直问题的重要手段。
GPS的点校正是建立在GPS接收机采集的WGS-84数据与地方控制位置之间的关系,采用一系列的数学转换定义此关系。
将WGS84位置转换到格网坐标的数学转换是:
1.基准转换:即从WGS84唯独、精度和椭球高度坐标转换到相对于地方测图格网椭球的纬度、经度和椭球高度坐标;
2.地图投影:是从地方椭球纬度和精度坐标转换到地方测图格网的北向和东向的坐标到WGS84高度的大地水准面模型,得到海水平面上的近似高程。
GPS在启动基准在的时候必须获取一个当前基准站所架设点位的WGS84经纬度坐标才能正常的发射,而转换参数的计算也必须使用WGS84坐标,WGS84坐标的获取有两种方式:一种是由基准站直接读取当前测出的经纬度坐标(GPS坐标每一秒刷新一次,每一次读取的坐标都设有差异,误差在1至2米之间);一种是事先布设好静态控制网,从静态处理结果中获取。由于WGS84经纬度获取的相对不确定性使得在求解转换参数时必须首先确定一组公共控制点的WGS84经纬度坐标,这组坐标一旦确定以后每次启动基准站时都要使用这一组WGS84经纬度坐标,否则使用转换参数时的显示坐标和实际施工做标间就会存在一个固定偏差,这个偏差是由所取的基准站WGS84经纬度坐标和用来计算转换参数的WGS84经纬度坐标之间的差异产生的。
南方的RTK自动启动基准站时取的坐标是基准站开机并达到状态以后自动取得的WGS84经纬度坐标,这样就会出现上述的固定偏差,工程之星软件通过一个公共已知点求出的转换参数来克服这个固定偏差,工程之星软件中把这个过程称为“校正”,因此南方GPS的单点校正精度得到了很大提高,其精度在一定范围内可以满足一般测量要求。
单点校正的特点是:距离已知点越近精度越高,一般的控制范围为3-5公里。因此在使用单点校正的时候要注意工作地点不要距离控制点过远,对精度要求高的测量工程尽量避免使用。
六.结束语
GPS控制布网灵活,操作简单,有利于提高工作效率,降低生产成本,提高测量速度和工作效益。GPS控制只要观测数据可靠,平面起算数据和高程起算数据设置合理,能得到较好的平面精度和高程精度。静态GPS作业,基线较长时要适当延长观测时间,以取得良好的观测数据。基于GPS技术的特点,相信在我国今后的发展中,GPS技术将运用到社会生活的各个领域当中,为我国在基础建设中绘制宏伟的蓝图,是我国赢得经济、社会、人文发展的共赢,实现经济效益最大化。
参考文献:
[1] 麦卫东 Mai Weidong 浅谈GPS测绘存在误差及有效提高定位精度[期刊论文] 《科学之友》2010年36期
[2]李泽文 曾祥君 黄智伟 雷莉 马洪江LI ZewenZENG XiangjunHUANG ZhiweiLEI LiMA Hongjiang基于高精度晶振的GPS秒时钟误差在线修正方法 [期刊论文] 《电力系统自动化》 ISTIC EI PKU 2006年13期
[3]何勇 葛晓锋 俞海红 方慧 农用GPS测试精度分析及提高精度方法的研究 [期刊论文] 《农业工程学报》 ISTIC EI PKU 2004年2期
[4]李泽文 姚建刚 曾祥君 邓丰楚 湘辉 LI ZewenYAO JiangangZENG XiangjunDENG F基于数字锁相原理的GPS高精度同步时钟产生新方法[期刊论文] 《电力系统自动化》 ISTIC EI PKU2009年18期engCHU Xianghui
中图分类号:TP3 文献标识码:A 文章编号:1672-3791(2014)07(c)-0016-02
1 城市信息化的发展趋势
信息化时代瞬息万变,移动互联网、物联网、云计算技术方兴未艾,其增长速度超出人们的想像。互联网应用从只能读取内容的Web 1.0时展到人们可以参与共享内容的Web 2.0时代,再到现在已悄然迈进的智能化的Web 3.0时代;管理信息化应用从关注组织内部事务处理到关注组织内部工作流程,又在向组织内外协同处理的诉求发展。人们的信息化生活、生产活动逐渐从封闭、单一走向开放、智能,正迈向协同处理、信息智能的时代。城市作为人们生活和生产的载体,将无可避免地与信息产业技术发展趋势相结合,从而衍生出具备智能的城市级信息系统。智慧城市信息系统作为信息产业新技术融合的产物,将控制和协同城市居民的生活和生产活动,使之更加便捷、高效、安全、和谐。
可以将城市比作一个有机的生物体,而将其信息系统比作生物体的神经系统。高等生物的神经末梢感受体内、体外环境的信息,通过周围神经传递到中枢神经进行整合加工,再经周围神经控制、协调生物体内部各系统的功能以及生物体和外部环境的平衡。物联网感知和控制终端是智慧城市的神经末梢,宽带通信基础网络构成周围神经系统,而云计算数据中心作为城市智慧的大脑,三者共同构成智慧城市信息系统,以协调城市这个庞大的生物体各系统的运转,以及城市和自然环境的平衡。城市将愈发依赖于这种高度互联、高度协同的智慧的信息系统。
2 智慧城市的概念和关键能力
智慧城市应具备以下三个信息化关键能力。
2.1 信息的全面感知能力
城市中布有大量的感知终端,通过传感器网络,在运行、服务中捕获到人们生活、生产以及城市环境的多种信息元数据。
2.2 海量的数据处理能力
具备海量的跨部门、跨行业异构数据的存储能力,能够对海量异构数据进行高效分析、计算和处理的能力,并且能够构建基于数据分析和知识管理的智能应用能力。
2.3 智能的管理服务能力
在形成支撑智慧城市的行业智能应用的基础上,建立面向服务的智慧城市综合应用的统一公共管理平台,为居民生活和各行业生产提供普适的、智能的应用与服务。
3 物联网和云计算技术
智慧城市信息系统是一个面向城市管理、控制与服务的体系,它统一集中各行业数据与信息资源,为跨部门、跨行业建立协同处理和智能控制平台。
对智慧城市关键能力的分析可以看到,物联网和云计算能够为构建智慧城市信息系统提供技术支撑,它们在宽带通信基础网络的支撑下构成智慧城市信息系统的信息感知端和信息处理端。一方面,物联网渗透入各行业,提供全面的城市感知和控制网络。另一方面,云计算数据中心提供面向各个物联网行业应用的集成,面向用户和终端提供整体的智慧城市应用服务平台。两者之间由普遍覆盖的宽带通信网络在平台与终端之间提供网络环境支撑。云计算构架在宽带通信网之上,物联网将主要依赖宽带通信网来实现有效延伸,通过云计算模式可以支撑具有业务一致性的物联网集约运营。
3.1 物联网技术在智慧城市中的应用
物联网是通信网和互联网的拓展应用和网络衍生,它利用感知技术与智能装置对物理世界进行感知、识别,通过网络传输互联,进行计算、处理和知识挖掘,实现人与物、物与物信息交互和无缝链接,达到对物理世界实时控制、精确管理和科学决策的目的。
物联网的网络架构可以分为三层:感知层、网络层和应用层。感知层对物理世界感知、识别并控制。网络层实现信息的传递。应用层在对信息计算和处理的基础上实现在各行业的应用。
物联网的关键技术包括传感与RFID融合技术、识别与环境感知技术、物联网节点及网关技术、物联网通信与频管技术、物联网接入与组网技术、物联网软件与算法、物联网交互与控制、物联网计算与服务等。物联网的应用渗透智慧城市的方方面面,可以为智慧城市信息系统的感知和控制提供全面支持。这些应用概括起来有:(1)工业,如生产过程控制、供应链管理、能耗控制等。(2)农业,如农作物精细灌溉、生长环境监测、农产品流通追溯等。(3)商业,如自动贩卖机、POS终端等。(4)金融服务,如“金卡工程”、二代身份证等。(5)交通,如交通流量监控、交通信号控制、电子收费、定位导航、车辆状况诊断等。(6)电力,如智能变电站、智能用电、配电自动化等。(7)医疗卫生,如远程诊断、医疗废物监控等。(8)教育,如图书信息推送、远程教育等。(9)家居,如门禁、安防、电气设备远程控制等。(10)环境,如有害物质监测、气候环境监测等。
3.2 云计算技术在智慧城市中的应用
社会经济和信息化大发展,尤其是移动互联网和物联网应用的发展,提出了对海量信息的处理与低成本、普适化、智能化应用的需求。云计算因这些需求快速发展,获得了显著的商业成功。
云计算是一种新的计算方法和商业模式,即通过虚拟化、分布式存储和并行计算以及宽带网络等技术,按照“即插即用”的方式,自助管理计算、存储等资源能力,形成高效、弹性的公共信息处理资源,使用者通过公众通信网络,以按需分配的服务形式,获得动态可扩展信息处理能力和应用服务。如果从计算效用的角度来看,云计算通过虚拟化技术形成可管理的弹性的资源池,充分提升机群的CPU和存储的利用率,又通过分布式存储技术和并行计算技术,充分利用机群并行处理的强大计算能力和快速响应能力,并通过中间件层对上层应用透明。构建智慧城市一体化智能控制服务平台,需要处理对城市各方面的生活、生产活动以及环境的感知数据,运用统计学、机器学习、专家系统和自动规划等多种方法,从原始数据中挖掘相关信息,提炼出信息中蕴涵的知识,发现规律,提供智能的城市管理、控制和服务。对海量信息的快速处理和智能挖掘需要巨大的存储能力和计算能力,云计算的海量数据分布式存储和并行处理能力为实现人工智能提供了重要的途径。
云计算模式在显著提高资源利用率的同时,降低了对用户终端的要求。往往一个采用嵌入式芯片的终端就能承担起用户终端的功能,用户可以通过简单的终端来获得服务器端强大的计算、存储和应用程序资源。因此,云端高性能计算的支持可以降低传感器终端的复杂性,减少终端功耗,简化终端计算系统的软件结构,使复杂的协同、上下文感知、自适应策略等功能放在云中实现,从而使终端的智能能够得到显著提高。
4 智慧城市信息系统的总体框架
智慧城市的总体框架如图3所示,包括物联网感知和控制层,云计算数据中心、数字化平台、管理中心和应用五个层次。
(1)普遍部署的物联网感知终端对城市系统和环境进行感知与采集,通过宽带通信网络对感知信息进行传送。(2)在云计算数据中心对信息进行汇聚、提取和处理。(3)在数字化平台实现行业集成的应用接口整合。(4)通过业务管理平台实现用户、业务、数据、安全、认证、授权和计费等管理功能。(5)最后实现各行业的应用服务。另外,标准、法规的完善和全局的统筹规范有利于保障整个信息系统的管理和控制,保证智慧城市的建设和运营,使系统真正具有智能运营、交付和服务能力。
5 智慧城市信息系统的网络拓扑
智慧城市信息系统是智能的开放的系统,以城市数据中心为核心,以物联网终端为触角,由内而外分为六层。
(1)城市数据中心包括网络数据中心、业务数据中心和用户数据中心,共同构成城市数据系统。(2)云存储、云计算和云网络设备构成的云资源系统为城市信息系统提供云计算的能力,使其具有强大的计算能力与共享服务能力。(3)能力引擎系统提供资源和支撑能力的开放使用。(4)资源控制节点基于分布式架构技术,屏蔽系统内部复杂的物理和逻辑结构,实现自适应负载均衡能力、带宽汇聚能力、分布式存储能力、动态资源调度能力。(5)智能接入网关将传感器终端接入云中,屏蔽不同传感器终端的差异,进行不同终端接入的智能适配,实现统一接入。(6)终端指感知和控制,以及应用服务获取的末端设备。
6 智慧城市发展建议
智慧城市的建设和发展需要现代信息通信技术支撑,需坚持开放合作与自主创新相结合,突破海量数据处理、智能终端系统、智慧化产业支撑平台等关键技术。
另一方面,也需要依靠政府和行业主管部门制定发展规划和扶持政策以大力推进智慧城市建设,从而构建良好的产业发展环境和配套措施,建设宽带、普遍部署的通信基础网络。同时,需要推动跨行业联合制定统一的标准体系研究,实现通信、数据、信息、应用、服务的协同。此外,还需要通过立法和监管,实现数据共享,提高信息管理水平,建立数据的隐私保护和信息安全管理机制。有了以上四个方面的共同保障,才具备打造一流的智慧城市服务环境,汇聚规模化的产业集群,实现规模经济和现代服务的条件。
参考文献
一、SDN技术的发展历史
2006年,SDN诞生于美国GENI项目资助的斯坦福大学Clean Slate课题。
2008年,基于Ethane 及其前续项目Sane的启发, Nick McKeown 教授等人提出了OpenFlow 的概念,并于当年在ACM SIGCOMM 发表了题为《OpenFlow: Enabling Innovation in Campus Networks》的论文,首次详细地介绍了OpenFlow 的概念。
2009年12月,OpenFlow规范了具有里程碑意义的可用于商业化产品的1.0版本,之后又进一步修订推出了1.1、1.2、1.3、1.4版本。
在工业界,2010年1月,Google数据中心开始采用OpenFlow技术。
2011年3月,开放网络联盟ONF成立,标志着SDN/ OpenFlow从单纯的学术研究正式过渡到产业化发展的轨道中。
2012年底,AT&T、英国电信(BT)、德国电信、Orange、意大利电信、西班牙电信公司和Verizon联合发起成立了网络功能虚拟化产业联盟(Network Functions Virtualisation,NFV),旨在将SDN的理念引入电信业。除ONF外,包括互联网工程任务组、国际电信联盟、欧洲电信标准协议也在推动SDN的发展和应用。
二、应用场景
目前,SDN主要应用于通信技术领域,具体涉及校园网、移动网络以及云计算网络等,随着SDN技术的深化发展,其应用领域会更加广泛。
2.1应用于校园网
SDN最早诞生于斯坦福大学的Clean Slate课题,该课题主要是用于校园网络的试验创新,旨在改变设计已略显不合时宜,且难以进化发展的现有网络基础架构,从而构建一个灵活高效的校园网。
2012年,国家“863”项目“未来网络体系结构和创新环境” 获得科技部批准。该项目是一个符合SDN思想的项目主要由清华大学牵头负责,清华大学、中科院计算所、北邮、东南大学、北京大学等分别负责各课题,项目提出了未来网络体系结构创新环境FINE(Future Internet innovation Environment)。
2.2应用于移动网
SDN逻辑上集中的控制平面能够更好地实现网络融合,使统一管理成为可能。利用SDN技术可以在固定网络和移动网络中实现无缝控制、提高VPN管理的灵活性等。
在运营商网络中利用SDN技术不但能够降低网络管理难度,还能加快业务部署速度,提高网络服务器的适应能力。
目前,我国三大移动运营商纷纷找有实力的SDN技术研发公司进行合作,如华为与电信运营商的合作,其合作的目的是将现有的网络结构向SDN网络结构转型,以期能够适应时代的潮流,为客户提供更好的服务。
2.3应用于云计算网络
随着网络通信技术的发展以及客户需求的增长,传统的存储处理系统远远达不到数据处理的需求,因此提出了集群及云计算概念。
云计算数据中心的交换机管理结构复杂,因此需要对服务器和虚拟机进行快速配置和数据迁移。如果不能在大量的服务器集群中进行快速高效的寻址与数据传输,就极容易造成网络拥塞,发挥不出网络功能。
在数据中心网络中部署OpenFlow交换机,可以借助SDN技术,实现高效寻址、优化传输路径、负载均衡等功能,提供数据交换的效率。
三、展望
SDN是一种新兴的网络架构,属于下一代网络技术研究范畴,但又与其他下一代网络技术研究方向有很大区别。由于SDN技术刚刚提出,因此目前使用软件定义网络还存在一些问题,如让不同的网络服务提供者互相交换网络信息从商业的角度来说是不容易实现的,在实现数据平面和控制平面的分离时如何实现分离转发和控制面的OpenFlow协议的完善等。
但是相信随着SDN技术的发展,这些问题在不久的将来会得到妥善解决。
参 考 文 献
与此同时,为了支撑起规模越来越庞大的应用,满足企业、用户越来越高的需求,数据中心自身也面临着一系列发展阻碍和瓶颈,转型成了当前数据中心的燃眉之急。
2011年8月,华尔街日报刊登了题为《为什么软件正吞噬整个世界》的文章,被认为是拉开“软件主世”序幕的信号。事实上,近些年,软件确实渗透进了人们生活的每个角落,它甚至在悄然改变着数据中心,而且随着软件定义网络(SDN)等概念的出现,业内人士认为,软件定义的数据中心将会是传统数据中心转型升级的方向和趋势。
无论你是否相信,从当前的各种反应来看,软件定义的数据中心,这一新生概念正在被越来越多的人接受,而且已经被付诸实践……
为云计算铺路搭桥
对于生活在互联网时代下的人们而言,数据中心并不算陌生名词,但加上“软件定义”4个字之后,我们又该如何定义这个新概念呢?
事实上,对于软件定义的数据中心,目前并没有规范的定义,比较常见的解释是指将数据中心软件与硬件(包括服务器、存储、网络等)剥离,抽象成纯软件的解决方案,从而实现IT资源的灵活配置和自动调度。如果用全球著名虚拟软件厂商VMware(威睿)全球副总裁李严冰博士的话来说,软件定义的数据中心更直观的定义就是把数据中心所有传统、物理、硬件的资源进行虚拟化和软件化。
清华大学计算机系副教授李丹认为,通过软件定义数据中心主要有三个好处:首先,能有效控制成本。数据中心能够运行哪些应用主要由具体的服务商决定,不同服务对数据中心的网络基础设施架构有不同要求。如果是传统数据中心,则需要根据用户个性化的服务定制配套的硬件设备,成本非常高。而进行软件定义之后,用户可以利用控制器对数据中心上的物理资源和拓扑进行集中管理,运行相应服务时只需在控制器上对资源进行分配即可。这种方式不仅能有效控制成本,也能方便用户灵活地管理数据中心。
其次,能使数据中心功能演进和革新的周期变短。按照传统做法,如果用户有新需求,需要告知设备制造商,然后制造商按要求将设备做好,再进行一系列标准化测试工作后,才能交付用户使用,周期非常漫长。如果是软件定义的数据中心,用户自己就能通过编程进行升级换代,省去了中间很多环节。
最后,可以更好地支持云数据中心的虚拟化。虚拟化是云计算和云数据中心的核心技术,当有多个使用者时,云计算就像一个动态的资源地,通过软件定义的方式,对资源进行动态的调度、管理、分配和释放则会非常灵活和方便。
据了解,VMware应该是软件定义的数据中心的最早提出者和实践者。近年来,为了抢占发展先机,VMware先是高调收购软件定义网络领域的先锋厂商Nicira,随后又收购或投资Puppet Labs、GemStone、WaveMaker等数十家相关厂商和企业。透过这些“疯狂”的举动足以看出,VMware正在编织一张大网,网的核心就是软件定义的数据中心。
面对这个新兴领域,我国的反应也十分迅速,国家863计划、基金委等在第一时间启动了许多相关的重大基础研究及关键技术攻关。今年3月,国家973计划青年科学家专题“软件定义的云数据中心网络基础理论及关键技术”项目也正式启动,由清华大学和华中科技大学共同承担完成。
李丹是5名研究人员之一,也是项目负责人。他告诉记者,作为973项目,意味着这次项目必须符合重大基础研究的要求―既要解决国家和社会发展面临的重大战略需求,又要在技术上、理念上拿出很好的原始创新成果。这也是此次项目与其他项目的区别所在。
此外,李丹还介绍,此次项目将面向建设新一代云计算和互联网基础设施、培育战略性新兴产业的国家重大战略需求,研究云计算数据中心环境下网络设计的科学规律与技术原理,探索支持可软件编程网络节点和可扩展控制器的软件定义云数据中心网络架构,对网络、计算和存储资源进行联合优化,保障云计算租户的网络性能要求,为新一代云计算和互联网基础设施建设、关键技术研发和产业化提供科学理论支持和核心技术支撑,进而推动国家战略新兴产业的发展。
为此,李丹团队计划围绕可定制的网络架构、资源利用率优化、多租户资源管理和能耗系统控制等4个科学问题展开相关研究,力争取得一系列高质量的学术成果,形成具有我国自主知识产权的核心技术,为国家培养一批优秀的青年学术带头人,以及建立一支理论知识扎实、技术攻关能力强、战斗力过硬的研究队伍,使我国在本领域的研究整体上达到国际先进水平,甚至在一些关键点上能够达到国际领先水平。
“软件定义的云数据中心的概念脱胎于软件定义网络(SDN),但其实无论是SDN,还是虚拟化,或者是软件定义的数据中心,这一切都依附于云计算这个大背景。软件定义的云数据中心与云计算、下一代互联网及大数据之间,有着十分密切的关系。我们的研究某种程度上是为了解决这些领域在发展中所遇到的部分技术难题。”李丹认为,从这个层面看,软件定义的数据中心,能够推动云计算等相关产业的发展和进步,它所带来的影响是深远的。
紧密结合实际,避免流于形式
对于软件定义的数据中心,有人投入其中,自然也有人“看热闹”。“看热闹”的人们认为:“当初云计算、虚拟化概念刚出现时被炒上了天,后来事实证明有些所谓的新技术、新平台,并没有像描述的那样达到期望的目标。所以,谁知道软件定义的数据中心是真的‘有料’,还是只是新的炒作?”
在李丹看来,一项新的技术出现,避免不了被质疑。如果要让人们信服,就不能只是新瓶装旧酒,而是真真正正拿出新理念、新技术,同时还要转化成成果,让人们实实在在体会到好处。具体到李丹等人这次的项目而言,他们也希望研究成果不仅仅停留在论文层面,而是能在相关产业得到应用。
但是,成果转化并非易事,很多研究最终没能令人满意多半是在这个环节出问题。对于初次承担如此重大研究的李丹团队而言,这是一个非常大的考验,他们并不畏惧。李丹说:“理论与实践并重,研究成果与实际紧密结合,一直是我们做研究的特点,也是团队的指导思想。我们也时刻以此警戒自己,尽最大努力把这个项目做好,让它发挥切切实实的作用。”
据悉,项目启动半年至今,李丹等人已经在利用软件定义网络技术实现数据中心的虚拟化方面取得了初步成果,各项研究工作也在有序推进中。同时,为了更好地了解产业需求,解决实际问题,李丹表示,目前除了定期开会交流探讨,他们还积极与中石油、华为、中兴、百度、腾讯等公司、企业开展合作,争取让团队的创新想法和技术能够落地,甚至还能起到示范作用。
不是终极,但会是变革和趋势
随着关注度的不断上升,有人认为,软件定义的数据中心将会成为云计算数据中心的终极形态,但这种说法李丹并不认同,他认为:“技术发展是不断演进的,很难说哪种技术会是终极,只能说现阶段,软件定义的数据中心是一种能够很好地解决数据中心所面临问题的比较前沿的方案和方法。”
据李丹介绍,现在很多新建的数据中心,都使用了大量SDN技术,而一些传统数据中心,也在谋划着转型升级。未来,软件定义的数据中心很可能会完全取代传统数据中心。因此,李丹更认同“软件定义的数据中心会是IT界的变革”这样的说法。他说:“软件定义的核
心理念之一就是开放化整个系统,将设备软件化,功能开发化,这其实也是整个信息技术、IT技术发展的大趋势。”
李丹举例说:“最初IBM大型机软硬件一体,没有开放系统,也没有应用软件,用户都是靠敲命令完成操作。后来微软出了Windows操作系统,将硬件的各种功能通过应用编程接口开放给用户,才有今天这样方便的操作。手机的发展也是同样趋势。诺基亚手机是软硬件一体的典型代表,最初用户不能自行安装、运行其他软件。但后来除了打电话和发短信,用户还希望手机能上网、玩游戏,甚至用户还能随时安装自己需要的软件。这就需要开放手机功能,于是手机操作系统安卓出现了。”
作者简介:王金宝(1983-),男,黑龙江哈尔滨人,博士研究生,主要研究方向:云计算系统中的查询处理和索引技术;
高宏(1966-),女,黑龙江哈尔滨人,博士,教授,博士生导师,主要研究方向:图数据库,数据挖掘,云计算数据管理。
云计算系统中查询处理及优化技术研究综述
王金宝, 高宏(哈尔滨工业大学 计算机科学与技术学院, 哈尔滨 150001)摘要:云计算系统中的查询及优化技术是近年来倍受关注的热点研究领域,综合了并行计算、分布式计算和查询处理及优化技术等方面的研究成果,具有广阔的应用前景。云计算系统中的查询和优化是一项基础而重要的操作,被研究者们所广泛关注,也涌现出了很多研究工作。总结了近年来云计算系统中的查询处理和查询优化方向的研究工作,讨论了现有工作的内容和需要进一步研究的方向,并提供了广泛的参考文献。
关键词:云计算; 查询处理; 查询优化
中图分类号:TP393 文献标识码:A文章编号:2095-2163(2013)04-0051-04
Survey on Query Processing and Optimization in Cloud Systems
WANG Jinbao, GAO Hong
(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001,China)
Abstract:Cloud computing is a research area with many hot research topics, which is widely concerned in recent years. Cloud computing integrates the technology of parallel computing, distributed computing, query processing and optimization and etc., and provides significant application perspective. Query processing and optimization is an essential and important operation in cloud systems, which is widely concerned by researchers, and there are also large amounts of research work on cloud query processing. This paper introduces and summarizes the research work on system, data management and query processing in cloud computing systems. This paper discusses the existing solutions and the possible future work, and provides with plenty of references.
Key words:Cloud Computing; Query Processing; Query Optimization
0云计算的背景和意义
作为一种新出现的计算模式,云计算(Cloud Computing)提供安全、可靠的数据存储,可以对海量数据管理提供有效支持。云计算就是使用构建于低成本硬件和网络设备基础上的大规模计算机集群,资源可在集群用户之间实现动态分配[1]。云计算具有以下特点:
(1)超大规模。“云”具有相当的规模,Google 云计算已经拥有100 多万台服务器,Amazon、IBM、微软、Yahoo 等的“云”均拥有几十万台服务器。企业私有云也一般拥有数百上千台服务器。“云”能赋予用户前所未有的计算能力。
(2)虚拟化。云计算支持用户在任意位置、使用各种终端获取应用服务。所请求的资源来自“云”,而不是固定的、有形的实体。应用在“云”中某处运行,但实际上用户无需了解、也勿需担心应用运行的具置。
(3)高可靠性。“云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性。
(4)通用性。云计算不针对特定的应用,在“云”的支撑下可以构造出千变万化的应用,同一个“云”可以同时支撑不同的应用运行。
(5)高可扩展性。“云”的规模可以动态伸缩,满足应用及用户数量增长的需要。
目前,TB/PB级海量数据的查询处理技术已逐渐引起世界各国数据库领域的研究学者和工业界人士的关注重视。人们在此领域开展了一定的研究工作。但是从数据库的角度,系统的研究工作还较为少见,除了在TB/PB级海量数据的数据存储、查询语言等方面取得了一些成果外[2],在海量数据的代数操作及其实现技术、海量数据的查询处理和优化技术等方面并未获得显著进展。传统的数据库系统既不能提供针对TB/PB 级数据的有效存储与索引,也难以提供专门针对TB/PB 级海量数据的高性能基本数据操作算法以及高性能查询处理技术。数据网格查询处理的研究虽然取得了一定的进展,但是大多数查询处理器都是针对特定应用的。数据网格查询处理的研究工作主要集中在查询处理的体系结构、基于服务思想的分布式查询处理、基于语义本体的分布式查询处理等几个方面,而却没有从数据库系统的角度进行进一步研究。由于云计算系统能够提供可靠、安全的数据存储,以及对TB/PB级海量数据的管理提供稳固、有利的支持。目前,基于云计算环境的TB/PB 级海量数据查询处理技术的相关研究工作还处于初期阶段,研究成果还未形成规模,在针对TB/PB 级海量数据的存储与索引、各种数据操作算法、查询优化处理等方面,还有大量的理论和技术问题需要解决,研究工作任重道远。
基于此,开展研究基于云计算环境的TB/PB级海量数据查询处理的关键技术和理论研究,包括TB/PB级海量数据的存储与索引、数据的高效操作算法,查询优化与处理技术具有很大的学术价值和实际意义。
1云计算系统概述
目前,将计算和存储从客户的PC端移动到大规模的服务平台(数据中心)的思想逐渐流行,而为学术界熟悉与接受。这种态势一方面可以利于用户对个人数据的管理,用户不需要对数据进行配置或备份操作,并且只要能连接到Internet就可以随时随地获得数据;另一方面也可以方便服务供应商提供更好的服务,因为供应商可以通过随时更新软件来提高数据中心的服务质量。数据中心可以实现用户以较低的代价成本获得较高质量的服务。基于这种服务模式,工业界近年来设计了众多云计算系统,用于支持网络自身服务所需的数据管理功能。第4期王金宝,等:云计算系统中查询处理及优化技术研究综述智能计算机与应用第3卷
GFS[3]集群由一个master和大量的chunkserver构成。文件被分成固定大小的块。每个块由一个不变的、全局唯一的64位的chunk-handle标识,chunk-handle是在块创建时由master分配的。ChunkServer将块当作Linux文件存储在本地磁盘并可以读/写由chunk-handle和位区间指定的数据。每一个块均可复制到多个chunkserver上。Master维护文件系统所有的元数据(metadata),包括名字空间、访问控制信息、从文件到块的映射以及块的当前位置。GFS是Google网络服务的后台数据存储系统。BigTable[4]是由Google提出的、构建于GFS之上的用于管理结构化数据的分布式数据模型,其管理的数据规模可以达到PB级。Google的众多应用都构建于BigTable之上,如网络索引、Google地球、Google商务等。BigTable数据模型使用行值、列值和时间标识作为哈希键值来定位结构化的目标数据。在分布式文件系统GFS和数据模型BigTable的基础上,Google设计了并行编程模型MapReduce[5]用来在大规模集群环境中并行地处理TB/PB级数据。MapReduce将计算任务划分成若干Map和Reduce过程,由用户编写Map和Reduce功能代码。系统提供自动的并行化处理、计算节点状态检测、任务调度、负载平衡、容错性。MapReduce为并行编程提供了很大的便利。MapReduce使用BigTable作为数据存储模型,并将数据以及中间计算结果存储在GFS中。
Amazon成功设计了Dynamo[1],将其作为具有高可靠性的分布式存储系统,其存储数据格式为。Dynamo采用环状结构组织所有节点,并且采用consistent hashing划分数据。Dynamo保证用户总是可以执行写操作,并提供多版本数据冲突的解决方案。系统中通过参数来实现可用性和容错性的平衡,Dynamo采用冗余存储来保证容错性,当一个数据存储节点出现问题以后,数据存储即交由下一个节点进行处理。Amazon提出了具有可扩展性的云计算数据存储服务Simple Storage Servic (S3) ,存储数据。文献[6]提出了在S3中构建数据库的技术,包括S3中的B树索引、日志、安全等方面。
作为Yahoo!公司的云计算平台,PNUTs[7]重点关注了可扩展性和高可靠性,而放松了对一致性的要求。PNUTs只保证提供最终一致性,即用户可以更新数据的任何一个副本,并最终可以将更新应用到该数据的所有副本。PNUTs系统分布在全球多个数据中心,具有可扩展性,可支持记录数由几万条直至几亿条。数据容量增加不会影响性能。数据格式使用key/value存储,保持数据的弱一致性,并提供了容错机制。文献[2]介绍了Yahoo!设计使用的其他网络服务系统,包括云计算系统PNUTs[7]、ad-hoc分析查询语言Pig、云平台服务设计系统AppForce、网络信息提取系统Purple Sox、GUESTS等。文献[8]介绍了Yahoo!设计的Pig Latin查询语言,该语言作用于MapReduce[3]系统中,使用类似SQL的声明语法,并实现了MapReduce机群中数据分析查询的各种基本操作。Pig Latin提供了相应的调试组件,用以提高生产效率。
Dryad[9]是微软分布式并行计算基础平台,程序员可以利用数据中心的服务器集群对数据进行并行处理。Dryad程序员在操作数千台机器时,无需关心并行处理的细节。Dryad则设计为伸缩于各种规模的计算平台:从单台多核计算机、到由几台计算机组成的小型集群,直至拥有数千台计算机的数据中心。Dryad执行引擎负责处理大型分布式、并行应用程序中可能出现的各种难题:对计算机和其中的CPU进行调度,从通信或计算机的失败中恢复,以及数据在节点之间的传递等等。微软设计了可扩展的声明语言SCOPE[10](Structured Computations Optimized for Parallel Execution),用于分析大规模数据集合。SCOPE无需用户显式的定义并行操作,实现了机群中的自动并行化。SCOPE使用关系数据和类似SQL语言的语法,并提供选择操作、内连接、外连接和聚集操作功能,同时还支持用户自定义的函数功能以及表达式的嵌套。
威斯康辛大学开发了Clustera[11]系统,用于提供具有可扩展性的系统功能,使得系统适用于不同的工作负载,包括计算密集型的任务、长期任务以及大规模数据集上的负载SQL查询等。Clustera使用服务器和数据库管理系统来管理工作负载信息和系统状态,以此获得通用性、可扩展性和更高性能。加利福尼亚大学设计实现了分布式文件系统Ceph[12]。Ceph在存储数据时区分数据和中间结果,并使用伪随机数据分布代替了数据定位表,以此获取更好的性能和可靠性。Ceph Client 是 Ceph 文件系统的用户。Ceph Metadata Daemon 提供了元数据服务器,而 Ceph Object Storage Daemon 提供了实际存储(对数据和元数据两者)。最后,Ceph Monitor 提供了集群管理。需要注意的是,Ceph 客户,对象存储端点,元数据服务器(根据文件系统的容量)可以有许多,而且至少有一对冗余的监视器。
文献[12]针对MapReduce在处理异构数据以及关系数据连接操作时的相应缺点,将MapReduce编程模型做以改进,使其发展成为Map-Reduce-Merge模型。Map-Reduce-Merge在MR后期加入了一个Merge过程。Map-Reduce-Merge能够表达关系代数中的各种操作以及一些连接算法。
综上所述,现有的系统缺乏对海量数据复杂查询处理功能的支持,只能提供基于键值的有效查询处理。
2云计算系统中数据管理的研究工作
MapReduce被工业界广泛接受,除了设计者Google使用MapReduce之外,Yahoo!使用开源的项目Hadoop实现了MapReduce的功能,并作为内部数据并行处理的基础结构。大量研究人员在MapReduce系统中展开工作,研究各种数据管理技术在MapReduce中的实现方法以及MapReduce在数据管理领域的功能角色。如文献[13]设计了高级的数据流系统Pig,设计目标是在SQL和MapReduce之间建立联系通道。Pig系统实现了MapReduce系统中各种SQL基本操作的具体实现。文献[14]在MapReduce系统中提出了大规模数据集上的学习树模型的并行算法框架PLANET,定义了一系列分布式计算并在MapReduce中实现了其中的一个算法。文献[15]同样致力于MapReduce中SQL 语言的实现,并且实现了Aster Data System nCluster数据库系统,支持多种用户自定义函数功能。文献[16]评估了MapReduce在多核或者多处理器系统中的适用性,并设计了Phoenix作为MapReduce在共享内存系统中的改进版本,其功能主要包括自动管理进程建立、动态任务调度、数据划分以及处理器之间的容错性。文献[17]讨论了并行数据库和MapReduce之间的关系。文章指出并行数据库和MapReduce是互补型技术,两者可以互相借鉴,获取更好的工作效率。并行数据库和MapReduce都不能完全取代对方。文献[18]研究了MapReduce系统中的自动优化问题,用以减轻调节系统的复杂性。文献[19]通过测试研究MapReduce的系统性能,发现通过调整五种主要的设计因素,MapReduce的系统性能可以获得大幅提升(2.5-3.5倍),而与并行数据库系统的性能差异则明显缩小。文献[20]在MapReduce中使用三个阶段的Map-Reduce方法实现了并行集合的相似性连接操作。算法通过有效的数据划分平衡了工作负载并且实现了最小化备份参数。文献[20]给出了算法在内存资源不足情况下的实现方法。文献[21]讨论了在现有云计算平台(如Amazon的EC2)中部署数据管理系统的约束限制及机遇场合。论文提出如下观点,大规模数据分析、决策支持系统与事务处理数据库系统相比,更能利用云计算系统的优势。同时指出,利用二者结合的无共享并行数据库是云系统中数据库研究的切实有效的出发点。文献[22]使用大规模数据分析任务剖析比较了并行数据库和MapReduce的性能。与MapReduce相比,并行数据库的优势主要表现在数据模式的支持,索引等提升性能的技术,SQL语言的表达能力。而MapReduce的优势在于自动的并行化,任务的灵活性,高可靠的容错能力,在异构环境中的运行能力。实验表明,在集群同构且节点不发生失效的情况下,并行数据库的性能要远远优于MapReduce。而在节点频繁失效的情况下,并行数据库的性能就会出现显著下降,而MapReduce的性能影响则较小。HadoopDB[23]将数据库管理系统和MapReduce结合,使用PostgreSQL开源数据库管理系统作为MapReduce节点管理系统,而且使用Hadoop提供的MapReduce框架连接系统中的节点。HadoopDB具有较快的单机处理速度优势,并且兼有MapReduce的异构有效性、容错性的优势。HadoopDB支持SQL语言。
3无线传感器网络上数据聚集调度的研究工作
文献[24]提出了云计算数据存储系统中批量插入数据的有效方法,系统中的数据按照key值范围水平划分并分布在各个存储节点中。文献[24]考虑了在数据插入过程中的数据迁移代价和插入后系统吞吐量之间的折中,而且也证明了问题属于NP-hard问题。文献[25]研究了如何在系统中有效的并行化范围查询的问题。本文考虑到存储系统的客户应用消耗数据的速度与查询获取结果的速度之间的差异,通过动态适应的方式增加或减少并行处理范围内实现而需查询的节点个数,以此使得系统并行获取足够的查询结果发送到客户应用。文献[26]实现了在MapReduce中构建分布式数据流处理的系统。文献[27]研究了在大规模分布式数据管理系统中使用索引和视图的机制。本文使用两种视图,即远程视图表和本地视图表,并以此提供了系统吞吐量和视图更新速度之间的折中处理,同时也给出了构建和维护式图标以及使用视图回答聚集查询、连接查询、选择查询的方法。文献[28]设计了可扩展的分布式关系表系统Crescando用以支持大量的查询和更新,并提供可预测的操作延迟。Crescando使用并行协作的扫描指令以及数据流中“查询-数据”连接技术保证工作负载的反应时间和结果的新度。Crescando在处理各种工作负载时不能取得最优性能,但是在工作负载未知,而且变化的情况下,Crescando却具有独特优势。文献[29]设计了云计算数据存储系统Spinnaker,在数据的可获取性和一致性之间达到了更新的折中。Spinnaker使用一致性备份协议取得了高可获取性和timeline一致性,并在元组级的事务处理中实现了ACID。与Dynamo相比,Spinnaker具有更好的数据一致性,而只需付出较小的性能代价。文献[30]设计了云计算平台测试的模拟软件CloudSim,用于简化云计算中应用开发的性能评估。文献[31,32]设计了云计算平台中的单维索引CG-Index,用以支持key查询和范围查询。CG-Index通过两级索引结构,在本地构建B-Tree索引并选择若干B-Tree节点为全局索引。系统中的节点则组织成BATON Overlay结构,其的全局索引负责回答系统中收到的查询。文献[33]设计了ecStore,将数据对象分布并备份于云计算集群环境中。文献[34]设计了P2P数据管理系统中在线近似聚集的处理算法,通过不断获取数据,提高计算结果的精度。文献[35]比较了现有云计算平台的架构对构建云数据库的影响,其主要研究对象是在线事务处理而不是在线分析处理。结果表明现有的主流云计算系统具有不同的架构,对于相同的工作负载也具有不同的性能。文献[36]提出了一种分布式的B树索引。该索引结构将数据索引缓存在各个存储节点中,回答查询时,首先检查缓存内容是否过期,如果还未过期,则直接在本地回答查询,否则需要执行相应更新操作。这种索引结构在数据更新快的情况下,效率严重下降。
4结束语
目前,云计算系统中数据管理方面的研究已经引起广泛关注和浓厚兴趣,而查询处理和优化技术则是其中最为基础、且最为重要的研究内容,对此已经开展了较为详尽与深入的研究工作。本文中,归纳并总结了云计算系统、数据管理以及查询和索引技术等方向已有的研究,并对可能的研究方向进行了简要的分析与阐述。
参考文献:
[1]DECANDIA G, HASTORUN D, JAMPANI M, et al. Dynamo: Amazon’s highly available key-value store. SOSP’07 October 14-17, Stevenson, Washington, USA,2007.
[2]Community Systems Group Yahoo! Research, Community Systems Research at Yahoo!, SIGMOD Record, September 2007,36(3).
[3]GHEMAWAT S, GOBIOFF H, LEUNG S T. The Google File System, SOSP’03, October 19-22, Bolton Landing, New York, USA,2003.
[4]CHANG F, DEAN J, GHEMAWAT S, et al. BigTable: A Distributed Storage System for Structured Data[C]∥ USENIX Symposium on Operating Systems Design and Implementation (OSDI) ,2006.
[5]DEAN J, GHEMAWAT S. MapReduce: Simplified Data Processing on Large Clusters. SODI ,2004.
[6]BRANTNER M, FLORESCU D, GRAF D, et al. Building Database on S3. SIGMOD’08.
[7]COOPER B F, RAMAKRISHNAN R, SRIVASTAVA U, et al. PNUTS: Yahoo!’s hosted data serving platform. VLDB’08, august 24-30, Auckland, New Zealand, 2008.
[8]OLSTON C, REED B, SRIVASTAVA U, et al. Pig Latin: A not-so-foreign language for data processing, SIGMOD’08, June 9-12, Vancouver, BC, Canada, 2008.
[9]ISARD M, BUDIU M, YU Yuan. Dryad: distributed data-parallel programs from sequential building blocks. EuroSys’07, march 21-23, Lisboa, Portugal, 2007.
[10]CHAIKEN R, JENKINS B, LARSON P-A, et al. SCOPE: easy and efficient parallel processing of massive data sets, PVLDB’08, August 23-28, Auckland, New Zealand.
[11]DEWITT D J, ROBINSON E, SHANKAR S, et al. Clustera: an integrated computation and data management system, PVLDB’08, August 23-28, Auckland, New Zealand, 2008.
[12]YANG H, DASDAN A, HSIAO R-L, et al. Map-reduce-merge: simplied relational data processing on large clusters. SIGMOD’07, June 12-14, Beiing, China.
[13]GATE A F, NATKOVICH O, CHOPRA S, et al. Building a high-level dataflow system on top of map-reduce: the pig experience. VLDB’09, August 24-28, Lyon, France, 2009.
[14]PANDA B, HERBACH J S, BASU S, et al. PLANET: massively parallel learning of tree ensembles with MapReduce. VLDB’09, August 24-28, Lyon, France, 2009.
[15]FRIEDMAN E, PAWLOWSKI P, CIESLEWICZ J. SQL/MapReduce: a practical approach to self-describeing, polymorphic, and parallelizable user-defined functions. VLDB’09, August 24-28, Lyon, France, 2009.
[16]RANGER C, RAGHURAMAN R, PENMETSA A, et al. Evaluating MapReduce for Multi-core and Multiprocessor Systems[C]∥HPCA '07 Proceedings of the 2007 IEEE 13th International Symposium on High Performance Computer Architecture.
[17]STONEBRAKER M, ABADI D, DEWETT D J, et al. MapReduce and Parallel DBMSs: Friends or Foes? Communication of the ACM, January, Vol. 53, No. 1.
[18]BABU S. Towards Automatic Optimization of MapReduce Programs, SoCC’10, June 10-11, Indianapolis, USA, 2010.
[19]JIANG Dawei, OOI B C, SHI Lei, et al. The performance of mapreduce: an in-depth study[C]// Proceedings of the VLDB Endowment, Vol 3, No. 1.
[20]BERNICA R, CAREY M J, LI Chen. Efficient parallel set-similarity joins using MapReduce. SIGMOD’10, June 6-11, Indianapolis, USA, 2010.
[21]ABADI D J. Data management in the Cloud: limitations and opportunities. Bulletin of the IEEE Computer Society Technical Committee on Data Engineering, 2009.
[22]PAVLO A, PAULSON E, RASIN A, et al. A comparison of approaches to large-scale data analysis, SIGMOD’09, June 29- July 2, Providence, Rhode Island, USA, 2009.
[23]ABOUZEID A, BAJDA-PAWLIKOWSKI K, ABADI D, et al. HadoopDB: an architectural hybrid of MapReduce and DBMS technologies for analytical workloads. VLDB’09, August 24-28, Lyon, France, 2009.
[24]SILBERSTAIN A, COOPER B F, SRIVASTAVA U, et al. Efficient Bulk insertion into a distributed ordered table. SIGMOD’08, June 9-12, Vancouver, BC, Canada.
[25]VIFUSSON Y, SILBERSTEIN A, COPPER B F, et al. Adaptively parallelizing distributed range queries. VLDB’09, August 24-28, Lyon, France, 2009.
[26]LOGOTHETIS D, YOCUM K. Ad-Hoc data Processing in the Cloud. PVLDB’08, Auckland, New Zealand.
[27]AGRAWAL P, SILBERSTEIN A, COOPER B F. Asynchronous view for VLSD databases. SIGMOD’09, June 29- July 2, Providence, Rhode Island, USA, 2009.
[28]UNTERBRUNNER P, GIANNIKIS G, ALONSO G, et al. Predictable performance for unpredictable workloads. VLDB’09, August 24-28, Lyon, France, 2009.
[29]RAO Jun, SHEKITA E J, TATA S. Spinnaker: a consistent and highly available cloud data store,.VLDB’09, August 24-28, Lyon, France, 2009.
[30]CALHEIROS R N, RANJAN R, DE ROSE C A F, et al. CloudSim: a novel framework for modeling and simulation of cloud computing infrastructures and services.
[31]WU Sai, JIANG Dawei, OOI B C, et al. Efficient B-tree based indexing for Cloud data processing. VLDB, 2010.
[32]WU Sai, WU Kun-lung. An indexing framework for efficient retrieval on the cloud[J]. IEEE Data engineering Bulletin, 2009,32(1): 77-84.
[33]VO H T, CHEN Chun, OOI B C. Towards elastic transactional Cloud storage with range query support. VLDB, 2010.
中图分类号:TP309 文献标识码:A 文章编号:1671-7597(2014)20-0142-03
实施云计算和云桌面对调整运控指挥中心的运行管理机构和运行方式,统一管理机场的整体运行;通过调整运行组织模式,进一步提升管理效能、提升协同决策能力、节约运营成本。但云平台能否提供安全、稳定、持续的服务,能否保障用户的数据安全,是所有用户最为关注的问题。
目前,云计算在调整运控指挥中心的应用中起着重要的作用。因为系统有巨大的规模性、复杂性和开放性,所以它的安全性显得尤为重要,并且经受严峻的挑战。鉴于基于在指挥中心场景下的云平台,安全性更加的复杂和不可控,对于多数据中心云计算平台的安全管理,因其各个数据中心均可能进行交互,云安全的风险将随着数据中心数量的增加而非线性增长。特别是对多数据中心的云平台建设更为其管理带来诸多的不便,如何在指挥中心环境下在不影响云计算平台服务质量的前提下确保数据的隐私性和机密性,为实现这一目标,基于云计算安全保障技术的解决方案将变得尤为重要。
本文以运控指挥中心云计算安全需求为背景,通过云计算的服务模式、部署模式和各种云计算安全问题的现象。从技术和管理等方面分析了可能导致风险的原因,提出指挥中心在技术方面、管理方面可以采取的对策,本文旨在为指挥中心云计算发展提供新的思路,为当前时代下指挥中心云计算用户的信息安全提供可行的建议。
1 新指挥中心解决方案
运控指挥中心云计算技术本身能够为用户提供从基础设施服务到平台服务到软件服务的不同层面的服务。结合未来运控中心的业务模式,运控中心云平台应支持以下四类云服务模式,云服务分别包括数据即服务(DaaS)、基础设施即服务(IaaS)、软件即服务(SaaS)和平台即服务(PaaS),如图1所示。运控指挥中心通过“云”将内部资源和可利用的外部资源相互链接,尽而使“私有云”部署在运控指挥计算中心内部,运控指挥中心“私有云”的服务模式如图2所示。
云数据中心是运控指挥中心的重要组成部分之一,详见如图3所示。云数据中心的组成可划分为云服务管理、前台服务器、监测信息收集服务器和后台集群。
指挥中心采用分布式全局文件系统旨在对分布在广域环境下多个数据中心的大量的、异构的云计算存储设备进行统一的抽象、管理与调度,为用户提供全局一致的文件访问接口和就近的访问能力,为海量数据的我存储、跨域的文件共享提供基础支撑。
图1 运控指挥中心“私有云”建设逻辑架构图
图2 运控指挥中心“私有云”服务模式
2 运控指挥中心云计算安全的关键技术
云计算在运控指挥中心的应用会遇到诸多困难,其中安全问题是最大的问题。安全问题已经是云计算在指挥中心不断地推广方面的非常大的障碍,包括技术层次、管理方面、以及法律和相关法规的复杂和综合体。本文借助指挥中心的云计算的特性,建立了云计算安全架构。如图4和图5所示。
图3 云数据中心架构
图4 运控中心云计算安全架构
图5 运控指挥中心安全解决方案概貌
由上图可知,在运控指挥中心云计算环境下,无论是采取SaaS、PaaS、IaaS哪种服务模式都会面临网络传输数据带来的风险,尤其是PaaS将应用程序部署在浏览器端更加依赖网络的安全传输。针对此种情况可以使用下面的组件和协议提高浏览器和传输的安全:采用支持数字证书认证的安全套接层及其继任者传输层安全协议是一种非常有效的办法,因为这种协议支持大部分浏览器。能提供如下服务。
1)提供经过验证的用户与服务器,确保数据正确的传送。
2)将数据加密,以防中途被拦截、盗取。
3)确保数据的完整性,以防传输过程中被篡改。
4)使用虚拟专用网(VPN),它能安全穿过网络,提供在混论网络下的安全稳定隧道,并且能帮助远程用户建立可信安全的传输。
2.1 虚拟化安全技术
虚拟技术是实现云计算的关键核心技术之一,如图6所示。资源在云计算服务平台中主要以租用、虚拟的方式向用户供应,并且需要根据实际的运行需要的和物力资源绑定在一起。而由于是多用户的资源共享,这些虚拟资源很可能和相同的物力资源被绑在一起。如果系统软件中存在安全隐患,用户数据可能会被盗用。所以运控指挥中心一定要保证用户安全。虚拟化边界隔离就是通过虚拟化防火墙实现数据中心的边界隔离和访问控制,现阶段常用的虚拟化安全措施有虚拟机隔离、监控、可信平台、网络接入控制、信息流控制等等。虚拟化的安全技术虽然较为成熟,仍有改进和不断完善的发展空间。提供ACL、Anti-DoS、IPsec VPN等功能;虚拟化资源隔离就是虚拟机之间通过VLAN实现二层隔离,通过安全组实现三层隔离和访问控制。VM IP和MAC绑定,防止ARP欺骗攻击;虚拟化资源隔离:虚拟机之间通过VLAN实现二层隔离,通过安全组实现三层隔离和访问控制。VM IP和MAC绑定, 防止ARP欺骗攻击;提供虚拟机级别的访问控制手段,避免病毒、威胁在不同租户间扩散,防止威胁蔓延智能、弹性安全防护,VM漂移、扩容无需人工配置安全策略。
图6 运控指挥中心虚拟化安全技术示意图
2.2 数据安全技术
运控指挥中心数据安全是客户比较关注的问题。运控指挥中心数据可以划分以下几个阶段。
1)运控指挥中心数据存储位置,将所有数据存储在不同服务水平协议法规允许的地理位置。
2)数据之间的融合。客户数据特别是保密、敏感数据不能在没有被补偿和控制条件下和其它数据之间的融合,这将在安全性和地理位置方面增加了难度。
3)数据备份和恢复重建计划。首先数据是有效的,恢复和备份是非常重要的,目的是以免不必要的丢失及其被破坏。
4)删除数据具有持久性。发展能够高效地指导数据擦除与销毁,并且使之有不再恢复的能力。
数据的加密、屏蔽、删除技术、隔离、切分来解决数学安全问题。但是面临的一个最大难题是如何做好数据的隔离和保密工作,并且此技术在平台中怎样能够更好地发挥作用,能否像传统环境下一样有效,这些都是急需解决的问题,需要进一步去研究。
2.3 多数据中心云安全保障技术
本论文介绍了采取安全保障的措施。分别从运控指挥中心云计算安全监督体系、安全与隐私保护的角度加以说明。
2.3.1 搭建数据安全隐私保护为重要目标的云安全技术构架
以运控指挥中心云计算服务模式为起始研究出发点,分析、解决云计算的服务计算模式、数据存取访问策略、动态虚拟化管理方式及其多用户共享运营模式等等给数据安全和隐私保护带来的挑战为重点。
重点说明数据的是否存在及使用方面的性能。因为数据的通信的代价是巨大的,所以用户们在下载数据之前必须验证它的正确性。所以先要取一些样本,借助理论知识验证并证明概率分析的方法的正确性,进而判断远端的数据的完整性。
数据的隐私权。使用数据的企业及其用户将私有云和指挥中心等同起来时,数据的服务商可以第一时间访问这些数据。由此可以得出,也许由于工作失误及其病毒攻击及其系统故障引起的不安全等危险因素。所以服务商也不能保证其数学据是完全正确的。例如,数据是否丢失,隐私的保护等存在某个国家及其区域里,甚至数据是否完全被删除等等。
控制云资源的访问。每个运控指挥中心云在计算的条件下有自己的管辖范围的资源及其用户。当不在自己的区域管辖时,必须在域边界进行认证的服务,主要是对于想要通过共享得到一些资源的用户需要进行严格的访问认证。当需要在很多区域访问的时候,因为区域有的访问限制条件,对制定互利共赢的访问原则。这一战略的成功实施需要有新的战略的安全实施作为保护,同时还不能与原有的访问战略背离。
云资源访问控制。在云计算的环境下,每个云应用都含在不同的安全管理域内部,各个安全域都管理着本地的资源与用户。当用户跨域来访问资源的时候,需要在域边界上设置认证服务,对来访问共享资源的用户必须经过统一身份认证及其管理。在跨多个域资源访问中,各域有各自的访问控制策略,在资源共享及其保护方面需要对共享资源制定公共的、双方都认可的访问控制策略。所以,需要策略合成。策略合成的时必须保证新策略的安全实施,新合成的策略不能背离每个域原有的访问控制策略。
2.3.2 建立可控的云计算安全监管体系
在发展运控指挥中心云计算时,必须发展云计算监控技术体系,掌握技术的主动权以防被其它竞争对手控制和利用。和互联网监控管理的体系相比,实施云计算监控管理必须解决以关键技术:
执行运控指挥云计算数据中心的内容审计工作。云计算数据中心的运行维护工作需要有一个高度集中的和统一管理的日志平台。此平台必须能在复杂网络中高效率地收集和管理各类设备的日志,使得运行维护人员能够便捷、直观地看到网络和系统当前运行情况,能够及时发现黑客攻击和其它的异常行为。此外,满足条件的所有法规和要求的日志记录及分析功能也必须考虑在内。在多个数据的中心场景下,多个数据中心遍布在相异的地方,每个设备的安全事件都各不相同。在无科学分析依据的前提下,每个设备的许多日志都无法关联。从而得出,运控指挥中心的运行维护者不仅要有一个足够强大的安全审计工具,而且还要管理与评估网络系统运行状况的平台(全程审计并记录问题的发现到问题的解决)。
鉴别及以防运控指挥中心的密码类犯罪活动的发生。云计算的出现使得实施密码破译变得容易,在云计算平台的支持下普通用户也能够轻松得以实现,这极大地威胁了各类密码产品的安全性,这也是运控指挥中心云计算安全监管中亟待解决的难题。
2.4 运控指挥中心云资源访问控制
云应用在运控指挥中心云计算的条件下都各自在不同的管辖域范围内,每一个域掌管着当地的资源及其使用数据的用户。当不在同一个区域管辖范围内部访问时,需要在区域的边界设定通过的认证,同一掌管着访问的用户,使之有序的进行着。
传统的访问区域的认证措施和相关的技术已经很完善,而在云计算的方式上面新的策略还显稚嫩,所以在对企业检测掌管、保护数据和隐私权方面非常重要。
表1 运营模式下访问控制技术的成熟度
SaaS PaaS IaaS
用户管理,新用户 可用 未成熟 理论成熟
用户管理,用户修改 可用 未成熟 未成熟
认证管理 可用 理论成熟 可用成熟
授权管理 理论成熟 未成熟 未成熟
2.5 运控指挥中心云端访问安全服务技术
指挥中心云端访问安全服务是部署在指挥中心内部或云端的安全策略执行点,介于云端服务消费者和云端服务供应商之间,的在云端资源被访问的时候套用指挥中心安全策略。先前的很多案例中,早期采用的云端服务都不处在IT掌控内,而在云端访问安全的服务中只能依靠企业在用户访问云端资源时来管控和掌握。
2.6 运控指挥中心以遏制和隔离为基础的信息安全策略
特征码(Signatures)在阻挡攻击相当艰难的条件下,其中一种策略把位置的因素当作不可信因素,进而在隔离的环境下来处理和运行,这样所运行的系统将不会被永久损害,更不会将此系统当作矢量来攻击其它企业系统。提取、虚拟化、远程显示、和隔离技术,完全可以被用来建立如此的遏制环境,最希望得到的结果就是和利用一个“空气隔离”的独立系统处理不可信任的内容与应用程序是相同的。虚拟化和遏制策略都可以成为指挥系统深度防御防护策略的一个环节,到2016年时普及率将达到20%,将会改变2014年的几乎没有普遍利用的