绪论:写作既是个人情感的抒发,也是对学术真理的探索,欢迎阅读由发表云整理的11篇统计学参数概念范文,希望它们能为您的写作提供参考和启发。
生命科学领域的学习和研究内容决定了生物统计学课程是此领域本科学生的必修课程。但与生命科学领域其他专业课程相比,生物统计学理论性强、内容抽象、计算公式繁多。生命科学专业学生由于受形象思维方式的影响,较难接受和理解生物统计学的抽象概念和逻辑推理。课堂调查显示学生在心理上对本课程产生一定的抵触情绪,学习兴趣不高,学习效果不好。随着近年来本科教育目标及培养方案的不断调整,作为专业基础课程的生物统计学教学课时不断被压缩。但与此同时,生物统计学领域的新概念和新方法不断出现,学生由于进一步深造和工作对生物统计学知识的需求也不断增加,我们也必须不断增加和调整生物统计课程的教学内容。教学内容的不断膨胀和发展需求与教学学时压缩之间的矛盾是摆在国内众多任课教师面前的现实问题。因此,在学生认知不足、学习积极性不高的情况下,如何在有限的教学学时内高质量地完成生物统计学课程的教学,为学生奠定一个坚实的试验设计和统计分析的基础,是摆在每位从事生物统计课程教学教师面前的巨大挑战。
不同于传统的生物统计学教学对统计理论的过多强调,现代生物统计学教学过程中需对计算机技术在统计计算中应用能力的培养给予足够的重视。鉴于现在大学生计算机操作能力普遍较好且有兴趣的特点,在生物统计学课程教学中引入计算机教学为该课程改革提供了契机。运用计算机教学需要选择一个合适的统计分析软件,与常用的Excel和SAS软件相比,R语言既是一款更适合在生命科学相关专业本科生教学中进行使用的统计分析软件。
一、R语言的特点及应用现状
R语言早期由新西兰奥克兰大学的Ross Ihaka和Robert Gentleman开发,现在则由“R开发核心团队”负责开发。R语言免费的软件,可从R网站(http://)及其分布于世界各地的镜像网站上自由下载,具有丰富的统计函数及强大的画图功能,而且用户还可以通过安装新的套件(Packages)进一步增强其功能。R语言的代码是公开的,用户既可以查看函数的源代码学习统计编程,也可以通过修改源代码实现新的功能。鉴于其强大的统计计算与图形展示功能,且完全免费和源代码开放的特点,其近年来发展迅速。目前,国外众多大学统计相关课程及笔者较为了解的动物科学专业相关课程都将R作为教学工具软件。然而,目前国内高校统计相关课程教学中统计软件的使用虽种类繁多,有SPSS,SAS,Matlab,Minitab,Stata,Origin,MS xcel等,据笔者了解将R软件运用于大学统计教学的案例还非常少。因此,如何将R软件应用于大学生物统计学教学还需更多的研究和探讨。
二、R语言的基本功能
R语言在统计描述、统计作图、统计分布及统计检验等方面丰富的函数为生物统计教学提供了便利的资源。这些函数可分类总结如下:
统计描述:常用的统计描述函数有算术平均数mean,标准差sd,方差var,极差range,中位数median,和sum,最大值max,最小值min。同时,还可以用summary对不同类型数据进行简单统计描述,用table对多变量分类数据进行统计,用frequency对频数资料进行整理。统计作图:简单统计作图函数包括柱状图barplot、饼图pie、直方图hist、茎叶图stem、箱线图boxplot、散点图plot等图示方法;除此之外,还可以使用lattice程序包制作更为复杂的多变量、多数据集的组合图形,及3D图形。统计分布:在统计教学中统计分布是重要的一部分函数,R中常用的统计分布有正态分布normal,二项式分布binom,卡方分布chisq,指数分布exp,F分布f,泊松分布pois,t分布t,及均匀分布unif。将这些统计分布名称前面分别加上字母d、q和p即可获得这些统计分布的分布密度density,分位数quantile,概率函数probability。如dnorm(),即为正态分布密度函数。统计检验:R中常见的统计检验函数有t检验t.test,方差分析aov,卡方检验chisq.test,及相关检验cor.test。需要注意的是,在调用相关函数时,需提供正确的数据变量及参数选项。
三、生物统计教学实例分析
关键词:
生物统计;教学改革
统计学可以分为数理统计和应用统计两大范畴。生物统计学就是应用统计学中的一个重要分支,同时也是生物信息分析和超级计算机平台上进行大数据分析的重要理论基础。随着国际大数据时代的到来,中国不论从政府,企业还是高等学府越来越重视统计学的相关课程。通过生物统计学课程的讲授,笔者发现了一些生物统计学课程讲授中一些值得探讨的问题。
1高校教学安排中通常将理论课的讲授和实践操作分割开来
举个例子来说,在高校的生物统计学课程通常是先进行基础理论的讲授,内容包括统计资料的整理,资料的描述统计,常用的概率分布,假设检验,方差分析,卡方检验,直线回归与相关分析,以及试验设计方法。所有的理论课程讲完以后,一般情况下就过去10个教学周了。之后是安排一整周的教学实习。教学实习的安排通常是一种统计学软件(如SAS)的操作,以SAS软件为例,主要教授如下内容:SAS软件的基本操作,SAS程序结构、程序的输入、修改调试和运行,常用生物统计方法的SAS程序(描述性统计、资料的正态性检验、t检验、方差分析、直线回归分析等)[1]。这里有几个小问题值得高等教育的工作者去思考。首先,学生的记忆能否再10周以后对于抽象的理论知识依旧清晰。在微机课程开始的时候,所学的知识已经是几周以前讲授的内容了,在教学中,我经常发现当我提出一个指令让学生输入的时候,一部分学生还可以马上跟上教师的节奏,另一部分学生在线面瞪着眼睛茫然不知所措。其次就是实践操作的部分内容和理论课程脱节。这样讲授的后果就是不论理论课程还是实践操作,学生学习结果都是半桶水,而生物统计学课程也成为同学们心目中的难点课程。
2涉及大量的抽象概念和公式,导致学生缺乏学习该课程的兴趣
生物统计学涉及大量抽象概念,例如:总体与样本,参数与统计量,准确性与精确性,随机误差与系统误差,小概率事件实际不可能原理等[2]。生物统计学涉及大量的数学知识。虽然我院的学生在开设生物统计学课程之前已经学习了部分高等数学的知识。但对于理工口的学生而言,农科口的学生对数学的掌握和运用程度仍然有所欠缺。而这些抽象的概念和公式导致了部分学生的恐惧心理。
3统计学课程的数理属性导致了课堂交流开放性的欠缺
和管理或文法课程不同的是,生物统计学课程中讲述例题的结果是在概率论的基础下做出的结论。比如说:当计算出的试验参数小于或超过试验阈值的时候,我们可以接受或否定预先建立的零假设,而否定或接受备择假设,从而对试验结果做出统计学上的判断[3]。而管理学课程往往可以是多元开放的结果。比如:请用S(strengths)W(weaknesses)O(opportunities)T(threats)分析法来讨论一家企业的优势,劣势,机会和威胁。同学在和教师的讨论过程中就可以根据自身的知识,经验和理解给出开放多元的答案。根据以上三点在生物统计学讲授课程中所发现的问题。我对生物统计学课程有如下思考:1)将理论课时和实践课时结合讲授。首选的方案是在机房里讲授统计学课程,2个标准学时的大课可以一堂课程讲授理论课程,一堂课讲授相关的微机操作。次选方案是在多媒体教室讲课时,老师用自己的笔记本电脑连接连接多媒体平台,切换理论和操作课程的讲授,每节课程结束后,下次课带学生进机房实操。2)对于数学基础相对薄弱学科的学生,在每节课的讲授之前先做一个简单的概念回顾,将本节课程所需要运用的数学知识进行一个几分钟的短时间review以消除学生对数学知识的恐惧心理。3)加强和学生的课堂沟通。尽管无法做到象文科类课程那样随心所欲的畅所欲言,课堂交流在生物统计学课程上仍然是必要的。一般而言,我会选择上一堂课结束前讲授过的习题和同学们进行沟通交流。温故而知新,对自己已经听过的课程同学们进行解答和回顾往往更有信心,也能更好的活跃课堂的气氛。
4总结
生物统计是一门农业口重要的核心课程,在生物统计的教学中,笔者发现了一些困扰现在高校教师和学生的问题,也提出一些教学改革的探讨,以期提高教学效率,改善教学效果。
[作者简介]周文君(1975-),女,江苏盐城人,盐城卫生职业技术学院卫生信息管理教研室主任,讲师,研究方向为公共卫生及卫生信息管理专业教学。(江苏盐城224005)孙晓凯(1978-),男,江苏盐城人,盐城市疾病预防与控制中心慢性病科主管医师,研究方向为慢性非传染性疾病的预防与控制及卫生统计学教学。(江苏盐城224002)
[中图分类号]G642.0[文献标识码]A[文章编号]1004-3985(2009)20-0144-02
现代医药卫生科技信息化发展迅速,卫生信息管理科学的发展对卫生信息管理专业人员的素质提出了很高的要求。医学院校培养的卫生信息管理专业学生需要面向各级卫生行政管理部门、医院、医学信息部门、医学图书馆等部门,从事日常办公事务处理、病案管理、卫生信息资料、医学图书、档案管理等工作和计算机维护工作。①他们除了需要掌握基础医学、临床医学等医药卫生知识和程序设计、数据库管理等计算机知识外,还需要具有较好的统计学理论知识,能够熟练掌握部分统计软件的使用,以便为各级医药卫生机构提供信息和决策依据。为了提高医学统计学课程质量,培养卫生信息管理专业学生建立统计学观念,提高动手解决实际问题能力,近年来,盐城卫生职业技术学院对卫生信息管理专业的医学统计学的教学方法进行了探索与研究,主要从以下几个方面着手。
一、根据课程特点明确学习要求
1.课程特点。医学统计学是一门既有复杂理论知识,又有丰富应用技巧的医学专业基础课程。它是科研设计、资料的搜集、整理和分析的灵魂,可应用于居民健康状况评价、医疗卫生实践和医学科研等各个方面,涉及基础医学、临床医学、预防医学等多学科领域。医学统计学内容主要是以医学理论及其研究内容为载体,应用数理统计学的理论和方法来阐述某个医学实际问题。②
2.学习要求。医学生学习医学统计学,并非要成为医学统计学的专业人才,其目的在于建立起统计学观念,学会从不确定性、机遇、风险和推断的角度去思考医学问题。对于卫生信息管理专业等非预防医学专业学生,特别是专科生,医学统计学的数学原理、公式推导等要求可以更加放宽,重点应放在统计方法的应用上。因此,我们要求学生学习医学统计学必须要牢固树立起统计学观念,如生物性个体变异观念,各种医学指标独特和分类观念,抽样误差不可避免及各种条件下样本具有不同的误差观念,各种研究对象和研究方式含有不同变异的观念,等等。学习医学统计学的具体要求是:能够理解一些基本概念、基本原理;记住一些最基本的公式和界值;重点要掌握统计方法的适用条件、统计结果的解释;此外还要再加上认真的课后练习和上机实习。
二、系统安排教学重点
1.合理选择授课章节。目前,各地院校本科、专科生开设的医学统计学课程课时大多在50~100节课间,要在这有限的课时内讲完这么多的内容很不现实,所以各地学校要根据培养目标选择适当的章节为学生讲解。对于非预防医学专业学生,除了基本的概念、统计描述、概率分布、参数估计、t检验、卡方检验、非参数检验等医学统计学基础理论部分外,其他的理论部分,如实验设计、调查设计、复杂的相关与回归等章节可以不讲,留给有兴趣的同学自学,把更多的时间安排在课上讨论和实习课的操作上。对于卫生信息管理专业学生的培养目标,除了基本统计学理论外,还应重点加上在日后信息统计工作中会常用到的关于各种率的概念、计算方法的章节。此外,还可以讲座的形式为学生介绍一些常用的、比较复杂的统计学方法。
2.明确教学重点。传统的统计学教学内容包括三个方向:一是基本概念和方法;二是公式的来源、推导和详细的手工计算步骤;三是统计结果的解释与分析。③传统的公式推导虽有利于对统计基本概念的理解,但对非统计专业的医学生来讲,冗长的公式推导已很难理解,更谈不上对它的记忆了。因此,对于统计公式,我们要求学生只要了解其直观意义、用途和应用条件,而不要求掌握其数学推导,教学内容的重点放在统计学基本原理、基本要领和逻辑思维上,而不是统计学方法的计算过程或数学算法的讲解上。同时,随着信息技术的迅速发展,各种数据处理软件和统计软件唾手可得,统计学计算也很容易实现,相反,统计学基本知识和基本原理的教学更显迫切。我们的教学重点是培养学生解决实际问题的能力,让学生对已有资料能够找到适合的统计方法,结合本专业知识解释统计结果。为此我们调整了一些教学内容,注重统计学基础、统计学思维、统计学操作能力的培养,同时利用优秀的统计软件,简化统计计算过程,强调统计方法的选择与报告信息的提取。例如,目前医学上常用的假设检验方法有十余种。我们要教会学生能够根据研究目的、资料类型选择最适宜的统计方法,如计量资料常用t检验、方差分析等方法;计数资料常用卡方检验;等级资料可用秩和检验等,同时还要注意各种检验方法的应用条件。
三、注重例题的练习
1.从例题入手,提高学生的认识。医学统计学的学习以理解为主,而一般医学院校的学生对数学的接触很少,因此,对于医学统计学这门课程,很多学生往往存在一种恐惧心理。为消除这种心理,使学生对之感兴趣,从实例入手是非常重要的。在理论教学课上讲授某个概念或方法之前先举个例子或提出问题,让学生给出自己的看法和解决思路,教师适当加以引导和启发,在解决这些问题的同时,再将统计学基本概念、基本原理和基本方法融入其中。这里提到的实例,可以是教材中现有的例题或练习题,可以是统计咨询中碰到的实际问题,或医学期刊论著中的一些实例,也可以是日常生活中的某一现象。学生的思维经过这样一个由感性到理性,由具体到抽象的认识过程,减轻了接受抽象概念和方法的难度,加深了对书本内容的理解,还调动了他们学习的积极性,对提高教学效果大有帮助。此外,大量例题的讲解和练习还有利于提高学生日后解决实际问题的能力。由于毕业后从事不同的工作岗位,对于大部分人来说,很多统计方法往往因用不到而不会使用,等实际工作中碰到时候便无从下手,这时他们便可查阅以往教材、参考书上的例题,与实际工作中的材料进行对比来获得合适的统计方法。
2.进行案例讨论,加深对常见错误的认识。统计方法的选择重点在于要根据设计类型、资料类型及分析目的选用适当的检验方法和检验统计量。我们在讲授各种检验方法时,不但重点强调各种方法的应用条件,还举出具体误用例子加以讨论,将常被误用的方法列举出来,供学生辨析,从反面吸取经验教训。比如常见误用有:配对t检验误用为成组t检验;多组均数比较应用方差分析及q检验误用为t检验;配对设计卡方检验误用为成组卡方检验;多个率比较应用行×列表卡方检验误用为四格表;应该用确切计算概率法误用为四格表卡方检验;等等。新版的“卫生统计学”教材每章都增加了“案例讨论”部分,教师减少了习题课时间,充分利用这些案例,给学生足够时间进行课堂讨论。案例讨论在不偏离主题的前提下,调动了每一个同学的积极性,又能及时发现问题,解决问题,培养学生的综合应用能力,为今后的实际应用打下坚实基础,很受学生的欢迎。
四、使用统计软件提高教学质量
1.选择SPSS软件作为教学软件。计算机和软件技术的飞速发展避免了在医学统计工作中烦琐的计算过程和记忆复杂的计算公式,使得医学统计学的应用越来越易于实现。卫生信息管理专业学生之前接受过计算机基本知识的培训,很容易掌握软件的操作,因此开设统计软件实习课显得尤为必要。目前,国内外的统计软件众多,根据学生的实际情况,从针对性、实用性的观点出发,我们选择了功能强大且易于掌握的SPSS软件作为医学统计学实习课的教学软件。SPSS是目前国际上最流行的、具有权威性的统计分析软件之一,它操作简单,无须编程,易学易用,可以直接读取Excle等数据文件,分析结果清晰、直观,可以直接复制到Word文档中,为学生使用带来极大的方便。④
2.精心安排实习课内容。实习课我们要求学生在计算机上学会应用该软件,能够在学习之后应用该软件独立完成实际资料的统计分析等工作。具体做法是,首先由实习教师对本节课的内容进行讲解,并在主机动态演示SPSS软件的操作过程,解释结果,然后让学生应用SPSS软件独立完成书本上或教师精心筛选的习题,并要求学生看懂计算机输出的结果,同时能对资料进行解释。我们重点让学生掌握的是一些基本操作(包括数据的输入和整理、变量的设置、转换等)、主要统计分析过程(包括描述性统计、t检验、方差分析、卡方检验、线性回归和相关分析、非参数检验)和基本统计图等内容,同时要求学生能理解输出的结果,合理解释统计结论中重点指标的含义。
3.避免盲目使用统计软件。统计方法选择的正确与否依赖于使用者对资料的了解程度与统计分析方法的掌握程度。而SPSS软件只是一种工具,它无法对统计方法的适应性做出判断,不能取代分析过程。如果不懂得选用正确的统计方法,而盲目使用计算机和统计软件,不管是什么研究类型的数据都简单地交给计算机处理,用计算机取代统计,那么大量的信息和统计数据将得不到有效的利用,势必造成统计方法的滥用和误用。另外,学生在课本上看到的是规范化的表格表示出来的资料,很容易选择适当的方法,而日常工作中往往不是这样,因此,如果学生对统计方法掌握不好,在实际工作学习中很容易出现滥用统计软件的情况。所以,我们教学中一再强调不能盲目的使用统计软件,而是要根据统计学原理选择合适的统计方法,然后再使用统计软件进行分析。
Anselin(1988)对空间经济计量学进行了系统的研究,它以及Cliff和Ord(1973,1981)这三本著作至今仍被广泛引用。Anselin对空间经济计量学的定义是:“在区域科学模型的统计分析中,研究由空间引起的各种特性的一系列方法。”Anselin所提到的区域科学模型,指明确将区域、位置及空间交互影响综合在模型中,并且它们的估计及确定也是基于参照地理的(即:截面的或时-空的)数据,数据可能来自于空间上的点,也可能是来自于某个区域,前者对应于经纬坐标,后者对应于区域之间的相对位置。
国外近几年空间经济计量学得以迅速发展,如Anselin和Florax(1995)指出的,主要得益于以下几点:
(1)人们对于空间及空间交互影响的作用的重新认识。对空间的重新关注并不局限于经济学,在其它社会科学中也得以反映。
(2)与地理对应的社会经济大型数据库的逐步实用性。在美国以及欧洲,官方统计部门提供的以区域和地区为统计单元的大型数据库很容易得到,并且价格低廉。这些数据可以进行空前数量的截面或时空观测分析,这时,空间(或时空)自相关可能成为标准而非一种特殊情况。
(3)地理信息系统(GIS)和空间数据分析软件,以高效和低成本的计算技术处理空间观测的发展。GIS的使用,允许地理数据的有效存储、快速恢复及交互可视化,为空间分析技术的艺术化提供了巨大的机会。至少目前线性模型中,缺少针对空间数据和空间经济计量学的软件的情况已经大为改观。目前已有一些专门的空间统计分析软件,并且SAS、S-PLUS等著名统计软件中,都已经包括用于空间统计分析的模块。
(二)空间经济计量学与相关学科的关系
空间统计学是研究空间问题的另一门学科,它是应用数学的一个快速发展的分支。它起源于20世纪50年代早期,用以帮助采矿业进行矿藏量的计算。最早的工作是采矿工程师D.G.Krige和统计学家H.S.Sichel在南非进行的。70年代随着计算机的普及以及运算速度的大幅提高,空间统计分析技术逐渐扩展到地球科学的其它领域。目前已经普遍存在于需要处理时间上或空间上相关的数据的科技领域中。
空间经济计量学与空间统计学的区分不太容易。Haining和Anselin的观点认为空间统计学的研究大多由数据驱动,而空间经济计量学由模型驱动,即从特定的理论或模型出发,重点放在问题的估计、解释和检验上。空间统计学的主流是研究生态学和地质学中的物质现象,空间经济计量学主要研究与区域及城市经济有关的模型。有一种观点认为二者的区分应基于作者将其工作对应于空间经济计量学还是空间统计学,这种区分办法可能较为简单。
地质统计学(Geostatistics)发展于20世纪60年代,主要用于研究地质学现象的空间结构和进行空间估值。例如,在探矿过程中,通常是在空间上布点进行钻探,然后对采样得到的样品进行分析,估计矿藏的分布和储量。由于矿藏不开采的话,在时间上结构几乎是不变的,因此地质统计学研究的问题主要是空间相关。空间经济计量学所研究的问题不仅存在空间相关,往往所研究的问题在时间上也存在相关。
在区域经济学的理论中,人们建立了各种理论以及关系式来描述人类在空间上的行为,如研究城镇问题的“引力模型”等。但在利用模型进行定量研究问题的时候,需要将理论或关系式用数学模型来进行刻划,利用统计方法对模型进行估计、检验,并进行评价,这些正好是属于经济计量学研究的范畴。应该说,空间经济计量学主要研究区域经济问题,依据的是区域经济学理论,但它还需要综合数学,以及空间统计学等学科,因此它不等同于区域经济学,而是一门交叉学科。
二、研究的问题
空间经济计量学主要研究存在空间效应的问题。空间效应主要包括空间相关和空间差异性。在研究中涉及空间相邻、空间相邻矩阵等概念。
(一)空间相关
空间相关指在样本观测中,位于位置i的观测与其它j≠i的观测有关,即
附图
存在空间相关的原因有两方面:相邻空间单元存在测量误差,空间交互影响的存在。测量误差是由于调查过程中,数据的采集与空间中的单位有关,如数据是按省、市、县等统计的,但设定的空间单位与研究问题不一致,存在测量误差。
空间相关不仅意味着空间上的观测缺乏独立性,并且意味着潜在于这种空间相关中的空间结构,也就是说空间相关的强度及模式由绝对位置和相对位置(布局,距离)决定。
对于空间相关,空间自回归通常是其核心内容,空间自回归模型的一般形式为:
附图
在这个模型中,β解释变量X(n×k矩阵)的参数向量(k×1),ρ是空间滞后相关变量的参数,λ是残差空间自回归(空间AR)结构中的参数。
W[,1]和W[,2]为n×n矩阵,是标准化或未标准化的空间加权矩阵,分别对应于因变量以及扰动项中的空间自回归过程,这两个矩阵可以不同,这意味着两个过程由不同的空间结构生成。
这个模型可以退化成为普通的线性回归模型、(纯)空间自回归模型、混合回归与空间自回归模型、残差空间自回归模型等形式。
对这个模型,普通最小二乘估计不仅是有偏的,而且是不一致的,参数的估计通常采用极大似然估计,近几年,有学者尝试采用贝叶斯估计对参数进行估计。
(二)空间差异性
空间差异性指空间上的区域缺乏均一性,如存在中心区和郊区、先进和后进地区等。例如,我国沿海地区和中西部地区经济存在较大差别。
对于空间差异性,只要将空间单元的特性考虑进去,大多可以用经典经济计量学方法解决。但当空间差异性与空间相关共同存在时,经典经济计量学方法不再适用,而且这时问题可能变得非常复杂,因为这时要区分空间差异性与空间相关可能非常困难。
研究空间差异性的模型主要有:
E.Casetti提出的空间扩展模型(1972)和回归参数漂移分析方法(简称DARP)模型(1982)。这时,空间差异性表现为模型参数随空间位置变化,并以空间单元的位置信息作为辅助变量(称为扩展参数)。
y=Xβ+ε
附图
模型(3)为以经纬坐标(Z[,x],Z[,y])作为扩展参数的空间扩展模型。同样可以以到中心区域的距离作为扩展参数设计模型。
将模型(3)的第二个式子右边加入随机扰动项,则为DARP模型。E.Casetti(1992)进一步提出了贝叶斯空间扩展模型。
D.P.McMillen和J.F.McDonald(1997),C.Brunsdon,A.S.Fotheringham;MartinCharlton(1996),提出地理加权回归模型(简称GWR模型)。
附图
(三)时空数据空间模型
在模型中考虑时间维增加了描述的复杂性,但综合时间空间的模型在实际工作中非常有用。在经典的经济计量学模型中,这是综合截面和时间序列数据的情形。如果数据不存在空间相关,则可以采用PanelData模型。Anselin(1988)将似不相关(SUR)模型扩展到空间的情形,提出空间SUR模型。
三、应用前景及需要进一步研究的问题
(一)在中国的应用前景
在我国,地质统计学是较早应用空间统计学的领域,在20世纪80年代中国科学院就有人研究并应用Krige模型。空间统计学除了在地质学的研究中发挥作用,近十年来,周国法、徐汝梅等学者研究生态学中的空间相互作用,并于1998年出版了《生物地理统计学》。20世纪80年代以来,我国利用卫星遥感技术,对土地、森林、农业、矿产、能源、作物估产、灾患检测等进行应用,开始了我国空间统计学在经济领域应用中统计调查的工作,为了将空间遥感调查技术逐步纳入到我国统计的常规性工作中,1998年10月,国家统计局成立了空间统计研究室,并与中国科学院地理所合作,组成了“空间信息多重采样设计的空间统计学应用研究”课题组,运用遥感技术和空间分析对我国农业耕地、森林、草地等资源以及城镇动态变化进行调查,该项目获得国家统计局2000年课题研究一等奖。
在我国地质统计学、生物地理统计学及利用遥感技术进行的各种调查,都属于空间统计学的范畴。地质统计学、生物地理统计学主要研究空间相关及空间估值,在生物地理统计学的研究中还包括物种的空间扩散过程。所用的方法主要是各种Krige模型、方差图模型,以及空间自回归模型。空间动态采样的研究,与地质矿产调查类似,主要涉及样本在空间上的布局、有效样本量的确定、采样误差的计算等问题的研究,根据其研究的问题和方法,也可以将其归入统计学的抽样调查分支之中。
随着我国按地区进行统计的统计基础资料不断积累,尤其是遥感技术应用到统计调查中来,都将使得按时间和空间排列的数据资料极为丰富,对数据进行空间甚至时空分析成为可能,人们将逐渐从时间的角度转向普遍从时空的角度来考虑问题。
从经济分析的角度看,空间经济计量学在我国以下几个方面将有很大的应用前景。
由于区域之间存在相关性,或者存在差异性,因此一项政策对每个区域的影响是不同的,通过运用空间经济计量学方法对各区域进行研究之后,找到政策在各区域上作用的关系,对于政府决策、正确制订政策具有很大的参考价值。
由于区域之间存在先进地区和后进地区,通过空间经济计量学方法可以对先进地区与后进地区之间的相互关系进行研究。
按区域编制投入产出表时,空间的概念将发挥作用。
对房地产的价值进行评估时,在考虑外界影响因素的基础上,充分考虑地区之间的相互关系,将对正确评估房地产的价值有很大帮助。
对环境污染进行研究时,运用空间经济计量学方法对污染的传播方式进行研究,有助于人们对环境污染进行控制。
在交通领域的研究,可以利用空间经济计量学方法对人员、货物在空间上的流动方式进行研究,同时对通道上的不同区段进行研究。
在对某种疾病(如流感)在空间上的传播过程进行研究之后,对于疾病的预防控制将有很大的帮助。
建立了空间的概念之后,人们对于在空间上的抽样将综合考虑空间单元之间的相关性。而空间抽样在空间上的布点方式也可以用作商业网点的布局研究。
总之,只要问题涉及到空间的概念,空间经济计量学就将发挥其作用。对空间经济计量学的深入研究及应用,将促使人们面对问题的时候,从空间或时空的角度思考问题。
(二)需要进一步研究的问题
目前的研究中,系统内的空间单元受到系统内其它位置单元的影响,但边界处的单元还受到系统外与之相邻的单元的影响,如何将这个影响考虑在模型中值得研究。
在具体问题中,距离的概念需要加以认真对待,单用地理上的距离有时并不合适,例如国与国之间的经济联系在今天并不是距离远近决定的,电子化交易使得资金的流动非常迅速方便,因此,在研究这类问题时,如何将贸易、人员、资金的流动充分考虑到空间加权矩阵中去,尚值得研究。
贝叶斯方法在统计学各个分支的应用越来越广,空间贝叶斯模型也是目前空间经济计量学研究的热点之一。
可变单元的问题。当数据汇总的级别变化,可能整个模型的描述都发生变化,对于不同的问题,可能影响模型变化的汇总的级别也不同,能否有一个统一的模式对系统进行描述尚待进一步研究。
时空数据的综合分析,参数估计的渐近性质,模型的各种检验方法等,还有待进一步的研究。
经济问题中,许多需要研究的对象是多维的,即研究对象是一个向量,如何在空间问题中建立一系列空间VAR模型,尚需研究。
不易获得较为详细且价格低廉的区域统计数据,将大大限制空间经济计量学模型的应用。建立我国区域统计数据库,要求价格低廉且方便实用,是摆在统计工作者面前的一个重要课题。
【参考文献】
1Anselin,L.1988.SpatialEconometrics.MethodsandModels,DordrechtKluwerAcademic
Publishers.
2Anselin,L.andR.J.G.M.Floraxed.1995.NewDirectionsinSpatialEconometrics,Springer-Verlag.
3Brundson,C.,A.S.Fotheringham,andM.E.Chalton.1996."GeographicallyWeighted
Regression:AMethodforExploringSpatialNonstationarity,"GeographicalAnalysis,
Vol.28,p281-298.
4Brunsdon,C.,A.S.Fotheringham,andM.E.Chalton.1999."SomeNotesonParametric
SignificanceTestsforGeographicallyWeightedRegression,"JournalofRegional
Science,Vol.39,No.3,p497-524.
5Casetti,E.1972."GeneratingModelsbyExpansionMethod:ApplicationstoGeographic
Research,"GeographicalAnalysis,Vol.4,p81-91.
6Casetti,E.1982."
DriftAnalysisofRegressionParameters:AnApplicationtothe
InvestigationofFertilityofFertilityDevelopmentRelations,"ModelingandSimulation
13,p961-966.
7Casetti,E.1992."BayesianRegressionandtheExpansionMetod,"Geographical
Analysis,Vol.24,p58-74.
8Cliff,A.D.andJ.K.Ord.1981.SpatialProcesses:ModelsandApplications,Pion.
9Haining,R.P.SpatialDataAnalysisintheSocialandEnvironmentalScience,Cambridge
UniversityPress.1990.
10Paelinck,JeanH.P.andLeoH.Klaassen.1979.SpatialEconometrics,SaxonHouse,
TeakfieldLtd.
二、目前统计学教材存在的主要问题
目前市面上国内编著的经济、管理类的统计学教材数量繁多,其名字也五花八门,如:《统计学原理》《统计学基础》《统计学》《经济统计学》《管理统计学》等。据我调查,目前武汉市书店在售的这类图书不下三十种。虽然数目众多,但翻开一看,就会发现这些书的内容大同小异,和国外的统计学教材相比,对学生的吸引力不强。经过综合,我认为国内的统计学教材主要存在以下问题。
(一)内容陈旧。如今的经济、管理类统计学教材由以前的只介绍描述统计变成既有描述又有推断统计的大统计学。可是翻开现有的统计学教材,就会发现不少已经过时的描述统计学的概念比比皆是,学生平时在生活、学习中几乎用不上。如不少教材里的第一章绪论部分重点介绍“标志”和“指标”这对概念,花很大篇幅来介绍两者的联系和区别,但这对概念在后续的数据分析中几乎用不到;在“后续统计调查”这章中,对统计报表、重点调查和典型调查这些方法也是花了不少篇幅来介绍,而这些在计划经济条件下使用的调查方法现在很少采用;另外,目前不少教材保留了“指数”一章,详细介绍了编制指数的两种方法,而这些内容由于内容繁杂,应用面窄,除了专门的统计调查人员,一般人根本没有必要掌握,只需要了解其基本含义。由此可见,目前国内统计学教材内容陈旧,教材中对广大读者用处不大的资源占用了大量的篇幅,而一些实用性很强的内容,如参数估计、假设检验及多元回归则放在教材后面简单介绍,由于学时有限,很多老师在课堂上只是简单地提一下,其结果是学生用这样的教材根本学不到有用的知识。
(二)概念、公式多,案例少。目前很多学生并不需要学量系统的统计学知识,而只需要能用简单、实用的统计学方法来辨别、处理出现的定量分析问题,并且能够利用统计学软件自己解决一部分,当自己不能解决时知道到哪里寻求帮助就行了。因此统计学教材的主要任务是教会他们统计学的主要思想,学会用统计分析方法解决实际问题。基于这种目的,统计学教材应偏重实际应用,多引入生活中常见的实例或案例,不知不觉地把读者引入统计学专业知识的殿堂。但是目前的统计学教材一般都是先介绍理论、概念,再给出公式及其推导过程,最后才结合实践进行举例,而且大量繁琐的数学推导占了很大的篇幅,而经济、管理类专业的学生大多数是文科生,数学底子差,大量的公式推导往往让他们望而却步。而与大量公式相对应,国内现有的经济、管理类的统计学教材有关经济、管理的统计案例很少,大部分是过于简单的设例,或是“编写”的案例,甚至是若干年以前在自然科学领域内应用的陈旧的案例,与现实的经济、管理工作严重脱节。国内统计学教材这种重理论学习和公式推导,轻结合实际案例的特点,使得本该妙趣横生的统计学在学生眼里课程变得晦涩难懂、枯燥乏味。
(三)实用性不强。统计学作为一门实用性很强的方法论学科,是和计算机以及统计软件紧紧地联系在一起,任何统计学方法都可以在统计学软件上操作完成,目前常用的统计学软件有SAS、STATISTIC、MINITAB、SPSS和EXCEL,对于经济管理专业的学生来说,SPSS和EXCEL都是操作起来相当简单方便的统计学软件。目前国内的统计学教材只是介绍统计学原理和方法,而如何应用统计软件来解决具体问题则没有系统的介绍,如Ex-cel制作图、表的功能很强大,展示数据常用的直方图、条形图、饼图、环形图利用Excel都可以做得很漂亮,可是不少教材只是介绍什么是直方图和条形图,两者有何区别,而具体如何利用软件作图则只字未提;时间数列分析、多元回归分析等内容涉及的数据都很多,不借助统计软件根本没法完成,因此很多教材也只是介绍概念和方法,老师在课上也只简单介绍方法,不给学生讲授如何应用统计软件来解决具体问题,这使得学生学完这门课后实际分析问题的能力没有得到锻炼,学生在学习后续课程或撰写毕业论文时,抱怨统计学只是学了很多不会用,也不知怎么用的概念和公式。
三、对策分析
统计学教材的质量普遍不高,反映了当前我国定量分析问题的能力还有待提高。要解决这一问题,我觉得重点应从以下几方面着手。
(一)加大对从事统计学教学的教师的培训力度。统计学教材是统计学教师教学实践的结晶。目前国内统计学教材质量不高的根本原因在于从事统计学教学教师的统计学能力有所欠缺。从事经济、管理类统计学教学的教师不仅要熟练地掌握统计学方法和统计软件的使用技巧,还要对经济、管理有一定的了解,并了解统计学在经济、管理中的使用。可是据我对武汉市高校的调查统计,不少学校从事经济、管理统计学教学的教师都是学习经济、管理的,他们对统计学方法和统计软件的使用并不熟悉,因此编出来的教材其质量也是可想而知。虽然一部分老师是统计学专业毕业的,但绝大多数是学经济统计的,对推断统计和统计软件的使用并不精通。另外还有一小部分老师是学数理统计专业的,他们对统计学方法进行过系统的学习,可是由于对于经济、管理了解甚少,因此没法和经济、管理的实际案例相结合,而只是像讲数学一样,着重公式的推导。因此要改变这种状况,各校首先要加大对统计学重要性的认识,其次要拿出切实可行的方案来对从事统计学教学的教师进行全方位的培训,使得他们具备从事统计学教学的专业水平,这样才有可能从根本上改变统计学教材吸引不了学生的现状。
(二)借鉴国外优秀统计学教材的经验。和国内经济、管理类统计学教材内容陈旧、案例匮乏、实用性不强和趣味性差的现状相比,国外的统计学教材则让人眼前一亮。国外教材非常注重实际应用,每一部分都引入大量的生活中常见的实例或案例,不知不觉地把读者引入统计专业知识的殿堂。这些教材几乎都摒弃了繁琐的数学推导,大部分只介绍基本公式,少数则采用纯文字描述的形式来介绍统计学,让没有统计学基础的学生也能轻松地学习统计学而且它们都非常详细地介绍了如何利用统计软件来进行操作,并贯穿在各章,课后也有大量配套的习题让读者自己去练习,以加深对统计学方法的理解。因此要提高目前国内统计学教材的质量,多多向国外同行学习是非常必要的,不少学校的老师直接以国外的教材作为学生的学习教材。但是完全采用国外的教材也有不少问题,如直接采用国外原版教材,对多数学生来说英文水平有待提高,而如果采用翻译过来的教材,由于目前不少教材翻译质量不高,学生读起来感觉很生涩;另外国外的教材结合的都是本国的例子,和我国的具体国情不符,学生听起来觉得陌生。因此最好的方法是借鉴国外统计学教材好的体系和编排方法,同时结合本国的具体实践,编制适合我国国庆的教材,这就需要付出更多的努力。
Anselin(1988)对空间经济计量学进行了系统的探究,它以及Cliff和Ord(1973,1981)这三本着作至今仍被广泛引用。Anselin对空间经济计量学的定义是:“在区域科学模型的统计分析中,探究由空间引起的各种特性的一系列方法。”Anselin所提到的区域科学模型,指明确将区域、位置及空间交互影响综合在模型中,并且它们的估计及确定也是基于参照地理的(即:截面的或时-空的)数据,数据可能来自于空间上的点,也可能是来自于某个区域,前者对应于经纬坐标,后者对应于区域之间的相对位置。
国外近几年空间经济计量学得以迅速发展,如Anselin和Florax(1995)指出的,主要得益于以下几点:
(1)人们对于空间及空间交互影响的功能的重新熟悉。对空间的重新关注并不局限于经济学,在其它社会科学中也得以反映。
(2)和地理对应的社会经济大型数据库的逐步实用性。在美国以及欧洲,官方统计部分提供的以区域和地区为统计单元的大型数据库很轻易得到,并且价格低廉。这些数据可以进行空前数目的截面或时空观测分析,这时,空间(或时空)自相关可能成为标准而非一种非凡情况。
(3)地理信息系统(GIS)和空间数据分析软件,以高效和低本钱的计算技术处理空间观测的发展。GIS的使用,答应地理数据的有效存储、快速恢复及交互可视化,为空间分析技术的艺术化提供了巨大的机会。至少目前线性模型中,缺少针对空间数据和空间经济计量学的软件的情况已经大为改观。目前已有一些专门的空间统计分析软件,并且SAS、S-PLUS等着名统计软件中,都已经包括用于空间统计分析的模块。
(二)空间经济计量学和相关学科的关系
空间统计学是探究空间新题目的另一门学科,它是应用数学的一个快速发展的分支。它起源于20世纪50年代早期,用以帮助采矿业进行矿躲量的计算。最早的工作是采矿工程师D.G.Krige和统计学家H.S.Sichel在南非进行的。70年代随着计算机的普及以及运算速度的大幅进步,空间统计分析技术逐渐扩展到地球科学的其它领域。目前已经普遍存在于需要处理时间上或空间上相关的数据的科技领域中。
空间经济计量学和空间统计学的区分不太轻易。Haining和Anselin的观点以为空间统计学的探究大多由数据驱动,而空间经济计量学由模型驱动,即从特定的理论或模型出发,重点放在新题目的估计、解释和检验上。空间统计学的主流是探究生态学和地质学中的物质现象,空间经济计量学主要探究和区域及城市经济有关的模型。有一种观点以为二者的区分应基于作者将其工作对应于空间经济计量学还是空间统计学,这种区分办法可能较为简单。
地质统计学(Geostatistics)发展于20世纪60年代,主要用于探究地质学现象的空间结构和进行空间估值。例如,在探矿过程中,通常是在空间上布点进行钻探,然后对采样得到的样品进行分析,估计矿躲的分布和储量。由于矿躲不开采的话,在时间上结构几乎是不变的,因此地质统计学探究的新题目主要是空间相关。空间经济计量学所探究的新题目不仅存在空间相关,往往所探究的新题目在时间上也存在相关。
在区域经济学的理论中,人们建立了各种理论以及关系式来描述人类在空间上的行为,如探究城镇新题目的“引力模型”等。但在利用模型进行定量探究新题目的时候,需要将理论或关系式用数学模型来进行刻划,利用统计方法对模型进行估计、检验,并进行评价,这些正好是属于经济计量学探究的范畴。应该说,空间经济计量学主要探究区域经济新题目,依据的是区域经济学理论,但它还需要综合数学,以及空间统计学等学科,因此它不等同于区域经济学,而是一门交叉学科。
二、探究的新题目
空间经济计量学主要探究存在空间效应的新题目。空间效应主要包括空间相关和空间差异性。在探究中涉及空间相邻、空间相邻矩阵等概念。
(一)空间相关
空间相关指在样本观测中,位于位置i的观测和其它j≠i的观测有关,即
附图
存在空间相关的原因有两方面:相邻空间单元存在丈量误差,空间交互影响的存在。丈量误差是由于调查过程中,数据的采集和空间中的单位有关,如数据是按省、市、县等统计的,但设定的空间单位和探究新题目不一致,存在丈量误差。
空间相关不仅意味着空间上的观测缺乏独立性,并且意味着潜伏于这种空间相关中的空间结构,也就是说空间相关的强度及模式由尽对位置和相对位置(布局,间隔)决定。
对于空间相关,空间自回回通常是其核心内容,空间自回回模型的一般形式为:
附图
在这个模型中,β解释变量X(n×k矩阵)的参数向量(k×1),ρ是空间滞后相关变量的参数,λ是残差空间自回回(空间AR)结构中的参数。
W[,1]和W[,2]为n×n矩阵,是标准化或未标准化的空间加权矩阵,分别对应于因变量以及扰动项中的空间自回回过程,这两个矩阵可以不同,这意味着两个过程由不同的空间结构天生。
这个模型可以退化成为普通的线性回回模型、(纯)空间自回回模型、混合回回和空间自回回模型、残差空间自回回模型等形式。
对这个模型,普通最小二乘估计不仅是有偏的,而且是不一致的,参数的估计通常采用极大似然估计,近几年,有学者尝试采用贝叶斯估计对参数进行估计。
(,转自[星]二)空间差异性
空间差异性指空间上的区域缺乏均一性,如存在中心区和郊区、先进和后进地区等。例如,我国沿海地区和中西部地区经济存在较大差别。
对于空间差异性,只要将空间单元的特性考虑进往,大多可以用经典经济计量学方法解决。但当空间差异性和空间相关共同存在时,经典经济计量学方法不再适用,而且这时新题目可能变得非常复杂,由于这时要区分空间差异性和空间相关可能非常困难。
探究空间差异性的模型主要有:
E.Casetti提出的空间扩展模型(1972)和回回参数漂移分析方法(简称DARP)模型(1982)。这时,空间差异性表现为模型参数随空间位置变化,并以空间单元的位置信息作为辅助变量(称为扩展参数)。
y=Xβ ε
附图
模型(3)为以经纬坐标(Z[,x],Z[,y])作为扩展参数的空间扩展模型。同样可以以到中心区域的间隔作为扩展参数设计模型。
将模型(3)的第二个式子右边加进随机扰动项,则为DARP模型。E.Casetti(1992)进一步提出了贝叶斯空间扩展模型。
D.P.McMillen和J.F.McDonald(1997),C.Brunsdon
,A.S.Fotheringham;MartinCharlton(1996),提出地理加权回回模型(简称GWR模型)。
附图
(三)时空数据空间模型
在模型中考虑时间维增加了描述的复杂性,但综合时间空间的模型在实际工作中非常有用。在经典的经济计量学模型中,这是综合截面和时间序列数据的情形。假如数据不存在空间相关,则可以采用PanelData模型。Anselin(1988)将似不相关(SUR)模型扩展到空间的情形,提出空间SUR模型。
三、应用远景及需要进一步探究的新题目
(一)在中国的应用远景
在我国,地质统计学是较早应用空间统计学的领域,在20世纪80年代中国科学院就有人探究并应用Krige模型。空间统计学除了在地质学的探究中发挥功能,近十年来,周国法、徐汝梅等学者探究生态学中的空间相互功能,并于1998年出版了《生物地理统计学》。20世纪80年代以来,我国利用卫星远感技术,对土地、森林、农业、矿产、能源、作物估产、灾患检测等进行应用,开始了我国空间统计学在经济领域应用中统计调查的工作,为了将空间远感调查技术逐步纳进到我国统计的常规性工作中,1998年10月,国家统计局成立了空间统计探究室,并和中国科学院地理所合作,组成了“空间信息多重采样设计的空间统计学应用探究”课题组,运用远感技术和空间分析对我国农业耕地、森林、草地等资源以及城镇动态变化进行调查,该项目获得国家统计局2000年课题探究一等奖。
在我国地质统计学、生物地理统计学及利用远感技术进行的各种调查,都属于空间统计学的范畴。地质统计学、生物地理统计学主要探究空间相关及空间估值,在生物地理统计学的探究中还包括物种的空间扩散过程。所用的方法主要是各种Krige模型、方差图模型,以及空间自回回模型。空间动态采样的探究,和地质矿产调查类似,主要涉及样本在空间上的布局、有效样本量的确定、采样误差的计算等新题目的探究,根据其探究的新题目和方法,也可以将其回进统计学的抽样调查分支之中。
随着我国按地区进行统计的统计基础资料不断积累,尤其是远感技术应用到统计调查中来,都将使得按时间和空间排列的数据资料极为丰富,对数据进行空间甚至时空分析成为可能,人们将逐渐从时间的角度转向普遍从时空的角度来考虑新题目。
从经济分析的角度看,空间经济计量学在我国以下几个方面将有很大的应用远景。
由于区域之间存在相关性,或者存在差异性,因此一项政策对每个区域的影响是不同的,通过运用空间经济计量学方法对各区域进行探究之后,找到政策在各区域上功能的关系,对于政府决策、正确制订政策具有很大的参考价值。
由于区域之间存在先进地区和后进地区,通过空间经济计量学方法可以对先进地区和后进地区之间的相互关系进行探究。
按区域编制投进产出表时,空间的概念将发挥功能。
对房地产的价值进行评估时,在考虑外界影响因素的基础上,充分考虑地区,转自[星]之间的相互关系,将对正确评估房地产的价值有很大帮助。
对环境污染进行探究时,运用空间经济计量学方法对污染的传播方式进行探究,有助于人们对环境污染进行控制。
在交通领域的探究,可以利用空间经济计量学方法对职员、货物在空间上的活动方式进行探究,同时对通道上的不同区段进行探究。
在对某种疾病(如流感)在空间上的传播过程进行探究之后,对于疾病的预防控制将有很大的帮助。
建立了空间的概念之后,人们对于在空间上的抽样将综合考虑空间单元之间的相关性。而空间抽样在空间上的布点方式也可以用作贸易网点的布局探究。
总之,只要新题目涉及到空间的概念,空间经济计量学就将发挥其功能。对空间经济计量学的深进探究及应用,将促使人们面对新题目的时候,从空间或时空的角度思考新题目。
(二)需要进一步探究的新题目
目前的探究中,系统内的空间单元受到系统内其它位置单元的影响,但边界处的单元还受到系统外和之相邻的单元的影响,如何将这个影响考虑在模型中值得探究。
在具体新题目中,间隔的概念需要加以认真对待,单用地理上的间隔有时并分歧适,例如国和国之间的经济联系在今天并不是间隔远近决定的,电子化交易使得资金的活动非常迅速方便,因此,在探究这类新题目时,如何将贸易、职员、资金的活动充分考虑到空间加权矩阵中往,尚值得探究。
贝叶斯方法在统计学各个分支的应用越来越广,空间贝叶斯模型也是目前空间经济计量学探究的热门之一。
可变单元的新题目。当数据汇总的级别变化,可能整个模型的描述都发生变化,对于不同的新题目,可能影响模型变化的汇总的级别也不同,能否有一个同一的模式对系统进行描述尚待进一步探究。
时空数据的综合分析,参数估计的渐近性质,模型的各种检验方法等,还有待进一步的探究。
关键词:统计学方法;数据挖掘;应用分析
数据挖掘就是指从众多实际应用数据中获取批量大、有噪声、且随机性强的数据,将潜在的信息与数据提取出来,就是从数据中挖掘有价值的知识,而大多数原始数据具有一定的结构化特征,比如,关系数据库中的数据;也可以通过文本、图形、图像等半结构化发掘有用知识,这些知识可以是数学的也可以是非数学形式的;数据挖掘能以归纳形式存在,能够被广泛应用到信息查询、信息管理、信息决策控制中,方便数据的维护与管理。由此可见,数据挖掘是一门交叉性强的学科,加强对其的研究非常有意义,下面将对统计方法在数据挖掘中的具体应用进行分析。
一、数据挖掘与统计学的关系
(一)数据挖掘的内涵
通常来说,数据挖掘的定义较为模糊,没有明确界定,大部分对其的定义只是停留在其背景与观点的内容上。通过对不同观点的统一整理,人们最终将其描述为:从大量多样化的信息中发现隐晦性、规律性等潜在信息,并对这些信息进行创造、加工的过程。数据挖掘作为一门重要的交叉学科,能够将数据库、人工智能、机器学习、统计学等众多的科学融入到一起,从而实现技术与理论的创新与发展[1]。其中,数据库、人工智能与统计学是数据挖掘当中的三大支柱理论。数据挖掘的目的是从数据库当中发掘各种隐含的知识与信息,此过程的方法非常多,有统计学知识、遗传算法、粗集方法、决策法、模糊逻辑法等,还可以应用向邻近的可视技术、模式识别技术等,在以上所有技术的支持上能够使数据挖掘更为科学、有序。
(二)数据挖掘与统计学间的关系
通常来说,统计学的主要功能是对统计原理与统计方法进行研究的科学。具体来说就是指对数字资料进行的收集、整理、排序、分析、利用的过程,数字资料是各种信息的归纳与总结,可以将其作为特性原理的认知、推理方法[2]。而统计学则表示的是使用专业的统计学、概率理论原理等对各种属性关系的统计与分析过程,通过分析成功找到属性间的关联与发展的规律。在此过程中,统计分析方法是数据挖掘最为重要的手段之一。
在数据挖掘这一课题被提出来之前,统计分析技术对于人们来说更熟悉,也是人们日常开展工作、寻找数据间规律最常使用的方法。但是不能简单的将数据挖掘作为统计学的延伸与替代工具,而是要将两者的区别认识到位,再结合两者间的不同特点分析其应用特点[3]。大部分的统计学分析技术都是建立在数学理论与技巧上的,预测通常较为准确,效果能够让大部分人满意。数据挖掘能够充分借鉴并吸收统计学技术,在融入到自身特点以后成为一种数据挖掘技术。
统计学与数据挖掘存在的目标都是一致的,就是不断对数据结构进行发掘。鉴于统计学与数据挖掘在目标上的一致性,致使很多研究学者与专家将数据挖掘作为了统计学的一个分支机构[4]。但是这种认知非常不正确,因为数据挖掘不仅体现在与统计学的关系上还体现在思想、工具与方法上,尤其是在计算机科学领域对数据挖掘起到的作用非常大。比如,通过借助数据库技术与人工智能的学习,能够关注到更多统计学与数据挖掘上的共通点,但是两者存在的差异依然非常大。数据挖掘就是指对大量的数据信息不断挖掘的过程,DM能够对数据模式内的数据关系进行充分挖掘,并对观测到的数据库处理有着极高的关注度。
二、数据挖掘的主要过程
从数据本身出发探讨数据挖掘过程,数据挖掘的过程分为信息的收集、数据集成、数据处理、数据变换、数据挖掘实施等过程。
首先,要将业务对象确定下来,明确不同业务定义,并认清数据挖掘的目的,这是做好数据挖掘最关键的一步,也是最重要的一步,虽然挖掘的结果不能被准确预测到,但却需要对问题的可预见性进行探索[5]。其次,还要做好数据准备工作,包含数据清理、数据变换等工作,数据清理的实际意义是将噪声与空缺值补全,针对这一问题,可以使用平滑技术,而空缺值的处理则是属性中最常见的,可以将统计中最可能出现的值作为一个空缺值[6]。
信息收集指的是按照特定的数据分析对象,可以将分析中需要的特征信息抽象出来,并在此基础上选择出较为科学、适合的信息收集方法,将全部的信息全部录入到特定的数据库中。如果数据量较大,则可以选择一个专门的管理数据的仓库,实现对信息的有效保护与管理;数据集成就是指将来源不同、格式不同、性质不同、特点不同的数据集成到一起,进而为企业提供更为全面、系统的数据共享平台;数据变换就是通过聚集、概化、规范化等方式对数据进行挖掘,对于一些实用数据,则可以通过分层与分离方式实现对数据的转换;数据挖掘就是结合数据仓库中的数据信息点,并选择正确的分析方法实现对有价值数据的挖掘,事例推理、规则推理、遗传算法等都是应用较多的方法[7]。
三、统计学方法中的聚类分析
在统计学聚类方法基础上能够构建出潜在的概率分布假设,可以使用试图优化的方法构建数据与统计模型的拟合效果。基于统计学聚类方法当中,Cobweb方法是在1987年由Fisher提出的,能够以分类树作为层次聚类创建的方法,在分类树上,每一个节点都能代表着一个概念,该方法就是对节点概率描述的过程。Cobweb方法还使用了启发式估算方式,使用分类效用对分类树的构建进行指导,从而实现对最高分类的划分目的,能够将不同分类对象全部归类到一个类别中,并依据这些内容创建出一个新的类别。但是这种方法也存在一定局限性,局限性在于假设的属性概率分布都是独立的,并不能始终处于成立状态中。
只有在掌握了Cobweb算法以后才能对概念聚类算法的特点进行探究。Cobweb算法能够以分类树方式创建层次聚类,可以将概率表现为p(Ai=Vii/Ck)条件概率,其中,Ai=Vij是一个类别下的,同属于一个值对,Ck是概念类中的一种。在给出一个特定的对象以后,Cobweb能够将全部对象整合到一个节点上,从而计算出分类效应,分数最高的效用就是对象所在的节点位置[8]。如果对象构建失去节点,则Cobweb能够给出一个新的节点,并对其进行分类使用,这种节点计算方法起步较晚,能够对现有的节点与计算相互对比,从而划分出最高的分类指标,将全部对象统一到已有的分类中,从而构建出一个新的类别。
Classitci是Cobw eb方法的一种延伸与发展,能够使用其完成聚类数据的处理,在该方法下,节点中的每一个存储属性都是处于连续分布状态中,能够将其作为分类效果修正的方法,并以度量的形式表现出来,这种度量基础上能够实现连续性的积分,从而降低分散发生率,该方法是积分过程而不是对属性的求和过程。
Auto Class方法也是一种应用较为普遍的聚类方法,该方法主要采用统计分析对结果类的数目进行估算,还可以通过模型搜索方式分析空间中各种分类的可能性,还能够自动对模型数量与模型形态进行描述。在一定类别空间中,不同的类别内属性存在关联性,不同的类别间具有相互继承性,在层次结构当中,共享模型参数是非常重要的。
还有一种使用较为普遍的模型是混合模型,混合模型在统计学聚类方法上使用也非常普遍。该方法最为基本的思想就是概率分布决定着每一种聚类状态,并且模型中的每一个数据都是由多个概率在分布状态下产生的。混合模型还能够作为一种半参数密度评估方法,其能够将参数估计与非参数估计的优点全部集中到一起,并将参数估计法与非参数估价法的诸多优点融合到一起,因为模型具有一定复杂性,为此,不能将其限制在概率密度函数表达形式上,这种复杂性决定了模型与求解存在关联,与样本集合的联系非常少。通过以上的研究可以了解到,数据发掘中应用聚类方法非常有效,并且较为常见。比如,构建出Cobweb模型与混合模型,采用Clara与Clarans方法中的抽样技术,将Denclue方法用在概率密度函数中。
结束语
统计学方法自产生开始已经有非常久远的历史,将严谨的数学逻辑作为基础,将分类算法假定作为独立条件,属性值之前能够相互保持独立,对假定进行计算,当假定成立时,可以再与其他分类算法进行对比,这种分类算法准确性非常高。为此,其不仅能够对连续值进行预测,还可以通过线性回归方程对系数进行比较,从而归纳出结果。
(作者单位:中国人民大学)
参考文献:
[1] 张爱菊.基于数据挖掘技术的瓦斯气体红外光谱定量分析方法的研究[J].光谱学与光谱分析,2013,33(10):2646-2650.
[2] 许长福,李雄炎,谭锋奇等.任务驱动数据挖掘方法的提出及在低阻油层识别中的应用[J].吉林大学学报(地球科学版),2012,42(1):39-46.
[3] 郑晓峰,王曙.基于粗糙集与关联规则的道路运输管理信息数据挖掘方法[J].华南理工大学学报(自然科学版),2014(2):132-138.
[4] 周复之.固定收益决策支持系统机理建模与数据挖掘的协同研究[J].系统工程理论与实践,2010,29(12):38-45.
[5] 张继福,张素兰,蒋义勇等.基于约束概念格的天体光谱局部离群数据挖掘系统[J].光谱学与光谱分析,2011,29(2):551-555.
统计学中几大影响比较大的学派是频率学派、贝叶斯学派和信念学派。在很长的时间内,频率学派或称经典学派的观点、理论占据了主流地位,其余两派并未得到足够的重视。但是在实际应用中,却早已应用贝叶斯学派的理念来处理问题。所以有必要在理解这几大学派思想的基础上,来了解不同思想的统计方法。
一、两大学派的特点和分歧
频率学派坚持对概率的看法是频率的稳定性,所以,凡是不能重复进行的试验的有关结果都不能应用概率作出判断。但是很多时候,人们都是根据已有的知识和逻辑推理能力来对统计问题作出判断。在实际经济环境中,情况总是比较复杂,很难具备可以进行重复试验的条件,这个时候频率学派的理论就很难运用上了。与之不同,贝叶斯学派认为,概率是反映事件发生可能性的一个度量,既可以是反映重复试验的频率稳定性,也可以反映人们的某一些类型的主观信念。只要可以接受到任何先验信息,就都能对特定问题进行逻辑推理。
频率学派和贝叶斯学派之间激烈的争论,促进了统计学的发展,使得统计学最为一门信息科学在学科体系上和思想上更完善。这两大学派争论的分歧:其一,对概率这个概念的认识。经典学派认为概率是纯客观的,是频率稳定性的内在依据。而贝叶斯学派则认为概率应包含客观概率与主观概率;其二,是对统计问题的看法。频率学派研究的重点是样本空间,认为样本是变化的,参数是固定不变的,并从中寻找规律来推断参数的性质。贝叶斯学派的重点是研究参数空间,认为样本就是已观测到的值,它已不再变动而参数则是随机变量。需要探讨的是,参数取值的变化规律;其三,利用信息的范围不同。贝叶斯学派既利用样本信息又利用先验信息,而经典学派只局限于从样本获取的信息。其四,推断的过程不同。贝叶斯学派是从参数的先验分布到后验分布。而频率学派却仅是根据样本的信息对参数作出推断。可以说,先验分布这是区分这两个学派的一个重要特征。
二、统计分析方法的基本思路
在参数估计的基本方法上,对于单一方程模型,最常用的有普通最小二乘法、广义矩估计和极大似然估计法等。对于联立方程模型有常用二段最小二乘法和三段最小二乘法等。基本的理论框架是对未知参数的模型建立,参数估计包括点估计、区间估计、假设检验和预测等内容。并以此来研究各种模型,如线性回归模型、非线性回归模型、联立方程组模型,面板数据模型、时间序列模型等。
而贝叶斯分析则采用不同的思路,来进行参数的估计,检验和模型的比较。一般有如下思路:在得到样本数据的基础上,建立模型,求出似然函数,同时先验信息得到先验分布,运用贝叶斯定理,推导出后验分布,分析得出的结论。
可以说,经典的统计分析方法与贝叶斯分析的方法,孰优孰劣,也不可以一概而论。经典的方法在发展体系上很严密,有严谨的数理基础,而贝叶斯方法则是提供了一种新的思维方式,是推进现代统计及相关学科理论发展的强大力量。
三、统计计算方法和软件的发展
随着现代电脑技术的发展,统计学也获得了飞快的发展,尤其是促进了统计的计算方法的发展,特别是在针对贝叶斯方法的计算得到了新的进展。这主要分为两类,一类是通过直接的抽样手段,得到后验均值的估计值,主要包括直接抽样、分层抽样、筛选抽样等;它们的缺陷在于只能用于比较简单、低维的后验分布。第二类为 MCMC(Markov chainMonte Carlo),近年发展迅速,在各个相关领域得到了广泛的应用。在实际研究工作中,经常遇到的是高维的复杂数据,这时运用传统的方法就遇到困难了。而MCMC方法为这一复杂的计算过程开辟了新的方向。它的基本思想是把一个复杂的抽样问题转化为一系列简单的抽样问题,而不是直接从复杂的总体中抽取样本,并利用电脑技术模拟这个过程。
2精简和更新教学内容
在教学内容方面做到突出实用性,适当地减少或减弱概率论部分的理论性和难度,以直观、趣味和易于理解的方式把概率论作为数理统计的基础知识加以介绍.在假设检验部分注意阐述数理统计方法的思想、应用的背景及应用中所需的条件,重点讲解假设检验应该如何选取原假设和备择假设,如何对得出的结论进行合理的解释;在参数估计部分着重地讲解参数估计在实际应用中的重要性、合理性及应用中应注意的问题,区间估计中置信区间的理解及单侧置信限在应用中的意义等;在方差分析部分讲清楚引进方差分析的意义、假设检验的方法对多个总体进行多次t检验时的缺点、方差分析应用的条件及合理解释检验结果等;在回归分析部分注意阐述量与量之间的关系、回归方程的理论意义及对回归方程结果在应用中的解释等.目前SPSS软件是国际医学论文中应用最广泛的统计软件[2],国内的大部分医学期刊也要求论文数据统计分析要应用统计软件处理,统计检验结果要用P值来表示,更要求学生了解统计软件的使用方法,做到正确使用统计软件.
3互动式的教学方法培养应用、创新型人才
传统的教学方式是知识传授型教学,即教师在课堂上灌输知识,在有限的时间内按教学大纲要求把大量的教学内容尽可能地讲授完毕,不能有效地调动学生对学习的主动性,忽视学生应用能力的发展,结果导致学生把主要精力投入到统计计算上,很难有时间去深入分析统计结果.互动式教学方法要求教师在教学中充分发挥教师的主导作用,同时让学生处于教学的中心,在加强课堂讨论的同时,由教员归纳总结,充分调动学生的学习兴趣,提高学生的主动性和创造性.统计学应用能力的培养主要指可正确选择和应用统计分析方法解决医药学科学研究和医药工作中的实际问题[3].为了避免学生滥用及错用统计方法,教师要重点讲清各种方法的适用条件及特点.在考试方法上亦采用开卷考试,使学生不再花大量时间去推敲和死记那些复杂的公式,不再难于分清和理解符号及公式.通过几年来的改革实践,发现上述教学内容、方法及手段的改革增强了学生的学习兴趣,使学生真正体会到数理统计学的内容在医药及日常生活中的应用价值,激发学生的创造性思维,取得了良好的效果.
[参考文献]
[1]刘定远.医药数理统计方法[M].第3版.北京:人民卫生出版社,1999.20.
【分类号】:P618.13
一、引言
在油气开发过程中必然会涉及到相关数据测量,测量过程中就会不可避免的出现误差,这些数据误差会给油气地质储层建模带来直接的影响。另外得到确定性的地质变量空间变量模型是不太现实的,那么在这个过程中就需要引用到概率论方法来完善数据建模。举例来说对于储层中流体的流动而言就需要结合微分方程系数等参数来进行探讨。在利用传统方法的建模过程中正常情况下都会使用内插方法得到储层参数但同时也会对流动方程造成影响那么就会产生一定的偏差。因此在油气地质储层建模的过程中需要根据实际条件来对数据模型进行调整并筛选合理的模型来进行构建让油气产量预测可靠性得到保障。
二、多点地质统计学与训练图像
基于变差函数的传统地质统计学随机模拟是目前储层非均质性模拟的常用方法。然而,变差函数只能建立空间两点之间的相关性,难于描述具有复杂空间结构和几何形态的地质体的连续性和变异性。
针对这一问题,多点地质统计学方法应运而生。该方法着重表达空间中多点之间的相关性,能够有效克服传统地质统计学在描述空间形态较复杂的地质体方面的不足。多点地质统计学的基本工具是训练图像,其地位相当于传统地质统计学中的变差函数。对于沉积相建模而言,训练图像相当于定量的相模式,实质上就是一个包含有相接触关系的数字化先验地质模型,其中包含的相接触关系是建模者认为一定存在于实际储层中的。
三、地质概念模型转换成图像训练
地质工作人员擅于根据自己的先验认识、专业知识或现有的类比数据库来建立储层的概念模型。当地质工作人员认为某些特定的概念模型可以反映实际储层的沉积微相接触关系时,这些概念模型就可以转换或直接作为训练图像来使用。利用训练图像整合先验地质认识,并在储层建模过程中引导井间相的预测,是多点地质统计学模拟的一个突破性贡献。
可以将训练图像看作是一个显示空间中相分布模式的定量且直观的先验模型。地质解释成果图、遥感数据或手绘草图都可以作为训练图像或建立训练图像的要素来使用。理想状态下,应当建立一个训练图像库,这样一来建模人员就可以直接选取和使用那些包含目标储层典型沉积模式的训练图像,而不需要每次都重新制作训练图像。
四、二维和三维训练图像
二维训练图像就是在纵向上没有变化,比如人工划相图,因此二维训练图像又称为伪三维训练图像。二维训练图像在纵向上不能反映河道微相的加积,在横向上也不能反映各沉积微相的迁移。因此二维训练图像比不能很好的反映沉积构型。在三维训练图像中,可以反映各微相在横向上的迁移和垂向的加积,能够很好的反映沉积体的空间结构。因此在实际应用中多使用三维训练图像。
五、油气地质储层建模发展趋势展望
从大环境来看目前我国的油气地质储层建模较以往取得了很大的进展,但是在某些环节上依然暴露了一定的问题,需要在以下几方面进行完善。首先遇到地质条件较为复杂的情况时需要将侧积体视为目标体来进行储层构型分析并根据分析结果来进行建模。(2)需要进一步提升地质知识水平并且将这地质知识应用并整合到建模中。(3)加强目标体连续性过程。(4)对三维训练图像构建和三维模拟中数据事件进行更具深度的把握。(5)对井数据模拟条件进行优化。除了在算法上进行改进外还应该让原型模型变得更为丰富并体现出层次感,将地震信息进行高度整合化,构建出地质约束原则,另外在建模过程中对层次分析与模式拟合给予充分的重视。
六、结论
将更多的地质资料整合到储层建模过程中以确保最终数值模型更加符合地质认识,这在预测储层流体特征时是十分必要的。多点地质统计学为地质工作者提供了一个强大的工具,使得他们可以通过训练图像将概念模型和先验地质认识整合到建模过程中。
目前研究的重点是提高多点模拟算法的性能,包括:提高运行速度,降低内存开销,提高沉积模式再现效果以及更灵活的整合不同来源的信息等。有理由相信,随着多点建模方法不断趋于主流,以及越来越多的地质工作者对这一方法变得熟悉,多点地质统计学将成为下一代地质建模工具。
参考文献
[1]王家华,张团峰.油气储层随机建模[M].北京:石油工业出版社,2001:119-143.
[2]王家华.迎接油气储层建模理论、应用的大发展-从2007年国际石油地质统计学大会谈起[J].地学前缘,2008,15(1):16~254.
[3]李桂亮,王家华.多点地质统计学储层建模的实用展望[J].国外油田工程,2009,25(11):1~2.
[4]Andrew Clark S.Challenges for Horizontal Well Placement Optimization in a Giant Mature Onshore Oilfield Abu Dhabi.UAE [C].SPE137070,2010,1~15.
[5]Matheron G. Principles of Geostatistics[J].Economic Geology,1963,58(1):21~28.
[6]王家华,赵巍.基于地震约束的地质统计学建模方法研究[J].海洋石油,2010,30(4):46~49.
二、数据科学的统计学内涵
(一)理论基础
数据科学中的数据处理和分析方法是在不同学科领域中分别发展起来的,譬如,统计学、统计学习或称统计机器学习、数据挖掘、应用数学、数据密集型计算、密集计算方法等。在量化分析的浪潮下甚至出现了“metric+模式”,如计量经济学、文献计量学、网络计量学、生物统计学等。因此,有学者将数据科学定义为计算机科学技术、数学与统计学知识、专业应用知识三者的交集,这意味着数据科学是一门新兴的交叉学科。但是这种没有侧重的叠加似乎只是罗列了数据科学所涉及到的学科知识,并没有进行实质性的分析,就好似任何现实活动都可以拆解为不同的细分学科,这是必然的。根据Naur(1960,1974)的观点,数据科学或称数据学是计算机科学的一个替代性称谓。但是这种字面上的转换,并没有作为一个独立的学科而形成。Cleveland(2001)首次将数据科学作为一个独立的学科提出时,将数据科学表述为统计学加上它在计算技术方面的扩展。这种观点表明,数据科学的理论基础是统计学,数据科学可以看作是统计学在研究范围(对象)和分析方法上不断扩展的结果。一如统计学最初只是作为征兵、征税等行政管理的附属活动,而现在包括了范围更广泛的理论和方法。从研究范围的扩展来看,是从最初的结构型大规模数据(登记数据),到结构型的小规模数据(抽样数据)、结构型的大规模数据(微观数据),再扩展到现在的非(半)结构型的大规模数据(大数据)和关系数据等类型更为丰富的数据。从分析方法的扩展来看,是从参数方法到非参数方法,从基于模型到基于算法,一方面传统的统计模型需要向更一般的数据概念延伸;另一方面,算法(计算机实现)成为必要的“可行性分析”,而且在很多方面算法模型的优势越来越突出。注意到,数据分析有验证性的数据分析和探索性的数据分析两个基本取向,但不论是哪一种取向,都有一个基本的前提假设,就是观测数据是由背后的一个(随机)模型生成,因此数据分析的基本问题就是找出这个(随机)模型。Tukey(1980,2000)明确提到,EDA和CDA并不是替代关系,两者皆必不可少,强调EDA是因为它被低估了。数据导向是计算机时代统计学发展的方向,这一观点已被越来越多的统计学家所认同。但是数据导向仍然有基于模型与基于算法两种声音,其中,前文提到的EDA和CDA都属于基于模型的方法,它们都假定数据背后存在某种生成机制;而算法模型则认为复杂的现实世界无法用数学公式来刻画,即,不设置具体的数学模型,同时对数据也不做相应的限制性假定。算法模型自20世纪80年代中期以来随着计算机技术的迅猛发展而得到快速成长,然而很大程度上是在统计学这个领域之外“悄然”进行的,比如人工神经网络、支持向量机、决策树、随机森林等机器学习和数据挖掘方法。若响应变量记为y,预测变量记为x,扰动项和参数分别记为ε和β,则基于模型的基本形式是:y=f(x,β,ε),其目的是要研究清楚y与x之间的关系并对y做出预测,其中,f是一个有显式表达的函数形式(若f先验假定,则对应CDA;若f是探索得到的,则对应EDA),比如线性回归、Logistic回归、Cox回归等。可见,传统建模的基本观点是,不仅要得到正确的模型———可解释性强,而且要得到准确的模型———外推预测能力强。而对于现实中复杂的、高维的、非线性的数据集,更切合实际的做法是直接去寻找一个恰当的预测规则(算法模型),不过代价是可解释性较弱,但是算法模型的计算效率和可扩展性更强。基于算法的基本形式类似于非参数方法y=f(x,ε),但是比非参数方法的要求更低yx,因为非参数方法很多时候要求f或其一阶导数是平滑的,而这里直接跳过了函数机制的探讨,寻找的只是一个预测规则(后续的检验也是基于预测构造的)。在很多应用场合,算法模型得到的是针对具体问题的解(譬如某些参数是被当作一个确定的值通过优化算法得到的),并不是统计意义上的推断解。
(二)技术维度
数据科学是基于数据的决策,数据分析的本质既不是数学,也不是软件程序,而是对数据的“阅读”和“理解”。技术只是辅助数据理解的工具,一个毫无统计学知识的人应用统计软件也可以得到统计结果,但无论其过程还是结果都是可疑的,对统计结果的解释也无法令人信服。“从计算机科学自身来看,这些应用领域提供的主要研究对象就是数据。虽然计算机科学一贯重视数据的研究,但数据在其中的地位将会得到更进一步的加强”。不可否认,统计分析逐渐向计算机科学技术靠近的趋势是明显的。这一方面是因为,数据量快速膨胀,数据来源、类型和结构越来越复杂,迫切需要开发更高效率的存储和分析工具,可以很好地适应数据量的快速膨胀;另一方面,计算机科学技术的迅猛发展为新方法的实现提供了重要的支撑。对于大数据而言,大数据分析丢不掉计算机科学这个属性的一个重要原因还不单纯是因为需要统计软件来协助基本的统计分析和计算,而是大数据并不能像早先在关系型数据库中的数据那样可以直接用于统计分析。事实上,面对越来越庞杂的数据,核心的统计方法并没有实质性的改变,改变的只是实现它的算法。因此,从某种程度上来讲,大数据考验的并不是统计学的方法论,而是计算机科学技术和算法的适应性。譬如大数据的存储、管理以及分析架构,这些都是技术上的应对,是如何实现统计分析的辅助工具,核心的数据分析逻辑并没有实质性的改变。因此,就目前而言,大数据分析的关键是计算机技术如何更新升级来适应这种变革,以便可以像从前一样满足统计分析的需要。
(三)应用维度
在商业应用领域,数据科学被定义为,将数据转化为有价值的商业信息①的完整过程。数据科学家要同时具备数据分析技术和商业敏感性等综合技能。换句话说,数据科学家不仅要了解数据的来源、类型和存储调用方式,而且还要知晓如何选择相应的分析方法,同时对分析结果也能做出切合实际的解释②。这实际上提出了两个层面的要求:①长期目标是数据科学家从一开始就应该熟悉整个数据分析流程,而不是数据库、统计学、机器学习、经济学、商业分析等片段化碎片化的知识。②短期目标实际上是一个“二级定义”,即,鼓励已经在专业领域内有所成就的统计学家、程序员、商业分析师相互学习。在提及数据科学的相关文献中,对应用领域有更多的倾向;数据科学与统计学、数学等其他学科的区别恰在于其更倾向于实际应用。甚至有观点认为,数据科学是为应对大数据现象而专门设定的一个“职业”。其中,商业敏感性是数据科学家区别于一般统计人员的基本素质。对数据的简单收集和报告不是数据科学的要义,数据科学强调对数据多角度的理解,以及如何就大数据提出相关的问题(很多重要的问题,我们非但不知道答案而且不知道问题何在以及如何发问)。同时数据科学家要有良好的表达能力,能将数据中所发现的事实清楚地表达给相关部门以便实现有效协作。从商业应用和服务社会的角度来看,强调应用这个维度无可厚非,因为此处是数据产生的土壤,符合数据科学数据导向的理念,数据分析的目的很大程度上也是为了增进商业理解,而且包括数据科学家、首席信息官这些提法也都肇始于实务部门。不过,早在20世纪90年代中期,已故图灵奖得主格雷(JimGray)就已经意识到,数据库技术的下一个“大数据”挑战将会来自科学领域而非商业领域(科学研究领域成为产生大数据的重要土壤)。2008年9月4日刊出的《自然》以“bigdata”作为专题(封面)探讨了环境科学、生物医药、互联网技术等领域所面临的大数据挑战。2011年2月11日,《科学》携其子刊《科学-信号传导》、《科学-转译医学》、《科学-职业》专门就日益增长的科学研究数据进行了广泛的讨论。格雷还进一步提出科学研究的“第四范式”是数据(数据密集型科学),不同于实验、理论、和计算这三种范式,在该范式下,需要“将计算用于数据,而非将数据用于计算”。这种观点实际上是将数据从计算科学中单独区别开来了。
三、数据科学范式对统计分析过程的直接影响
以前所谓的大规模数据都是封闭于一个机构内的(数据孤岛),而大数据注重的是数据集间的关联关系,也可以说大数据让孤立的数据形成了新的联系,是一种整体的、系统的观念。从这个层面来说,将大数据称为“大融合数据”或许更为恰当。事实上,孤立的大数据,其价值十分有限,大数据的革新恰在于它与传统数据的结合、线上和线下数据的结合,当放到更大的环境中所产生的“1+1>2”的价值。譬如消费行为记录与企业生产数据结合,移动通讯基站定位数据用于优化城市交通设计,微博和社交网络数据用于购物推荐,搜索数据用于流感预测、利用社交媒体数据监测食品价等等。特别是数据集之间建立的均衡关系,一方面无形中增强了对数据质量的监督和约束;另一方面,为过去难以统计的指标和变量提供了另辟蹊径的思路。从统计学的角度来看,数据科学(大数据)对统计分析过程的各个环节(数据收集、整理、分析、评价、等)都提出了挑战,其中,集中表现在数据收集和数据分析这两个方面。
(一)数据收集方面
在统计学被作为一个独立的学科分离出来之前(1900年前),统计学家们就已经开始处理大规模数据了,但是这个时期主要是全国范围的普查登记造册,至多是一些简单的汇总和比较。之后(1920-1960年)的焦点逐渐缩聚在小规模数据(样本),大部分经典的统计方法(统计推断)以及现代意义上的统计调查(抽样调查)正是在这个时期产生。随后的45年里,统计方法因广泛的应用而得到快速发展。变革再次来自于统计分析的初始环节———数据收集方式的转变:传统的统计调查方法通常是经过设计的、系统收集的,而大数据是零散实录的、有机的,这些数据通常是用户使用电子数码产品的副产品或用户自行产生的内容,比如社交媒体数据、搜索记录、网络日志等数据流等,而且数据随时都在增加(数据集是动态的)。与以往大规模数据不同的是,数据来源和类型更加丰富,数据库间的关联性也得到了前所未有的重视(大数据的组织形式是数据网络),问题也变得更加复杂。随着移动电话和网络的逐渐渗透,固定电话不再是识别住户的有效工具变量,相应的无回答率也在增加(移动电话的拒访率一般高于固定电话),同时统计调查的成本在增加,人口的流动性在增加,隐私意识以及法律对隐私的保护日益趋紧,涉及个人信息的数据从常规调查中越来越难以取得(从各国的经验来看,拒访率或无回答率的趋势是增加的),对时效性的要求也越来越高。因此,官方统计的数据来源已经无法局限于传统的统计调查,迫切需要整合部门行政记录数据、商业记录数据、个人行为记录数据等多渠道数据源,与部门和搜索引擎服务商展开更广泛的合作。
(二)数据分析方面
现代统计分析方法的核心是抽样推断(参数估计和假设检验),然而数据收集方式的改变直接淡化了样本的意义。比如基于浏览和偏好数据构建的推荐算法,诚然改进算法可以改善推荐效果,但是增加数据同样可以达到相同的目的,甚至效果更好。即所谓的“大量的数据胜于好的算法”这与统计学的关键定律(大数定律和中心极限定理)是一致的。同样,在大数据分析中,可以用数量来产生质量,而不再需要用样本来推断总体。事实上,在某些场合(比如社会网络数据),抽样本身是困难的。数据导向的、基于算法的数据分析方法成为计算机时代统计学发展无法回避的一个重要趋势。算法模型不仅对数据分布结构有更少的限制性假定,而且在计算效率上有很大的优势。特别是一些积极的开源软件的支撑,以及天生与计算机的相容性,使算法模型越来越受到学界的广泛重视。大数据分析首先涉及到存储、传输等大数据管理方面的问题。仅从数量上来看,信息爆炸、数据过剩、数据泛滥、数据坟墓、丰富的数据贫乏的知识……这些词组表达的主要是我们匮乏的、捉襟见肘的存储能力,同时,存储数据中有利用价值的部分却少之又少或尘封窖藏难以被发现。这除了对开采工具的渴求,当时的情绪主要还是迁怨于盲目的记录,把过多精力放在捕捉和存储外在信息。在这种情况下,开采有用的知识等价于抛弃无用的数据。然而,大数据时代的思路改变了,开始变本加厉巨细靡遗地记录一切可以记录的数据。因为:数据再怎么抛弃还是会越来越多。我们不能通过删减数据来适应自己的无能,为自己不愿做出改变找借口,而是应该面对现实,提高处理海量数据的能力。退一步,该删除哪些数据呢?当前无用的数据将来也无用吗?显然删除数据的成本要大于存储的成本。大数据存储目前广泛应用的是GFS、HDFS等基于计算机群组的文件系统,它可以通过简单增加计算机来无限地扩充存储能力。值得注意的是,分布式文件系统存储的数据仅仅是整个架构中最基础的描述,是为其他部件服务的(比如MapReduce),并不能直接用于统计分析。而NoSQL这类分布式存储系统可以实现高级查询语言,事实上,有些RDBMS开始借鉴MapReduce的一些思路,而基于MapReduce的高级查询语言也使MapReduce更接近传统的数据库编程,二者的差异将变得越来越模糊。大数据分析的可行性问题指的是,数据量可能大到已经超过了目前的存储能力,或者尽管没有大到无法存储,但是如果算法对内存和处理器要求很高,那么数据相对也就“大”了。换句话说,可行性问题主要是,数据量太大了,或者算法的复杂度太高。大数据分析的有效性问题指的是,尽管目前的硬件条件允许,但是耗时太久,无法在可容忍的或者说可以接受的时间范围内完成。目前对有效性的解决办法是采用并行处理。注意到,高性能计算和网格计算也是并行处理,但是对于大数据而言,由于很多节点需要访问大量数据,因此很多计算节点会因为网络带宽的限制而不得不空闲等待。而MapReduce会尽量在计算节点上存储数据,以实现数据的本地快速访问。因此,数据本地化是MapReduce的核心特征。
四、结论
(一)数据科学不能简单地理解为统计学的重命名,二者所指“数据”并非同一概念,前者更为宽泛,不仅包括结构型数据,而且还包括文本、图像、视频、音频、网络日志等非结构型和半结构型数据;同时,数量级也是后者难以企及的(PB以上)。但是数据科学的理论基础是统计学,数据科学可以看作是统计学在研究范围(对象)和分析方法上不断扩展的结果,特别是数据导向的、基于算法的数据分析方法越来越受到学界的广泛重视。
(二)从某种程度上来讲,大数据考验的并不是统计学的方法论,而是计算机科学技术和算法的适应性。譬如大数据的存储、管理以及分析架构,这些都是技术上的应对,核心的数据分析逻辑并没有实质性的改变。因此,大数据分析的关键是计算机技术如何更新升级以适应这种变革,以便可以像从前一样满足统计分析的需要。
(三)大数据问题很大程度上来自于商业领域,受商业利益驱动,因此数据科学还被普遍定义为,将数据转化为有价值的商业信息的完整过程。这种强调应用维度的观点无可厚非,因为此处是数据产生的土壤,符合数据科学数据导向的理念。不过,早在20世纪90年代中期,已故图灵奖得主格雷就已经意识到,数据库技术的下一个“大数据”挑战将会来自科学领域而非商业领域(科学研究领域成为产生大数据的重要土壤)。他提出科学研究的“第四范式”是数据,不同于实验、理论、和计算这三种范式,在该范式下,需要“将计算用于数据,而非将数据用于计算”。这种观点实际上将数据从计算科学中单独区别开了。