绪论:写作既是个人情感的抒发,也是对学术真理的探索,欢迎阅读由发表云整理的11篇数据分析的方法范文,希望它们能为您的写作提供参考和启发。
最简单的拆分方法就是不看平均值,看数据分布。因为凡 是“总和”或者“平均”类的统计数据都会丢失掉很多重要的信息。例如李嘉诚来我们公司参观,这一时间我们公司办公室里的“平均资产”就会因为李嘉诚一个人 被抬高到人均几亿身家。如果有人根据这个“平均资产”数据来判定说我们办公室的人都是豪华游艇的潜在顾客,这自然是荒谬的。
可实际上,我们每天都在做着类似的判断,比如当我们听到说顾客“平均在线时间”是3分34秒,就可能根据这个时间来进行业务决策,例如设置“停留时间超过3分34秒为高价值流量”,或者设置系统,在用户停留了3分34秒还没有下单的话就弹出在线客服服务窗口。我们设置这些时间点的根据是“平均停留时间”,在我们的想象里,我们的每个顾客都有着“平均的”表现,停留时间大致都是3分34秒,可实际上真正的顾客访问时间有长有短,差别巨大:
在一些数据中我们可以看得出来,访客平均停留在页面的时间非常的短暂,具体的也就是说,问需要在淘宝数据分析上面下工夫的,那么,究竟该怎么弄才能比较好的呢?这个就看个人是怎么想的了,这里也就不多说了。
再举一个例子,比如我们看到上个月平均订单金额500元/单,这个月也是500元/单,可能会觉得数字没有变化。可是实际上有可能上个月5万单都是400~600元,而这个月5万单则是2万单300元,2万单400元,5千单500元,5000单超过2500元 ——客户购买习惯已经发生了巨大变化,一方面可能是客户订单在变小(可能是因为产品单价下降,采购数量减少,或者客户选择了比较便宜的替代品),另一方面 出现了一些相对较大的订单(可能是中小企业采购,或者是网站扩充产品线见效了)。——看数据分布可以让我们更容易发现这些潜在的变化,及时的做出应对。
二、拆因子
很多时候我们很难直接从数据变化中分析出具体的原因,这时可以考虑拆分因子,将问题一步步细化找寻原因。
例如网站转化率下降,我们要找原因。因为“转化率”=“订单”/“流 量”,所以“转化率”下降的原因很可能是“订单量下降”,“流量上升”,或者两者皆是。按照这个思路我们可能发现主要的原因是“流量上升”和“订单量升幅 不明显”,那么
下面我们就可以来拆解“流量”的构成,例如拆成“直接访问流量”、“广告访问流量”和“搜索引擎访问流量”再看具体是哪部分的流量发生了变 化,接下来再找原因。这时我们可能看到说是搜索引擎访问流量上升,那就可以再进一步分析是付费关键词部分上升,还是自然搜索流量上升,如果是自然流量,是 品牌(或者网站名相关)关键词流量上升,还是其他词带来的流
量上升——假如最后发现是非品牌类关键词带来的流量上升,那么继续寻找原因——市场变化(淡季旺季之类),竞争对手行动,还是自身改变。假如刚好在最近把产品页面改版过,就可以查一下是不是因为改版让搜索引擎收录变多,权重变高。接下来再分析自己到底哪里做对了帮助网站SEO了(比如把页面导航栏从图片换成了文字),把经验记下来为以后改版提供参考;另
一方面还要分析哪里没做好(因为新增流量但是并没有相应增加太多销售),研究怎样让“产品页面”更具吸引力——因为对很多搜索引擎流量来说,他们对网站的第一印象是产品页面,而不是首页。
三、拆步骤
还有些时候,我们通过拆分步骤来获取更多信息。
举两个例子:
第一个例子:两个营销活动,带来一样多的流量,一样多的销售,是不是说明两个营销活动效率差不多?
如果我们把每个营销活动的流量拆细去看每一步,就会发现不一样的地方。营销活动B虽然和营销活动A带来了等量的流量,可是这部分流量对产品更感兴趣,看完着陆页之后更多的人去看了产品页面。可惜的是虽然看产品的人很多,最后转化率不高,订单数和营销活动 A一样。
这里面还可以再深入分析(结合之前提到的分析方法,和下一章要说的细分方法),但是光凭直觉,也可以简单的得出一些猜测来,例如两个营销活动的顾客习惯不太一样,营销活动 B的着陆页设计更好,营销活动 B的顾客更符合我们的目标客户描述、更懂产品——但是我们的价格没有优势等等这些猜想是我们深入进行分析,得出行动方案的起点。至少,它可以帮助我们
更快的累计经验,下次设计营销活动的时候会更有的放矢,而不是仅仅写一个简单report说这两个营销活动效果一样就结案了。(注:这是个简化的例子,实际上还可以分更多层)
第二个例子可能更常见一些,比如网站转化率下降,我们可以拆成这样的漏斗:
这样拆好之后,更能清楚地看到到底是哪一步的转化率发生了变化。有可能是访客质量下降,都在着陆页流失了,也可能是“购物车–>登录”流失了(如果你把运费放到购物车中计算,很可能就看到这一步流失率飙升),这样拆细之后更方便我们分析。
曾经有一个例子就是转化率下降,市场部查流量质量发现没问题,产品经理查价格竞争力也没问题——最后发现是技术部为了防止恶意注册,在登录页面加了验证码(而且那个验证码极度复杂),降低了“登录页面–>填写订单信息“这一步的转化率。
四、细分用户族群
分析网站流量这是首要工作,如果是网站建设初期,那么此时的流量分析就只要记住网站登陆搜索引擎后的流量基数即可。如果是网站建设中期的话,就要记录网站流量一周的平均值,如果是网站建设后期的话,就要记录网站流量的阶段性波动值!记录好了流量值之后,就可以很好的计划出下一步优化推广的流量值了。
网站优化数据分析方法二:关键词分析
网站关键词分析也是网站优化的重要工作之一!分析现在网站关键词的布局,分析网站有流量的关键词,分析网站还没有覆盖的与网站业务相关的关键词,分析出网站主关键词的排名情况,分析关键词的设计是否合理。分析顶级关键词是否占据了搜索引擎首页的排名,分析搜索关键词的质量高不高,与网站业务的相关度如何?!分析关键词转化率如何等等。
中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2017)03-0104-02
1 综述
1.1 简介
在数字化时代,需要新一代系统架构提升业务创新能力。在新一代系统架构中,大数据是核心要素。业务应用能否自主发现与自助获得高质量的大数据,就成为业务创新成败的关键。这就要在搭建大数据平台时,就着手大数据治理相关建设。
1.2 需求和意义
从某种意义上说大数据治理架构需要以元数据为核心、提高大数据质量、透明化大数据资产、自助化数据开发、自动化数据、智能化数据安全,提升大数据平台服务能力,让大数据平台变得易使用、易获得、高质量。
但是,目前很多技术解决方案存在诸多安全和效率隐患:业务系统多,监管力度大;数据量庞大且呈碎片化分布,急需提升大数据质量;数据格式不规范、难以在短时间内找到所需数据;数据在各阶段的应用角度不同,需要降低系统间的集成复杂度。
2 功能设计
2.1 总体架构
本文讲述的数据分析方法及实现技术是建立在Hadoop/Spark技术生态圈的基础之上,以实现用户集成处理、、清理、分析的一个统一的数据处理平台;按数据类别分为线数据、归档数据;按数据格式分为非结构化数据、结构化数据;按数据模型分类为范式化模型数据、维度模型数据;按数据采集频度分为非实时数据、准实时数据处理架构;并提供数据中心平台与安全管理方案,为企业级用户建立一个通用数据处理和分析中心。如图1所示。
2.2 在线数据
在线数据在线通过接口去获得的数据,一般要求为秒级或速度更快。首先应当将数据进行区分:在线数据、或归档数据。本平台中采用:Storm或Spark Streaming框架进行实现。Spark Streaming将数据切分成片段,变成小批量时间间隔处理,Spark抽象一个持续的数据流称为DStream(离散流),一个DStream是RDD弹性分布式数据集的micro-batch微批次,RDD是分布式集合能够并行地被任何函数操作,也可以通过一个滑动窗口的数据进行变换。
2.3 归档数据
归档数据是在线存储周期超过数据生命周期规划的数据,处理的要求一般在分钟级或速度更慢。通常归档数据的计算量、数据量、数据复杂度均超过试试数据处理。本平台中采用:Hadoop、Spark技术生态体系内的框架进行计算,这里不详细阐述。
2.4 非结构化数据
通常非结构化的数据不一定具备字段,即使具备字段其长度也不固定,并且字段的又可是由可不可重复和重复的子字段组成,不仅可以包含结构化数据,更适合处理非结构化数据。常见的非结构化数据包括XML、文本、图象、声音、影音、各类应用软件产生的文件。
针对包含文字、数据的为结构化数据应当先利用数据清洗、数据治理工具进行提取,这项工作目前仍依赖技术员进行操作,由于格式的复杂性所以难以使用自动化方式进行较为高效的批处理。在治理数据的过程中,需要根据情况对数据本身额外建立描述数据结构的元数据、以及检索数据的索引服务,以便后续更佳深度利用数据。
2.5 结构化数据
结构化数据具备特定的数据结构,通常可以转换后最终用二维的结构的数据,并且其字段的含义明确,是挖掘数据价值的主要对象。
本平台中主要使用Hadoop Impala和Spark SQL来进行结构化数据的处理。Impale底层采用C++实现,而非Hadoop的基于Java的Map-Reduce机制,将性能提高了1-2个数量级。而Spark SQL提供很好的性能并且与Shark、Hive兼容。提供了对结构化数据的简便的narrow-waist操作,为高级的数据分析统一了SQL结构化查询语言与命令式语言的混合使用。
结构化数据根据采集频度可以继续分类为:非实时数据、准实时数据。
2.6 准实时数据
通常准实时数据是指数据存储在平台本身,但更新频率接近于接口调用数据源的数据。适合用于支持数据和信息的查询,但数据的再处理度不高,具有计算并发度高、数据规模大、结果可靠性较高的特点。通常使用分布式数据处理提高数据规模、使用内存数据进行计算过程缓冲和优化。本平台主要采用Spark SQL结合高速缓存Redis的技术来实现。Spark SQL作为大数据的基本查询框架,Redis作为高速缓存去缓存数据热区,减小高并发下的系统负载。
2.7 非实时数据
非实时数据主要应用于支持分析型应用,时效性较低。通常用于数据的深度利用和挖掘,例如:因素分析、信息分类、语义网络、图计算、数值拟合等。
非实时数据根据数据模型可继续分类为:范式化模型数据、维度模型数据。
2.8 范式化模型
范式化模型主要是针对关系型数据库设计范式,通常稻菔遣捎玫谌范式3NF或更高范式。面向近源数据查询、数据主题的整合。范式化模型数据的数据存储区,建议使用并行MPP数据库集群,既具备关系型数据库的优点,又兼顾了大数据下的处理。
2.9 基于维度模型
维度模型数据主要应用于业务系统的数据挖掘和分析。过去多维度数据处理主要依赖OLAP、BI等中间件技术,而在大数据和开源框架的时代下,本技术平台采用Hadoop Impala来进行实现。Impala并没有使用MapReduce这种不太适合做SQL查询的范式,而是参考了MPP并行数据库的思想另起炉灶,省掉不必要的shuffle、sort等开销,使运算得到优化。
3 应用效果
本系统在不同的业务领域上都可以应用,以2016年在某银行的应用案例为例:该银行已完成数据仓库建设,但众多数据质量问题严重影响了数据应用的效果,以不同的数据存储方式,以更高的要求去进行数据的统一管理。通过组织、制度、流程三个方面的实施,以元数据、数据标准、数据质量平台为支撑,实现了数据管控在50多个分支,60个局,1000余处的全面推广,实现了全行的覆盖;管理了120个系统和数据仓库,显著提升了新系统的快速接入能力;通过14个数据规范和流程明确了数据管控的分工;数据考核机制的实施,使其在数据质量评比中名列前茅。
4 结语
本文介绍了大数据下数据分析方法及实现技术的大体设计和思路,从需求分析、总体架构和数据处理以及数据分析这几个方面来介绍。文章在最后介绍出了这种平台的应用效果。笔者相信这些思路和技术能够在业务中能得到很好的应用。
Key Words:Social survey data;Three-dimension matrix;Hypergraph
社会调查是了解各方面信息的重要途径之一,社会调查数据主要是通过调查问卷的方法得到的。由于社会调查数据的维数较高,加上人为主观因素,数据类型主要为二元变量、离散变量、序数变量等为主,所以对于社会调查数据的分析和处理大都基于统计学,只对单一题目进行统计学分析,其分析方法主要是基于题型进行处理的,对于题目和题目之间的关系很少关心[1]。许多数据挖掘算法因为种种限制无法在社会调查的数据分析中得到应用。因为方法的限制,所以现在很多社会调查只能验证事先想好的内容和假设,很少可以对高维数据进行相对复杂的回归分析处理。
根据以上存在的问题,该文建立了基于三维矩阵的数学模型,将单选题、多选题和排序题用向量形式进行表示,每一题定义为空间中的一个维度,从而所有的题目就可以构成一个N维空间。每份问卷的信息用一个M×N矩阵表示。这样表示可以将所有问卷内容当作一个整体,作为后续算法的基础。
1 社会调查数据的特点
通常情况下,社会调查数据特点如下。
(1)相关性。对于一个样本个体而言,它具有本身的多个特征,这些特征之间就具有一定的相关性。对于多个样本而言,个体与个体的特征之间具有相关性。如果样本随时间而变化,那么该样本在不同时刻的特征之间又具有相关性。因此,由于上述多个原因使得社会调查数据具有了复杂的相关性,传统的统计学调查难以解决这样的问题。
(2)离散性。因为社会调查数据是通过自填式问卷、网络调查数据库等方法得到,所以社会调查数据一般以离散变量为主,且这些数据之间只有标示作用,并没有严格的逻辑关系。
(3)模糊性。社会调查数据当中不可避免的会接触到各种表达方式和概念,因此,它具有模糊性。
因为由自填式问卷或结构式访问的方法得到的社会调查数据具有以上特点,所以在实际应用中基于统计学的处理方法只能笼统的显示数据的部分特性,如频数、离散程度等[2]。对于数据之间的关系只能分析出维数极少的大致的关系。
而且利用软件进行数据挖掘时,因为现有的软件中的数据挖掘算法对于数据类型和格式要求较高,所以能应用到的数据挖掘算法很少。就算是数据要求较低的关联分析,其结果也存在大量的冗余。因此,我们需要建立一个合适的社会调查数据的数学模型来完善原先的方法并使跟多的数据挖掘方法可以运用到其中,使得结果更准确。
2 社会调查数据的建模
研究中我们发现,三维矩阵可适用于社会调查数据的建模。
2.1 三维矩阵的定义
三维矩阵的定义:由n个p×q阶的矩阵组成的n×p×q阶的矩阵A称为三维矩阵,又称立体阵。Ak,i,j表示三维矩阵A的第k层,第i行,第j列上的元素。其中n,p,q分别表示三维矩阵的高度,厚度和宽度。
2.2 三维矩阵模型的建立
调查问卷的题目一般有三种类型:单选题、多选题和排序题。这三类题目都可以表示成向量的形式,其中每一道单选题、多选题可以表示成一个向量,排序题可以表示成多个向量组成的矩阵。对于单选题和多选题,可以按选项的顺序可以表示成一个向量,其中选中的项用“1”表示,未选中的项用“0”表示。对于排序题,可以表示成一个n×n的方阵,其中n表示该排序题的选项个数,。这样,每一题就可以定义为空间中的一个维度,从而所有的题目就可以构成一个N维空间。每份调查问卷的信息用一个M×N矩阵表示(M为题目的最大选项数),其在每一维上的选择称之为一个元素,这样每份问卷的信息就包括了N个元素。以第1,2,3题数据为例,其中第1题为单选题选择“B”,用向量表示为一个元素,第2题为多选题选择“ACE”,用向量表示为一个元素,第3题为排序题顺序为CBADEFIHG,用矩阵表示,每一个列向量是一个元素,如图1所示。
那么,假设有一问卷信息用一个大小为M×N的矩阵表示。K份的问卷信息就可以用K个大小为M×N的矩阵表示。将这K个矩阵叠加,形成一个三维矩阵。这个三维矩阵就是我们建立的三维矩阵数学模型,如图2所示。
在图2中我们看到,该三维矩阵数学模型有三个坐标轴,它们分别是题目,人数,选项。题目轴以每一道题为一个单位;人数轴以每一份问卷为一个单位;选项轴的刻度为A,B,C,D,E,F等题目选项,其个数为该调查问卷中选项最多的题目的选项个数。
在此基础之上,这样的三维矩阵具有以下性质。
(1)在题目轴中选取对应的题目,将三维矩阵面向竖切得到截面1(如图2中01所示),截面2表示每一道题所有人选择的信息。
(2)在人数轴中选取对应的人,将三维矩阵横切得到横截面1(如图2中02所示),横截面1表示对应的人选择所有题目的信息。
在得到三维矩阵后,可对它进行像素化处理,置1的元素用黑点代替,置0元素的则空白,在得到像素化三维矩阵后我们可以将三维矩阵沿着人数维度上向下投影,这样就可以得到一个具有浓黑不一的点的平面。通过这些点的浓度,可以知道每一选项选择的人数。接下来我们可用灰度级表示点的浓度,筛选出浓度大于一定程度的点,在此基础上进行后续算法处理。
上述三维矩阵数学模型具有数学三维矩阵的所有性质,可依据调查问卷的需求进行转置,加权、相乘、筛选等数学处理,另外在数学处理的基础上,采用超图理论可以大大丰富了调查问卷的处理方法。
3 基于超图算法的调查问卷分析技术
超图是离散数学中重要的内容,是对图论的推广[3]。超图是有限集合的子系统,它是一个由顶点的集合V和超边集合E组成的二元对,超图的一条边可以有多个顶点的特性,这与一般的图有很大不同。超图分为有向超图与无向超图两类,在无向超图的每条超边上添加方向后得到的有向二元对就是有向超图。超图在许多领域有广泛的应用。
大家可以利用无向超图表示每一道题的选择情况,先将这每一题的每一个选项设成一个节点,然后将三维矩阵从上向下投影,如果某一题的若干个选项同时被一个人选择,就用一条超边包围这些节点,那么选这些选项的人越多,投影得到的超边就越浓。这样就用超图表示了问卷中每道题的信息,可以进行聚类处理。
利用有向超图,可以将关联规则表示成有向超图的形式,在得到了关联规则后,设实际中得到的关联规则的形式为:,前项和后项都是由多个项组成的集合。该文定义一条关联规则由一条有向超边表示,有向超边的头节点表示关联规则的前项,有向超边的尾节点表示关联规则的后项。每条有向超边的头节点和尾节点均可以为多个,如此便成功表示了复合规则,从而可以使用相关算法进行冗余规则检测。
通过基于有向超图的冗余规则检测就可以将关联规则之间存在着的大量冗余检测出,减少挖掘资源的浪费,从而增加了挖掘结果的有效性。
传统的聚类方法都对原始数据计算它们之间的距离来得到相似度,然后通过相似度进行聚类,这样的方法对于低维数据有良好的效果,但是对于高维数据却不能产生很好的聚类效果,因为高维数据的分布有其特殊性。通过超图模型的分割实现对高维数据的聚类却能产生较好的效果。它先将原始数据之间关系转化成超图,数据点表示成超图的节点,数据点间的关系用超边的权重来表示。然后对超图进行分割,除去相应的超边使得权重大的超边中的点聚于一个类中,同时使被除去的超边权重之和最小。这样就通过对超图的分割实现了对数据的聚类。具体的算法流程如下。
首先,将数据点之间的关系转化为超图,数据点表示为超图节点。如果某几个数据点的支持度大于一定阈值,则它们能构成一个频繁集,就将它们用一条超边连接,超边的权重就是这一频繁集的置信度,重复同样的方法就可以得超边和权重。
然后,在基础此上,通过超图分割实现数据的聚类。若设将数据分成k类,则就是对超图的k类分割,不断除去相应的超边,直到将数据分为k类,且每个分割中数据都密切相关为止,同时保持每次被除去的超边权重和最小,最终得到的分割就是聚类的结果。
一、数据统计分析的内涵
数据分析是指运用一定的分析方法对数据进行处理,从而获得解决管理决策或营销研究问题所需信息的过程。所谓的数据统计分析就是运用统计学的方法对数据进行处理。在实际的市场调研工作中,数据统计分析能使我们挖掘出数据中隐藏的信息,并以恰当的形式表现出来,并最终指导决策的制定。
二、数据统计分析的原则
(1)科学性。科学方法的显著特征是数据的收集、分析和解释的客观性,数据统计分析作为市场调研的重要组成部分也要具有同其他科学方法一样的客观标准。(2)系统性。市场调研是一个周密策划、精心组织、科学实施,并由一系列工作环节、步骤、活动和成果组成的过程,而不是单个资料的记录、整理或分析活动。(3)针对性。就不同的数据统计分析方法而言,无论是基础的分析方法还是高级的分析方法,都会有它的适用领域和局限性。(4)趋势性。市场所处的环境是在不断的变化过程中的,我们要以一种发展的眼光看待问题。(5)实用性。市场调研说到底是为企业决策服务的,而数据统计分析也同样服务于此,在保证其专业性和科学性的同时也不能忽略其现实意义。
三、推论性统计分析方法
(1)方差分析。方差分析是检验多个总体均值是否相等的一种统计方法,它可以看作是t检验的一种扩展。它所研究的是分类型自变量对数值型因变量的影响,比如它们之间有没有关联性、关联性的程度等,所采用的方法就是通过检验各个总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。(2)回归分析。在数据统计分析中,存在着大量的一种变量随着另一种变量的变化而变化的情况,这种对应的因果变化往往无法用精确的数学公式来描述,只有通过大量观察数据的统计工作才能找到他们之间的关系和规律,解决这一问题的常用方法是回归分析。回归分析是从定量的角度对观察数据进行分析、计算和归纳。
四、多元统计分析方法
(1)相关分析。相关分析是描述两组变量间的相关程度和方向的一种常用的统计方法。值得注意的是,事物之间有相关关系,不一定是因果关系,也可能仅仅是伴随关系;但如果事物之间有因果关系,则两者必然存在相关关系。(2)主成分分析。在大部分数据统计分析中,变量之间是有一定的相关性的,人们自然希望找到较少的几个彼此不相关的综合指标尽可能多地反映原来众多变量的信息。所谓的主成分分析就是利用降维的思想,把多指标转化为几个综合指标的多元统计分析方法,很显然在一个低维空间识别系统要比在一个高维空间容易的多。(3)因子分析。因子分析的目的是使数据简单化,它是将具有错综复杂关系的变量综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系,同时根据不同因子,对变量进行分类。这些因子是不可观测的潜在变量,而原先的变量是可观测的显在变量。(4)聚类分析。在市场调研中,市场细分是最常见的营销术语之一,它按照一定的标准将市场分割为不同的族群,并使族群之间具有某种特征的显著差异,而族群内部在这种特征上具有相似性。聚类分析就是实现分类的一种多元统计分析方法,它根据聚类变量将样本分成相对同质的族群。聚类分析的主要优点是,对所研究的对象进行了全面的综合分析,归类比较客观,有利于分类指导。(5)判别分析。判别分析是判别样品所属类型的一种多元统计方法。若在已知的分类下,遇到新的样本,则可利用此法选定一种判别标准,以判定将该新样品放置于哪个类中。由定义我们可以知道判别分析区别于聚类分析的地方,而在判别分析中,至少要有一个已经明确知道类别的“训练样本”,从而利用这个数据建立判别准则,并通过预测变量来为未知类别的观测值进行判别。与聚类分析相同的地方是,判别分析也是利用距离的远近来把对象归类的。
参考文献
学生每一个学习行为的背后,都是有目的、有价值、有意义的。简言之,学生自己要真正认识到这种学习是有用的,哪怕仅仅是因为有趣、好玩,才能激发学生进行相关学习的愿望和兴趣。对于数据分析观念的培养,教师有必要替学生问一个“为什么”,问题不必明确提出,但一定要把相关信息告诉学生,引发学生强烈的认知冲突,才会产生进行数据收集、整理与分析的欲望,才会使他们认识到学习数据分析的必要性,产生兴趣,从而建立与培养其初步的数据分析观念。
以二年级上册“统计”一课的学习为例,学生首次接触“统计”的相关内容。在学生尚不真正知道与理解该词的确切含义的情况下,教材提供的课例是“统计最喜欢的动物”,以统计图形式呈现出喜欢四种动物(小猫、小狗、小兔、乌龟)的学生的人数,并提供了3道题目,但教材始终没有告诉学生,“为什么我要学习这个知识”、“为什么我要进行数据分析”。此时,对这一问题的提出与引导学生思考,只能由教师在不动声色中完成。所以,教学时,利用学生爱吃零食的特点,我调整了教学思路,首先,我征得学生同意,打算用班上卖废品的钱给学生买糖吃。此举得到学生们的一致欢迎;其次,我要求5个小组长提前去学校门口的超市,了解糖块的种类与价格,并告知其他同学;再次,我要求班委成员负责了解班上每一名同学的需求并进行分类、计算总量。每人限一块,以便于合理安排买糖的数量与花费;再次,将买来的糖带入教室,上课,进行相关的数据整理与分析;最后,完成全部教学任务后,吃糖。
当我将此想法与实际的授课过程讲给其他老师听时,有老师笑谈“孩子们学习的动力就是吃糖”。我不否认这是学生们积极参与教学活动的动力之一,因为事先我有告诉学生全部的活动过程与“完不成就不会有糖吃”的话。但不可否认的是,对于二年级的学生来说,为了达成“每个同学都能吃到自己想吃的糖”这一目标,要在活动的每一个步骤都进行相关数据的收集、整理与分析,才能正确且顺利地完成任务。简言之,等于我们告诉学生,“为什么要进行数据分析”、“只因为我们需要达成一定的目的”,并且,活动的每一步骤的数据分析都有学生亲自进行,并明确知晓这样做的原因——当然不是教师的程式化的要求,这就使得学生的数据分析工作是主动的,各成员之间是相互合作的,既使学生愉快地接受了数据分析的内容与过程,也在增强学生数据分析观念的同时,培养了学生主动学习与合作的精神。
二、挖掘数据中蕴藏的深层信息,体验数据分析的应用价值
[中图分类号]G819[文献标识码]A[文章编号]1005-6432(2013)46-0099-02
1引言
探索性数据分析方法是一种新型的统计分析手段,近年来在许多行业得到了广泛的应用,并取得了明显成效。其强调了数据本身的价值,可以更加客观地发现数据的规律,找到数据的稳健耐抗模式,从而发掘出数据的隐藏信息。本文从职工平均工资的实际数据出发,利用探索性数据分析中的工具,直观地探索华东六省职工平均工资的规律,挖掘数据特征和有价值的信息。
2华东六省职工平均工资的描述性分析
职工平均工资指企业、事业、机关单位的职工在一定时期内平均每人所得的货币工资额。它表明一定时期职工工资收入的高低程度,是反映职工工资水平的主要指标。由于中国城市众多,各地经济发展水平有较大的差异,生活水平和生活质量也各有不同,为了缩小地理差异对研究数据的影响,得到较为准确和有意义的结果,这里只选用了2010年华东地区六个省的职工平均工资运用探索性数据分析方法做初步的描述性分析和研究,每个省选取了9个大城市。
为了更加简单直观地对比各个省市的数据,我们绘制了箱线图,如图1所示。对华东六省进行对比中,可以看到只有江西省和福建省是有离群值的,说明了这两省中存在着个别城市职工平均工资与同省其他城市相比特别大,其他几省的数据就不存在离群值。对于四分展布,可以得到大小关系,安徽>江苏>浙江>山东>福建>江西,可知安徽和江苏中城市的职工平均工资差异较大,福建和江西相比起来,则分布得更加集中。
图1华东六省2010年职工平均工资水平箱线图
综合对比各个省的中位数,可以发现江苏省平均职工工资水平最大,江西省最小,从经济上反映了地区经济发展差异,江苏紧靠上海,处在华东的中心,交通系统发达,同时,长三角江苏占了大部分,其靠海的地理优势给它带来了更多的经济发展机会,导致了职工工资水平中位数相差如此大。
同时可以直观地看出安徽省数据对称性最好,除了福建省数据呈现左偏趋势外,其他省都呈现右偏的趋势,其中江西省的数据最为严重,主要是受到了两个离群值的影响,为了使其更对称,我们运用探索性数据分析方法中的对称变换方法,在经过R软件的计算后,得到职工平均工资的对称性变换图,如图2所示。
图2江西省2010年职工平均工资水平对称性变换图
进行对称性变换后,运用R软件拟合曲线,得到:
由图3可以看出,在进行对称匹配变换之后,江西省的两个离群值消失了,数据变得更加集中,趋势也更加易于分析和研究。这样的数据会给分析带来便利,更加清晰和直观地表现出数据的本质特征。
图3江西省2010年职工平均工资水平匹配
3结论
使用探索性数据分析技术具有耐抗性和稳健性的特点,通过箱线图可以简单直观地看出数据间的差异,华东六省中浙江、江苏省职工平均工资较高,安徽、山东、福建省处于中间,江西省最低。安徽省的数据较为分散,同时数据比较对称,而江西省的数据有着极大的右偏性,在经过了对称、匹配变换后,仍然与华东地区其他省的数据有较大的差异,可能是由离群值太大造成的。
参考文献:
所谓的交通事故预测是根据已发生交通事故的数据进行统计,在对事故原因进行分析的基础上,探寻事故规律,以针对交通事故做出更为合理的推测和判断。当前,交通事故预测方法相对较为多样,如回归分析、时间序列等,虽然都能对交通事故做出科学合理的决策性指导,但各具优缺点和适用条件,因而有关人员应在遵循交通事故预测思想的基础上,对几种主要预测方法进行分析,确保交通部门人员能够根据实际情况而合理选择交通事故预测方法。
1 交通事故预测思想
交通事故对人类造成的危害相对较大,对人类产生严重的威胁。从我国发展实践中可知,交通事故在一定程度上制约我国经济的发展进程,尤其对人类社会福利、医疗保险等方面的影响较大。据不完全统计,2015年全年间,我国交通事故约为10597358起,死亡人数约为68432人,财产损失高达10亿元以上。可见,交通事故威胁隐患相对较大。交通事故预测能够根据已发生交通事故进行统计、分析、处理,在遵循规律的基础上,对未来可能发生的交通事故作出科学合理的预测,该预测结果以科学逻辑推断为基础。就交通事故原因而言,道路环境、交通条件、车辆、驾驶员等都是影响因素。通过交通事故预测,我国交通部门人员能够对交通事故作出科学合理的判断和制定有效的预防策略,以最大限度降低和消除交通事故隐患。
2 交通事故主要预测方法
2.1 回归分析预测法
回归分析预测法在交通事故预测中的有效应用,主要分为线性回归和非线性回归两种方法。首先,背景交通工程研究所人员提出线性回归分析预测法,通过对自变量和因变量之间关系问题的探讨,对因变量趋势加以预测,其模型为:
Y=3577.79+93.3028lgX1+824.921lgX3+326.777lgX4+800.454lgX5-1149.051lgX6-224.902lgX8-45.0499lgX9-152.6081lgX10-287.191lgX11。
其中X1-X11分别表示临时人口、常住人口、机动车辆、自行车、道路长度、道路面积、灯控路口、交通标志、交通标线、失控部位、交警人数。
其次,英国伦敦大学SemeedR.J教授对欧洲国家十余载的交通事故资料进行研究,提出非线性回归分析预测法。对此,他建立幂函数曲线事故模型,
即:D=0.0003。其中D为交通事故死亡人数;N是机动车保有量;P为人口数量。
回归分析预测法能够对交通事故影响因素间的因果关系加以反应,以达到预测结果的目的,但对变化趋势的反应可能较为迟钝。该预测方法适用于样本量较大、数据波动小和极具规律性的预测实践中。
2.2 时间序列预测法
时间序列预测法主要有两种类型,分别为移动平均预测法和指数平滑预测法。首先,移动平均预测法是比较简单的平滑预测技术,通过计算项数时序平均值,对长期发展趋势变化做出科学合理的预测。内蒙古科技大学韦丽琴、徐勇勇利用时间序列ARIMA模型做出科学合理的预测分析,对交通事故加以预测。其次,指数平滑预测法的通式为:
Ft+1=αxt+(1-α)Ft
时间序列预测法属于定量预测方法,拟合效果良好,但在短期预测中,受诸多因素干扰影响较大,使预测结果具有不确定性。该方法适用于国内县区等区域范围较小的预测实践中。
2.3 灰色马尔科夫链预测法
道路交通系统属于动态时变系统,但影响交通安全的因素多且复杂。在灰色马尔科夫链预测法的指导下,相关人员能够通过灰色预测模型,做出短期预测,以缩小预测区间,提高预测效率。云南交通职业技术学院王刚对灰色马尔科夫链预测法而建立模型,对交通事故进行预测,根据实践可知,基于该模型的预测精确度十分高,取得良好的预测成效。
灰色预测以短期预测为主,马尔科夫链预测以长期预测为主,通过二者结合,可提高预测精度,但如若数据变化大,则灰色模型的吻合度和精度下降。借助该预测方法,能够对状态下的转移规律加以预测,并揭示交通事故时序变化总趋势。
2.4 贝叶斯预测法
贝叶斯预测法主要相对于交通事故中的车速问题而言。在交通事故中,车速是重要影响因素,如若车辆速度过快,则驾驶员反应的时间较少,其应急策略不足,造成重大交通安全隐患。贝叶斯预测法能够对未来交通事故发生的可能性进行预测。该预测方法应用中,必须建立在交通事故和车速有关联的基础之上,有助于交通部门人员更好开展数据统计和交通流进行观测。
2.5 灰关联分析及神经网络预测法
就灰关联分析及神经网络预测法而言,哈尔滨工业大学交通研究所和中国城市规划设计研究院的裴玉龙与张宇提出该方法,旨在通过交通事故影响因素分析,对事故进行进一步解析,并建立合理的模型理论和确定预测指标,对未来交通事故发展趋势加以预测。该预测方法的适应性较强,在我国交通事故预测工作实践中有着较为有效的运用,可解决传统预测方法难以解决的问题,建立在BP网络基础之上,并利用计算机开展辅计算活动。
2.6 多层递阶预测方法
多层递阶预测方法能够规避传统统计预测方法的缺陷,以现代控制理论“系统辨识”为重要基础,对对象的未来状态做科学的预测。动态系统数学模型为:y(k)=。在交通事故预测中,多层递阶预测方法是大数据时代背景下的重要处理方式,有利于增强预测效果。
3 结论
交通部门对交通事故进行合理的预测,有利于提高道路交通系统的安全系数。所以,相关人员合理选择交通事故预测方法具有必要性,为规避交通事故而做出科学合理的决策。目前,使用较多的交通事故预测方法主要有:回归分析预测法、时间序列预测法、灰色马尔科夫链预测法、贝叶斯预测法、灰关联分析及神经网络预测法等,因其各具优缺点和适用条件,因而要求相关人员必须对系列问题进行深入探究,确保公路交通事故预测的有效性。
参考文献
[1]李景文,高桂清.交通事故预测分析[J].中国安全科学学报,2015,6(01):20-23.
[2]刘志强.道路交通事故预测方法比较研究[J].交通与计算机,2013,19(05):7-10.
一、分压电路特性研究及参数的变化
首先,用1000Ω滑线变阻作分压器,负载电阻用1000Ω(K=1),测出滑线电阻滑动端的位置参数X和U/Umax分压比,并作出U/Umax的关系曲线。其次,同上,用1000Ω滑线电阻和500Ω的负载电阻(K=0.1),测出X和U/Umax,记录不同的K值。在Matlab软件中编写下列程序实现分压电路实验数据的处理和图像的拟合:
x0=0:0.1:1.0;
y1=[0 0.24 0.48 0.58 0.72 0.92 1.12 1.58 2.18 3.42 4.46];
z1=max(y1);
y2=[0 0.38 0.72 0.98 1.32 1.72 2.02 2.48 3.26 4.18 4.64];
z2=max(y2);
y3=[0 0.40 0.82 1.18 1.58 2.02 2.40 2.98 3.62 4.32 4.52];
z3=max(y3);
y4=[0 0.18 0.28 0.34 0.48 0.58 0.78 1.02 1.66 2.98 4.48];
z4=max(y4);
n=3;
p1=polyfit(x0,y1,n)
p2=polyfit(x0,y2,n)
p3=polyfit(x0,y3,n)
p4=polyfit(x0,y4,n)
xx=0:0.01:1.0;
yy1=polyval(p1,xx);
yy2=polyval(p2,xx);
yy3=polyval(p3,xx);
yy4=polyval(p4,xx);
plot(xx,yy1/z1,'r',x0,y1/z1,'.r')
hold on;
plot(xx,yy2/z2,'k',x0,y2/z2,'.k')
hold on;
plot(xx,yy3/z3,'b',x0,y2/z2,'.b')
hold on;
plot(xx,yy4/z4,'g',x0,y4/z4,'.g')
hold off;
由实验可得不同K值的分压特性曲线,如图1所示。从曲线可以清楚看出分压电路有如下几个特点:第一,不论R0的大小,负载RZ的电压调节范围均可从0■E;第二,K越小电压调节越不均匀,曲线线性程度越差,细调程度较差;第三,K越大电压调节越均匀,因此要电压U在0到Umax整个范围内均匀变化,则取K>1比较合适。
■
图1 不同K值的分压特性曲线
二、制流电路特性研究及参数的变化
首先,用1000Ω滑线变阻作制流器,负载电阻用100Ω(K=0.1),测出滑线电阻滑动端的位置参数X和分压比I/Imax,并作出I/Imax-x的关系曲线。其次,同上,用10000Ω滑线电阻和20Ω的负载电阻(K=0.02),测出X和I/Imax,记录不同的K值,并作出关系曲线,在Matlab软件中编写下列程序实现制流电路实验数据的处理和图像的拟合:
x0=0:0.1:1.0;
y1=[0.04 0.04 0.08 0.12 0.18 0.22 0.30 0.52 1.02 3.58 4.18];
z1=max(y1);
y2=[0.04 0.04 0.08 0.12 0.18 0.24 0.30 0.52 0.92 2.38 4.98];
z2=max(y2);
y3=[0.02 0.02 0.02 0.04 0.12 0.18 0.28 0.40 0.70 2.98 3.52];
z3=max(y3);
y4=[0.01 0.01 0.01 0.01 0.02 0.08 0.20 0.30 0.60 1.20 2.0];
z4=max(y4);
n=3;
p1=polyfit(x0,y1,n)
p2=polyfit(x0,y2,n)
p3=polyfit(x0,y3,n)
p4=polyfit(x0,y4,n)
xx=0:0.01:1.0;
yy1=polyval(p1,xx);
yy2=polyval(p2,xx);
yy3=polyval(p3,xx);
yy4=polyval(p4,xx);
plot(xx,yy1/z1,'r',x0,y1/z1,'.r')
hold on;
plot(xx,yy2/z2,'k',x0,y2/z2,'.k')
hold on;
plot(xx,yy3/z3,'b',x0,y2/z2,'.b')
hold on;
plot(xx,yy4/z4,'g',x0,y4/z4,'.g')
hold off;
(上接第47页)
■
图2 不同值的制流特性曲线
图2表示不同K值的制流特性曲线,从曲线可以清楚地看到制流电路有以下几个特点:第一,K越大电流调节范围越小;电流调节越均匀,曲线线性程度较好;第二,K(K≥1)时调节的线性较好;第三,K较小时(即R0>RZ),电流调节范围大,电流调节越不均匀,曲线线性程度越差,细调程度较差;第四,不论R0大小如何,负载RZ上通过的电流都不可能为零。第五,制流电路适用于负载电阻较小,功耗较大,电压调节范围较小的场合。
综上所述,当负载电阻较大时,要求调节范围较宽时宜采用分压电路。相反,在负载电阻较小,功耗较大且调节范围不太大时,选用制流电路较好。
参考文献:
[1]陈玉林,李传起.大学物理实验[M].北京:科学出版社,2007:186-190.
统计应用作为数学的重要领域,在大多数情况下,数据被收集并且通过一定方法在系统中存储,重要策略被记录,并应用于其他领域。随着数据恢复方法和统计分析方法的逐步集成,大数据的统计数据分析方法在财务管理中变得越来越重要。面对当今全球化的压力和经济市场的激烈竞争,使用财务管理的统计整合是提高有效管理效率,优化资源分配和科学行为的有效步骤。通过市场经济的发展和经济水平的不断提高,数据集成和财务管理水平运用了大数据的统计分析。在建立大规模数据的经济增长政策时,技术在宏观经济研究中起着重要作用。大数据统计分析的作用正在增加,其在管理中的用途正在进一步扩大。显然,加强对经济发展大数据统计分析技术的使用对促进经济增长和提高管理效率非常重要。
一、大数据统计分析方法在经济管理领域运用的意义
为响应市场环境和公司治理内容的变化而促进使用公司治理统计数据的需求主要体现在两个方面:
(一)宏观经济方面发展有若干规律。为了寻找有关经济发展的规律,强大的数据分析技术在宏观经济学中的应用非常重要。一方面,大数据分析统计数据用于从宏观经济发展行业收集数据,对相关行业信息进行实证分析,并调查行业发展和行业问题。使用SPS,Stata和其他数据分析软件,中国拥有最重要的发展法;同时,发现工业发展规律,规范工业发展,开辟新的经济发展方式也很重要[1]。
(二)企业经营管理方面1.提升企业竞争力的必然要求当前,业务发展的竞争越来越激烈。竞争压力主要归因于国内市场经济带来的经济化以及国内市场竞争激烈加入的外国公司的影响。公司必须面对激烈的市场竞争。大众市场信息的统计分析将调整生产和管理策略,并为业务发展的战略调整作出有效的决策。2.提升企业管理水平的必然要求一方面,诸如运营管理、财务管理、风险管理和企业资源管理等相关任务变得越来越复杂。需要统计分析方法来对丰富的业务操作信息进行分类和汇总,为业务管理决策提供有效的信息。同时,企业需要不断满足产品和服务生产方向的政治要求。由于需要与相关部门合作,例如运营财务管理、规避财务风险,因此需要建立相关部门的统计数据,以提高决策效率[2]。
二、大数据统计分析方法在经济管理领域的运用
利用大数据的统计数据分析技术研究宏观经济发展政策,对促进行业发展至关重要。另一方面,如何获取有关复杂数据管理的重要信息,在业务流程和管理方面为公司制定有效的决策是重中之重。关键在于掌握财务管理的大数据分析方法,并使用大数据统计分析技术来分类和提供业务流程管理,隐藏的规则以及来自异常数据点的大量信息。为了应对突况,管理人员需要制订正确的决策计划。本文主要讨论宏观经济应用管理领域的统计数据分析方法,以及业务管理、财务管理、风险管理和管理的六个方面。如:
(一)宏观经济方面关于宏观经济产业的运作和发展有若干规律。为了找到宏观经济发展方法,统计分析技术对于稳定经济增长和调查潜在的经济危机很重要。当前,不仅学者,业务经理也开始了解计算机技术的使用,并开始通过统计分析来发现工业发展中的若干问题,学习工业发展的原理。为了找出答案,我们选择了相关的影响因素并采取了相应的行动,采取措施提高工业发展效率。
(二)企业运营管理方面通常,在日常工作程序和工作相关领域中存在某些特定的业务管理和操作规则。另一方面,通过将统计信息应用于业务的运营和管理,公司可以通过分析大数据的统计信息来获得规律。这将帮助公司节省一些资源,避免重复的任务并节省公司的业务资源。如果该政策是从科学的统计评估阶段得出的,则情况与正常情况不同的企业高管应仔细考虑潜在的风险。
(三)企业营销管理方面企业需要建立大型数据管理系统来收集有关企业提供的产品或服务的市场交易信息。因此,消费者的热点必须与受管理的信息系统对齐,以使其隐藏在协同交易信息中。确定消费者对需求的偏好并确定消费者需求。公司的主要产品和服务根据消费者的喜好运作,可以满足消费者的需求,替代市场上的非反应性产品和服务。同时,开发新产品和服务企业领导者可以提供有效的决策信息,并为消费者创建新的热点[3]。
(四)企业财务管理方面应用管理统计信息。它通过审查有关生产过程和运营的统计数据(尤其是财务数据),进行定性和定量分析,帮助评估相关活动,例如商业投资。财务管理是开展业务必不可少的部分,这对于减轻公司的财务风险和提高公司资源分配的效率至关重要。通过统计分析对商业经济数据进行分类和分析,可以为高管、投资者和其他相关利益相关者提供有效的决策信息。
(五)企业人力资源管理方面将统计应用于公司的人力资源管理,并使用统计分析技术结合公司业务管理部门的特征,选择适当的方法来提高效率。人力资源管理很重要,人才基本上是企业的无形资产,在部门保留相关的人力资源是业务发展的关键。回归站评估法用于预测企业发展的人力资源需求,动态分析法用于根据状态预测人力资源的变化。将这两个方面结合起来可以大大提高业务资源的效率。
(六)企业风险管理方面使用统计分析技术对业务流程中的大量业务信息进行分类和分析,发现隐藏的规则和数据差异。重要的是,业务主管需要进行预测,做出正确的决定,解决事件并发现潜在危险。意思是如果统计数据分析有些奇怪,则需要找出业务流程中具有的某些规则,因此业务主管需要寻找更多异常条件,尤其是财务管理,要注意关注状态的变化。另一方面,对公司财务信息进行统计分析是公司规避财务风险的有效手段之一。
三、完善大数据统计分析方法在经济
管理领域运用的措施在本文中,我们将了解如何从六个方面分析大数据的统计数据:宏观经济活动、业务管理、风险管理、财务管理、资源管理和财务管理人员。这被认为是财务管理数据大规模统计方法的一种改进。必须在三个方面进行现场应用:
(一)社会宏观经济层面尽管存在宏观经济法则,但根据过去的经验,由于缺乏安全可靠的数据和分析方法,宏观经济法则的分析则一直被认为是伪科学。大数据分析技术提供了探索宏观经济法则的机会,大数据技术使用数据创建系统,而使用许多信息技术的科学分析是宏观经济法研究中的重要一步。特别是,某些行业使用行业信息和对经济趋势预测的全面分析来帮助识别和克服复杂的工业发展挑战,可以提高宏观经济发展效率。
(二)企业经营管理层面在公司上载和数据受限的情况下,企业很难优化管理功能以提高性能[2]。由于业务经理的管理理念和管理水平受到限制,因此很难断定业务开发操作和管理流程是否存在问题。统计分析技术可用于计算和评估每个关键决策或业务战略适合性的有效性。如果由于大数据分析技术而导致预期的数据销量存在矛盾,该公司可以调整其总体战略并进行业务变更以优化管理理念。
(三)行业与行业之间存在着一定的鸿沟无论是快速消费品行业、食品行业还是大型公司,其经营理念和经济结构在公司治理方面都存在根本差异。统计数据分析技术使公司能够了解整个行业的消费者需求的性质,分析社会经济状况,能够了解共同的业务条件和业务发展情况,并优化或区分劣质产品。在某些情况下,此更改是提高产品价格的高级更改,如果消耗量和消耗品减少,则可以降低产品价格。产品必须能够升级以满足顾客需求。产品行业、食品行业或大型行业具有不同的经营理念和财务结构,还在进行公司管理。但是,各个行业的业务方向取决于消费者的需求。换句话说,公司开发了产品的功能并使产品的功能适应消费者的需求。对于公司而言,通过优化生产结构并提供更多定价和功能来说服更多消费者也很重要。
(四)企业财务管理层面财务管理贯穿公司治理的整个过程。公司财务管理非常有效,但是存在诸如财务管理的巨大风险之类的问题。对公司财务信息进行统计分析是防范财务风险的有效手段之一。公司需要管理其日常收入和支出,并进行大规模会计处理。企业可以使用大数据分析技术来监测财务管理功能并确保标准化业务的财务安全。利用统计分析技术和大数据,公司可以预测潜在的市场和行业风险,以提供最佳解决方案,还可以提供分析大数据的方法,可以跟踪异常并快速发现异常。
四、结语
本文首先从宏观经济方面、企业经营管理方面等两个方面对大数据统计分析方法在经济管理领域运用的意义进行了分析,然后从宏观经济方面、企业运营管理方面、企业营销管理方面、企业财务管理方面、企业人力资源管理方面以及企业风险管理方面等方面对大数据统计分析方法在经济管理领域的运用进行了分析,最后从社会宏观经济层面、企业经营管理层面、行业与行业之间存在着一定的鸿沟以及企业财务管理层面等方面提出了完善大数据统计分析方法在经济管理领域运用的措施。大数据分析技术被广泛用于宏观经济预测、业务管理和公司风险管理,它在优化公司治理和运营结构,有效改善公司治理以及提高公司统一性和核心竞争力等方面发挥着重要作用,可以使公司在激烈的市场竞争中有一席之地。
【参考文献】
[1]张琳.大数据统计分析方法在经济管理领域中的运用浅析[J].营销界,2019(38):291-292.
[2]杜珉.大数据统计分析方法在经济管理领域中的运用探析[J].山西农经,2019(12):27.
[3]陈雪琴.大数据统计分析方法在经济管理领域中的应用[J].山西农经,2019(5):37.
一、数据缺失的程度与机制
数据缺失的程度、机制均影响处理方法的选择。方法不适当也会带来有偏的参数估计M1、方差估计与统计检验,甚至影响数据分析效用。
(一)数据缺失的程度
借助某一变量上数据缺失的比率X描述数据缺失的程度。缺失比率X如何应用方面,当X<10%时应当保留这些贼并对其哳搬的舰曾建议,当X>15%时可以考虑删除采用删除法;MRaymond与Roberts则认为X>40%时才考虑删除这些数据。
(二)缺失机制
缺失数据与诸多变量等相关,处理方法的性质依赖这些相依关系的特征。为论述方便,记全部变量Y观测值中那些完整的变量为Yobs、不完整的为Ymis。如果缺失值与Y相互独立无关,则缺失数据为完全随机缺失(MACR,missingcompletelyatrandom)的,是特殊情形。此时缺失值是总体的一个简单随机抽样。如果缺失值仅与Yobs相关联、与Ymis相互独立,则是随机缺失(MAR,missingatrandom)。如果Yobs与Ymis之间存在着依赖关系,则称非随机缺失(NMAR,notmissingatrandom),是不可忽略的。
二、单一借补
单一借补用一个借补值替代全部缺失值,后用完全数据方法分析数据。单一借补是缺失数据处理中最通用方法之一,有多种方法。
(一)推理借补与最近邻借补
根据已有信息推断缺失数值,该方法简单易行,可提供准确借补值,或者近似准确借补值,同等情况下可优先进行推理借补。例,信息收集时已提供有姐弟信息的某被试“独生子女”一项空着,可推断为“否”。最近邻借补选用与缺失数据提供者相类似的被试数据替代该缺失值。按照匹配变量找到一个以缺失数据提供者类似的被试时,可还用例如欧式距离等来度量类似程度。
(二)均值借法
均值借补用已得数据的均值替代全部缺失值。借补值易均值形成尖峰,严重扭曲数据分布。当数 据缺失非MACR时,将低估统计量方差,导致参数估计偏差,且不适用需方差的复杂分析。
(三)回归借补
回归借补可分为线性回归借补,非参数回归借补等。本文主要关注线性回归借补,用Yk关于数据完全的变量回归模型,回归值替代缺失值。建立回归方程时有一次或多次迭代之分。多次迭代中,预测变量以逐步进人模型,获得预测力最佳、最精简的变量组合;回归值替代缺失值,后建立新模型;如此,至回归系数变化不显著。是类别变量时,则考虑进行变换,进行线性回归。同时,我们还应注意到利用严格的回归方程进行预测,易人为增大变量之间的关系。多数情况下,教育学、心理学讨论的变量大多都不是相互独立的。选择该方法时,须考虑当预测变量与变量Y是否存在高度的相关关系。其构造借补值的逻辑清晰,相对客观。该方法能得到合乎逻辑的结果,尤其满足正态分布时。数据模拟实验表明,方法加精确。
三、多重借补
多重借补(multipleimputation,MI)基于缺失值的预测分布或统计模型的方法:提供多个借补值依次替代各个缺失值、构造个“完全数据”,121,191211后运用完全数据统计方法分别分析多个数据集;分别得到数个分析结果,拟合这多个结果,获得对缺失值的估计等,甚至是置信区间、P值。MI具备例如连续性的优良统计性质。
(一)回归预测法与倾向得分法
回归借补基于已有数据建立回归模型、嵌入借补值。先确定观察协变量,倾向得分法赋予一个条件概率。即对各Y产生一个观测值缺失概率,并以倾向得分表示。依据倾向得分对数据分组,组内进行近似贝叶斯Bootstrap(ABB)借补。
(二)似然的方法
1.极大似然估计
从理论上来看,极大似然法(MaximumLikelihood,ML)至今仍是参数点估计中的重要方法。既定模型下缺失值的诸多估计均可基于似然函数进行。ML利用总体数量特征的分布函数等,建立未知参数的估计量。将Y作为未知变量0,构造关于e的似然函数,后求的参数的极大似然估计量,甚至在参数空间内的置信区间,或者置信区域。
参数极大似然估计量(MLE)具有不变性,推广至多元变量时该优良性质亦成立。这恰能满足实际研究需要。基于其渐进最优性质等,ML成为参数估计的常用方法,诸如SPSS10.0、LISREL8.7等软件包均收人该方法。
2.期望极大化算法
期望极大化算法(Expectation-Maximizationalgorithm,EM)是ML有效方法,主要用来计算基于不完全数据的MLE15。当由于观测过程局限带来数据部分缺失时,或似然估计因似然函数不是解析函数而无效时可选用该方法。EM是一种迭代算法,每次迭代似然函数值都将有所增加,进而保证参数估计值收敛到一个局部极大值。此外,EM可自动实现参数约束。基于软件数据模拟表明X<30%时EM算法可得到比较好的结果。
3.MCMC方法
当缺失值分散在多个变量时,回归法基于对回归系数的估计获得借补值。复杂缺失模型中,回归系数的估算又依赖于借补值。这里似乎存在某种循环论证痕迹。此时,可考虑迭代法中马尔科夫蒙特卡洛方法(MarkovChainMonteCarloAlgorithm,MCMC)。MCMC利用马尔可夫链进行蒙特卡洛积分,可基于无后效性随机过程探讨数量关系、预测变量,还可有包括0出1?抽样等多种具体算法。基于多元抽样MCMC有诸多优点,足够长的时间使得雅过程驗时,MCMC可得卿常麵的结果。171MCMC是与具体的模型结合的,自身有不少扩展方法,且不同MCMC方法对缺失数据的参数估计之间存在差异。不过,X<30%时MCMC方法得到结果与完全数据时拟和较好。这些研究支持MCMC是处理缺失数据的有效方法,软件包SPSS17.0等均收人该方法。
四、不处理
借补值是缺失数据的主观估计值。引人的主观值可能改变原信息系统,甚至带进新噪音、导致分析错误。不处理确保了原有信息不变,并进行分析,其主要包含贝叶斯网与人工神经网络。不过,后者的具体应用仍有限、待进一步探索与实证。研究开始关注神经网络在心理学中的具体应用。
(一)贝叶斯网
贝叶斯网络(BayesianNetworks)是一个有向无圈图,W能描述不确定性因果关联的模型。该有向无圈图带有概率注解,能够表示随机变量的因果关系与概率关系,网络的拓扑结构能够表明如何从局部的概率分布获得完全的联合概率分布。分析缺失数据时,贝叶斯网将结合先验知识与样本数据对数值计算进行推理,得到最佳值。其最大程度利用数据蕴含的信息,是具有鲁棒性的方法。
缺失数据下学习贝叶斯网有各类算法,不少算法是通过对含缺失数据的信息系统完备化得到所需统计因子,最终将问题转化为完全数据下学习贝叶斯的网的问题。例如,结构EM(StructureEMAlgorithm)通过EM算法获得期望统计因子。数据非随机缺失可以通过引人隐藏变量转化为随机缺失问题,m似乎可以仅讨论随机缺失情况下算法。随着研究的推进,新的、优良的算法相继涌现,并得到模拟实验的支持。例如,数据缺失下贝叶斯网络增量学习算法IBN-M。甚至稳健的贝叶斯方法能够适用于含缺失数据的结构方程分析中,此时的结构方程模型选择固定方差。
建构贝叶斯网可由专家人工建构。其中,因果关系、网络结构是不可或缺的。这需对分析领域有相应了解,至少对变量间关系较清楚。在心理学等领域中应用尚待深入研究,该方法运用前景令人期待。
(二)贝叶斯网适用软件能够实现贝叶斯网的软件包不少。Netica是最重要软件之一,可免费下载功能有限的版本。专门进行数值计算的语言Matlab,其编程量较少、调试程序方便、呈现学习所得结构也不繁琐,国内文献也更多地涉及Matlab。BNTtolkit是基于Matlab开发的,提供不少基础函数库,能够进行参数学习与结构学习,且完全免费。缺乏图形用户界面、无法将基本函数集成相应系统是其“硬伤”。
五、结论与讨论
实际应用中,删法“浪费”不少数据,统计力低下,尽量选用其它方法。当满足MAR缺失机制且人在10%时,对删法可运用对有多个项目的量表的数据处理。当满足MAR、变量相关联,可考虑均值借补。当变量之间高相关且X>20%Ht,可考虑回归借补。