绪论:写作既是个人情感的抒发,也是对学术真理的探索,欢迎阅读由发表云整理的11篇聚类分析论文范文,希望它们能为您的写作提供参考和启发。
鉴于遵循数据的客观性和代表性,以及易得性,本文采取以下指标:每千人工业增加值x1;每千人电信业务量x2;每千人移动通信交换机容量x3;移动电话普及率x4;电话普及率x5;广播综合人口覆盖率x6;电视综合人口覆盖率x7;有线电视普及率x8;每十户宽带上网用占有户数x9;R&D经费支出占GDP比重x10;每十人从事科技活动人员总数占有的人数x11;每十人在校大学生人数占有的人数x12;每千人专利授权数占有数x13。其中缺省值用平均值代替或者临近年数内值代替。由于篇幅有限,指标数据省略。
2、因子分析
因子分析法是能够实现数据简化目的的有效方法之一。其基本思想是根据相关性大小把变量分组,使得同组内的变量之间相关性较高,使不同组的变量相关性较低,每组变量代表一个基本结构,这个基本结构称为公共因子。运用因子分析法,借助EXCEL多元统分析,对已得的指标数据进行分析处理,在处理过程中选取方差贡献比率为0.80。
按照方差贡献比率大于80%,应提取前四个因子,它们所解释的方差占总方差的84.58%,这四个因子就可以解释原始数据的大部分信息了。
分析结果中可以得到每个城市的四个因子得分情况F1,F2,F3和F4。最后,对28个城市的信息化水平进行综合评价并排序。以旋转后四个因子的方差贡献率为权数计算综合得分,计算公式为:F=0.5923F1+0.09957F2+0.0804F3+0.0736F4,最终可以得到所有城市的综合得分排名。
由于变量指标取值的同向性,得分越高代表信息化水平越高。排名依次为:北京,天津、广东、浙江、江苏、湖南、福建等等。
3、聚类分析
聚类分析是统计学中研究“物以类聚”问题的多元统计分析方法,在统计分析的应用领域已经得到了极为广泛的应用。其思路为:首先每个数据对象自成一类,并且计算各个类之间的“距离”或者相似性。然后每次将最相似的两类合并,合并后重新计算新类与其他各个类之间的距离或相似度。这一“凝聚”的过程一直继续直到所有对象都归为一类为止。利用各城市的因子得分,还可对28个城市进行分类,得分值相近的城市被认为具有较相似的属性。
4、结果分析
由所得到的聚类图可以看出,全国信息化水平基本上可以分为五类,北京,山西各成一类,从上面的综合水平排名可以看出,北京信息化水平处于全国领先地位,这首先归功于北京的地理位置和政治人文环境,其次结合因子得分矩阵,北京在因子1上的得分最高,而根据因子载荷矩阵可以看出,因子1在13个变量指标上的载荷系数都比较大,证明北京在城市信息化的各个方面都比较出色。山西的信息化综合水平排名第10,属于中等偏上的水平,在因子4上的得分较高,因子4在变量指标x1,x2上的载荷量较大,这正好符合山西是个煤矿大省的特征,通信电信比较发达繁荣。天津、广东、江苏、福建、浙江归为一类,这几个城市都是发达城市,信息化水平偏高,在每个指标上得分都比较平均。而河北、黑龙江、河南、江西、辽宁、吉林、湖北、湖南、安徽、山东、四川、海南、重庆可以归为一类,这几个城市由于地理环境、产业结构、人口众多等因素使得信息化水平中等偏下。最后一类,信息化水平偏下的一类包括:内蒙古、甘肃、青海、宁夏、广西、云南、和陕西,信息化水平底下源于经济发展水平不高、对于信息化认识薄弱以及对信息产业的投入不够。
5、政策建议
虽然我国信息化应用工作已取得了较大的成绩,但在发展的过程中还存在着一些问题和不足使信息化带动经济发展的优势难以更好地发挥与国外发达国家相比还有很大差距,就是同亚洲一些发展中国家(或地区)比较也存在不小的距离。当前,经济全球化、我国加入世界贸易组织和世界信息产业的新发展,都对我国信息化应用发展提出了新的要求,因此,我们应认真分析中国信息化水平现状,分析与国外信息化发展的差距,有效地针对问题和不足进行改进,正确地规划未来发展方向和应采取的对策。
对策和建议主要有:(1)加快有关信息化法律、法规的制定,确保应用中的可靠性和安全性(2)降低成本,普及大众。(3)加强信息化知识普及与培训力度。(4)加大国家对信息化投资力度缩小地区间差距。(5)加强信息资源建设,提高信息化服务质量与水平。(6)建立信息化数据采集系统和评价监测体系。
另外,由上文的分析,信息化水平测度的数据很不全面,在每个地区城市的报告中尚未包括有些信息化水平测度指标,比如说信息产业增加值占地区生产值的比重。完整的数据不仅可以帮助很好的测度信息化水平,同时可以鞭策及时发现问题,提出相应的解决办法,这对于提高信息化水平是必要的途径。
参考文献:
[1]张海永.基于因子分析和聚类分析的江苏省13个城市社会发展水平研究.西南民族大学学报·自然科学版,2007,(2).
[2]陈小磊,郑建明,万里鹏.信息化水平测度指标体系理论研究述评.图书情报知识,2006,(9).
一 引言
聚类分析是数理统计中研究“物以类聚”的一种方法。聚类分析是一种无监督分类工具,其目的是在没有先验知识的前提下基于某个相似性度量找出属于同一属性集的数据,继而将数据对象集合分成不同的类,因此它是挖掘数据未知的、具有潜在应用价值的信息的一种很好的方法。介于其在海量数据处理中显现出的优势,使得它在数据挖掘、模式识别、图像处理、经济学(尤其是市场研究方面)等领域得到了广泛的应用。免费论文。然而,正是由于聚类分析的无监督特性,导致了数据最佳的聚类数很难确定,这就是聚类分析面临的最主要的问题。免费论文。
二 FCM方法
经典分类学是从单个因素或有限几个因素出发,凭经验和专业知识对事物分类,这种分类具有非此即彼的特性,分出的类别界限很清晰。免费论文。随着认识的深入,发现这种分类不适用于具有模糊性的分类问题,如图像中的区域之间的边界就往往是模糊不清的。1965年,Zadeh提出了著名的模糊集理论,创建了一个新的学科—模糊数学。
用普通数学方法进行分类的聚类法称为普通聚类分析,而把应用模糊数学方法进行分析的聚类分析称为模糊聚类分析。。。在实际中应用最为广泛的是模糊C一均值算法(FCM:Fuzzy C-Means)。。FCM算法首先是由为Ruspini提出的,但真正有效的方法是由Dunn给出的。1974年Dunn将硬C--均值聚类算法推广到模糊情形,同年Bezdek将Dunn的方法一般化,给出了基于目标函数模糊聚类的一般描述:
其中,表示隶属第类的隶属度函数,表示与的距离,为平滑指数.聚类准则为取为极小值.
1980年Bezdek证明了模糊C-均值聚类算法的收敛性并讨论了模糊C一均值聚类算法与硬C一均值聚类算法的关系。从此,基于目标函数的模糊聚类方法蓬勃发展起来。
三 模糊聚类有效性函数
不少学者为估计数据集存在的最佳聚类数进行了大量地研究,基于模糊聚类分析的最佳聚类数的研究,也取得了丰富的成果。1974年,Dunn给出了如下的有效性判别函数:
其中,
1974年,Bezdek给出了如下有效性判别函数:
1991年,X.L.Xie和G.Beni定义了如下有效性判别函数,在实际应用中取得很好的效果。
四 一种新的聚类有效性函数
2000年, Tibshirani R等提出了Gap统计量,并用它来估计最佳聚类数。方法通过引入一个参考分布,用gap统计量刻画样本观察值与它们在这个参考分布下的期望值之间的差异,最后通过这个统计量得到最佳聚类数的估计。
其中,表示在某参考分布下的期望,一维情况下通常取均匀分布为参考分布,最佳聚类数即出现在取最大值时。
实验证明应用Gap统计量确定最佳分类数取得比较好的效果,但同时我们注意到Gap统计量方法只考虑了数据的几何特征,没有考虑到数据分类的模糊性,所以我们对Gap统计量的方法加以改进,引入数据的模糊特性,从而使分类数的确定更加合理准确。具体方法如下:
令,其中是隶属第i类的隶属度函数,是第i类的质心(均值)。从而定义函数:
表示在某参考分布下的期望,一维情况下通常取均匀分布为参考分布。这样最佳聚类数出现在取最大值时。
参考文献:
1. 黄陈蓉 张正军 吴慧中. 图像分割的Gap统计模型[J]. 计算机科学.2005.
2. 张正军 李建军 刘力维. 标准化水平的Gap统计量的零件图像分割数估计[J]. 中国制造业信息化.2007
3. 李娜 刘力维 张正军. 基于GS方法的图像最佳分割的研究. 南京理工大学硕士学位论文.2006
[分类号]G304
1 引 言
学术期刊是国家科技发展水平的重要窗口,是知识创新、科技成果转化为生产力的重要桥梁,在推动社会科技进步方面发挥着不可替代的作用。期刊评价是文献计量学研究的重要组成部分,它通过对学术期刊的发展规律和增长趋势进行量化分析,揭示学科文献数量在期刊中的分布规律,为优化学术期刊的使用提供重要参考,同时可以提高学术期刊的内在质量,促进学术期刊的健康成长和发展。对期刊评价指标进行分类是期刊评价的基础和前提,目前期刊评价方法有几十种,有些评价方法不需要对期刊评价指标进行分类,如主成分分析、灰色关联、TOPSIS等方法,但是有些评价方法必须建立在期刊评价指标分类的基础上,包括层次分析法、专家打分法、突变理论等。层次分析法是根据子指标对父指标的重要性程度进行两两判断,指标分类尤为重要。专家打分赋权类评价方法是在指标众多的情况下进行的,更需要分类。
Weiping Yue、Concepcion s.Wilson(2004)利用结构方程的原理建立了一个期刊影响力的分析框架,并对期刊评价指标进行了系统的分类。苏新宁(2008)在构建人文社会科学期刊评价指标体系时,将一级指标分为期刊学术含量(篇均引文、基金论文比、机构标注、地区分布数)、被引数量(总被引频次、学科论文引用数量、他引率)、被引速率(总被引速率、学科引用速率、它刊引用速率)、影响因子(总影响因子、学科影响因子、他引影响因子)、被引广度等。盖红波(2006)将期刊评价指标分为定量评价指标(被引量、被索量、载文量、被摘量、影响因子)、定性评价指标(双高、双效、双奖、双百)、质量考核指标(政治、学术、编辑出版、效益)、同行评议指标。赵惠祥、张弘等(2008)将科技期刊评价一级指标分为影响力指标(总被引频次、影响因子、5年影响因子、相对影响因子、即年指标、他引率、引用刊数、扩散因子、学科影响指标、学科扩散指标、被引半衰期、h指数)、文献指标(载文量、参考文献量、平均引文量、平均作者数、地区分布数、机构分布数、基金论文比、海外论文比等)、载体指标(文献书目信息完整率、编排规范化、差错率、装帧质量、印刷质量、网络通畅率、平均发表周期、平均出版时限等)、管理指标(期刊社体制、编委会状况、管理规章完备性、版权制度、发行体制、信息平台、人员状况、营业总额、资产总额、利润总额)。邱均平、张荣等(2004)将期刊评价指标分为技术性指标(影响因子、总被引频次、即年指标)、效益指标(直接效益、间接效益、社会效益)、标准规范化指标(编校质量、装印质量、现代化建设)。黄河胜(2000)将期刊内涵指标分为引文参数(影响因子、总被引频次、自引率、被引半衰期、外文引文率、SCI文献引用率)、稿件特征参数(基金论文比、学位稿)、稿流特征参数(平均时滞量、平均载文量)。潘云涛(2007)”将期刊一级指标分为学术质量指标、国际竞争力力指标、可持续发展潜力指标。庞景安、张玉华等(2000)将科技期刊评价指标分为经营管理水平指标、学术水平、编辑水平三大类。
由于评价目的不同,期刊评价的指标选取不同,当然分类也不一样。对于大多数评价指标而言,不同学者的分类基本相同,但由于学术期刊评价指标的特点,对于少数指标,不同学者分类截然不同,如基金论文比指标有的作为学术质量指标,而有的作为文献特征指标;即年指标有的被作为时效性指标,有的被作为影响力指标。这些难以分类的指标主要有基金论文比、地区分布数、海外论文比、即年指标等。此外,目前学者主要采用主观分类法进行分类,没有采用客观分类法。
本文以中国科学技术信息研究所的医学期刊评价为例,采用聚类分析与因子分析等客观分类法进行分类和比较,试图确定学术期刊评价指标的分类方法,从而为进一步的期刊评价打下基础。
2 方法
2.1 聚类分析(Cluster Analysis)
聚类分析是多元统计分析的一种,它把一个没有类别标记的样本集按某种标准分成若干个子集(类),使相似的样本尽可能归为一类,而不相似的样本尽量划分到不同的类中。聚类分析被广泛地应用于模式识别、数据挖掘和知识发现的许多领域。聚类的目的是要使各类之间的距离尽可能地远,而类中点的距离尽可能地近。并且分类结果还要有令人信服的解释。在聚类分析中,人们一般事先并不知道应该分成几类及哪几类,全根据数据确定。
对一组数据,既可以对变量(指标)进行分类,也可以对观测值(事件,样品)来分类,对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类,它们在数学上是无区别的。在学术期刊评价中,可以应用R型聚类分析来进行学术期刊评价指标的分类。
2.2 因子分析(Factor Analysis)
因子分析是从多个变量指标中选择出少数几个综合变量指标的一种降维的多元统计方法。该方法的基本思想是通过变量的相关系数矩阵或协方差矩阵内部结构的研究,找出能控制所有变量的少数几个随机变量去描述多个变量之间的相关关系。然后根据相关性大小把变量分组,使得同组内的变量之间相关性较高,不同组的变量之间相关性较低。每组变量代表一个基本结构,这个基本结构称为公共因子。对于所研究的问题就可试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。
建立因子分析模型的目的是找出主因子,解释每个主因子的实际意义,以便对实际问题进行分析。由因子模型矩阵得到的初始因子载荷矩阵,如果因子负荷的大小相差不大,对因子的解释可能有困难,因此,为得出较明确的分析结果,往往要对因子载荷矩阵进行正交旋转或斜交旋转。通过旋转坐标轴,使每个因子负荷在新的坐标系中能按列向0或1两极分化,同时也包含按行向两极分化。如果不对因子载荷矩阵进行旋转,就是主成分分析,因此,主成分分析实际上是因子分析的一种特殊情况。主成分分析只要求所提取出的主成分能包含主要信息即可,不需对其含义作准确解释;因子分析要求所提取出的因子有实际含义,因此采用因子分析进行变量的分类较好。
因子分析是根据现有的指标寻找公共因子,因此,可以借用因子分析进行指标的分类,与主观分类不同的是,由于因子分析是完全根据数据进行的客观分析,
因此不能首先确定一级指标的名称,而应该根据因子分析的结果对公共因子进行命名。
3 数据
本文数据来自于中国科学技术信息研究所CSTPC数据库,以医学类期刊为例进行分析。中国科学技术信息研究所从1987年开始对中国科技人员在国内外数量和被引情况进行统计分析,并利用统计数据建立了中国科技论文与引文数据库,同时出版《中国学术期刊引证报告》。本文数据是2006年的医学学术期刊数据,共518种医学期刊,如表1所示:
由于要对期刊进行评价,所以必须对数据进行标准化处理,每项指标最大值设为100,然后按比例进行调整。此外,被引半衰期和引用半衰期是两个反向指标,必须进行适当处理,方法是用100减去其标准化后的结果后再做标准化,这种处理方式是线性处理方式,比反向指标取倒数的非线性处理方式要科学一些。
4 指标分类结果
4.1 聚类分析
采用层次(hierarchical method)R聚类,第一步把最近的两个指标合并成一类;度量剩余的指标和小类间的亲疏程度,并将当前最接近的指标或小类再聚成一类;再度量剩余的指标和小类间的亲疏程度,并将当前最接近的指标或小类再聚成一类,如此循环,每次都少一类,直到最后只有一大类为止。越是后来合并的类,距离就越远。采用SPSS 15.0进行数据处理,选择组内联系最大法(within-groups linkage),结果见图1。总被引频次(x1)与学科扩散因子(X5)被划为一类,都是期刊影响力的指标;影响因子(x7)与即年指标(X8)被划为一类,还是期刊影响力的指标。在此基础上将以上4个指标划为一类,是可以解释的。然后以此为基础,依次增加平均引文数(X11)、海外论文比(X14)、基金论文比(X9)、学科影响指标(X4),关联性相对较弱,如平均引文数与期刊的影响力关系并不是很大,海外论文比和基金论文比与期刊影响力有一定关系,但基于聚类分析的角度,似乎又比较远。
平均作者数(10)和引用半衰期(12)被分为一类,几乎无法从理论上找到这种关系,在此基础上又和扩散因子()(3)聚类,更是无法解释。
被引半衰期(x6)和地区分布数(X13)被分为一类,从理论上也无法解释,在此基础上和他引率(x2)聚类,也无法解释。
由于期刊评价指标的特殊性,如果采用聚类分析对指标进行分类,结果可能是不能令人信服的,本文是基于大量数据分析得出的结论,应该是比较可靠的。
4.2 因子分析分类
同样采用SPSS 15.0进行因子分析,首先进行KMO与Bartlett检验。KMO是对样本充分度进行检验的指标,一般要大于0.5。本文采用SPSS进行数据处理,KMO值为0.680,也就是说,符合因子分析的条件;Bartlett值为3319.828,P
第一因子是总被引频次(x1)、学科影响指标(x4)、学科扩散因子(x5)、影响因子(x7)、地区分布数(X13),前4个指标都是与被引相关的指标,可以用影响力加以概括,地区分布数也是影响力的一种体现,影响力越大,论文地区分布越广。
第二因子包括基金论文比(X9)、平均作者数(XIO)、平均引文数(X11)、海外论文比(X14)、即年指标(x8)、前4个指标都是期刊特征指标,即年指标比较特殊,在第一因子中的系数为0.34,说明它也是影响力指标;在第四因子中的系数为0.424,第四因子包括引用半衰期和被引半衰期,也与引用相关,但第二因子系数最大,为0.531,所以认为其是期刊特征指标。
第三因子包括他引率(x2)和扩散因子(x3),也与被引相关,是影响力的体现,因此可以将第三因子和第一因子合并。
第四因子包括被引半衰期(x6)和引用半衰期(X12),它其实主要反映的是期刊的时效性情况,因为引用半衰期较短的论文,一般比较新,其参考文献也相对较新
0前言
现代科学技术的迅猛发展,特别是在互联网的应用和开发上更加的迅速,企业必须通过网络对自己的产品加强宣传以增强自己的竞争力。客户是一个非常重要的、有价值的重要资源,现在如何更好地从数据库中挖掘出客户中有价值的信息,更好的培植和经营与有价值客户的关系,抛弃那些无利可图没有发展前景而且营销费用高的客户,并且可以针对不同价值的客户给与不同的政策同时制定出个性化的营销策略,这些才能够保证企业的生存发展。对于这一切数据挖掘无疑是行之有效的好方法之一。本文以一个网络营销公司为例,提出了一套可操作性的对客户价值评价方法,然后使用数据挖掘技术中比较常见和常用的聚类分析算法对客户信息进行聚类从而达到非常重要的信息并为企业在网络营销中提供决策依据。
1聚类分析
聚类(clustering)是对于数据挖掘技术是非常重要的一部分,现在也是数据挖掘技术中关键的一种。聚类的意义就是针对物理或逻辑上的数据对象的进行自动分类,最后将数据对象分为多个类或簇的过程。对于聚类结果要使得数据对象在同一个分类中具有最大的相似度,而在不同的类中具有最小相似度。聚类的现实意义就是在于可以将数据按照一定得关系进行自动的分类,事先不知道所有的数据对象共有多少类,通过算法的处理最后得到一个分类结果进行应用。譬如在市场研究领域中,特别是针对网络营销的企业或网站,从大量的网络数据进行分析聚类,可以讲客户分成不同的类别,针对这些类别不同的购买力和兴趣爱好来进行个性化的营销手段,提高企业的经济效益。目前研究人员大多针对于聚类分析算法的改进和完善进行研究,进而提高聚类分析的工作效率。著名的算法有:CLARANS,BRICH,DBSCAN,CURE,STING,CLIGUE和WaveCluster等。
2聚类分析应用于企业客户资源管理
现针对某电子商务公司进行分析,该电子商务公司的客户分布在全国各地以及国外一些地区,现仅列出具有代表性的10个大客户:吉林,黑龙江,山东,江苏,浙江,安徽,湖南,缅甸,印度,南非等。在数据挖掘的目的就是从客户中找到一些共同点,在对这些客户数据进行处理前要使用聚类分析的方法进行研究看看这10个客户能否有一些共同之处以便企业针对不同类型的客户给与不同的对策,首先对该公司采用专家打分的方法,而且还有通过网上问卷调查和访谈的方式,收集各地销售专员的意见等方式,然后对数据加以综合,最后聚类分析法确定各项指标的权重。
那么在具体实施聚类分析法的时候可分为5个步骤进行:
第1步:首先对各项指数构建层次结构,其中被评定的10个大客户作为方案层,客户价值放在目标层中进行处理,各项指标是准则层,按照这样的分层结构来构造客户关系评价系统中个指数的结构图,见图2-1所示;
表2-1指标权重值表
指标
V
V
V
V
V
V
V
V
V
权重
0.0378
0.0401
0.0135
0.0161
0.0251
0.0060
0.0038
0.0091
0.0192
指标
V
V
V
V
V
V
V
V
V
权重
0.0381
0.1498
0.1721
0.0021
0.0201
0.0085
0.0053
0.0231
0.0701
指标
E
E
E
E
E
E
E
E
权重
0.0212
0.0312
0.0754
0.1841
0.0145
1.问题及背景
世界农业的发展历史已经证明:农业机械化是建设现代农业的必然过程,是农业现代化不可逾越的阶段。农业的机械化程度是衡量一个地区农业发展水平的一个重要指标,而不同地区的机械化水平又是不平衡的,以往对农业机械化水平的研究只是停留在对各地农用机械的绝对拥有量的描述上的,《2005年江苏省农业机械化管理统计分析江苏农机化论文》【1】只给出了绝对的统计数据并简单的编制了一些指数,各地区的差异从中表现的并不很明显。本文拟采用因子分析和聚类分析两种方法对吉林省9个地市2005年和2009的农业机械化水平进行排名分类研究。
表1 吉林省农业机械总量及增长率
年份
农用机械总动力(万千瓦)
大中型农用拖拉机(台)
农用小型及手扶拖拉机(台)
大中型机引农具(部)
农用排灌动力机械(台)
粮食加工机械(台)
2005
1471.30
90750
538024
171632
416968
101088
2009
2001
245162
589961
480785
469501
113467
增长率(%)
36.00
170.15
9.65
Based on clustering analysis of air quality analysis
Wang Shuai
(College of mechanical Engineering, South East University, Nanjing, 211189)
Abstract: this paper make use of cluster analysis method to study the district shenzhen city air quality problem, the main pollutant SO2, NO2 and PM10 readings - which were taken, CO and O3 undertake an analysis, get the relationship between the content of each pollutant, and the correlation degree, find the main area is polluted, combined with its geographical position to judge the main pollution sources, to the same kind of area with the same method for centralized management.
Keywords: clustering analysis; air quality; centralized management; pollution sources;
中图分类号:Q938.1+4文献标识码: A 文章编号:
由于空气的扩散作用,导致对空气环境的治理有一定的盲目性,不能做到对症下药,导致效果不佳。将空气检测数据进行聚类分析找出污染问题相近的区域进行其中治理,使方案更加有针对性。
1 数据来源
本文所有的数据都收集自深圳市环境空气质量时报.空气质量时报对深圳各区的空气主要污染物的浓度进行检测,进行评级。
2 聚类分析
聚类分析方法聚类分析方法聚类分析方法聚类分析方法聚类分析关注于根据一些不同种类的度量构造一些相似的对象组成的群体。关键的思想去确定对分析目标有利的对象分类方法。在聚类分析前,首先把数据标准化为Z-分数,采用系统聚类(Hierachical Cluster) 方法,用音差平方和法(Ward法)计算欧几里得(Eudlidean)距离。聚类分析依据的基本原则是:直接比较样本中各事物之间的性质,,将性质相近的归为一类,而将性质差别比较大的分在不同类。也就是说,同类事物之间的性质差异小,类与类之间的事物性质相差较大。其中欧式距离在聚类分析中用得最广,它的表达式如下:其中Xik表示第i个样品的第k个指标的观测值,Xjk表示第j个样品的第k个指标的观测值,dij为第i个样品与第j个样品之间的欧氏距离。若dij越小,那么第i与j两个样品之间的性质就越接近。性质接近的样品就可以划为一类。 当确定了样品之间的距离之后,就要对样品进行分类。分类的方法很多,本节只介绍系统聚类法,它是聚类分析中应用最广泛的一种方法。首先将n个样品每个自成一类,然后每次将具有最小距离的两类合并成一类,合并后重新计算类与类之间的距离,这个过程一直持续到所有样品归为一类为止。分类结果可以画成一张直观的聚类谱系图。
3. 问题分析
3.1分析方法
本调查所采用的是聚类分析法,通过SPSS软件进行统计分析。对问卷进行统计处理得到原始数据表(见表1)。利用SPSS软件得到聚类成员(见表2)和聚类中心(见表3)。同时进行R型聚类即对变量进行分类(见表4)。
表1 原始数据
表2 聚类成员
表3 聚类中心
表4 聚类表
图1树状图
3.2结果分析
由聚类分析的计算结果可以看出,原变量之间的差异不大 ,根据表2所示可知,污染区域可以分为两类,第一类包含16个区域,第二类有两个区域即盐山和葵涌,由聚类中心(表3)可以看出,第一类是以SO2、NO2、PM10为主要污染物的区域,而第二类则以O3为主要污染物。从表4可以看出各类中各区域之间的相近程度。从图1中可以更为直观的看出福永、光明、横岗、观澜和沙井,相近程度更大,而宝安、龙华和华侨程度相近。南油、荔园和荔香相近。图中线条长度表示相近程度。
4 结论
聚类分析法表明,可以将全市分为两个大的空气质量区,一区中的十六个区域,主要治理SO2、NO2、PM10为主,而二区以O3的治理为主。由于空气的扩散作用可知,某一区域的作用会影响到周围一大片区域的空气环境,所以可以结合所属于同一类的区域之间的地理位置关系和该区的主要污染物,对区域内的主要污染源进行排查,从而准确找到相关问题的根源,避免了盲目性。
参考文献(Reference)
[1]汪应洛.系统工程[M].北京:机械工业出版社.2009.54-60.
[2]方开泰.实用多元统计分析[M].上海:华东师范大出版社.1989.291-302.
[3]王学仁,王松桂.实用多元统计分析[M].上海:上海科技出版社.1990.270-272.
[4]方开泰.实用多元统计分析[M].上海:华东师范大学出版社.1989.291-302.
一、引言
近年来,我国物流业发展迅速,物流园区作为物流发展中的一个重要节点,作用日益突出,各个地方纷纷兴起建设物流园区的。据不完全统计,目前全国至少有20多个省市和30多个中心城市政府制定了区域性物流发展规划和政策,还有数不胜数的城市、乡镇甚至街道办事处都要发展物流园区。各个地区物流园区的盲目建设致使物流园区规划建设中存在功能定位不清、盲目攀比、变相圈地等现象。
2004年国务院针对各地由于纷纷盲目建设物流园区出现的不少问题决定将物流园区列入整顿范围。今后的物流园区建设将进入冷静、科学和多元化发展阶段。在全国各地区、 部门和行业分割的管理下,为了防止物流园区在各地布局结构趋同及资源重复配置,有必要对物流园区作更高层次的统筹规划,以实现区域内物流园区的协调发展。
本文针对各地物流园区建设中存在的功能定位不清,资源重复建设等问题,试图从宏观层面通过对物流园区依托地区的条件分析,以及对各有关地区的横向比较研究,确定物流园区宏观布局载体的层次结构体系,判断某地区适宜建设的物流园区层级,对物流园区的空间类型进行合理划分,进而对物流园区进行合理定位。为此,借助主成分和聚类分析方法,通过使用多个经济指标,实现物流园区空间类型划分,以期望对我国的物流园区建设提供一定的指导与借鉴作用。文中选取泛珠三角地区进行实证分析。
二、物流园区空间类型及功能
物流园区空间类型是指物流园区的空间层次类别。物流园区空间层次主要是指物流园区空间布局体系中的层次等级问题。物流园区的层次定位主要取决于其在整个物流服务网络中的地位和作用。根据物流园区主要空间服务地域层次可以将其划分为国际性物流园区、区域性物流园区和城市性物流园区。其布局的空间层次关系如表2.1所示。
对物流园区宏观空间布局层次的划分主要是对其载体层次的划分。分析物流园区宏观布局层次类别,主要是判断作为其宏观布局载体的省区和城市能够建设的最高级别物流园区种类情况。物流园区空间布局载体主要分为如下3个层次类别。
上层为国际枢纽型物流园区载体城市,也可称为物流中心城市,该类城市具有良好的经济发展水平和优越的交通区位优势,建有或具备条件建设国际枢纽型物流园区,其物流服务辐射范围广,物流相关作业规模大。
中层为区域集散型物流园区载体城市,该类城市具有较好的经济发展水平和较好的交通区位优势,建有或具备条件建设区域集散型物流园区,其物流服务辐射范围一般在本区域内。在物流园区布局层次体系中,此类城市主要承担联结上下两类层次城市的功能。
基层为物流本地生成城市,该类城市是物流服务的本源需求地和最终消费地,因此每个地级城市一般都需要建设本地配送型物流园区。此外,随着区域经济一体化的发展,城市群作为空间经济体系不断出现,应当考虑在密集的城市群间规划布置公共的配送型物流园区。
三、主成分分析与聚类分析在泛珠三角物流园区功能定位中的应用
1.主成分分析及聚类分析基本原理
主成分分析(Principal Component Analysis)是多元统计分析中一种重要的方法,用来考察多个定量(数值)变量间的相关性。在多指标(变量)的研究中,由于变量的个数较多,并且彼此之间存在一定的相关性,因而使得所观测的数据在一定程度上反映的信息有所重叠,而且当变量较多时,在高维空间中研究样本的分布规律及特征比较麻烦。它是研究如何通过少数几个主分量(即原始变量的线性组合)来解释多变量的一种方差-协方差结构。主成分分析的应用使问题得到简化,即采用降维的方法找到几个综合因子来代表原来众多的变量,使这几个综合因子尽可能反映原来的信息,而且彼此之间不相关。
聚类分析(Cluster Analusis)是统计学所研究的“物以类聚”问题的一种方法,它属于多变量统计分析的范畴。它是一种建立分类的方法,能够将一批样本数据(或变量)按照它们在性质上的亲疏程度在没有先验知识的情况下自动进行分类。这里,一个类就是一个具有相似性的个体的集合,不同类之间具有明显的非相似性。在分类过程中,不必事先给出一个分类标准,聚类分析能够从样本数据出发,客观地决定分类标准。
2.主成分分析与聚类分析在泛珠三角物流园区功能定位中的应用
“泛珠三角区域合作与发展论坛”的举行,标志着包括华南九省区以及港澳两个特别行政区的泛珠三角合作全面启动。目前,泛珠三角区域正在协力打造全中国最为庞大的一体化产业带、交通网以及信息流,在发展物流业的过程中,泛珠三角区域各大城市应根据各自的产业布局,以及优势,实行对物流产业的合理定位与规划,进而达到各城市在物流基础设施的规划和布局方面要相互协调发展的目标。本文利用主成分及聚类分析法,对泛珠三角各省区的物流业进行综合分析,对各省区的物流园区空间类型进行科学定位,从而得出各省区适宜建立的物流园区层级。
(1)评价指标的选取。建立分类指标体系的目的是为了对物流园区宏观布局载体样本进行分类研究,在进行物流园区空间布局载体分类指标体系的选取时,建立科学合理的指标体系关系到分类结果的正确性。因此,在选择指标体系时,应充分考虑各种因素的影响,然后选择出影响较大的因素和条件进行分析。
本文从研究的总目标出发,采用系统分析的方法,结合物流园区与其空间载体的相互关系,注意空间载体对不同层次类别物流园区的适应性,建立一个系统完整、有机可行的评价指标体系。采用频度统计法、理论分析法和专家咨询法以满足指标选择的各项原则。本文选取GDP(X1)、人均GDP(X2)、GDP增长率(X3)、居民消费水平(X4)、工业总产值(X5)、工业增加值(X6)、社会消费品零售总额(X7)、交通运输仓储及邮电通信业(X8)、批发零售贸易业总额(X9)、制造业总额(X10)、实际利用外资额(X11)、进出口总额(X12)、外商投资企业数(X13)、社会货运量(X14)、铁路货运量(X15)、公路货运量(X16)、水路货运量(X17)、铁路网密度(X18)、公路网密度(X19)、公路货物平均运距的倒数(X20)、地理区位(X21)、是否为全国通枢纽规划城市(X22)等22项指标。
(2)主成分分析结果。以泛珠三角区域内9个省区为研究对象(考虑到数据的可得性,以及香港和澳门的特殊地位,文中未将两个特区纳入研究范围),将9个省区的22项指标用主成分法进行分析,得到22个主成分。根据累计方差贡献率超过85%的原则,提取前5个主成分作为第一、第二、……第五主成分,其累计方差贡献率达98.064%(见表2)。这说明前5个主成分已提供了全部原始数据的98.064%的信息。
(3)聚类分析结果。根据主成分的计算方法,得到各主成分的特征向量,根据各主成分特征向量,计算前5个主成分的标准得分系数,将主成分的得分系数代替原始指标进行聚类分析。利用统计软件SPSS12.0中的系统聚类方法,对9个省份进行R型聚类,即对个案聚类,得到聚类结果,如图所示。
(4)泛珠三角区域物流园区空间类型定位。通过对各省区的聚类分析,从图可以看出,泛珠三角地区物流园区空间类型可分为3类,广东为一类,江西和湖南为一类,福建、广西、贵州、海南、四川和云南等5省为一类。
结合实际可见,聚类分析的结果较符合实际。这3类都有各自的特点:
①广东省是泛珠三角地区重要的交通枢纽,港口、机场和陆路交通十分发达,省区内多种运输方式骨干线网交汇,工业商业、宏观环境、经济发展等优势明显,发展物流所依托的各方面资源都很好,因此,广东省具备建成国际枢纽型物流园区的条件,广东省在泛珠三角地区处于物流园区空间布局的最高层次,是物流园区布局的1类地区。
②江西和湖南两省在泛珠三角地区中除广东省外地区实力较强的省区,发展物流的综合实力比较突出,因此,这两个省份适于建成区域集散型物流园区,是物流园区空间布局的2类地区,适宜建成跨省区区长途运输和省区城市间配送体系的转换枢纽,承担周边省区与城市物流的集散功能。
③福建、广西、贵州、海南、四川和云南5省发展物流的实力较弱,属于物流园区空间布局的3类地区,即物流本地生成城市,适于建成城市型物流园区,主要保障商贸与城市生产,承担各自省区的物流配送业务。
四、结语
文中选取反映物流业发展的22项指标,通过主成分分析法,建立主成分模型,在主成分分析的基础上进行聚类分析,以主成分得分系数代替原始指标进行聚类,在聚类分析时,用多种聚类方法进行分析,聚类结果较为一致,这表明将主成分与聚类分析法相结合,可有效避免原始指标间存在相关性造成聚类偏差,聚类结果较为客观准确。
本文在分析泛珠三角区域物流业发展的基础上,为了合理对泛珠三角区域内各省区的物流园区进行定位,首先从宏观层面,采用聚类分析法分析泛珠三角范围内各省区的物流园区的空间类型,然后,从微观层面,在确定各省区物流园区空间类型的基础上,对各省区的物流园区功能进行定位,分析的结果较符合客观实际。在目前物流园区建设热中,可将该方法应用在确定全国物流园区的宏观空间布局规划中,通过分析全国物流园区空间类型,以便提高物流园区规划建设的决策科学性,避免和减少极易出现的盲目投资和重复建设。
参考文献:
[1]汪鸣:宏观调控环境中物流的收获与期待――2004年我国物流发展综述[J].综合运输,2005
[2]王庭建:物流园区及其建设发展研究[J].物流科技,2005,28(114)
[3]张晓东:物流园区布局规划理论研究[M].北京:中国物质出版社,2004
0 引言
近年来辽宁沿海经济带作为环渤海经济圈整体开发的重要组成部分,经济产生了飞速的发展,随着经济全球化进程的加快促使客运量和货运量的快速增加,现代物流业已经成为了辽宁省的支柱产业,港口作为客运和货运的最佳途径在社会经济发展中的作用日益凸显,必然使得港口物流成为了发展现代物流业的重中之重。为了加快辽宁省港口物流的发展,提高港口物流效率,保持港口的持续性竞争优势,就需要将各港口进行横向的比较了解其地域差异,从而有针对性的提高辽宁沿海港口物流的效率 [1-2]。
1 研究方法
1.1 聚类分析方法与步骤
聚类分析[3](Cluster Analysis),亦称群分析或点群分析,它是研究多要素事物分类问题的数量方法。在根据对象间的关联程度进行聚类分析时,有些类别是属于隐藏状态的,聚类分析之前并不知道具体能够分为几种类别,因此要根据样本自身的属性,用数学方法按照某种相似性或差异性指标,定量地确定样本之间的亲疏关系,并按这种亲疏关系程度对样本进行聚类。在聚类分析中,聚类要素的选择直接影响着分类结果的可靠性。
对聚类要素进行数据处理。假设有m个聚类的对象,每一个聚类对象都有x1…,x2,…xn个要素构成。在聚类分析中,常用的聚类要素的数据处理方法有总和标准化、标准差标准化、极大值标准化和极差标准化。
距离的计算。距离是系统聚类分析的依据和基础,选择不同的距离,则会使聚类结果产生差异,在地理分区和分类研究中,往往采用绝对值距离、欧式距离、明科夫斯基距离以及切比雪夫距离进行计算、对比,选择一种较为合适的距离进行聚类。
利用计算和程序进行聚类。聚类分析的方法主要有直接聚类法、最短距离聚类法、、最远距离聚类法、中线法、重心法、组平均法、距离平方和法、可变数平均法、可变法[3]这九种系统聚类分析方法。
1.2 指标选取
“十一五”以来,辽宁沿海港口集装箱吞吐量虽然呈大幅度上升趋势,但是与全国其他主要港口相比,其总体增长幅度处于全国中等水平,2000年全省港口集装箱吞吐量为122万TEU,2005年达到368.9万TEU,2010年仅大连港就达到526.2万TEU,而上海港达到2906.9万TEU、深圳港2250.97万TEU、宁波-舟山港1314.4万TEU、青岛港1201万TEU、天津港1000万TEU,是大连港的2-2.5倍。为了进一步了解辽宁沿海港口群各主要港口的差异情况,有必要从空间的角度来分析辽宁省沿海港口群的发展状况。辽宁港口承担了东北地区70%以上的海运货物,80%以上的外贸物资和90%以上的外贸集装箱运输[4-5]。根据交通运输部的统计数据,提取2010年1月份至10月份的辽宁主要港口企业内、外贸集装箱吞吐量作为聚类分析的指标,从而对辽宁沿海港口物流的地域差异进行研究。
2 辽宁沿海港口物流的地域差异研究分析
在SPSS中,根据聚类的过程不同聚类方法主要分为三种:分层聚类法(Hierarchical Cluster)、K-均值聚类(K-Means Cluster)和两步聚类(Two Step Cluster),本文选择SPSS中的分层聚类法(Hierarchical Cluster)对辽宁沿海港口物流进行地域差异的分析。分层聚类分析又称系统聚类分析,是聚类分析中最常用的方法,将关系密切与关系疏远的分别聚合,直到把辽宁沿海的所有港口聚合成唯一的类别为止。首先,对原始指标数据进行处理,这里利用标准差标准化的对原始数据进行转换,同时进行相似性与距离测度,然后对标准化后的数据进行聚类分析[6]。
用SPSS完成聚类运算各步骤之后,得出聚类分析结果的层次聚类树形图(如图1所示),由图可以看出,可将7个港口企业集装箱码头分为三类,第一类包括(2,3);第二类包括(5,6);第三类包括(1,4,7)。从这个分类结果可以看出,大连集装箱码头有限公司和大连港湾集装箱码头有限公司竞争力最强,港口物流发展最快,营口集装箱码头有限公司和营口新世纪集装箱码头有限公司其次,丹东港集团集装箱公司、锦州新时代集装箱码头有限公司以及大连国际集装箱码头有限公司发展相对较弱。这基本合辽宁港口物流发展的现状,辽东半岛以大连港作为集装箱干线港的主要枢纽港,营口港、丹东港、锦州港等为支线港[7]。地处东北亚经济发展圈中心的大连港,具有极其优越的发展区位,并且根据交通运输部的统计,大连港在2010年我国沿海港口货物吞吐量排名第六,营口排名第十,但是国际集装箱运输相对薄弱一些,2010年全年有六个月份以上在全国港口国际标准集装箱吞吐量排名第八,营口港除4月、5月、6月三个月份排名第十之外,其余都未上榜,说明还需要加强国际标准集装箱方面的发展。
3 结语
本研究提出通过采用聚类分析的方法来研究港口物流地域差异的问题,建立相应的数学模型并进行实际比较,所得比较结果有一定的说服力,对提高辽宁省港口物流发展以及相关政策的规定和执行有一定的参考价值。
参考文献:
[1]李学工,杨贺.现代港口物流产业组织的空间布局.水运管理[J].2007(2).
[2]刘.环渤海港口竞争力的地域差异分析及因果研究[D].研究生硕士学位论文,2009.
[3]徐建华.现代地理学中的数学方法[M].高等教育,2009.
[4]戚馨,韩增林.辽宁省主要港口物流效率分析[J].港口物流,2007(10).
K-均值聚类算法因结构简单、快速高效且适用于处理大数据集,在众多科研领域得到广泛应用。但它同时存在一些缺陷和不足,要求预先给定聚类个数;容易陷入局部极小值而得不到全局最优解等。针对以上问题研究人员提出了各种各样的有效改进措施。文献[1]的作者通过 DBI 聚类指标和最大最小距离方法来自动确定最佳聚类数目,较好地解决了 K-均值聚类算法中聚类数目 K 值的确定问题。文献[2]提出一种有效的混合聚类算法,在一定程度上克服了 K-均值聚类算法和层次聚类算法各自的缺陷。文献[3]提出一种基于变长编码的改进遗传算法,有效地解决了 K-均值聚类算法对初始中心选取敏感的问题。文献[4]提出了一种基于密度及最近邻相似度的初始聚类中心选取方法,大大提高聚类结果的稳定性。文献[5]提出了一种基于数据对象在空间分布规律的新的初始聚类中心选取方法,有效解决由于初始中心选取的随机性而导致的聚类结果不稳定的问题。本文利用分类领域中的特征选择及特征加权方法,提出了一种改进的特征加权 K-均值聚类算法。实验结果证明,所提出的算法能产生质量较高的聚类结果。
2.K-均值算法的改进
3.实验结果
为了验证本文所提出算法的有效性和可行性,选用 UCI 提供的机器学习公共数据库中的5 个数据集对本文改进的聚类算法的聚类性能进行聚类实验。(见表1)
从表 2 中不难看出,随机选取初始聚类中心的传统 K-均值算法得到的聚类结果准确率低且不稳定,而且对于有大值属性存在的 Wine数据集,错分数大大增加;而使用本文所设计的改进聚类算法所得到的聚类结果不仅准确率高,而且相对稳定。
4.结束语
本文针对传统K-均值算法由于随机选取初始聚类中心而导致聚类结果不稳定、准确率低的缺点,提出了一种改进的特征加权K-均值聚类算法。实验结果表明,本文算法可以有效得到准确率高、较为稳定的聚类结果。
参考文献:
[1] 冯超.K-means聚类算法的研究:[大连理工大学硕士学位论文].大连:大连理工大学,2007
[2] 曾志雄.一种有效的基于划分和层次的混合聚类算法.计算机应用,2007
[3] 范光平.一种基于变长编码的遗传K均值算法研究:[浙江大学硕士学位论文].杭州:浙江大学,2007
[4] 孙可,刘杰,王学颖.K均值聚类算法初始质心选择的改进.沈阳师范大学学报,2009
中图分类号:H07 文献标识码:A 文章编号:1003-9082(2016)08-0374-01
方言关系计量分析结合计算机信息处理功能和统计学方法,可用于共时方言亲疏关系、历时方言亲缘关系、方言分区和方言沟通度等研究。其历史可以追溯到上个世纪五六十年代流行的历史语言学分支――语言年代学,创始人是斯瓦迪士。而后,施莱赫尔受达尔文生物进化论的启示,在语言学中最早使用谱系树图来表示语言的分化情况。
20世纪70年代起,方言学界就有学者运用计量分析法研究汉语方言分类问题,比如:郑锦全(1973)利用阴调和阳调的不同调高计算汉语方言差异,陆致极(1986)对闽方言内部差异程度及分区进行了计算机聚类分析。此后,汉语方言关系计量研究先后出现了一些颇有影响的文章和专著:《汉语方言间亲疏关系的计量描写》(陆致极1987),《汉语方言亲疏关系的计量研究》(郑锦全1988),《比较方言学中的计量方法》(马希文1989),《方言关系的计量研究》(王士元、沈钟伟1992),《谈汉语方言的定量研究》(沈榕秋1994),《聚类分析在汉语方言研究中的运用》(项梦冰2015)。郑陆二人通过各方言词汇的对比排列和古音在现代各方音里分化状况的排列,使用“皮尔逊相关”(Pearson)和“非加权平均系联法”(Non-weighted)来计算出词汇、声母、韵母、声调等变量之间的相关系数,并用树形图显示出它们的亲疏关系。郑锦全(1988)采用了平均系联法(Group-average clustering),马希文(1989)介绍了最短系连法(Minimun spanning tree)和主分量分析法(Principal components analysis),并用这些方法对郑锦全的相关系数作了分析。王士元、沈钟伟(1992)提出了分词目计算的方法和计算方言间相关系数的Jaccard计算法公式。总的来说,过去的研究成果首先确立了计量分析法在汉语方言关系研究中的地位和作用,也明确了计量分析在汉语方言关系比较研究中所需要的材料、计量单位以及步骤和方法,同时也讨论了相关系数的计算问题和尝试了不同计量方法的实践研究。
可以看出,用计量分析法研究汉语方言关系可以在一定程度上弥补以往“方言特征比较法”的主观局限性,可以从数据上直观地看出方言之间的相关系数。李如龙(2001):“共时的分类有时应该以一定的数量为界线的,量是区分不同质的依据;历时的演变则往往是量变的积累引起质变的飞跃。这便是现代系统十分重视计量研究的原因。研究语言时重视计量研究这是现代的汉语研究工作的一大进步,但是这种方法还没有得到应有的推广。”
但是不是说定量分析就能解决所有问题,计量分析的结果可以和描写比较的定性分析相结合,使得研究更具精密性和科学性。正如马希文(1989)提到:“数理统计方法所做出的分析总是带有随机性的,不能把它和理论的、逻辑的分析同样看待。在理论研究的预备阶段,统计方法可以用来整理数据,以求发现规律性的东西。在理论研究暂时做不到定量化的阶段,统计方法可以用来作为理论研究的补充。好的、合理的统计方法应该根据理论研究的成果来设计,在反复尝试中逐步确立下来。”项梦冰(2015)也指出:“聚类分析虽然可以给汉语方言研究中的分类工作提供重要的参考,但倘若奉之为圭臬则未免失于偏颇。恰当的分类常常需要在综合考虑各种因素之后在定性和定量之间取得平衡。”
目前,用计量方法研究方言的关系已被广泛应用,见于不少单篇论文和学位论文中,如:《闽方言分区的计量研究》(杨鼎夫1994),《苗瑶语方言亲疏关系的计量分析》(黄行1999),《吴语五地词汇相关度的计量研究》(杨蓓2003),《湖南方言语音相关度计算与亲疏关系聚类分析》(肖双荣2004),《廉江市粤客词汇相似度的计量分析》(邵慧君,秦绿叶2008),《梧州粤语和周边勾漏粤语词汇相似度的计量分析(粟春兵,王文胜,2011),《兴安县城话与周边汉语方言语音亲疏关系计量分析》(邓盼2015),《广州地区粤语的声韵计量分析》(秦绿叶,2015)。学位论文有:《粤西三地粤语客话方言词汇分析计量研究》(秦绿叶,华南师范大学硕士论文,2007),《廉州话与周边粤语客话语音分析计量研究》(梁小玲,广西民族大学硕士论文,2008),《梧州广府粤语方言岛与周边方言词汇相似度的计量研究》(粟春兵,杭州师范大学硕士论文,2012)。
综上所述,方言计量分析结合计算机信息处理功能和统计学方法,在科技日益发达的今天,将是一个前景广阔的领域。但是目前利用计算机从事方言研究的成果还是特别少,一个方面是因为很多研究人员已经习惯了传统的研究方法,不愿再做进一步突破,甚至怀疑新的方法;另一个方面是研究人员知识有限,因为利用计算机研究方言需要研究人员首先需要一定的语言学功底,其次是相关的数理知识,同时还需要具备一定的计算机应用能力,但是我国传统教育培养的人才很难兼具,如何突破这个瓶颈,需要研究人员做更多的努力。
语言计量研究本身也还存在一些问题。目前多数研究只在方言之间在语音和词汇上的相关性和差异性上做了不少努力,从而对方言区的划分以及亲疏关系的梳理提供了不少有益的想法。但是比较方言关系选取什么语言特征,采用什么计算方法,是否考虑加权,如何确定语言之间的亲缘或者接触关系等等问题都是值得商榷的。总的来说,计量分析法在我国方言研究中刚刚起步,想取得更大的发展还需要更多的努力。
注释
1秦绿叶.粤西三地粤语客话方言词汇分析计量研究[D].华南师范大学,2007.
2李如龙.汉语方言的比较研究[M].北京:商务印书馆,2001.
3刘玉屏.计算机在汉语方言研究中的应用[J]. 宁夏大学学报.2002(1).
参考文献
[1]陆致极.汉语方言间亲疏关系的计量描写[J].中国社会科学.1987(1).
[2]郑锦全.汉语方言亲疏关系的计量研究[J].中国语文.1988(2).
[3]马希文.比较方言学中的计量方法[J].中国语文.1989(5).
[4]王士元,沈钟伟.方言关系的计量表述[J].中国语文.1992 (2).
[5]沈榕秋.谈汉语方言的定量研究[J].语文研究.1994(2).
1.指标选取、数据来源与研究方法
1.1 指标选取
为了分析公共图书馆科研实力的区域水平,本文从论文产出的角度,运用文献计量学对31个地区公共图书馆2002—2011年的科研产出进行评价,选取总数、基金资助论文数、核心期刊论文数、核心期刊率、被引篇数、被引频次、篇均被引量、论文被引率、高频被引论文数、高频被引论文频次、H指数作为评价指标,这些指标内容包含了论文产出规模和学术影响力,既有量的内容,也有质的反映,指标内容基本上反映了一个公共图书馆的科研实力,有关指标的说明详见表1。
1.2数据来源
利用中国期刊全文数据库统计各地区公共图书馆在2002—2011年发表的论文总数、核心期刊发文数和基金资助论文数;利用中国引文数据库统计2002—2011年各地区公共图书馆论文被引篇数、被引频次、高频被引论文数、高频被引论文频次和H指数,统计时间为2012年10月;统计期刊按《中文核心期刊要目总览(2004版)》7〕和《中文核心期刊要目总览(2008版)》〔〕的图书馆学、情报学类核心期刊表;各地区公共图书馆名单来自《中国图书馆年鉴2010》。
经过统计、汇总和计算获得2002—2011年31个地区的公共图书馆在上述11个指标的具体数据,如表2所示。表22002-2011年我国31个地区公共图书馆论文产出一览表2.
1.3研究方法
1.3.1因子分析
因子分析是多元统计分析中应用广泛的一种方
法,通过数据的降维,将具有一定关联的多个变量进行高度概括,简化为几个互不相关的公共因子,每个因子都反映了某一类事物的共同特征。
1.3.2聚类分析
聚类分析是研究区域差异和划分地域类型的常用方法。聚类分析的目的是根据数据的特征,计算各观察个体或变量之间亲疏关系,根据某种方法将观察个体或变量分为若干类。本文采用SPSS分层聚类中的Q型聚类对31个地区公共图书馆进行分类分析,其中,个体距离采用平方欧氏距离,类间距离采用平均组间链锁距离,根据各地区公共图书馆的科研实力划分为不同类型的区域。
2数据分析
2.1因子分析及指标内涵
运用SPSS16.0统计软件对表2中的11个变量进行因子分析,得到各变量的特征值,见表3。
从表3可知,因子1、因子2的累计贡献率已达81.072%,根据累计贡献率大于80%的原则选取主因子,因子1和因子2可以作为主因子,但为了更准确的解释原有变量的信息,本文选择前3个因子作为主因子(分别用F1、F2和R表示),它们的累计贡献率已达到87.663%,可以比较准确地反映2002—2011年我国公共图书馆各地区的科研状况。为了使各因子变量具有更好的解释性,本文采用方差最大法进行正交旋转,旋转后的因子载荷矩阵如表4所示。
由表4可知:主因子F;i在核心期刊率、核心期刊论文数、高频被引论文频次、高频被引论文数、H指数等指标上有较高的载荷,这5项指标代表了论文高影响力,因此,主因子R可以看成是一个质量因子;主因子R在论文总数、被引篇数、基金资助论文数、被引频次等指标上有较高的载荷,这4项指标都是论文的数量指标,因此,主因子F可以看成是规模因子;主因子R在论文被引率、篇均被引量等指标上有较高的载荷,这2项指标反映了论文被引比重和篇均影响力,因此,主因子R可以看成另一个质量因子。
2.2 我国公共图书馆科研实力综合评价
运用SPSS得分功能,可以直接得到各地区公共图书馆在上述3个主因子的得分,以3个主因子的方差贡献率为权数,各地区公共图书馆科研实力综合得分公式为:
F综合=0.34119F1+0.31069F2+0.22475F3(1)将3个主因子的具体得分代入公式(1)中,各地区公共图书馆科研实力综合得分与排名如表5所示
从表5科研实力综合得分的排名来看,广东省公共图书馆科研综合实力最强,上海市仅次之;广东、上海、湖南、黑龙江、浙江、江苏、天津、辽宁、吉林、河南、宁夏11地区都在0分以上,其它20个地区都在0分以下。从各因子的单项排名看:
(1)在质量因子R论文局影响力上,上海市公共图书馆以3.109分名列榜首,学术影响力最大,广东省公共图书馆次之,天津、宁夏、湖南名列前5名。
(2)在规模因子R上,广东省以2.456分排名第1,浙江、辽宁、黑龙江、吉林、北京、河南、广西、天津、江苏、山东、重庆、贵州12地区紧随其后,得分都在0分以上,其它地区得分都在0分以下。
(3)在质量因子R——论文被引比重和篇均影响力上,江苏省以2.303分位于第1名,江西、福建、广东,上海名列前5名。
综合上述科研实力综合得分排名与3个主因子单项排名,广东省公共图书馆在论文产出的规模和质量上都名列前茅,综合得分排名第1,显示出其强大的科研产出实力;上海市在质量因子R上得分最高,学术影响力全国最大,综合得分排名第2,但论文产出规模较小,规模因子得分仅排在第28名;辽宁、吉林两省综合得分名列前9名,规模因子得分排名前5名,但质量因子R得分却排名最后。西藏,新疆,内蒙古三个地区公共图书馆科研实力的综合得分排名最后,科研实力最弱,从表2可知,在11项指标中,各指标数量远远少于其它地区。
3.我国公共图书馆科研实力的类型划分及区域差异分析
3.1科研实力的类型划分
为了便于分析各地区公共图书馆科研产出的相同点和不同点,更加确切地描述我国公共图书馆科研实力的状况,本文以各地区科研能力的综合得分为变量进行聚类分析,把我国31个地区的公共图书馆分为7大类,见表6。
3.2 区域差异分析
为了分析不同区域的公共图书馆科研情况,按照表6所示类型列出各区域的指标平均值和各指标的基本描述(见表7)
第1类是广东省。其在论文总数、核心期刊论文数、被引篇数、论文被引率、被引频次、高频被引论文数、H指数7个指标上均名列第1,论文产出规模最大,学术影响力较大,科研综合实力在全国处于领先水平。
第2类是上海市。其在核心期刊率、篇均被引量、高频被引论文频次3个指标上均名列第1,在核心期刊论文数、被引频次、高频被引论文数、H指数4个指标上均名列第2,其学术影响力最大,但在论文产出规模因子上的分值偏低,科研综合实力在全国处于优势地位。
第3类是湖南、黑龙江、浙江、江苏、天津5个地区。科研综合实力得分仅次于广东省和上海市,江苏省在被引比重和篇均影响力因子上得分第1,但在论文高影响力上得分较低;湖南省得分较均衡;天津市在论文高影响力上得分较高,但在被引比重和篇均影响力因子上得分较低;黑龙江和浙江两省在规模因子上得分很高,但在质量因子上得分较低。从表7得知,该区域的大多数指标数量低于广东、上海,但又高于其它区域,科研综合实力较强。
第4类是辽宁、吉林、河南3个地区。辽宁、吉林两省在规模因子上得分较高,但在论文高影响力因子上得分排名最后;河南省得分较均衡。从表7可知:该区域除在基金资助论文数量上高于第III类区域外,其它指标数量均低于第III类区域,科研综合实力处于全国中游水平。
第5类是宁夏、福建2个地区。宁夏地区在论文高影响力上得分偏高,但在规模因子、被引比重和篇均影响力因子上得分很低;福建省在论文被引比重和篇均影响力上得分偏高,但在其他两个因子上得分较低。从表7可知,该区域除核心期刊论文数高于第W类区域、核心期刊率高于第III类和第IV类区域外,其它指标均低于前几类区域,科研综合实力处于全国下游水平。
第6类是北京、河北、山西、安徽、江西、山东、湖北、广西、重庆、四川、贵州、陕西、甘肃13个地区。该区域科研综合实力偏低,江西省在被引比重和篇均影响力因子上得分偏高;北京、广西在规模因子上得分较高,其它地区在三个因子上得分都不高。从表7看出,该区域除论文总数高于第V类区域外,其它指标数量均低于前五类区域,科研综合实力处于全国偏弱水平。
第7类是青海、海南、云南、内蒙古、西藏、新疆6个地区。从表7中可看出,该区域公共图书馆科研实力各项指标的数量都远远小于其它区域,除了个别地区在某个因子上得分较高外,大多地区在各个因子中的得分和科研实力综合得分都处于全国落后地位。
同时对表7中各指标的描述性分析看出,比值最大的指标是高频被引论文频次(417.17次),最高的是上海市(2503次),最低的是第V类区域(6次)。标准差反映了组内个体之间的离散程度、差距的大小,除了论文被引率标准差较小(0.19)外,其它10个指标的标准差都较大,最大的是论文被引频次,达到了2934.81。从以上分析得出:我国各地区公共图书馆科研实力差异较大,中东部高于西部。
4.结论及建议
4. 1结论
(1)区域间科研综合实力差异悬殊。不论是以科研实力综合得分为变量进行聚类分析还是以三个主因子的得分作为变量进行聚类分析(由于篇幅有限,本文不再阐述用因子得分变量进行聚类的过程),第丄类地区的广东省和第2类地区上海市都是单独聚类,再次体现了在科研产出规模和影响力上的突出优势。虽然第III类、第w类、第V类、第w区域中有的省份在某些因子中得分较高,但其平均综合得分尚不及第丄类地区、第2类地区的一半,第VII类地区在论文产出的各项指标上基本上全处于落后地位,与其它地区有着巨大的差距。
(2)区域内科研产出差异较大。在第III类地区中,天津市在论文高影响力因子上的得分远高于浙江省,江苏省在被引比重和篇均影响力因子上的得分远高于天津市;在第w类地区,河南省在论文高影响力因子上的得分远高于辽宁省;在第V类地区,宁夏在论文高影响力因子上的得分远高于福建省,而在论文被引比重和篇均影响力因子上的得分远低于福建省。
(3)地区内部科研产出存在很大差异。在统计数据过程中发现,地区内部的公共图书馆科研产出也存在很大差异,很多地区的市级图书馆10年间很少,大多数基层(县级)图书馆几乎没有,一个地区公共图书馆的科研实力主要由省级图书馆的科研实力所决定。但科研实力综合得分名列前茅的几个地区,市级图书馆或区级图书馆在论文产出规模和影响力方面,都有一定的优势,如广东省的深圳图书馆、广州图书馆、佛山市图书馆、汕头市图书馆、东莞图书馆、广州少年儿童图书馆、深圳市南山图书馆、深圳市宝安区图书馆等;湖南省的长沙市图书馆、岳阳市图书馆、常德市图书馆等;浙江省的温州市图书馆、杭州图书馆、衢州市图书馆等;黑龙江省的哈尔滨市图书馆、齐齐哈尔市图书馆、牡丹江市图书馆等。由此看出,一个地区的公共图书馆只有“百花齐放”,才能提升整个地区的科研综合实力。
(4)需要从多个方面对公共图书馆的科研实力进行全面评价。本文只是从论文产出的角度对地区公共图书馆进行了科研实力评价,更全面的科研能力测度还需考虑期刊的影响因子、著作、专利、基金课题的级别、期刊对本地作者的倾向性和社会影响等因素。参考有关单位对科研实力评价的各种方法,不但包括对学术队伍、学历水平、努力程度、人均产出等内部因素的评价,还要包括对科研经费投入、资料设备、科研激励、科研氛围、地区经济发展水平等外部因素的评价。如何设计出更加合理的评价指标体系,对公共图书馆科研实力进行评价,期待有更多的学者进行研究。
3. 2建议