绪论:写作既是个人情感的抒发,也是对学术真理的探索,欢迎阅读由发表云整理的11篇神经网络文本分类范文,希望它们能为您的写作提供参考和启发。
文本分类数是据挖掘的一个重要研究领域,国内外的众多学者已经进行了比较深入的研究,取得了不少研究成果。常见的文本分类技术有最小距离方法、朴素贝叶斯方法、KNN方法、支持向量机方法(SVM)、模糊c均值(FCM)算法和等,现在有很多学者把神经网络的方法应用到分类算法中,在这些分类算法中,神经网络的文本分类更具有优越的性能。袁飞云利用SOINN自动产生聚类数目和保留数据拓扑结构的两项能力,寻找更有效的单词和设计更有效的编码方式,提出了基于自组织增量神经网络(SOINN)的码书产生方法;申明金利用自组织特征映射神经网络(SOM)以无监督方式进行网络训练,具有自组织功能的特点,利用自组织特征映射神经网络对不同产地金银花进行分类;彭俊等将不同空气质量等级下的各空气指标作为原型模式,通过输入样本模式,利用竞争网络的竞争特点得到胜者,以此得出空气质量等级;郝晓丽等通过筛选基于轮廓系数的优秀样木群,来寻找最佳初始聚类中心,并将该改进算法用于构造径向基函数神经网络分类器和快速有效地确定隐含层节点径向基函数中心及函数的宽度,从而提高了分类精度;孙进进利用神经网络技术中的自组织映射SOM)网络对我国主要机场进行聚类分析评价,得出我国主要机场分为8层的主要结论;刘艳杰在非监督的自组织映射神经网络的基础上进行了一定的改进,构建了有监督的神经网络分类模型;李杨将神经网络与群体智能算法、云计算相结合的方法,实现对不同规模农业数据集的分类,提出基于神经网络分类器的设计与优化方法。而竞争型神经网络的自组织、自适应学习能力,进一步拓宽了神经网络在模式分类和识别方面的应用。竞争型神经网络依靠神经元之间的兴奋、协调、抑制或竞争的作用来进行信息处理,可在训练中无监督自组织学习,通过学习提取数据中的重要特征或内在规律,进而实现分类分析的功能。
1竞争型神经网络的描述
1.1竞争型网络的结构
竞争学习网络的结构如图1所示,该网络具有R维输入和s个输出,由前馈层和竞争层组成。图中的llndlstll模块表示对输入矢量P和神经元权值矢量w之间的距离取负。该网络的输出层是竞争层,图中的模块c表示竞争传递函数,其输出矢量由竞争层各神经元的输出组成,这些输出指明了原型模式与输入向量的相互关系。竞争过后只有一个神经元有非零输出,获胜的神经元指明输入属于哪类(每个原型向量代表一个类)。
1.2竞争型神经网络的原理
竞争型神经网络在结构上,既不同于阶层型的各层神经元间非单向连接,也不同于全连接型。它有层次界限,一般是由输入层和竞争层构成的两层网络。两层之间各神经元实现双向全连接,没有隐含层,有时竞争层各神经元之间还存在横向连接。在学习方法上,不是以网络的误差或能量函数的单调递减作为算法准则。而是依靠神经元之间的兴奋、协调、抑制、竞争的作用来进行信息处理,指导网络的学习与工作。
网络在刚开始建立的时候,输入层和输出层之间的连接权值已经开始了,如果与竞争层某一神经元对应的矢量子类别属于线性层某个神经元所对应的目标类别,则这两个神经元的连接权值为1,否则二者的连接权值为0,这样的权值矩阵就实现了子类别到目标类别的合并。在建立竞争型网络时,每类数据占数据总数的百分比是已知的,这也是竞争层神经元归并到线性层的各个输出时所依据的比例。
1.3存在的问题
竞争型神经网络按Kohonen学习规则对获胜神经元的权值进行调整,通过输入向量进行神经元权值的调整,因此在模式识别的应用中是很有用的。通过学习,那些最靠近输入向量的神经元权值向量得到修正,使之更靠近输入向量,其结果是获胜的神经元在下一次相似的输入向量出现时,获胜的可能性更大;而对于那些与输入向量相差很远的神经元权值向量,获胜的可能性将变得很小。这样,当经过越来越多的训练样本学习后,每一个网络层中的神经元权值向量很快被调整为最接近某一类输入向量的值。最终的结果是,如果神经元的数量足够多,则具有相似输入向量的各类模式作为输入向量时,其对应的神经元输出为1;而对于其他模式的输入向量,其对应的神经元输出为0。所以,竞争型神经网络具有对输入向量进行学习分类的能力。
例子:以竞争型神经网络为工具,对下面的数据进行分类:
运用Matlab编程实现,发现网络的训练误差能达到要求,最后也能实现很好的分类效果。运行结果如图2所示。
有运行结果可以看到,训练误差达到要求,分类结果也很合理。
但是在实际应用过程中,我们发现,当对于训练数据的数据特征十分明显的时候,本文设计的网络模型可以对训练的数据进行合理有效的分类,但是,当训练数据的特征不太明显区分的时候,本文设计的训练模型的分类效果就不是太有优势,所得到的分类结果就不能达到我们预期的效果。
我们利用竞争型神经网络对数据样本进行分类,其中参数设置为学习效率0.1,网络竞争层有4个神经元,运用Matlab编程实现,发现结果如下:
例子:我们利用本文设计的网络分类模型进行对数据分类处理:进行分类处理数据的样本数据如下所示:
通过运行学习发现训练误差较大,分类结果也达不到要求。
2改进的方法
2.1问题分析
通过比较分析我们发现,上面的数据样本没有明显的分类特征,所以,以竞争型神经网络进行分类,其输入向量仅仅依靠数据本身的固有的特征时不够的,但我们可以把数据样本看作是二维数据,假设同符号的特征值为1,不同符号的特征值为2,于是一个新的训练样本就确定了,即成为三维数据模型。
2.2改进的算法
第一步:给定数据集X=[X1,X2……,Xi),对网络进行初始化,随机给定网络竞争层与输入层间的初始权向量wj(=wj[w1j w2j…wnj];j=1,2,…,m xp;wijE(0,1));给定输出层与竞争层间的连接权值wjo=1/m,o=1,2,…P (P表示第二隐层和输出层的连接权矢量)。
第二步:创建竞争型神经网络,首先根据给定的问题确定训练样本的输入向量,当学习模式样本本身杂乱无章,没有明显的分类特征,网络对输入模式的响应呈现震荡的现象,不足以区分各类模式时,在创建网络之前,提取训练样本的特征值,设置输入样本的特征向量,然后再创建网络模型,并根据模式分类数确定神经元的数目,最后任取一输入模式Ak。
第三步:计算竞争层各神经元的输入值si:
第四步:对本文建立的网络进行训练学习,网络训练最大次数的初始值设置为230,当训练误差大于预期的设定值的时候,可以尝试增加训练的最大次数,按“胜者为王”(Winner Takes All)原则,将训练网络中获得最接近预期值的神经元作为胜者,输出状态设置为1,没有获胜的神经元的输出状态设置为0。如果有两个以上神经元的sj相同,取左边的为获胜单元。
第五步:获胜神经元连接权修正如下:
第六步:另选一学习模式,返回步骤3,直至所有学习模式提供一遍。
第七步:如果不满足要求,则返回到最初的训练状态,反复训练直至训练网络中神经元获得最接近预期值,最终的训练结束。
第八步:根据测试样本利用Matlab编写程序进行仿真实验。
引言
随着设备复杂化程度的提高,对故障诊断的快速性和准确性提出了更高的要求。将神经网络应用于故障诊断中已成为一个非常活跃的研究领域。利用神经网络强大的分类能力,进行故障模式的分类与学习,诊断出故障。
Huang在前人研究的基础上提出了一种称为极限学习机(Extreme Learning Machine,ELM)的学习方法,在保留计算精度的同时可以大幅度的缩减训练的时间。将ELM运用到设备故障诊断中,极大提高了诊断的快速性和准确性。
一、极限学习机研究现状
ELM自2004年提出就一直受到学者的极大兴趣。我们从ELM的理论和应用两方面进行阐述。
1.1 ELM的理论
对于传统ELM算法,网络结构、激活函数类型以及隐层神经元的选择对其泛化性能都有重要的影响。为了提高计算效率,使得ELM适用于更多应用领域,研究者提出了许多ELM扩展算法。
1.2 ELM的应用
研究人员已尝试利用ELM方法解决现实中各种模式分类问题。随着ELM自身理论的进一步发展和完善,在人脸识别、文本分类、医疗诊断等领域中应用广泛。
二、故障诊断技术研究现状
故障诊断技术是由于建立监控系统的需要而发展起来的。其发展至今经历了3个阶段。新的诊断技术带来了领域内算法的革新,设备精密程度的提高也对诊断实时性提出了更高的要求。如何保证故障的快速准确诊断成了诊断技术发展重要内容。
基于神经网络的故障诊断运用广泛,然而传统的神经网络学习方法存在许多问题。与传统的神经网络相比,极限学习机方法通过随机选取输入权值及隐层单元的偏置值,可以产生唯一的最优解,并具有参数易于选择以及泛化能力好等特点,在众多领域有着广泛应用。
三、基于极限学习机的故障诊断方法研究
3.1基于ELM的故障诊断流程
(1)数据预处理。按照选取的特征向量和故障类型对故障样本进行预处理,并将处理后的样本按比例分为训练样本集和测试样本集。
(2)ELM的学习算法主要有以下3个步骤:确定隐含层神经元个数;随机设定输入层与隐含层间的连接权值和隐含层神经元的偏置;选择隐含层神经元激活函数,进而计算隐含层输出矩阵计算输出层权值。
(3)用训练好的ELM模型对测试样本集进行分类,并输出分类结果。
3.2基于改进ELM的故障诊断
基于自编码神经网络建立搜索信息模型的目的是根据用户搜索信息的历史,推断出网页中的内容是用户关注的信息并即时显示。首先将用户关注的历史信息按标题分类,通过自编码神经网络建立标题特征值数据库。当自编码神经网络搜索信息模型工作时,按照用户提供的关键词顺序,打开用户经常浏览的网页,读入标题文本,若具有数据库中的标题特征,则将该标题的文本内容即时显示。
直接解析网页中的标题文本,面临的基本问题是文本的表示。如果把标题文本所有的词都作为特征项,那么太多的特征向量维数导致计算量太大。例如50个标题,每个标题25个汉字,特征项将有50×25=1250个。如果将标题中的某个关键词作为特征词,将会有几千个包含关键词的标题,从而导致读入分析量过于巨大。本文采用自编码神经网络,用映射变换的方法把原始文本特征变换为较少的新特征,提高信息搜索效率。
1 自编码神经网络
1.1 自编码神经网络理论
Auto-Encoder(自编码)[1],自编码算法是一种基于神经网络算法的无监督学习算法,与神经网络算法的不同之处是将输入值作为输出节点的输出。自编码算法的另一个特征是隐藏层节点的个数一般少于输入输出节点的个数。这样的意义是将输入的特征通过神经网络的非线性变换到节点数更少的隐藏层。因此,可以通过自编码神经网络对给定的样本进行训练学习,从而得到输入数据降维后的特征,即为隐藏层的节点数,省去了人工特征提取的麻烦。
自编码神经网络结构示意图如图1所示[2]。这是一种深度学习的神经网络,包含了多个隐含层,整个网络是一种对称的结构,中心层的神经元的个数最少。网络通过对样本的训练可以得到一组权值系数,而输入数据通过这组权值系数表达成低维形式,从而达到了用降维后的特征表示出输入的数据。
图1 自编码神经网络的结构
Fig.1 The structure of auto-encoder neural network
1.1.1 预训练
(1) 输入参数的确定:标题是作者给出的提示文章内容的短语,标题一般都简练、醒目,有不少缩略语,与报道的主要内容有着重要的联系。如登陆我的钢铁网站,搜索钢管热点资讯,显示的标题有“我国自主研制*****油管成功替代进口”,学习样本选择50组标题,每个标题不超过25个汉字,如表1所示。
表1 学习样本
Tab. 1 Learning samples
1
我国自主研制高端耐热钢无缝钢管成功替代进口
2
我国自主研制K55石油套管成功替代进口
3
我国自主研制J55稠油热采套管成功替代进口
4
我国自主研制专用耐高温防火船舶用套管成功替代进口
5
我国自主研制20G高压锅炉管成功替代进口
6
我国自主研制特殊用途低温用管成功替代进口
7
我国自主研制起重机臂架无缝钢管成功替代进口
8
我国自主研制精密合金4J36船用管材成功替代进口
9
我国自主研制高强韧性高抗挤毁套管成功替代进口
10
我国自主研制三种极限规格管线管成功替代进口
…
……
50
我国自主研制医药化工用管成功替代进口
(2) 语句预处理[3]:学习样本句子进行预处理是把句子中的每一个汉字变换成自编码神经网络模型能接受的数字化形式。为了使神经网络能接受外部数据,首先要对句子中的汉字进行编码,编码方式是采用汉字的计算机内码(GBK码)。每个汉字机内码有16位二进制,如:“我国自主研制”的二进制码为
1100111011010010 我(GBK码)
1011100111111010 国(GBK码)
1101011111010100 自(GBK码)
1101011011110111 主(GBK码)
1101000111010000 研(GBK码)
1101011011000110 制(GBK码)
将16位二进制数转换为十进制数并进行线性变换,映射到实数[0 1]之间,作为输入神经元初值。变换公式如下:
式中:maxi和mini;tmax和tmin分别为x(p)i,t(p)量程范围的最大值和最小值。
(3)预训练:几个独立的RBM构成“堆栈”构成了预训练部分,而RBM是BM (boltzmannmachine)的一种特殊连接方式。图2即为RBM的网络构成。它是一种隐含层神经元无连接,并且只有可见层和隐含层两层神经元。
图2 RBM网络构成
Fig. 2 Construction of restricted boltzmannmachine
BM的权值调整公式为[4]
(1)
式中:在第t步时神经元i、j间的连接权值为wij(t);η为学习速率;T为网络温度;<uihj>+、<uihj>-分别为正向平均关联和反向平均关联。
在RBM中,可见层神经元的输出和隐含层神经元输出的乘积即为平均关联。系数ε由η和T统一合并而成,迭代步长即由权值调整公式ε表示。
图3 RBM网络结构图
Fig. 3 RBM network structure diagram
(4)MATLAB实现:
本文建立的BP神经网络模型结构为
[25,15,25],[15,12,15],[12,10,12],[10,8,10],[8,5,8]
设定网络隐含层的激活函数为双曲正切S型函数tansig,输出层的激活函数为线性激活函数purelin,网络的训练函数为Levenberg-Marquardt算法训练函数trainlm。因此对应的MATLAB神经网络工具箱的程序语句为
net=newff(minmax(P),[25,25],{‘tansig’,’purelin’}, ’trainlm’);
net=newff(minmax(P),[15,15],{‘tansig’,’purelin’},’trainlm’);
net=newff(minmax(P),[12,12],{‘tansig’,’purelin’},’trainlm’);
net=newff(minmax(P),[10,10],{‘tansig’,’purelin’},’trainlm’);
net=newff(minmax(P),[8,8],{‘tansig’,’purelin’},’trainlm’);
设定学习速率为0.01,最大训练步数为300,目标误差为0.00001。
(5)预训练结果:
预训练结果如表2所示。
表2 预训练结果
Tab. 2 The results of pre training
误差
学习速率
步长
[25,15,25]
0.003248
0.01
150
[15,12,15]
0.0022809
0.01
125
[12,10,12]
0.0025866
0.01
100
[10,8,10]
0.0039575
0.01
75
[8,5,8]
0.013529
0.01
50
1.1.2 展开
如图4所示,将各个RBM连接,得到自编码神经网络。预训练所得到的权值,将作为整个自编码神经网络的初始权值,参与整个网络的微调训练。
图4 RBM展开图
Fig. 4 Development of RBM network structure
1.1.3 微调
微调训练是在预训练得到初始权值的基础上,对权值进一步调整。采用以交叉熵为目标函数[5]的BP算法完成网络的微调训练。交叉熵是用来度量两个概率分布间差异性的,它是一个非负数,两个分布越相似,其越小。原始的交叉熵定义为
(4)
式中:x为随机变量;q(x)为已知概率分布;p(x)为估计概率分布。
对于随机变量x,当用q(x)估计p(x)时,通过调整受x影响的p(x)来最小化交叉熵D(pq),用于自编码神经网络权值调整的BP算法交叉熵函数形式为
(5)
式中:ti目标概率分布;yi实际概率分布。
整个网络训练的目的是调整权值以使交叉熵函数达到最小,权值调整公式为
根据上面的权值调整公式,可以完成网络的微调训练。训练结果如表3所示。
表3 微调训练结果
1.1.4 特征提取
50组标题(每个标题不超过25个汉字)的学习训练,通过自编码网络的逐层特征变换,将样本数据约1250(50×25)个汉字编码,在原空间的特征表示变换到一个新特征空间。其中网络最深隐含层的输出值(5个)和权值矩阵W6(5×8=40个),共计45个,为提取标题文本1250个汉字编码的特征值。
2 实 例
本文选取10组标题文本见表4,分别输入自编码神经网络。预测结果表示基本符合要求。
表4 预测结果
Tab. 4 The prediction results
序号
样本输入
结果显示
1
我国自主研制的蛟龙号深水探测器成功替代进口
无
2
我国自主研制首台3.6万吨垂直挤压机挤合格钢管成功替代进口
我国自主研制首台3.6万吨垂直挤压机挤合格钢管成功替代进口
3
我国自主研制的超级计算机系统成功替代进口
无
4
我国自主研发的1000MPa高压共轨管成功替代进口
我国自主研发的1000MPa高压共轨管成功替代进口
5
我国自主研制超临界电站无缝钢管T92、P92成功替代进口
我国自主研制超临界电站无缝钢管T92、P92成功替代进口
6
我国自主研制重载火车头下线成功替代进口
无
7
我国自主研制成功特高压交、直流套管成功替代进口
我国自主研制成功特高压交、直流套管成功替代进口
8
我国自主研制的Q355GNH系列耐候钢成功替代进口
我国自主研制的Q355GNH系列耐候钢成功替代进口
9
我国自主研制的涡桨支线飞机成功替代进口
无
10
我国自主研制钒微合金L290管线钢成功替代进口
我国自主研制钒微合金L290管线钢成功替代进口
3 结 语
一种新的基于多描述编码的应用层组播系统
基于属性理论的教师教学质量动态评估
RIP和OSPF路由协议在Click软件路由器中的实现
面向集装箱字符识别的预处理算法
基于身份与位置分离策略可选的多宿主研究
基于分层Petri网的仓储管理建模与验证
一种基于云模型数据填充的算法
高速公路的匝道与可变限速联合模糊控制
MPLS网络中LSP模型改进研究
软件组件的共代数语意
基于主被动连接的P2P节点识别算法
FARIMA网络流量预测模型的研究与改进
基于H.264的视频监控系统关键代码实现与优化
PAIS中过程挖掘技术的研究
安庆气温的多重分形消除趋势波动分析与预测
基于WordNet和Kernel方法的Web服务发现机制研究
一种新型的实时调度算法
基于反馈的高职网格资源共享方案研究与实现
面向目标检测的高光谱图像压缩技术
基于单源多段图方法的多目标决策算法与应用
基于Gram-Schmidt过程的支持向量机降维方法
基于AHP-FCE的供应商选择问题研究与应用
对IPSec中AH和ESP协议的分析与建议
一种基于混沌优化的混合粒子群算法
多软件分时段租赁系统构想及其实现
SCTP协议分析与仿真研究
数码输入法字码本的自动获取技术
SVM和K-means结合的文本分类方法研究
二群协同的人工鱼群优化算法
基于特征匹配的渐变纹理图像合成算法
三元Box样条构造方法的实现
基于二元语义的语言加权取大改进算法的研究
面向TD协议栈的内存管理技术研究
随机Petri网性能计算软件关键技术的研究
基于Petri网的Web服务动态组合
BP神经网络预测算法的改进及应用
移动自组网中基于推荐的信任模型
基于BPEL和QoS的动态Web服务组合框架研究
面向目标检测的高光谱图像压缩技术
基于单源多段图方法的多目标决策算法与应用
基于Gram-Schmidt过程的支持向量机降维方法
基于AHP-FCE的供应商选择问题研究与应用
对IPSec中AH和ESP协议的分析与建议
一种基于混沌优化的混合粒子群算法
多软件分时段租赁系统构想及其实现
SCTP协议分析与仿真研究
数码输入法字码本的自动获取技术
SVM和K-means结合的文本分类方法研究
二群协同的人工鱼群优化算法
基于特征匹配的渐变纹理图像合成算法
三元Box样条构造方法的实现
基于二元语义的语言加权取大改进算法的研究
面向TD协议栈的内存管理技术研究
随机Petri网性能计算软件关键技术的研究
基于Petri网的Web服务动态组合
多温下KCl+CsCl+C_2H_5OH/CH_3OH+H_2O四元体系的相平衡研究
MSTN基因的研究进展及其应用
制备条件对Ru/ZrO_2·xH_2O催化酯加氢制备醇活性的影响
微波萃取法制备桔梗总皂苷
基于DSP的红外成像电力在线检测系统的研究
LBG与SOFM应用于矢量量化的比较研究
超宽带高功率脉冲辐射源气体开关的研究
高压直流牵引供电网的初步研究
智能医用超声波雾化器的设计
基于Wincc的炭黑装置监控系统
定点CORDIC算法的误差控制
基于各向异性扩散的多细节图像消噪方案
基于S7-300和ACS800的桥式起重机控制系统改造
LiH薄膜制备技术进展
拉普拉斯方程有限差分法的MATLAB实现
关于不定方程组y~2-10x~2=9,z~2-17x~2=16
关于不定方程x~2+49~n=y~3的唯一整数解
基于非单调线搜索的无记忆拟牛顿法的全局收敛性
不动点、压缩映射原理的进一步研究
弱横向扰动下的热尘埃等离子体中的尘埃声孤波
时间域上抛物型方程正反演解的稳定性分析
Frattini子群的一些推广
不动点定理在微分方程中的应用
超空间F_1(X)的可缩性
热传导方程反问题的数值解法
一类时滞广义系统的鲁棒控制
距离矢量路由算法的改进方案
基于JSP的电子邮件系统设计与实现
基于web的自适应学习系统的研究与设计
一种改进的基于分布式Caching的自适应搜索机制
Linux下嵌入式动态Web技术设计实现
基于窗函数的FIR滤波器的设计
力学试题库管理系统的开发
单片机C51与汇编语言混合调用的实现
基于P2P覆盖树网络的流媒体传输技术
数字校园信息显示系统建设方案研究温度对长链α-烯烃溶液聚合法合成原油减阻剂的影响
β-环糊精与常用的两种光谱探针包络作用对比研究
微波技术在竹浆漂白中的应用
基于蚁群寻路的图像分割算法
公交车自动报站系统的设计
基于遗传BP神经网络的非平稳时间序列预
基于BP算法的神经网络内模控制器
基于51单片机的可变调音乐演奏系统
基于神经网络对光纤智能结构的损伤评估
基于改进互信息的特征提取的文本分类系统
CTIA型读出电路的噪声抑制
离心流化床的基本原理及发展趋势
电驱微差6R关节型开链机械手工作空间运动学逆解
焦磷酸盐镀铜工艺研究
中图分类号: TP391; TP18 文献标识码:B文章编号:1672-5913(2007)02-0072-04
支持向量机(Support Vector Machine,简称SVM)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。传统统计模式识别的方法都是在样本数目足够多的前提下进行研究,所提出的各种方法只有在样本数趋于无穷大时其性能才有理论上的保证,而在多数实际应用中,样本数目通常是有限的,很多传统方法都难以取得理想的效果。Vapnik等人早在20世纪60年代就开始研究有限样本情况下的机器学习问题。20世纪90年代,有限样本情况下的机器学习理论研究逐渐成熟起来,形成了一个较完善的理论体系――统计学习理论(Statistical Learning Theory)。1992年到1995年,在统计学习理论的基础上发展出了一种新的模式识别方法――支持向量机。随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术。SVM是继k-近邻、神经网络、相素贝叶斯等方法之后被用于文本分类,并且是在Reuter语料(包括21450版本和Apte给出的集合)上能取得非常好的结果的文本分类算法之一。
本文重点研究SVM在两个不同的语料集上,选择不同的特征维数,采用四种不同的核函数的分类性能比较。实验结果表明,这种方法削弱了训练样本分布的不均匀性对分类性能的影响,可以将微平均准确率提高大约1%~2%。
本文第1节将阐述支持向量机算法的基本思想;第2节介绍目前广泛应用的三种核函数;第3节给出了在著名的英文语料集Reuters-21578上的实验结果与分析;第4节是结论和进一步工作展望。
1统计学习理论与支持向量机
统计学习理论就是研究小样本统计估计和预测的理论,具有很好的泛化能力,为解决有限样本学习问题提供了一个统一的框架。它能将很多现有方法纳入其中,有望帮助解决许多原来难以解决的问题(比如神经网络结构选择问题、局部极小点问题等);同时,在这一理论基础上发展了一种新的通用学习方法――支持向量机(SVM) 。
SVM是一种建立在统计学习理论基础上的机器学习方法,有较好的推广性能和较高的分类准确率。该算法基于结构风险最小化原理,将数据集合压缩到支持向量集合(通常为前者的3%~5%),学习得到分类决策函数。其基本思想是构造一个超平面作为决策平面,使正负模式之间的间隔最大。
SVM方法是从线性可分情况下的最优分类面提出的。如图1所示,圆圈和实心点分别代表两类的训练样本,H为把两类没有错误地分开的分类线,H1、H2分别为过各类样本中离分类线最近的点且平行于分类线的直线,H1和H2之间的距离叫做两转类的分类间隔(Margin)。支持向量与超平面之间的距离为1/ω,则支持向量间距为2/ω寻找超平面的问题,可化为求解以下二次规划问题:
3.3实验结果与分析
为了考察算法的效果,我们采用了VC++6.0实现本文算法,部分源代码采用复旦大学计算机与信息技术系李荣陆提供的文本分类器系统源代码。实验分为三个阶段。
表1、表2实验结果表明,不论是在英文语料集还是中文语料集,使用SVM分类系统均能达到较好的分类效果,而实验中采用多项式核函数和Sigmoid函数进行比较,经证明,在多数情况下前者优于后者。
4结束语
本文就文本分类的过程和关键技术进行了论述,并就不同核函数下文本分类的效果进行了实验验证,证明SVM是一种行之有效的文本分类方法。在今后的研究中,如何提高SVM算法的效率将是工作的重点。
参考文献:
[1] V. Vapnik. The nature of Statistical Learning Theory[J]. Springer, New York, 1995.
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2017)03-0052-02
1 概述
随着信息化时代的到来,计算机网络以飞快的速度发展起来,用户规模呈现出爆炸式的增长趋势,且对网络的通信质量要求越来越高;与此同时,基于网络的各种软件也层出不穷,大量不同类型的应用软件导致了在网络中传输的数据类型的差异性较之以往大大增加了,传输的复杂性也随之提高。在此情况下,如何提供一种更加符合网络现状的管理方法,向用户提供更加符合其需求的通信服务成为了当前计算机网络领域研究的重点内容。在诸多的研究课题中,对网络流量的科学分类受到了广泛的关注,通过高质量的流量分类,可以追溯用户的活动情况,从而在一定范围内判断当前数据的传输状况,并可在此基础上实现对网络资源的QoS(Quality of Service)调度,进而为网络的维护和后续扩张提供可靠的依据。除此之外,流量分类还可在网络安全、用户识别、宽带流量计费等方面发挥重要的作用。
传统的流量分类方式是由IANA提出的基于端口号的识别方式,该方式在以往应用服务种类不多的情况下是较为实用的,即根据熟知端口号识别有限数量的不同类型的应用服务进程,但随着网络规模的飞速增长,尤其是随着P2P对等网络的大发展,使得用户数据的类型与日俱增,众多的进程启用了大量的随机端口号,这对数据流量的识别是非常不利的,未来必须加以改进。
第二种方式是基于特征字段识别的,在早期该字段并没有得到充分的利用,而目前随着数据类型识别需求的不断提高,该字段也被越来越多的通信服务所采用,但随之而来的问题是该字段位于IP数据报的首部,这意味着需要在网络层解决数据类型的差异问题,在通信过程中该数据报经过的路由器将不得不花费大量的资源和时间来解析和识别该字段,这势必会拖慢网络通信效率,同时增加网络拥塞的风险。目前在P2P对等网络中此方法使用较多,但对于实时性要求较高的通信服务而言,此方法导致的通信时延过高,并且会随着应用层服务的改变而失效,表1给出了这两种流量分类方式的对比分析。
表1 两种传统的流量分类方法对比
2 基于机器学习方法的流量分类
随着网络的发展,传统方式已经无法胜任对数据流量进行合理的分类工作,这导致了数据冲突、资源耗费、通信延迟、通信效率不断降低等一系列问题。因此,有研究人员将人工智能领域内的机器学习机制引入到流量分类工作中,针对网络流一些属性的统计信息进行识别,以提高流量分类的准确性和快捷性,效果较为显著,其算法过程如图1所示:
图1 基于机器学习方法的流量分类流程
算法步骤如下:
1)通过统计方法获取流量的特征属性最优组合集
流量属性集通过统计形成网络流的数据包的包头信息得到。在进行统计分析之前,为了减少计算量,提高分析精确度,应对数据包信息进行筛选的预操作,其目的是将与分类需求相关的属性尽可能的保留下来,反之则筛除,从而形成所谓的最有属性集合,随后在针对此集合进行分析,实现事半功倍的效果。在此特征选择的过程中可以采用多种优化算法,如快速统计过滤法FCBF、顺序前进法SFS、相关性特征选择CFS和遗传算法GA等。
2)采用机器学习方法进行分类
机器学习属于人工智能领域内的一个分支,也存在多种不同的优化算法,目前在流量分类工作中得到应用的优化算法有K-近邻K-NN、朴素贝叶斯方法NB、支持向量机SVM等。其中K-NN方法是最早得到应用的一种优化算法,分析结果较为准确,但缺点是计算量偏大,且鲁棒性较低,受干扰影响较大,这对实时性和稳定性要求都很高的网络通信而言无疑是一大障碍,因此其应用规模相对有限;NB算法也是早期在网络流量分类得到应用的机器学习方法,其缺点在于算法得出的分析结果的质量高低存在一定的不可知性,若样本选取的合理,则该算法相对可靠,若样本分布质量不高,则该算法得出的分类结果往往也偏离真实情况;SVM可取得较高的分类准确率,但必须事先标记流量的应用类型,因此不能适应完全意义上的实时分类。
基于流统计特征的机器学习分类方法收到的外界干扰较小,且不需要执行繁琐耗时的数据报首部解析工作,对于P2P网络中出现的大量端口号也可以不受其影响,平均准确率比以上其他算法都要好,能够准确的识别多个不同类型的数据流量,同时对于异常流量(如非法的数据流量)也可以实现一定程度的识别和判断。但其缺点是敏感度过高,对于网络的动态变化往往会出现过度响应,将原先正常的数据流量标注为异常点,从而导致系统的误判,另一方面,该算法实现起来也相对复杂,需要进一步改进。
3 混合模式的流量分类方案
3.1 方案流程分析
本设计将传统的分类方法和机器学习机制有机结合,对端口识别的流量分类模式进行改进,形成了一种新型的混合型流量分类方法,既保留了基于端口号识别模式的简单、低开销的优点,又有效地利用了机器学习机制的自适应性强、准确性高的优势,明显地改善了网络流量分类的效率和可靠性,算法流程如图2所示。
图2 改进后的流量分类算法流程
混合模式的流量分类方案具体实现过程如下。
1)对流量样本采用属性选择方法选出最优属性集,降低算法输入向量维数。
2)与常用协议的默认端口号匹配,实现粗分。若匹配成功则可不必启用机器学习机制进行后续的分类,节约了工作量。
3)进入细分环节,此环节是为了进一步提高对流量分类的精确性而设定,主要采用基于自组织映射网络的分类方法来完成。根据输出标签确定某一流量类别分布在port flow映射图或non-port flow映射图上。结合训练样本,确定输出映射图中相应区域的流量类型。
3.2 自组织映射
在本环节,采用深度学习算法中著名的神经网络算法来实现进一步的优化,该算法具有识别能力强、自适应度高等优点,非常适合用来对数据流量进行准确分类,可以很好地解决对非线性曲面的逼近,其收敛速度远高于传统分类方法。
自组织映射SOM网络是神经网络中的一种常用算法,属于无人监督的竞争型神经网络,该网络中的各个节点模拟为神经元节点,而在该网络中传输的各个信息状态则模拟为神经信号;该算法最大的特点就是将高维的输入流量样本以拓扑有序的方式变换到二维的离散空间上,其输出分类结果可以直观的以棋盘状的二维平面阵显示。根据此规律,可将SOM网络用于对输入的数据包特征信息的分类工作中,实现样本的自动聚类,同时可方便的识别新的数据类型和异常数据类型,其具体过程如下:
设输入样本[X=(x1,x2,…,xn)T],权向量为[Wj=(wj1,wj2,…,wjn)T(j=1,2,…m)],
其中n为输入样本的维数,m为映射图神经元数量。对样本和权向量进行归一化处理,得到[X]和[Wj],通过SOM神经网络执行以下两个步骤
1)选择竞争占优的神经元
[dj*=minj∈1,2,…,mX-Wj] (1)
2)计算该类神经元和与之相邻的其他节点的网络权值
[Wj*(t+1)=Wj*(t)+η(t)N(t)(X-Wj*(t))] (2)
式(2)中,t为学习次数,[η(t)]为学习成功率,[N(t)]为获胜的邻域。
做完了准备工作后,SOM网络就可将所有权值W转化为在[-1,1]区间的随机数,并根据此选择一个流量样本n,解析其特征属性并送至神经网络的输入接口,设置初始t=0,因此有N(0)和[η(0)]。输出层各神经元通过式(1)全局搜索最接近的优胜神经元j*。按式(2),对j*及其邻域内的所有神经元调整权值,然后缩小邻域[N(t)],减小学习率[η(t)],重新调整邻域内神经元的权值直到学习率衰减为0。当算法运行到这一步时,若流量样本集合不为空集,则可继续执行下去,在非空集合内随机选择一样本,重新执行本轮的学习过程,直至所有样本均完成训练,此时就可生成一张完整的流量类别映射图,最后根据样本激活神经元的位置可判断流量类别,实现数据流量的精确分类。
4 结束语
目前,在网络流量分类的研究工作中,更多地倾向于将优秀的智能算法同以往传统的分类方法相结合的研究路线,其中
很多优化算法仍旧处于起步阶段,从理论上看,基于流统计特征的机器学习的方法自适应性强,可扩展性好,可靠性也有足够的保障,应用在流量分类领域内是非常合适的,但其计算量较大仍旧是该算法推广过程中遇到的主要障碍,相信随着人工智能领域研究的不断突破,会出现更多的优秀方法应用在网络流量分类工作中,进一步增强流量分类的工作效率,为广大用户提供更高|量的数据通信服务。
参考文献:
[1] 徐鹏,刘琼,林森.基于支持向量机的Internet流量分类研究[J].计算机研究与发展,2009,46(3): 407-414.
[2] 王琳.面向高速网络的智能化应用分类的研究[D].济南:济南大学,2008.
DOIDOI:10.11907/rjdk.162026
中图分类号:TP319
文献标识码:A 文章编号文章编号:16727800(2016)011013403
0 引言
中国是世界上最大的烟草生产国和消费国[1]。烟草销售是烟草行业管理中最为关键的部分,准确的烟草销售预测能为烟草生产、运输、配送提供指导,而要进行准确的烟草销售预测必须找到合适的预测方法。因此,如何设计高精度的烟草销售预测方法是烟草行业管理的重要课题。
传统烟草销售量预测方法的研究主要集中在对烟草零售经营者订单的管理分析中,而且采用销售人员意见汇总法、德尔菲法(经理及员工的意见)等为主的人工预测方法[2]。这种人工预测方法业务流程较多,浪费大量的人力、物力,并且还可能引起烟草资源分配的不公平,难以满足市场需求。从机器学习的角度上看,烟草销售量的预测属于回归问题[3],而回归包括线性回归和非线性回归。文献[4]在对烟草销售量数据进行分析的基础上,提出了一种线性预测模型,但由于烟草销售量受季节、人口、市场、节假日等一系列因素的共同影响,并不适合采用线性回归方法进行预测。在非线性回归方法中,较为常用的有神经网络和支持向量机(SVM)。文献[5]基于BP神经网络对烟草销售量进行建模并预测,而神经网络是基于经验风险最小化,不仅泛化能力较差,而且存在局部极小点问题[6],因此神经网络虽然对原始数据的拟合能力较强,但对未来数据的推广能力较差,而对未来数据的推广能力往往更能反映学习机器的实用价值。支持向量机基于结构风险最小化,泛化能力强且预测精度高。因此,本文采用支持向量机方法对烟草销售量进行建模预测。
1 支持向量回归机
2 预测方法
2.1 数据预处理
本文收集到了云烟品牌一个品类2006年1月~2011年10月共6年的销售数据,销售数据信息中包括销售量、销售日期(年月日)、仓库编号、发票信息、审核人信息等,其中对销售量预测影响最大的是销售日期及对应的销售量。由于中国的香烟销售对阴历呈现出更强的规律性,因此将销售统计数据转换为以阴历月为标准。
2.2 数据归一化处理
由表1可以看出,各列数据属性不同,数值范围相差较大。为避免数值范围较大的属性控制数值范围较小的属性,使数据具有统一性和可比性,将属性值都归一化[10]为[0,1]之间。归一化所用公式为:
2.3 模型定阶
由于烟草销售量预测属于经济预测,因此它不仅与当前日期有关,更与之前的销售信息有关。为确定当前销售量与前多少个月的销售信息关系最大,需要通过拓阶[11]的方法来确定。
设烟草销售量数据的一个样本为{yi,yeari,monthi},yi为第i个样本中的烟草销售量,yeari为当前年份,monthi为当前月份。其中,yeari和monthi为样本的自变量,yi为样本的因变量。通过拓阶能够更为准确地得到自变量和因变量的函数依赖关系。当阶数为n时,表示将前n个样本中的信息添加到当前样本中的自变量中。即用前n个月的销售信息和当前年月来预测当前销售量。此时,自变量总数为(3×n+2),其中n为阶数。通过SVM由低阶到高阶逐步进行拓阶,模型每拓一阶,自变量相应地增加 3个。对于每一次的拓阶,以MSE最小为标准决定是否接受拓阶。设SVM(n)为拓阶n次后的模型,SVM(n+1)为拓阶n+1次后的模型,比较两者的MSE大小,如果SVM(n+1)的MSE小于SVM(n)的MSE,表示接受本次拓阶,并进行下一步拓阶;如果SVM(n+1)的MSE大于SVM(n)的MSE,表示不接受本次拓阶,并停止拓阶,最终得到最优阶数n。通过对烟草数据的拓阶,得到拓阶结果如图2所示。
2.4 回归模型的参数选择
当训练模型确定后,通过支持向量回归机进行预测。由于径向基核函数的准确率较高,并且大多数SVM默认的核函数也是径向基核函数[12],本文亦采用径向基核函数。
3 实验结果与分析
以云烟数据集为例,选择2006年1月-2010年12月的销售量数据为训练样本,以2011年1-10月的销售量数据为测试样本。在本文算法实现过程中,实验环境配置如表2所示。
4 结语
通过预测烟草销售量可以提前了解烟草的销售动态,为烟草物流、仓储等部门提供决策依据。本文基于支持向量机建立烟草销售预测的多维时间序列模型。实验证明,根据本文方法建立的模型所预测的结果与实际结果基本一致,能够比较准确地反映烟草销售量的变化趋势。对比实验也证明,与其它几种方法相比,本文方法预测误差最小。综上,本文所述方法是合理有效的,可以应用到实际烟草销售量预测中。
参考文献:
[1] 蒋德B.我国烟草业国际化战略研究[J].北方经济,2012(14):9495.
[2] 利普・科特勒,洪瑞云,梁绍明,等.市场营销管理 [M].亚洲版・2版.北京:中国人民大学出版社,2001.
[3] 郑逢德,张鸿宾.拉格朗日支持向量回归的有限牛顿算法[J].计算机应用,2012,32(9):25042507.
[4] 张素平.基于乘法模型的内蒙古乌兰察布市卷烟总销量预测研究[J].内蒙古科技与经济,2012(21):3335.
[5] 仲东亭,张h.BP神经网络对烟草销售量预测方法的改进研究[J].工业技术经济,2007,26(9):115118.
[6] 刘苏苏,孙立民.支持向量机与RBF神经网络回归性能比较研究[J].计算机工程与设计,2011,32(12):42024205.
[7] 邓乃扬,田英杰.数据挖掘的新方法――支持向量机[M].北京:科学出版社,2004
[8] 肖建,于龙,白裔峰.支持向量回归中核函数和超参数选择方法综述[J].西南交通大学学报,2008,43(3):297303.
[9] 单黎黎,张宏军,张睿,等.基于主导因子法的装备维修保障人员调度值预测[J].计算机应用,2012,32(8):23642368.
[10] 彭丽芳,孟志青,姜华,等.基于时间序列的支持向量机在股票预测中的应用[J].计算技术与自动化,2006,25(3):8891.
[11] 向昌盛,周子英.基于支持向量机的害虫多维时间序列预测[J].计算机应用研究,2010,27(10):36943697.
[12] 谭征,孙红霞,王立宏,等.中文评教文本分类模型的研究[J].烟台大学学报:自然科学与工程版,2012,25(2):122126.
[13] CHERKASSKY V,MULIER F.Learning from data: concepts,theory and methods[M].NY:JohnViley&Sons,1997.
[14] YONG M,XIAOBO Z,DAOYING P,et al.Parameters selection in gene selection using Gaussian kernel support vector machines by genetic algorithm[J].Journal of zhejiang university science B,2005,6(10):961973.
中图分类号:TP391文献标识码:A文章编号:1009-3044(2009)04-1020-02
自动分类技术是利用计算机系统对文本集按照一定的分类体系或标准进行自动类别标记,分类工具根据文档的信息将其分配到已经存在的类别中,也称“主题”。
随着网络的迅猛发展,网页、电子邮件、数据库、聊天室和数字图书馆等电子文本成几何级数不断增长,处理这些海量数据的一个重要方法就是将它们分类。当我们浏览一个网站查找信息时,如果网页凌乱的堆积在一起没有类别供我们查找,会使我们很难找到自己所需的信息。现在,大型网站都将网页分类,以方便人们浏览。比如,Yahoo就将网页放在一个巨大的层次分类结构中,通过组装维护这些类别,可以帮助人们查找知识和信息。网页自身并没有类型区分,这就需要人工分类,将网页、邮件等各种格式的文档经过文法分析都可以转化为纯文本,而自动文本分类系统可以帮助人们检查文本、判断文本所属类别。
1 自动分类技术的现状
到目前为止,国外已在自动分类领域进行了较为深入的研究。已经从最初的可行性基础研究经历了实验性研究进入实用阶段,并在邮件分类、电子会议、信息过滤等方面取得了较为广泛的应用[1]。
国内对自动分类技术的研究相对较晚。1986年,上海交通大学电脑应用技术研究所开发的中文科技文献(计算机类)实验性分类系统。1995年,清华大学电子工程系研制的汉语语料自动分类系统。1998年,东北大学计算机系的新闻语料汉语文本自动分类模型。1999年,由邹涛等人开发的中文技术文本分类系统CTDS。除此之外,国内众多学者对中文文本分类算法也进行了深入研究,黄萱箐等提出的基于机器学习的、独立于语种的文本分类模型[3],周永庚等研究的隐含语义索引在中文文本处理中的应用[4],李荣陆等的最大熵模型[5],张剑等提出的一种以WordNet语言本体库为基础,建立文本的概念向量空间模型作为文本特征向量的特征提取方法[6],朱靖波等将领域知识引入文本分类,利用领域知识作为文本特征,提出一种基于知识的文本分类方法等[7]。
从20世纪90年代以来,基于机器学习的文本分类逐渐成为文本分类的主流技术。近年来文本分类技术取得了很大的进展,提出了多种特征抽取方法和分类方法,如回归模型、支持向量机、最大熵模型等,建立了OHSUMED,Reuters等开放的分类语料库。
2 自动分类技术的类型
根据目的性,信息自动分类包括自动聚类和自动归类两种类型。
2.1 自动聚类
由计算机系统对待分类文本进行分析并提取有关的特征,然后对提取的特征进行比较,根据一定规则将具有相同或相近特征的对象定义为一类。自动聚类的目的是在已有信息中定义符合实际情况的类。在网站的非主要分类体系中,也可以用自动聚类的方法自动生成栏目内的类别。
2.2 自动归类
计算机系统对分类文本提取有关特征,然后与既定分类系统中对象所具有的公共特征进行相关性比较。将对象归入其特征最相近的类中。自动归类的目的是把各种信息纳入已建立的分类系统中,用于搜索引擎或网站导航系统的管理和数据更新。根据使用的技术,自动归类通常分为基于词的自动分类(词典法)和基于专家系统的自动分类(知识法)两大类,也有人将界于两种技术之间的称为基于信息的自动分类。
3 文档分类关键技术分类及方法
现有的文本分类技术主要采用3 种方法:基于连接的方法、基于规则的方法和基于统计的方法。
3.1 基于连接的文本分类方法
基于连接的方法主要是利用人工神经网络来模拟人脑神经网络,并期望其能像大脑一样地运作,一样地学习,从而产生智慧。这种方法可以实现信息的分布存取,运算的全局并行,并且可在进行非线性处理的同时具有高容错性等特点,适用于学习一个复杂的非线性映射。但是使用他学习所形成的知识结构是人所难以理解的,系统本身也不具有良好的透明性。
3.2 基于规则的文本分类方法
基于规则的方法本质上是一种确定性的演绎推理方法。其优点在于他能根据上下文对确定性事件进行定性描述,并且能充分利用现有的语言学成果。其成立的前提是有大量的知识,而这些知识必须是人类专家总结出来的。由于必须有人的参与,这种方法侧重于知识的可理解性和可读性,对于有些统计方法无法解决的问题,利用基于规则的方法可以很容易地解决。但是,这种方法在不确定性事件的描述、规则之间的相容性等方面存在一些缺陷和限制。常用的基于规则的方法有决策树、关联规则等。
3.3 基于统计的文本分类方法
基于统计的方法本质上是一种非确定性的定量推理方法。基于统计的方法的优势在于他的全部知识是通过对大规模语料库分析得到的,可以取得很好的一致性和非常高的覆盖率,对语言处理提供了比较客观的数据依据和可靠的质量保证。但由于其是基于概率的一种方法,因此必然会对小类别文本即小概率事件造成忽视。常用的基于统计的方法有KNN、朴素贝叶斯、类中心向量、回归模型、支持向量机、最大熵模型等。
3.4 经典文本分类方法
3.4.1 KNN算法
KNN算法即k- Nearest Neighbor 分类方法,是一种稳定而有效的文本分类方法。采用KNN 方法进行文档分类的过程如下:对于某一给定的测试文档d,在训练集中,通过相似度找到与之最相似的k个训练文档。在此基础上,给每个文档类打分,分值为k个训练文档中属于该类的文档与测试文档之间的相似度之和。也就是说, 如果在这k个文档中,有多个文档属于一个类,则该类的分值为这些文档与测试文档之间的相似度之和。对这k个文档所属类的分值统计完毕后,即按分值进行排序。还应当选定一个阈值,只有分值超过阈值的类才予考虑。测试文档属于超过阈值的所有类。形式化表示为:
■(1)
其中,dj∈ci时y(dj,ci)=1;dj?埸ci时y(dj,ci) 。
bi为阈值,Sim(d,dj)为文档d和dj的相似度,score(d,ci)为测试文档d属于ci类的分值。一般的,bi是一个有待优化的值可以通过一个验证文档集来进行调整。验证文档集是训练文档集的一部分,根据公式(1)可确定测试文档的类别。很显然,对于每一个测试文档,必须求解其和训练文档库中所有文档的相似度。因此, KNN方法的时间复杂度为o(|D|ni)。其中,|D|和ni分别为训练文档总数和测试文档总数。
3.4.2 SVM
支持向量机(Support Vector Machine,SVM)是在统计学习理的基础上发展而来的一种机器学习方法, 该模型是基于结构风险最小化原理的方法,把原始数据集合压缩为支持向量集合,其基本思想是构造出一个超平面作为决策平面,使正负模式之间的空白为最大化。在解决小样本、非线性及高维模式识别问题中SVM表现出了许多特有的优势, 并在很大领域得到了成功的应用,如:人脸识别、手写字体识别、文本分类等。其中,SVM在文本分类方面的表现尤为突出。
SVM 的基本思想可用图1的两维情况进行说明。图1中,圆形实心点和菱形实心点代表2类样本,H为分类线,H1,H2分别为过各类中离分类线最近的样本且平行于分类线的直线,他们之间的距离叫做分类间隔。所谓最优分类线就是要求分类线不但能将两类正确分开(训练错误率为0),而且使分类间隔最大。分类线方程为:
x・w+b=0
在此可以对他进行归一化,使得对线性可分的样本集:
(xi,yi),i=1,…,n,x∈R4,y∈{+1,-1}
满足:yi[(w.xi)+b]-1≥0 i=1,2,…n
此时分类间隔等于2/w, 使间隔最大等价于使w2最小。满足式且使间距为w/2的分类面就叫做最优分类面, H1 , H2上的训练样本点就称作支持向量。
基本的SVM是针对两类分类问题的,为了实现对多个类别的识别,需要对SVM进行扩展。常用的SVM多类分类方法有One-vs-Res, One-vs-One,ECOC( Error Correcting Output Coding)、DAGSVM和二叉树等方法。实验结果表明DAGSVM 方法要优于其他2 种方法。Weston和Watkins[2]对SVM的理论进行了扩充,使其一次就可以完成多类分类,但是实验结果显示其分类查准率要低于One-vs-Rest 和One-vs-One方法。
4 技术的发展趋势与展望
本文介绍了文本分类的研究背景,国内外关于文本分类技术研究的最新动态,总结了近年来文本分类研究的关键技术。文本分类技术有着广泛的应用,逐渐趋于实用。
但随着自动分类技术相关应用的发展,及对其需求的不断提升,文本分类技术仍有非常多的问题值得研究:可靠、有效及快速的在线分类;基于语义度量的数据模型和分类方法;缓解样本标注瓶颈以及样本数据分布带来的影响等。随着数据挖掘领域和机器学习理论、技术研究的不断深入, 针对解决不同实际应用和数据特征的问题将成为文本分类相关研究,及其应用的主要突破方向和攻克难点。
参考文献:
[1] 李荣陆.文本分类及相关技术研究[D].上海:复旦大学,2005.
[2] 李应红.慰询楷. 刘建勋.支持向量机的工程应用[M].北京:兵器工业出版社,2004.
[3] 黄萱菁,吴立德,石崎洋之,等. 独立于语种的文本分类方法[J].中文信息学报,2000,14(6):1-7.
[4] 周水庚,关佶红,胡运发. 隐含语义索引及其在中文文本处理中的应用研究[J].小型微型计算机系统,2001,22(2):239-244.
[5] 李荣陆,王建会,陈晓云,胡运发等. 使用最大熵模型进行中文文本分类[J].计算机研究与发展.2005,42(1):94-101.
自80年代,我国工程项目管理事业得到了飞速发展,工程项目建设过程中的质量、进度和成本得到有效控制。施工企业的经营管理水平和项目经理部的施工现场管理水平有了较大的提高。特别是《建设工程项目管理规范(GB/T50326一2001)》[1]的为我国的工程项目管理逐步向制度化、规范化、信息化迈进提供了保证。但由于我国的工程项目管理起步较晚,在管理的信息化和管理手段的现代化方面距全面实现计算机辅助管理及咨询决策尚有较大差距。
1 系统主要功能
CPMMIS的基本功能包括工程项目现场管理信息系统、公司的信息管理系统、公司的咨询决策系统三大部分,三个系统运行在一个共享信息的网络平台上。该系统的工作流程与目前工程项目管理的实际情况一致。它既能用于公司内部管理(局域网),也能用于现场项目部的管理(单机或局域网),还能够通过与Internet连接,实现公司对项目部的适时管理;具有一定的决策支持功能。
1.1 工程项目现场施工管理系统
工程项目现场施工管理的主要工作可以概括为“三控两管一协调”,因此该部分主要是为各项目部提供辅助管理的功能模块(日常管理、质量管理、进度管理、成本控制与结算管理、合同管理、生产要素管理等模块),为正确作出决策提供保证,并按规定格式形成报表。
1)日常管理子系统:主要完成施工准备期、施工期、交(竣)工验收及保修期的项目管理工作。主要收集设计信息;施工准备阶段的管理信息(法律法规与部门规章、市场信息、自然条件);工程概况信息(工程实体概况、场地与环境概况、参与建设的各单位概况、施工合同、工程造价计算书);施工信息(施工记录、施工技术资料);项目管理信息(项目管理规划大纲、项目管理实施规划);施工过程项目管理各专业的信息(进度控制、质量控制、安全控制、成本控制、现场管理、合同管理);生产要素信息(材料管理、构配件管理、工器具管理、人力资源、机械设备);项目结算信息;组织协调信息;竣工验收信息;考核评价信息;项目统计信息等。日常管理子系统的另一项工作是及时收集和处理从监理、业主、分包、设计、材料供应等单位送交的报告资料。为了及时、规范地处理这些报告,系统设置了大量的知识库、模板库、素材库,运用基于神经网络的群体决策支持技术[2、3],帮助现场管理人员及时有效地处理有关报告资料。
2)质量管理子系统:主要完成质量目标确定;项目质量计划编制;项目质量计划实施。施工合同签订后,项目部应索取设计图纸和技术资料,指定专人管理并公布有效文件清单。单位工程、分部工程和分项工程开工前,项目技术负责人应向承担施工的负责人或分包人进行书面技术交底。对工程测量、材料的质量、机械设备的质量、工序质量、特殊过程质量、工程变更及施工中发生的质量事故应进行有效控制和处理。同时建立和维护质量检验评定标准、进行原材料质量检验、现场施工质量检查、分项(单元)工程质量数据收集,分项工程、分部工程、单位工程、工程项目的质量评定,施工质量文档管理,质量报表与统计图形输出。另外,还包括质量安全事故分析处理功能模块,如事故调查分析、事故检验分析、事故评价、事故处理等。
3)进度管理子系统:包括项目初始进度(总进度、单项工程进度、分部工程进度、关键工序施工进度)数据的建立和维护、网络计划的形成和优化、计划进度输出、实际进度统计、进度的动态跟踪管理。在施工方案选择、施工进度计划编制和施工平面图设计中,系统运用了基于神经网络的施工方案决策支持系统。
4)成本控制和结算子系统:包括各类计量结算项目编码和查询(如清单项目、工程变更项目、工程索赔项目、其他需要结算的项目)。系统能根据每月分部分项成本的累计偏差和相应的计划目标成本余额预测后期成本的变化趋势和状况,根据偏差原因制定改善成本控制的措施,控制下月施工任务的成本。并能用对比法分析影响成本节超的主要因素。在确定施工项目成本各因素对计划成本影响的程度时,可采用连环替代法或差额计算法进行成本分析。
5)合同管理子系统:包括合同分类、合同目录一览表、合同文本管理(如各类合同条款的建立、修改、查询)、分包工程管理、工程变更管理、工程索赔管理、工程暂停及复工管理、工程延期及工程延误的处理以及争端的调解等。另外还能完成合同数据统计、汇总、查询、打印,与合同管理有关的资料的收集与分析。
1.2 公司信息管理系统
在针对金融学领域进行实证研究时,传统研究方法通常选择结构化数据作为研究依据,常见类型如股票市场数据、财务报表等。大数据技术发展后,计算机技术逐渐成熟,在实证研究中可获取更加多样化的数据,非结构化文本大数据得到应用,例如:P2P网络借贷文本、财经媒体报道、网络搜索指数、上市公司披露文本、社交网络文本等。本文探讨了相关文本可读性、相似性、语气语调与语义特征等。
1.在金融学研究中文本大数据的挖掘方法
传统研究方法通常采用人工阅读方法对文本信息进行识别,因为文本数量庞大、信息构成复杂,人工识别效率较低,而且信息识别质量不稳定,信息识别效果受到阅读者专业素养、理解能力等多方面因素影响。计算机技术发展后逐渐被应用于分析文本大数据,利用计算机技术获取语料,对文本资料进行预处理、文本表示、抽取特征等操作。完成上述步骤后,在研究分析中使用文档特征,从而开展深入分析[1]。在分析文本大数据时,主要采取如下流程:(1)从众多信息来源中获取语料,对语料文档进行解析,明确文本定位,清洗数据,获得文本分词,标注词性,将其中停用词清除。(2)构建词云、词嵌入、词袋模型与主题模型。(3)分析文本情绪、可读性、相似性,分析语义关联性。(4)监督机器学习、词典语法处理[2]。
1.1获取语料
获取语料的方法主要分为两种:(1)人工获取;(2)利用网络工具爬取或抓取。其中人工获取语料投入成本较高,耗时较长,需要投入大量人力,因此网络抓取的可行性相对较高[3]。网络抓取方法可有效应对大量文本量,在一定程度上降低文本大数据获取难度。在网络抓取语料时,需要借助编程语言,通过直接抓取或爬取的方法获取文本大数据。采用此种语料获取模式具有两方面显著优势,不仅获取文本信息耗时较短,效率较高,而且可直接使用编程语言整理内容和规范形式,为后续文本分析工作奠定基础[4]。
1.2预处理环节
获取目标语料后,前期需要预处理文本,解析、定位文本,清洗数据,标注分词与词性,最后去除停用词。金融市场通常要求企业采用PDF格式作为信息披露文档格式,文本预处理中首先需要解析富格式文档,获取文档信息。定位文本和清洗数据环节中,利用计算机程序定位文本信息[5]。在该类研究中,MD&A研究热度较高,使用正则表达式进行财务报告正文MD&A定位首尾信息部分,提取上述信息。此外,文本信息中除核心内容结构外,还包括超文本标记语文、脚本语等代码信息、图片信息、广告信息等,该类信息在文本分析中属于噪声内容,需要删除和清洗相关信息,从文本中筛选有价值的核心内容[6]。文本分词处理与文本语言密切相关。英文文本使用空格划分单词,即自然存在分词形式,也可采取提取词干、还原词形等方法划分单词。中文文本中不使用空格分词,根据中文语言习惯,词语为最小语言单位,可独立使用。基于此种背景,分析文本时需要专门分词处理中文文本,例如:使用Python开源“jieba”中的中文分词处理模块处理文本,股票论坛帖子文本、年度业绩说明会以及企业财务报告均可使用该类工具处理,完成分词。在针对中文文本进行分词处理时,其中实施难度较高的部分是识别新词、歧义词与控制切分颗粒度。在处理歧义词时,需要科学选择分词方法,采用“jieba”针对文本进行分词处理时,选择分词模式是否科学直接影响分词精准度。分词处理新词时,需要用户在相应模块中自行添加新词,完善自定义词典,从而使分词软件识别新词[7]。语义信息被识别的关键依据是词性等语法特征,词语切分后标记词语词性操作被称为词性标注。词性标注操作可帮助计算机进行词语种类识别,避免词语歧义,对语法结构进行有效识别,从而促进计算机顺利进行语义分析。词性标注时,中英文操作方法不同,词性划分英文单词要求比较严谨,利用词尾变化反映词性变化。在英文词汇中,许多固定词尾可提示详细词性信息。在处理中文词语中,并无明确词性指示,词性识别依据主要为语法、语义等。简言之,英文词性识别标记注重形式,汉语词性标记以语义为主。在处理文本信息时,需要将文本信息中停用词去除,从而保证文本挖掘信息具有较高精度。所谓停用词,即自身词义表达有限,然而对于句子语法结构完整性而言非常重要的词语。停用词导致文本数据具有更繁琐维度,导致分析文本的成本较高。英文中动词、连词、冠词均为常见停用词。中文处理方法比较复杂,必须结合语言习惯分析停用词,不仅需要处理特殊符号、标点符号,还需要处理连词、俚语。除此之外,应根据具体研究内容确定停用词。在进行文本情绪研究时,特定标点符号、语气词等会影响文本表达的情感信息,对于此类信息需要予以保留,从而保证文本情感程度得到准确分析。
1.3文档表示环节
文本数据为高维度数据,具有稀疏特点,使用计算机处理文本数据时难度较高,预处理实施后,必须通过特定方式表示文档信息,通过此种处理降低后续计算机分析和人工研究难度。词云、词嵌入、词袋模型、主题模型均为核心表示方法[8]。词语技术具有可视化特点,是文本大数据技术之一。所谓本文可视化,即使用视觉符号显示复杂内容,展示文本规律。根据生物特性,人们习惯于通过视觉获取文本信息,实现文本可视化可提高信息提取效率。使用词云技术可有效描述文本中词汇使用频率,采用醒目形式显示高频词汇。词袋模型的构建基础是无严格语序要求的文字词组存在[9],以此种假设为前提,文本相当于众多词语集合,采用向量化方法表达文本,在此过程中只计算各个词语出现频率。在词袋模型中含有两种构建方法:(1)独热表示法;(2)词频-逆文档频率法。前者的应用优势是可行性较高,操作难度较低。例如:现有如下两个文档:(1)文档一:“经济学中文本大数据使用”;(2)文档二:“金融学中文本大数据使用”。以文档一、文档二为基础建设词表,根据词序实施词袋化处理,确定词袋向量。对于出现的词,以“1”表示,未出现的词以“0”表示。但是在实际操作中,不同词语在文档中出现频率存在差异,通常文本中高频词数量较少,许多词汇使用频率较低。为体现文档中不同词语的作用,对单词词语赋予权重。TF-IDF是计算文档定词语权重的有效方法。含有词语i文档数描述为dfi,集合中文档总量描述为N,逆文档频率描述为idfi,第j个文件中词语i频率描述为tfi,j,第j个文档内词语数量描述为aj,第i个文档内词语i权重描述为tf-idfi,j,则公式应表示为[10]其中,的前提条件是不低于1,0定义为其他情况。较之独热表示法,TF-IDF方法的特点是对每个单词赋予不同权重。在赋予其权重的基本方法时文本中该词汇出现频率越高,其重要性越高,与此同时语料库中该词汇出现频率越高,则其重要性相应降低。词嵌入处理中,主要是在低纬度连续向量空间嵌入指定高维空间,该高维空间维数包括全部词数量。在金融学领域中进行文本研究时,词嵌入技术通常采用Word2vec技术,该技术中主要使用CBOW技术与Skip-Gram神经网络模型,针对神经网络进行训练,促使其有效捕获词语中包含的上下文信息,对词语进行向量化映射,得到的向量语义信息更加丰富,信息密度更大,信息维度更低。主题模型中应用频率较高的是LDA模型,应用此种模型进行文本分析属于无监督机器学习法,通过此种方法才能够大量集中语料中提取主题信息。在应用该方法时,将生成文档的过程分为两步,首先假定各文档具有对应主题,从这些主题中抽取一个主题,然后假定文档具有对应词汇,对比之前抽取的主题,从词语中选取一个与主题对应的词语。完成上述迭代后,将其与文档中各词语拟合,从而获得各文档主题、主题中词语分布情况。LDA模型主要优势是,与手动编码相比,该模型性能更完善,可有效分类大规模文档。该模型做出的文本主题分类支持复制,准确性较高,而采用人工手段分类文本时较易受到主观性影响。此外,使用此种模型时,无需人工分类进行关键词、规则设定。LDA模型的缺点是在主题预设个数时,受到研究者主观因素影响,选择主题个数的数量受此影响显著,因此生成主题过程与归类文本主题时较易受到相关影响。
1.4抽取文本特征的方法
文本特征是指文本可读性、相似性、文本情绪以及语义关联性。其中文本可读性即读者在阅读文本时是否可较容易地理解文本信息。在编辑文本时应保证文本具有较高可读性,保证投资者通过阅读文本可有效理解文本信息,即确保文本对投资者投资行为产生积极影响。有研究者在文本分析中使用迷雾指数,该类研究认为,迷雾指数与年报可读性呈负相关。年报文本字数、电子文档规格也是影响年报可读性的重要因素。在使用迷雾指数评价文本可读性时,常见的问题是,随机排序句子中词语将导致文本难以理解,然而正常文本和经过随机排序处理的文本在分析计算时,显示相同迷雾指数。不仅如此,在进行商业文本测量时采用迷雾指数作为依据具有显著缺陷,例如,当对企业披露信息进行可读性分析时,难以有效划分年报可读性与该企业实际复杂性。基于此种背景,在针对年报文本可读性进行评价时,需要结合企业业务复杂性等影响,提出非文本因素[11]。在提取文本情绪时,通常采用有监督机器学习法与词典法进行提取操作。词典法即在文本情绪、语气语调研究中使用情绪词典辅助分析。词典确定后,该类研究即支持复制。不仅如此,建设词典时还需要融合大量金融学专业知识,从而使词典与金融文本分析需求一致。使用现有多种类词典、文献等分析媒体报道情绪,针对财务报告进行语气语调分析,以及进行电话会议等进行语气语调分析等。中文大数据分析时,通常是以英文词典、词库等为模板,构建中文情绪词典。使用该类词典辅助分析股票成交量、收益率,评估股市崩盘风险高低。在词典法应用中需要结合加权法进行文本情绪分析[12]。有监督机器学习法包括支持向量机、朴素贝叶斯等方法。采用此类方法时,重点环节在于对分类效果进行检验和评价。交叉验证法是常见检验方法。有监督机器学习法的缺点是必须人工编码设置训练集,工作量较大,并且人工编码较易受到主观因素影响,分类效果鲁棒性较差,并且研究难以复制。其优点是分类精确度较好。
2.文本大数据分析
大数据分析主要是进行财务报告等公司披露文本信息、搜索指数、社交网络文本以及财经媒体报道等进行分析。通过文本挖掘从海量文本中抽取核心特征,分析其可行性、相似性、语义特征、语气语调等,然后分析股票市场行为与文本特征等相关性。分析披露文本信息时,主要是利用文本信息对企业财务、经营、管理层长效经营信息等进行研究。在进行此类研究时,重点是分析文本可读性、相似性,以及分析语气语调。披露文本可读性较高时,有利于投资者有效获取公司信息,影响投资行为。迷雾指数理论认为,财务报告具有较高可读性的企业通常具有更长久的利润。此外,有研究者提出,财务报告可读性直接影响盈余预测离散性和可靠性。财务报告可读性较低时,公司为减轻此种消极影响,可采取自愿披露措施缓解消极影响。管理者通过控制财务报告可读性可对投资者行为做出影响[13]。在针对企业发展情况和股票市场发展趋势进行分析时,披露文本语气语调具有重要参考价值。相关研究认为,MD&A语气内含有增量信息,该类信息为企业长效经营能力进行预测,同时可根据该类信息分析企业破产风险。管理者情绪状态可表现在电话会议语气中,此种语气分散情况与经营决策具有相关性,同时语气对投资者感知、分析师评价产生影响。分析财经媒体报道时,主要关注媒体情绪,分析媒体报道着眼点,针对经济政策进行分析,了解其不确定性,此外还需要研究媒体报道偏向信息、假新闻等。进行社交网络文本研究时,主要是分析策略性信息披露情况与文本情绪。搜索指数研究方面,主要通过搜索指数了解投资者关注度。