绪论:写作既是个人情感的抒发,也是对学术真理的探索,欢迎阅读由发表云整理的11篇统计学变量类型范文,希望它们能为您的写作提供参考和启发。
一、数据统计分析的内涵
数据分析是指运用一定的分析方法对数据进行处理,从而获得解决管理决策或营销研究问题所需信息的过程。所谓的数据统计分析就是运用统计学的方法对数据进行处理。在实际的市场调研工作中,数据统计分析能使我们挖掘出数据中隐藏的信息,并以恰当的形式表现出来,并最终指导决策的制定。
二、数据统计分析的原则
(1)科学性。科学方法的显著特征是数据的收集、分析和解释的客观性,数据统计分析作为市场调研的重要组成部分也要具有同其他科学方法一样的客观标准。(2)系统性。市场调研是一个周密策划、精心组织、科学实施,并由一系列工作环节、步骤、活动和成果组成的过程,而不是单个资料的记录、整理或分析活动。(3)针对性。就不同的数据统计分析方法而言,无论是基础的分析方法还是高级的分析方法,都会有它的适用领域和局限性。(4)趋势性。市场所处的环境是在不断的变化过程中的,我们要以一种发展的眼光看待问题。(5)实用性。市场调研说到底是为企业决策服务的,而数据统计分析也同样服务于此,在保证其专业性和科学性的同时也不能忽略其现实意义。
三、推论性统计分析方法
(1)方差分析。方差分析是检验多个总体均值是否相等的一种统计方法,它可以看作是t检验的一种扩展。它所研究的是分类型自变量对数值型因变量的影响,比如它们之间有没有关联性、关联性的程度等,所采用的方法就是通过检验各个总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。(2)回归分析。在数据统计分析中,存在着大量的一种变量随着另一种变量的变化而变化的情况,这种对应的因果变化往往无法用精确的数学公式来描述,只有通过大量观察数据的统计工作才能找到他们之间的关系和规律,解决这一问题的常用方法是回归分析。回归分析是从定量的角度对观察数据进行分析、计算和归纳。
二、应用SPSS软件的基本统分析
教学材料第二、三章内容为资料的整理与特征数的计算、概率和概率分布,结合教学内容SPSS上机实验课应设置基本统计分析课程,该部分包括数据汇总报告和描述性统计分析两方面的内容。基本统计分析可通过菜单栏的分析(Analyze)窗口进入,点击分析栏之后,鼠标放置数据汇总报告(Reports)栏,即可显示分层报告(OLAP—OnlineAna-lyticalProcessing)、数据汇总(CasesSummarize)、行汇总报告(ReportSummariesinRows)、列汇总报告选项(ReportSummariesinColumns)。其中分层报告主要用于中位数、最大值、最小值、方差、偏度系数等统计描述;数据汇总可用于对编辑窗口中的数据在结果窗口中罗列出来,以便浏览和打印,同时也可对数据的基本特征进行描述;行汇总报告可罗列原始数据,其格式是以观察单位和统计量为行标目,以报告变量为列标目;列汇总报告主要用来生成按列显示统计量计算结果的报告,同时也可以完成许多统计计算。当鼠标放置描述性统计分析(DescriptiveStatistics)位置后,选中响应的功能即可进入频数分析(Frequen-cies)、描述性分析(Descriptives)、探索性分析(Ex-plore)、多维交叉表分析(Crosstabs)、比值分析(Ratio)窗口从而根据自己的目的进行响应的数据分析。
三、应用SPSS软件的均值比较和方差分析
生物统计学基本知识熟悉之后,在随后在课堂教学中会开始进行统计推断和方差分析部分的内容。SPSS实验课在此部分结合课堂教学相应的设置均值比较和方差分析上机内容。均值比较可通过菜单栏的分析(Analyze)窗口进入,点击分析栏之后,鼠标放置数据均值比较(Com-pareMeans)上即可显示相应分析栏:平均数基本分(Means)可用于定量资料的统计分析,按分组变量计算因变量的描述统计量值,如均值、方差、标准差、偏度、峰度等统计量,并显示结果;单样本T-test(One-SampleTTest)单样本t检验主要用于样本平均数和已知总体平均数的比较;独立样本T-tes(tInde-pendent-SamplesTTest)可用于检验两个独立样本的总体平均数之间是否有显著差异;配对样本T-test(Paired-SamplesTTest)用于配对计量资料的比较,检验配对样本差值的总体均数与0的差异有无显著意义,以及配对样本是否相关方差分析包括单因素方差分析和多因素方差分析。其中单向方差分析(One-WayANOVA)可通过均值比较(CompareMeans)进入,其用于完全随机设计资料的多个样本均数比较和样本均数间的多重比较,也可进行多个处理组与一个对照组的比较。多因素方差分析可通过分析栏里的多因素方差分析(GeneralLinearModel)选项进入,进入之后会设置四个不同要求的选择:单变量多因素方差分析(Univariate)可用于一个因变量受一个或多个自变量影响的方差分析;多因变量方差分析(Multivariate)主要用于多个因变量受一个或多个因素变量或协变量影响的方差分析;多因变量方差分析(Multivariate)对同一因变量进行重复测量的方差分析;混合效应分析(VarianceCompo-nents)用来估计每个随机因素对因变量方差的贡献。在分析过程中可根据不同的需要和要求,选择相应的方差分析。
在培养目标上,两类硕士差距就更加明显了。学术型硕士要求可以进行基本的专业理论研究,有继续进行高等理论研究的素质和潜力,其中的一部分人可以继续攻读本专业及相关金融、管理、经济等相关专业的博士学位,学术性的硕士生更强调理论学习和理论基础的训练。专业学位硕士则要求较好的专业知识实用能力,了解掌握常用统计方法的思想和软件应用,实践能力强,具有分析解决带复杂数据分析背景的实际问题的潜力,强调的是学生对实际问题的处理能力,各种统计方法的综合运用及实战能力。在国外发达国家,目前均有应用统计专业学位博士,就是说将来在我们国家,优秀的应用统计专业学位硕士可以进一步攻读专业学位博士,这类博士应该对实际问题有敏锐的眼光,对各种实用的统计方法有全面的了解,知晓其长处与不足,可以解决复杂的实际数据分析问题,因此应用统计专业学位硕士的概率理论基础训练应更加倾向于实际,倾向于在统计学中大量用到的概率论知识。这就决定了对两类硕士在概率论基础知识要求方面有很大不同。在概率论基础方面,由于两类生源的本科知识体系中都是以《概率论与数理统计》课程为起点,概率论部分基本相同,内容是:概率基础及公式,随机变量及分布,随机向量及分布,数字特征及计算。在硕士生阶段应在此基础上考虑两类硕士的培养目标的差异,分别在概率基础课程中安排不一样的教学内容和重点。
正确运用统计方法的前提是良好的实验设计。如果试验前没有良好的设计, 或者设计存在缺陷, 那么, 即使使用高级的计算机和复杂的统计方法处理数据, 也只能得到错误的结论。对于生物(医学)研究者来说, 统计问题咨询应该在一个研究项目开始之前, 而不是在研究数据出来以后。没有系统学习过生物(医学)统计学的许多实际工作者常常错误地认为统计分析是在试验完成后才考虑的问题, 而且不考虑研究目的、 资料类型以及统计方法的前提条件等有关统计方法选择的问题。需强调的是,实验设计、 资料搜集与整理分析是科学研究的三个紧密联系的阶段, 而良好的设计是顺利地进行实验和收集数据、 分析数据的先决条件, 希望通过运用统计方法的计算来弥补设计上的错误是不可能的, 也是有害的[1]。
1 统计分析步骤
统计方法的选择依赖于研究方案中的统计学设计。统计学设计是要求研究工作者, 根据研究目的规定研究因素, 选择观察指标, 确定研究对象的样本含量, 拟定研究的实施方法及数据收集、 整理和分析的模式, 以达到用最少的人力、 物力和时间, 获得可靠的结论。在实际工作中, 必须根据医学研究目的、 设计类型、 资料性质、 样本大小和分析过程中所遇到的各种实际情况等, 并结合专业方面的知识来恰当地选择和运用统计分析方法, 才能做出正确的、 符合实际的结论。在区分了研究资料的反应变量和解释变量的基础上, 数据的统计分析主要回答两个问题: 一是反应变量的差异是否可归因于分组因素或对比因素? 二是多个反应变量之间是否存在某种联系? 因此, 医学科研数据统计分析大致分以下4个步骤。
1.1 数据整理 主要进行数据质量的核查、 异常值的处理, 考察数据分布及变量转换等, 以及看数据是否符合特定统计方法所要求的条件。如计算均数和标准差要求数据基本上呈正态分布, 方差分析要求各组方差的差别不宜过大等。
1.2 统计描述 按分组因素或控制因素分组计算反应变量的基本统计量, 如均数、 百分率、 标准差、 标准误等, 得出资料的大致轮廓和进一步分析方向。结果的表达方式主要是统计图或统计表[2, 3]。
1.3 统计推断 选择和运用恰当的统计方法(见统计方法选择)作详细分析, 如均数间的差异比较进行t检验或方差分析、 反应变量间的相互关系进行相关分析、 反应变量与解释变量的依存关系拟合各类回归模型等等。各种假设检验得到的P值是下结论的主要依据[2-4]。
1.4 结果表达 将各种分析结果简单明了地表达出来, 为专业上的分析讨论提供统计学背景[4]。有条件的话, 前3个步骤应在计算机上借助统计软件完成。另外, 以上4个步骤只是一种粗略地划分, 对有些资料,统计描述即可得出较为明确的结论。对于随机分组的实验设计资料或随机抽样的调查资料, 一般可根据资料性质和分析目的找到恰当的统计方法。但对于对比性资料的分析, 往往需要同时用多种统计方法进行处理或拟合复杂的统计模型。
2 统计方法选择
生物(医学)科学研究从研究设计开始到数据的收集、 整理、 分析的全过程中, 统计学知识始终贯穿其中, 而统计分析方法的正确选择在数据处理中至关重要。在研究方案制定时选择何种统计分析方法取决于实验的目的、 不同的设计类型、 观察指标组成的资料性质和样本大小等。
在研究设计时, 统计方法的选择需考虑以下6个方面的问题: (1)看反应变量是单变量、 双变量还是多变量; (2)看单变量资料属于3种资料类型(计量、 计数及等级资料)中的哪一种; (3)看影响因素是单因素还是多因素; (4)看单样本、 两样本或多样本; (5)看是否是配对或配伍设计; (6)看是否满足检验方法所需的前提条件, 必要时可进行变量变换, 应用参数方法进行假设检验往往要求数据满足某些前提条件, 如两个独立样本比较t检验或多个独立样本比较的方差分析, 均要求方差齐性, 因此需要做方差齐性检验。如果要用正态分布法估计参考值范围, 首先要检验资料是否服从正态分布。在建立各种多重回归方程时, 常需检验变量间的多重共线性和残差分布的正态性。
不同的统计分析方法都有其各自的应用条件和适用范围。实际应用时, 必须根据研究目的、 资料的性质以及所要分析的具体内容等选择适当的统计分析方法, 切忌只关心P值的大小(是否
3 统计方法综合运用实例
例 根据2001年进行的大规模调查, 已知某地健康青年男子身高均数为168.34 cm, 体重均数为57.20 kg, 同年在该地应征男性青年中随机抽取120名男子, 测得其身高、 体重资料见表1, 试对该资料进行统计分析[1]。表1 120名应征男性青年的身高与体重资料
3.1 资料的分布特征和数字特征的统计描述 本例属于单样本双变量计量资料。对该资料进行统计分析时, 首先应对每一个变量的分布类型及其特征进行统计描述, 编制直方图或频数表, 计算相应的统计描述指标, 然后在此基础上选择和运用恰当的统计方法进行统计推断, 最后作出明确结论。
本例的身高、 体重频数分布情况见图1~2。由图1可直观看出, 身高的频数分布特征为: 所有数据分布在155~182之间; 数据主要集中在164~173之间, 共有73人, 占总人数的60.8%; 各组段的频数基本以168.5为中心呈对称分布。因此, 可认为身高近似服从正态分布。而体重的频数最多组段58~不在所有组段的中间位置, 各组段的频数以61为中心呈不对称分布(图2), 故可认为体重呈偏态分布。图1 120名应征男性青年身高的频数分布图表2给出了资料分布的数字特征: 均数(x)、 标准差(s)、 中位数(Md)、 四分位数间距(QR)和全距(R)。为了进一步说明各变量是否服从正态分布, 表2也同时给出了偏度系数 由表2可见, 身高的|ug1|和|ug2|均小于1.65, 故可认为身高服从正态分布(矩法正态性检验), 此结论与上述的直观结果相同, 也与图3的图示法结论相同(散点几乎都在一条直线上)。同理, 体重的|ug1|和|ug2|均大于1.65, 故可认为体重不服从正态分布, 此结论亦与上述的直观结果相同, 显然与图4的图示法结论也相同(散点不在一条直线上)。
由于身高近似服从正态分布, 且是大样本数据, 故可用样本均数168.84 cm代表身高的平均水平, 用样本标准差5.19 cm代表身高的个体差异, 用x±1.96 s来描述身高的95%散布范围, 即168.84±1.96×5.19=158.67~179.01 cm。由于体重不服从正态分布, 用中位数58.00 kg代表体重的平均水平, 用四分位数间距8.75 kg代表体重的个体差异, 用百分位数P2.5~P97.5描述体质量的95%参考值范围, 即49.03~80.77 kg。
3.2 参数的点估计与区间估计 身高的均数: =X=168.84 cm, SX=0.47 cm, 95% CI=167.90~169.78 cm 。体重的均数: =X=57.67 kg, SX=0.63 kg, 95%CI=56.44~58.90 cm。体质瘦弱(体重≤50 kg )检出率: =p=17/120=14.17%, SP=3.18%, 95%CI=7.93%~10.41% 。身高与体重的相关系数: =r=0.4040, Sr=0.0842, 95%CI=0.2423~0.5435。本例n=120, 属于大样本数据, 由样本均数分布规律可知, 虽然体重不是正态分布, 但在大样本时, 其样本均数近似服从正态分布, 故仍可用正态分布法进行总体均数的点估计与区间估计。相关系数也不服从正态分布, 故在计算ρ的95%CI时要进行反双曲正切函数转换。
3.3 假设检验 根据历史资料, 已知10年前该地健康青年男子身高均数为166.50 cm, 体重均数为55.20 kg, 可通过假设检验回答: 本次调查结果所代表的该地健康青年男子的身高总体均数、 体重的总体均数、 是否比10年前提高了。
本例属于大样本资料, 可用样本标准差作为总体标准差的估计值, 即身高标准差的估计值=S=5.19, 体重标准差的估计值=S=6.89, 分别进行单样本u检验: 身高: u=4.98, P
同理, 还可以对体质瘦弱检出率、 身高与体重的相关系数等作假设检验。
参考文献
[1] 陈长生. 统计方法的综合运用与统计结果的表达[A]. 徐勇勇. 医学统计学[M]. 2版. 北京: 高等教育出版社, 2004.
统计学如何为数据挖掘服务,这是在“数据挖掘”飞速发展的今天,统计工作者必须回答的一个问题,我国厦门大学的朱建平教授提出:“统计学应该随时关注数据分析,哪里有数据,哪里就应该有统计分析。”统计学是搜集、展示、分析和解释数据的学科,它拥有非常深厚的理论基础,并在社会生活的各个领域发挥着巨大的作用。近代统计学方法与信息处理的关系日益密切,作为信息处理的一个基本工具,统计学方法将发挥越来越重要的作用。
数据挖掘是近十几年里发展起来的一门崭新的学科,由于它与统计学都关心从数据中发现某种结构,因而从数据挖掘诞生之日起,就与统计学有了千丝万缕的联系。
一、统计学与数据挖掘的涵义
统计学是应用数学的一个分支,主要通过利用概率论建立数学模型,收集所观察的系统数据,进行量化的分析、总结,进行推断和预测,为相关决策提供依据和参考;它分为描述统计和推断统计。描述统计包括对客观现象的度量、调查方案的设计,对所收集的数据资料进行加工整理、综合概括,通过图示、列表等方式进行分析和描述。推断统计是在搜集、整理监测样本数据的基础上,对有关总体做出推断,其特点是根据随机性的观测样本数据以及问题的条件和假定,对未知事务做出以概率形式表述的推断。
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的,人们事先不知道的,但又具有潜在价值的信息和知识(模型或规则)的过程。这个定义包括以下含义:数据源必然是真实的、大量的、含噪声的;发现的知识可接受、可理解、可运用,并不要求发现放之四海皆准的知识,仅支持特定的发现问题。它能高度自动化的分析原有数据,做出目的性推理,从中挖掘出潜在的模式,从而帮助决策者调整策略,做出正确的决策。它融数据库技术、人工智能技术、数理统计技术和可视化技术为一体,是一个多学科相互交叉又融合所形成的一个新兴的具有广泛应用前景的研究领域。
二、统计学与数据挖掘的联系
(一)数据挖掘虽不同于统计分析,但许多挖掘技术又来源于统计分析,数据挖掘中有许多工作可以由统计方法来完成。比如预言算法(回归)、抽样、基于经验的设计等。
(二)数据挖掘不是为了替代传统的统计分析技术,相反,数据挖掘是统计分析方法的扩展和延伸。大多数的统计分析技术都基于完善的数学理论和高超的技巧,其预测的准确程度还是令人满意的,但对于使用者的知识要求比较高。而随着计算机能力的不断发展,数据挖掘可以利用相对简单和固定程序完成同样的功能。
(三)数据挖掘技术的出现为统计学提供了一个崭新的应用领域,也对统计学的理论研究提出了挑战。数据挖掘技术有相当大的比重是由高等统计学中的多变量分析所支撑。
(四)统计学与数据挖掘的结合日益紧密。数学是传统意义上统计学方法的首要工具,而计算机和网络为代表的信息技术,正逐渐成为统计学应用的首要工具。随着数据源的不断膨胀和数据结构的日益复杂,单纯依靠数据挖掘技术,已渐露力不从心之态,而统计学的同步发展,正不断充实、完善着数据挖掘技术。因此,随着信息化水平的提高,统计学与数据挖掘的应用平台渐趋统一。
三、预测性挖掘中常用的统计学方法
数据挖掘中应用的统计学预测性方法主要有判别分析和回归分析。其中,判别分析用于对离散型目标变量的预测,而回归分析则主要用于对连续性目标变量的预测。
实际上,统计方法在应用于具体问题的时候,需要许多环节,其中最重要的是需要学生动手来推算该具体问题中涉及到的分布密度――特别是联合密度、边际密度与条件密度,演算方法应用中的变量变换及相应的分布密度,计算变量的数字特征,这些都是统计方法应用的基本环节,如果计算推演这一环节没有经过扎实地训练,那么在这一环节上经常会出错,统计结论就可能是错的。
上面的错误归结起来并不是同学的统计学没有学好,而是他(她)的概率论基本训练没有到位,因此有必要突出强调应用统计类课程所需要的重要知识点,在讲授概率基础课程时候加以特别强化训练。最重要的知识点主要有:
1.列出基于已知分布密度推导各种特殊数据类型的广义概率密度的相应方法。在实践中最常用的数据类型主要有:一元连续型、多元连续型(常见且基本),一元离散型、多元离散型(常见且基本),同时具有离散型与连续型分量的多元数据(常见但不基本),右删失数据(工程与生物领域常见但不基本)、左截断数据(不常用又不基本),具有缺失分量的多元数据(常见但不基本),都可以给出相应的方法求广义概率密度。
2.概率基本公式应用与条件分布的演算。教会学生正确地写出三大概率基本公式所需的各个要素,特别是关于条件概率及其密度的演算。重中之重有两处:一是会求离散变量关于连续变量的广义条件密度(十分常用),二是会利用广义条件密度及广义边际密度求离散变量与连续变量的广义联合密度(十分常用)。
Einstein College of Medicine
Biostatistics and
Epidemiology
A Primer for Health and
Biomedical Professionals
Third Edition
2004, 243pp.
Softcover $ 33.20
ISBN 0-387-40292-6
本书是由美国Albert Einstein医学院流行病学和群体健康系流行病学室Sylvia Wassertheil Smoller教授编著的。第一版于1990年出版,第二版于1995年出版,现为第三版。本书的特点是根据流行病学和统计学的基本框架,使读者理解流行病学与生物统计学的基本原理,理解“为什么做”和“做什么?”学会“如何做、如何解释”。书中的内容都是临床试验和基础研究中最常用的、或是在文献中经常引用的。
全书共分9章。第1章讲述科研方法问题,包括逻辑推理、变异、研究设计、变量的量化、无效假设、假设检验、检验错误的类型、显著性水平等;第2章叙述概率的一些基本概念;第3章介绍常用的统计学检验方法;第4章介绍流行病学的基本概念,包括流行病学的应用、常用指标、流行病学研究类型、偏倚、混杂、交互、多变量分析等;第5章介绍筛检的基本概念;第6章是叙述随机对照临床试验;第7章介绍生活质量的评价,包括量表的结构、可靠性、真实性、敏感性(反应性)以及用量表评价生活质量的局限性;第8章介绍遗传流行病学的基本概念,包括双生子研究、连锁和联系分析、传递不平衡检验等;第9章阐述科研伦理学与统计学的关系。第8、9两章的内容在人类研究中十分重要,是第三版新增加的,是一般流行病学或统计学入门书籍中所没有的。
书后附有9项附录,介绍正文中各种统计学计算的实例,以使读者能够更顺利阅读本书、以及如何实际计算,包括卡方、Z值及t-值的临界值表、Fisher精确检验、几组比较的Kruskal-Wallis非参数检验、相关系数计算、率的年龄调整、比值比的可信性、两个变量的“J”或“U”型关系、量表记分改变的适宜性(敏感性)评价、以及遗传学基本原理和知识。书后还附有参考文献及建议阅读的书目,读者如需了解更深入的、超出本书范围的内容、或涉及高等数学方面的内容,可阅读这些推荐的教科书。书末附有主题索引,便于读者检索。
本书以科学的哲学和逻辑学原理,讨论统计学检验的基本原理,而不是让读者去做具体的统计学检验。全书各章节都是独立的,读者可不按顺序阅读,只阅读感兴趣的部分。本书特别适合那些没有或很少有数学背景的读者,使他们能够读得懂、用得上。
本书内容既简明,又适合范围较广的读者需要,所阐述原理和方法适合多种领域,包括医学、公共卫生、心理学、教育学。本书是一本简明的流行病学与生物统计学教科书,适合从事临床和基础研究的医生、医学专业本科生、研究生,或非医学专业学生参考,也可供程度较高的读者、以及对生物统计学与流行病学的逻辑学和方法学感兴趣的研究人员参阅。
乌正赉,教授
【关键词】创伤严重度指数
a preliminary study on factors of trauma outcomes in chinese patients
department of health statistics, school of preventive medicine, fourth military medical university, xian 710033, china
【abstract】 aim: to review some important factors affecting the outcomes of trauma patients and to screen variables for the predictive model of trauma outcomes so that a new trauma scaling model more applicable to chinese patients can be established. methods: the database of discharge abstracts of trauma patients from more than 200 hospitals nationwide was used and a logistic regression model was fitted with the outcomes of patients as response and other 9 factors as predictors, including the anatomic injury severity grade by iss value. a stepwise regression method was used to select the variables and their parameters were estimated. results: six factors, namely, anatomic injury severity grade, complication status, age group, identity, operation status and financial support status were selected into the logistic regression model (p<0.05). several interactive effects were also selected in the model (p<0.05). conclusion: the anatomic injury severity grade is the most important factor affecting the outcomes of trauma patients, followed by the complication status and age. the effects of other factors are not so obvious and should be further analyzed.
【keywords】 trauma severity indices; logistic models; international classification of diseases; abbreviated injury scale; injury severity score
【摘要】 目的: 考察影响创伤结局的重要因素,初步筛选创伤患者结局预测模型的构成变量,为建立新的适合中国患者的创伤严重度评分方法进行有关评分模型的初步探讨. 方法: 利用全国200余所医院的创伤患者病案首页数据,初选出包括iss评分所得严重度在内的9个相关的因素,将患者结局作为应变量拟合logistic回归模型. 逐步回归法筛选变量,并估计其影响作用的大小. 结果: 解剖严重程度、有无并发症、年龄组、身份、是否接受手术、费用类型等6个因素对患者结局的影响有统计学意义(p<0.05),被选入logistic回归模型. 另外,某些因素的交互效应也一并被选入logistic回归模型(p<0.05). 结论: 解剖严重度是影响创伤结局的最重要的因素,其次是有无并发症和年龄等因素. 其余因素是否作为创伤评分模型应考察的因素需作进一步的探讨.
0引言
创伤评分是目前创伤患者伤情评价的基本方法,在世界范围内广泛应用. 我国的创伤评分研究起步晚,目前尚未得到广泛推广和应用,其原因在于多数创伤评分方法操作复杂,应用条件苛刻,且大多数创伤评分模型是基于国外(欧美国家)患者的生理、解剖参数而确定,对于国内患者其适用性较差. 为建立一种适合国内创伤患者的简单易行的创伤评分方法,我室提出基于创伤病种icd9(国际疾病分类)6位数编码的创伤评分方法的构想,并且已经建立全部创伤病种icd9 6位数编码与ais(简明损伤定级)分值的对应关系表[1]. 通过iss评分方法对此对应关系的考察表明,此种通过icd9编码转换的方法所得的ais分值能够很好地体现单个创伤的解剖严重度,可以作为创伤评分的解剖学参数[2]. 我们进一步探讨了国内创伤患者结局的影响因素,为基于icd9 6位数编码的创伤评分方法筛选其他模型变量,并从统计学角度考察各种因素对创伤患者结局的影响程度.
1资料和方法
1.1数据来源全国范围内200余所大、中型医院1998年全年收治的创伤患者病案首页数据. 经数据清洗,排除治疗结果中“未治”、“其他”或为空白的记录,最终得符合研究要求的创伤患者记录共112 749条. 其中男性88 622人,女性24 087人. 按年龄将患者分为3个年龄组,其中0~15岁16 382人,16~54岁87 242人,≥55岁9 125人. 地方人员94 935人,军队人员17 814人. 自费患者81 170人,非自费(公费或医疗保险等)患者31 579人. 单发伤70 345例,多发伤42 404例. 接受手术治疗者54 176例,未接受手术者58 573例. 伴有创伤并发症者582例,无并发症者112 167例. 发生院内感染者1255例,未发生院内感染11 194例. 患者结局(出院时)中存活111 684人,死亡1065人.
1.2创伤评分方法(解剖评分)采用我室编制的icd9 6位数编码与ais分值对应表,以创伤患者的出院诊断icd9编码为基础,换算出每一个出院诊断所对应的创伤的ais分值. 以turner osler的改良iss法[3](即不考虑创伤所在的身体区域,仅以ais分值最高的3处创伤计算iss分值)计算每位患者的iss分值. 再按照iss分值将全部患者分为三个解剖严重程度分组,iss 1~12者为轻,13~19者为中,20~75者为重[4]. 经以上分组后,全部患者中,轻度创伤患者93 343例,中度创伤患者9507例,重度创伤患者9899例.
1.3数据处理方法以患者的结局(存活或死亡)为应变量,将性别、年龄组、身份(军队或地方人员)、费用类型、创伤类型(单发伤或多发伤)、是否接受手术、有无并发症、有无院内感染等因素与解剖严重程度分组一起作为自变量,拟合logistic回归模型,考察各因素对患者结局的影响. 通过逐步logistic回归分析,筛选有统计学意义的影响因素,并计算其对患者结局的作用大小. 为简化计算过程和方便分析结果的专业解释,此次分析仅考察各因素的主效应及其一阶交互效应,其余高阶交互效应假定为零.
2结果
2.1变量筛选结果经逐步logistic回归分析,解剖严重程度、有无并发症、年龄组、身份、是否接受手术、费用类型等6个因素对患者结局的影响有统计学意义(p<0.05),被选入logistic回归模型. 另外,解剖严重度与有无并发症、是否接受手术、费用类型等3个因素的交互效应以及是否手术与有无并发症的交互效应均有统计学意义(p<0.05),一并被选入logistic回归模型.
2.2模型拟合优度及各因素的效应大小使用以上筛选出的变量和交互效应对患者的结局重新拟合logistic回归模型,模型拟合度统计量、自变量及交互效应项对模型的意义见tab 1. 可见费用类型的主效应无统计学意义,但与解剖严重度的交互效应却有统计学意义.表1logistic模型拟合结果
各因素及交互效应项的参数估计值见tab 2. 其中各因素的水平值对应的具体含义见tab 3. 表2各因素及交互效应项的参数估计值(略)表3各因素的水平值对应的具体含义(略)
3讨论
根据以上参数估计值,即可给出创伤患者结局的logistic回归预测模型,各因素对患者结局的影响作用大小也可得以考察和比较. 从结果可以看出,解剖严重度分组是影响创伤结局的最重要的因素,解剖严重度越高,死亡概率越大. 其次是有无并发症和年龄因素,有并发症者死亡概率明显增加,年龄越大,死亡概率越大. 此三个因素应在创伤评分模型中作为主要的因素来考察. 身份因素对结局的影响表现为地方人员死亡概率高于军队人员,这可能与军队人员具有良好的基本医疗保障有关. 费用类型的作用与身份因素存在相似之处,自费患者死亡概率高于非自费患者. 其余因素对结局虽然存在一定的影响,但影响程度均较轻,是否作为创伤评分模型应考察的因素需作进一步的探讨. 各因素之间存在的交互效应,在建立新的创伤评分模型时也须加以重视,在进一步地考察确认之后,应通过适当的模型表达项使之得以充分体现.
以aisiss为基础的解剖严重度评分,是世界范围内广泛应用的创伤评分方法,虽然在对患者结局的预测与评价方面效果有不尽如人意的地方,但可作为改良的创伤评分方法的基础[5]. 有些因素,比如是否手术、是否院内感染等,均是在患者入院后才可收集的信息,不便作为评分模型的组成变量,仅能用作创伤患者结局的预测变量之一. 另外一些重要因素,如患者的血压、心率、呼吸、体温等生理指标,均是影响患者结局的重要因素[6],应当作为创伤评分模型的重要变量,其对患者结局的影响程度也需要进行类似的考察和分析. 由于病案首页数据在此类信息方面的缺失,此次无法一并进行分析,我们将在后续的研究中收集更为全面的数据,对各种有关的因素进行全面地分析.
此研究是建立基于icd9编码的创伤评分模型的一次初步探索,是对部分影响因素的初步考察与分析. 但由于数据信息量的限制,研究的结果尚不能作为创伤评分模型的最终参考依据. 后续的研究工作需要收集更全面的数据,考察更多的因素,从临床和统计学两个方面对各种影响因素的作用进行全面的考察与分析,以期为建立一个合理的创伤评分模型提供依据.
【参考文献】
[1] 薛富波,王玉琨,徐勇勇. 创伤国际疾病分类编码向ais分值转换规则的研究[j]. 中华创伤杂志,2003; 19(7): 385-388.
xue fb, wang yk, xu yy. converting rules from international classification of disease codes of trauma to abbreviated injury scale values [j]. chin j trauma, 2003; 19(7): 385-388.
[2] 王玉琨,薛富波,徐勇勇,等. 基于icd9编码的iss创伤评分方法研究[j]. 创伤外科杂志,2004; 6(1): 28-30.
wang yk, xue fb, xu yy, et al. exploration of a newly developed trauma severity scaling method of iss based on icd9 codes [j]. j traumatic surg, 2004; 6(1):28-30.
[3] osler t, baker sp, long w, et al. a modification of the injury severity score that both improves accuracy and simplifies scoring [j]. j trauma, 1997; 43: 922-925.
[4] mackenzie ej, steinwachs dm, shankar b. classifying trauma severity based on hospital discharge diagnoses. validation of an icd9cm to ais85 conversion table [j]. med care, 1989; 27(4): 412-422.
[5] 杨柳青,任秀清,杨宁,等. 改良创伤评分(rts)与创伤严重度评分(iss)在创伤评估中的应用[j]. 川北医学院学报,1998; 13(2): 20-22.
yang lq, ren xq, yang n, et al. applications of revised trauma score and injury severity score in trauma evaluations [j]. j north sichuan med coll, 1998; 13(2): 20-22.
二、地质统计学在矿山储量分析当中的应用
地质统计学是以研究区域化变量为基础的,以变异函数为研究工具,研究在空间上具有随机性和结构性的自然现象的科学。地质统计学在矿山储量分析当中的应用中的原理大致分为以下几种:1.区域化变量区域化变量是地质统计学理论体系的核心基础,在实践中,钻孔的位置。在绝大多数情况下是不随机的。当两个样品在空间的距离很小时,样品间会存在较强的相似性,而当距离很大时,相似性就会减弱或不存在。也就是说,样品之间存在着某种联系,这种联系的强弱是与样品的相对位置有关的,样品之间的联系在空间上既具有随机性又具有位置之间的联系。2.半变异函数的数学模型通常情况下样品由于取样、化验误差和矿化作用在短距离内的变化,在绝大多数情况下半变异函数在原点不等于零。也就是会存在块金效应。但是地质统计学在矿山储量分析当中的应用在实际工作中区域化变量的变化性很复杂,通常要计算几个具有代表性的方向,然后通过结构分析,得到一个能代表其空间变异性的模型函数,由于区域化变量往往存在各向异性,不同方向上的半变异函数具有不同的变程,影响范围是一椭球体,即各向异性椭球体。在确定空间搜索椭球体时,不仅需要指出块金常数、基台、变程,还需要指定一些参数:圆锥体的容差角、容差限、滞后距等,各个参数的意义用几何图形表示。当然应用地质统计学法对矿山储量分析,被大部分人认为是一种较好的品位估值方法,尤其适用于品位变化大,矿岩界线由品位控制的矿床。在估值计算过程中,当有了足够的地质钻孔数据时,对矿床进行正式可行性评价时,选用地质统计学法是一种较好的方法,而在对矿床进行初步评价或是数据量不足时,就要首选较简单的方法。基于地质统计学原理和矿体三维可视化建模技术的DIMINE矿业软件,实现了按照不同的边界品位动态圈定矿体,能够以市场经济为向导,快速计算出矿体范围内的矿石量,并进行储量分级,在此过程中所得到的各中间参数,可以为投资决策和日常管理提供必要的参考依据。
三、地质统计学在勘探网度优化方面的应用
地质统计学在勘探网度优化中的应用主要要注意以下的两个个因素,其一是:构造复杂程度;二是煤层的稳定性。当勘探区的构造已经经过,详细的勘探,构造问题基本解决之后,勘探网度优化主要的问题就是煤层的稳定性。当一个煤田有两种或者是两种以上的煤层稳定结构时、应该按照储量和厚度占有优势的那一个煤层类型选择勘探网度的优化。应用地质统计学的方法对露天的在勘探网度进行优化,主要要分为两个步骤:其一是建立地质变量的最佳理论变差函数;其二是应用地质变量的估计方差评价勘探过程对矿床的控制程度。
切口感染为所有外科术后最常见并发症之一,当今社会无菌技术飞速发展及多种广谱抗生素的应用可以降低其发生率,但尽管如此切口感染发病率仍比其他术后并发症的发生率要高得多。术后切口感染严重影响病人的预后,对病人的术后康复引起严重的后果,而且还会给病人家庭增加巨大不必要的经济负担[1]。因此为了降低术后切口发病率,笔者通过回顾研究我院623例肝胆外科并发切口感染的病例,通过对比分析法总结其发生的因素及相对应的防范措施,现将具体情况总结如下。
1、资料与方法
1.1 一般资料 通过研究我院在2008年1月至2012年1月期间肝胆外科病例623例,其中男性399例,女性224例,年龄最大75岁,最小18岁,平均年龄55岁。623例患者实施的手术类型具体总结如下:肝移植,肝叶切除术,胰腺肿瘤切除术,胰十二指肠切除术,肝肿瘤切除术,胆总管探查引流术等。
1.2 方法 通过回顾分析研究我院在2008至2012年期间的切口感染病例,包括病人的病例,档案记录的查房单,病程单,辅助检查结果,切口分泌物实验室检查结果,并将其按不同发病原因统一记录于统计调查表中。
1.3统计学方法 应用SPSSl5.0软件分析,计数资料采用百分比表示,数据对比采取X2校验,P>0.05,差异无统计学意义,P
2、结 果
通过统计分析623例肝胆外科病人,术后发生切口感染的病例为123例,发病率为19.7%。通过具体的统计学方法χ2检验,发现能影响患者切口感染的确切因素有6个,分别为白细胞计数,手术时间长短,手术出血量,切口类型,医用碘伏消毒程度,术中广谱抗生素用量及种类。
2.1单因素Logistic回归分析
以肝胆外科手术患者有无手术部位切口感染为因变量,以性别、年龄、职业、文化程度、生源地、居住所在地、婚姻状况、经济状况、费用类别、居住状况、工作压力、经济压力、体型、手术季节、术前空腹血糖、术前糖化血红蛋白、术前血红蛋白量、术前血钠水平、术前血清高敏C反应蛋白含量、术前白细胞升高程度、ASA麻醉评分、围术期高血糖、手术时间、术中出血量、胃肠道营养、手术性质(急诊或者择期)、手术方式、手术室各区域布局、切口类型、手术切口长度、切口抗生素冲洗、是否放置引流、术后引流量、术后抗生素使用情况和基础疾病自变量赋值后进行二分类Logistic回归分析,结果发现手术室各区域布局合理、放置引流和抗生素切口冲洗是肝胆外科手术患者手术切口感染的保护因素,高龄、急诊手术、手术时间长、手术切口长和Ⅲ类切口是肝胆外科手术患者手术切口感染的危险因素。
2.2 多因素Logistic回归分析
以肝胆外科手术患者有无手术部位切口感染为因变量,选择本研究进入肝胆外科手术患者手术切口感染单因素Logistic回归分析方程的8个自变量为自变量进行多因素Logistic回归分析,α入=0.05,α出=0.10,结果发现放置引流和抗生素切口冲洗是肝胆外科手术患者手术切口感染的保护因素,高龄、急诊手术、手术时间长和Ⅲ类切口是肝胆外科手术患者手术切口感染的危险因素。
3、讨 论
肝胆外科术后切口感染的危险因素与其他外科切口感染有许多共同点也有其特殊之处,主要特点是其感染的危险因素涉及患者本身与外科医生的操作[3],具体危险因素及防范对策总结如下:
3.1 切口类型 肝胆外科术后切口感染主要原因是受腹腔内肠源性细菌感染,由统计学资料显示,Ⅲ型切口的感染率高达59.4%,但由于肝胆外科的特殊性,常常需要涉及到胆道切开,上消化道分离,肝小叶切除等Ⅱ,Ⅲ类型切口,且统计学显示这两种类型切口感染率均显著高于Ⅰ型切口,所有增加了其术后发生切口感染的概率。因此为了降低其感染率,需要外科医生在术前术后要做好无菌操作;仔细消毒切口;关闭腹腔前仔细冲洗腹腔,用碘伏反复消毒切口;术后放置腹腔引流且时刻保持引流管的畅通;选用抗生素需按照患者的引流液细菌实验室检查做相应的改变。
3.2 手术切口缝合 通过本次研究笔者还发现,切口的缝合好坏直接影响切口是否感染。由主刀医师等经验丰富的医师缝合的切口感染率显著低于实习医生等非主刀医师的缝合感染率。因此肝胆外科的切口感染与医生的缝合经验有密不可分的关系。所以外科医生在缝合切口时因注意减少死腔,争取一次性缝合,打结时松紧度适宜,严密缝合皮缘。
3.3 切口消毒及冲洗 作为所有外科手术,切口消毒都是一种非常简单却行之有效的一种规避切口感染的手段,经过外科长时间的发展,已经被医学界广泛认同,这也是无菌术提高的重要原因。最常用的冲洗液是无菌性生理盐水,用其冲洗切口可以洗净切口的细碎脂肪组织,灰尘,坏死组织的碎片等,可以显著降低切口的带菌量。切口的消毒肝胆外科广泛使用碘伏。碘伏是单质碘与聚乙烯吡咯酮的不定性复合物,医用碘伏浓度较低,其起着光谱杀菌的作用,对大多数细菌有杀灭作用,但其对蛋白质等不起损害作用,所以在医学界被广泛应用。经统计学资料显示,切口经过碘伏消毒可以明显降低其感染发生率。所以将无菌生理盐水与碘伏联合使用,是有效规避切口感染的重要手段。
3.4 术中失血量 由于肝胆外科手术入路的特殊性,肝脏等器官又是人体主要供血器官,所以术中出血极为多见。由于肝胆外科手术时间均长且操作复杂,所以病人可能会长时间的出去,经过大量输注晶体补充液和人工血液,导致组织器官血供不足,组织缺氧,似的组织发生坏死等,降低切口的愈合力,及免疫力,所以迅速精准的操作,对外科医生提出了更高的要求。所以在术前仔细检查,做出正确的手术方案是必不可少的。
综上所述,对肝胆外科术后切口感染的危险因素是多方面的,从笔者此次观察发现的几点危险因素,感染的发生除了与患者本身有关,但更多方面是关于外科医生的操作,因此为了降低术后切口感染的发生概率,需要外科医生严格实施无菌操作,注意细节,操作熟练迅速,最大程度的降低切口感染的发生概率。
参考文献:
1 对象与方法
1.1 调查对象
调查对象为松江区肿瘤报告登记在案的1 700例现患恶性肿瘤患者,对象符合下列标准:①有病理学或细胞学诊断依据 (不受恶性肿瘤类型限制);②年龄在18 岁以上;③自愿合作者;④签署知情同意书;⑤既往无精神病史;⑥预计生存期≥3个月。
所有进入调查的患者均按要求签署知情同意书,其中一般状况调查表由随访医生完成,FACT-G量表由患者自己完成。共收回有效问卷1 568份。
1.2 调查内容
1.2.1 一般状况①社会特征资料: 患者性别、年龄、家庭平均收入、婚姻(未婚、已婚、离异、丧偶)、职业(干部、工人、农民、学生、自由职业、商业人员、离退休人员、无业及其他)、受教育程度(大学本科或以上、大专、高中、初中、小学、文盲),吸烟饮酒史及是否继续工作、是否参加体育锻炼(从不、每周1次、每周2~3次、每周4~5次和每周6~7次)、医疗费用来源(自费、公费、医保以及合作医疗)等; ②疾病特征: 肿瘤诊断、分期、既往治疗、患者是否知情(完全知情、部分知情以及不知情)、疼痛(无癌痛、轻度癌痛、中度癌痛及重度癌痛)、疼痛治疗及疗效的评价、不良反应等。
1.2.2 卡氏功能评分(KPS) 按0~100评分,评分标准参照《肿瘤诊治规范》2002年版[2]。
1.2.3疼痛 采用数字疼痛分级法(NRS),根据疼痛程度分为:无(0分)、轻度(1~3分)、中度(4~6)、重度(7~10)。
1.2.4 QQL 采用FACT-G[3]自评量表(目前国际上最常采用的自评量表),该量表共包括6个部分,分别为身体状况(Phy)、社交状况(Soc)、与医生关系(Doc)、情绪(Emo)、功能状况(Func)、其他忧虑(Others)等,共44项。每1项有单独计分,QQL的优劣与各部分评分及总分有关。
1.3 调查方法
调查采用问卷调查的方法。由经过培训的社区医师预约,亲自到所抽取的调查对象家中,当面讲清调查的目的、意义和要求,如果同意,签署知情同意书,然后请他们当场接受调查,并填写问卷。
1.4 统计方法
本研究所有数据采用Epidata 3.0软件建立的数据库录入表格数据,数据录入采用双人双份录入。统计全部由SPSS 10.0软件完成。具体方法为:①单因素方差分析,方差具有齐性时,选用Least-significant difference(LSD)法进行均数多重比较;变量方差不具有齐性时,采用秩和检验。②线性回归分析,以FACT-G各维度评分作自变量,KPS评分为因变量,进行线性回归分析。
2 结果
2.1 一般情况
本次调查1 568例,年龄18~80岁,平均(57.73±12.46)岁,其中男774例(49.4%)、女794例(50.6%)。前4位肿瘤分别为大肠癌、胃癌、乳腺癌、肺癌,分别占17.6%、14.4%、12.5%和7.9%;其次为食管癌(4.7%)、鼻咽癌(3.6%)、卵巢癌(2.2%)、肝癌(2.2%)等。早期恶性肿瘤(I、II期)占66.1%,III、IV期占33.9%;轻度癌痛者占14.4%,中度癌痛占4.1%,重度癌痛者占1.9%,无癌痛者占79.5%。有918例(58.5%)患者对自己病情完全了解(表1)。
2.2 影响恶性肿瘤患者QQL因素
对可能影响社区恶性肿瘤患者QQL的因素如年龄、婚姻状况、家庭收入、本人受教育程度、职业状况、知情状况、体育活动状况、医疗费来源、肿瘤类型、肿瘤分期、癌痛状况等11个因素分别进行分析。方差分析表明,年龄对生活质量各维度评分的影响主要表现为:维度Phy、Doc与Emo在各年龄组间无统计学差异,P分别为0.483、0. 212、0.762,而Soc、Func项在各年龄组间存在统计学差异。
婚姻状况对生活质量各维度评分的影响主要表现为:Doc与Emo两项在不同婚姻状况间无统计学差异,P分别为0.254、0.195,婚姻状况对Phy、Func、Soc项的评分有统计学影响。
家庭收入、本人受教育程度对生活质量各维度评分的影响主要表现为:Phy、Doc项无统计学差异,Soc、Emo、Func项的评分有非常显著统计学影响。职业状况、医疗费来源对生活质量各维度评分的影响为:Phy、Emo项无统计学差异,Soc、Doc、Func项的评分有非常显著统计学影响。体育活动状况对生活质量各维度评分的影响除Doc、Emo无统计学差异外,余3项维度评分均有非常显著统计学影响。
采用方差分析的方法比较不同肿瘤类型生活质量各维度评分,结果显示,维度Soc 、Doc2项评分在不同肿瘤类型之间无统计学差异(P分别为0.246、0.891),而在其他3项维度评分上有统计学差异(P均
2.3 不同肿瘤类型的QQL情况
调查的病例中,胰腺癌QQL各维度评分均较低,而骨肉瘤、乳腺癌和卵巢癌评分相对较好(表3)。
2.4 KPS与QQL评分多元线性回归分析
KPS为社区肿瘤随访中常用的简化QQL评分方法,KPS的高低与FACT-G各维度评分均存在较好的相关性。线性回归分析KPS与FACT-G各维度评分的相关性,结果显示KPS与Phy、Soc、Doc、Emo、Func各项之间均存在线性相关,经标化后回归系数和P值分别为0.492/0.000、0.100/0.000、0.092/0.000、0.374/0.000、0.366/0.000,见表4。
3 讨论
肿瘤患者是一个特殊的群众,随着人群健康水平的提高,肿瘤患者的QQL越来越受到人们的关注。本次对社区中1 568名恶性肿瘤患者进行的QQL问卷调查,结果显示,年龄、婚姻、身体状况、情绪以及功能状况均是影响恶性肿瘤患者QQL的重要因素。
不同肿瘤、不同分期患者的QQL也是有差别的[4]。调查结果表明,胰腺癌患者QQL是最差的,而骨肉瘤、乳腺癌和卵巢癌患者QQL则相对较好,这可能与胰腺癌本身恶性程度高,预后差,早期不易发现,就诊时大多已是晚期有关[5]。而乳腺癌往往是自检或体检发现,大多发现时还是早期,且预后较好,生存期较长。因此,这些患者在经过完善的治疗后,很多还可以继续工作,疾病本身对她们QQL的影响不大。而不论哪一类型的肿瘤,越是早期的患者,越容易有获得根治的机会,也就越容易有较高的QQL[6]。