我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:财神爷心水论坛 > 非流形 >

多元线性回归与相关

归档日期:07-30       文本归类:非流形      文章编辑:爱尚语录

  多元线性回归与相关_数学_自然科学_专业资料。多元线性回归与相关 浙江大学公共卫生学院 流行病与卫生统计教研室 沈毅 2005.6 浙江大学医学院流行病与卫生统计学教研室 沈毅 多元线性回归与相关 直线回归与相关是分析一个应变量Y与

  多元线性回归与相关 浙江大学公共卫生学院 流行病与卫生统计教研室 沈毅 2005.6 浙江大学医学院流行病与卫生统计学教研室 沈毅 多元线性回归与相关 直线回归与相关是分析一个应变量Y与一个自变量X之间 的关系。但通常是一个应变量受到许多因素的影响,例如一 个人的收缩压受到年龄、饮食、锻炼及遗传等许多因素的影 响。因此,必须把直线回归与相关的分析方法推广为多个自 变量的分析方法,从而起到更有效的预报、控制及识别影响 因素的作用。 浙江大学医学院流行病与卫生统计学教研室 沈毅 第一节 多元线性回归模型 一、多元线性回归方程的建立 多元线性回归模型为: Y ? ?0 ? ?1 X1 ? ?2 X 2 ? ? ?p X p ?? 式中βj是Xj(j=1,2,…,p)对 Y的偏回归系数( Partial regression coefficient),它表示在其它自变量固定不变的情况下,Xj每改变一个测 量单位时所引起的应变量 Y的平均改变量,p为自变量的个数,ε为残差, 独立服从 N(0,σ2)分布。 拟寻求参数β0,β1,… βp的适宜估计值 b0,b1,bp,使观察值Yi和回归 预测值 n Yi 之间残差平方和最小,即 ? 2 n ? Q ? ? (Yi ? Y i ) ? ? ? ?Yi ? ? b0 ? b1 xi1 ? b2 xi 2 ? i ?1 i ?1 ? bp xip ?? ? ? min 2 (15 ? 1) 浙江大学医学院流行病与卫生统计学教研室 沈毅 根据微积分知识,b0,b1,bp必须满足联立方程组: ?Q ?Q ? 0, ? 0, ?b0 ?b1 , ?Q ? 0, ?bp 该方程组也称为正规方程组。可将该正规方程化为 ?X ?X nb0 ? ? X i1b1 ? 2 b ? X ? i1 0 i1b 1? ? ? X ip bp ? ? yi ? ? X i1 X ip bp ? ? X i1 yi (15 ? 2) ip 0 b ? ? X ip X i1b1 ? ?X 2 ip p b ? ? X ip yi 其解即为β0,β1,… βp的最小二乘估计值。 浙江大学医学院流行病与卫生统计学教研室 沈毅 上述正规方程组可以用矩阵形式简洁地表示,令: ?1 ? 1 ? X ?? ? ? ?1 x11 x21 xn1 x1 p ? ?b0 ? ? y1 ? ? ?b ? ?y ? x2 p ? ? 2?,B ? ? 1 ? , Y ? ? ? ? ? ? ? ? ? ? ? xnp ? ?b p ? ? ? yn ? ? ? 矩阵X含n行(p+1)列,除第1列外其余恰好是关于X的原 始数据,每一行属于一个个体,行向董Y的每一个元素属于一 个个体,列向量B即为欲求的参数估计值,式(15-2)左端 的系数构成的矩阵为: ?n ? ?? xi1 ? ? ? x ?? ip ?x ?x i1 2 i1 ?x ?x x ip ?x ip i1 x ? ?1 1 ? ? x11 x21 i1 ip ? ? ??? ? ? 2 ? ? x1 p x2 p ? xip ? ? ? ?1 ? xn1 ? ? ?1 ?? ?? xnp ? ?? ?1 1 x11 x21 xn1 x1 p ? ? x2 p ? ? X X ? ? xnp ? ? 浙江大学医学院流行病与卫生统计学教研室 沈毅 其中X’是X的转置矩阵,为X的行列互换所得,右端的参 数项可以写成: ? ? yi ? ?1 1 ? ? ? ? ? xi1 yi ? ? x11 x21 ? ??? ? ? ? x x2 p ? ? xip yi ? ? ? ? ? 1p ? ? y1 ? ?y ? xn1 ? ? ? 2 ? ? X Y ?? ? ?? ? xnp ? ? ? yn ? 1 故正规方程组的矩阵形式为 X XB ? X Y 其解可以表示为: B ? ? X X ? X Y ?1 浙江大学医学院流行病与卫生统计学教研室 沈毅 其中 ? X X ? 表示系数矩阵 X X 的逆矩阵。可见,回归参数 ?1 的最小二乘估计实为系数矩阵之逆矩阵与常数项矩阵(列向 量)之乘积。其计算较为复杂,可以用统计软件求得。 用最小二乘法解出偏回归系数βj的估计值bj后,得到相应 的多元线性回归方程为: Y ? b0 ? b1 X1 ? b2 X 2 ? ? ? bp X p (15 ? 3) 下面举例说明建立多元线性回归方程的过程。 浙江大学医学院流行病与卫生统计学教研室 沈毅 二、例子 例15-1 为研究男性高血压患者血压与年龄体重等变量的关系,随机测量 了32名40岁以上男性的血压(mmHg)、年龄(岁)、身高、体重、以及 吸烟史。其中体重指数 Qutelet index=100(体重/身高2); 吸烟:0为不吸,1为过去或现在吸烟。(见表15-1) 由表15-2可知有关参数估计值为:b0=44.293,b1=1.778,b2=9.623。 b1=1.778表示 40岁以上男性吸烟状态不变的条件下,年龄每增加五岁,收 缩压平均提高1.778mmHg;b2=9.623表示年龄不变的条件下,吸烟者与不 吸烟者相比,收缩压平均提高 9.623 mmHg。于是得到回归方程: Y ? 44.293 ? 1.778 X1 ? 9.623 X 2 ? 浙江大学医学院流行病与卫生统计学教研室 沈毅 第二节 回归系数的假设检验 选用多元线性回归描述一组观察资料时,不可避免地带 有一定的主观性和抽样误差。因此,必须对所建立的回归 方程进行拟合适度检验,以分析应变量 Y与各自变量Xj之 间是否存在线性关系。多元线性回归方程拟合适度检验可 分为两种:一种是对整个方程的检验,另一种是对各偏回 归系数的假设检验。下面分别介绍。 浙江大学医学院流行病与卫生统计学教研室 沈毅 一、多元线性回归方程的假设检验 可用方差分析方法来检验应变量Y与p个自变量之间是否存在线性回归 关系。检验假设为: H0:βj均为0;H1:βj不全为0;j=1,2,…,p. α=0.05。 在多变量情形下,应变量总离均差平方和 SS总可以分解为回归平方和 SS回与残差平方和SS =两部分,它们的简便计算公式以及相应的自由度 为: SS总 =? Yi ? Y ? ? 2 ? ? Yi 2 ? ? ? Yi ? / n ? lYY , v总 ? n ? 1 2 2 ?? ? SS回 ? ? ? Y ? Y ? ? b1l1Y ? b2l2Y ? ? ? 2 ? bp l pY , v回 ? p (15 ? 4) ? ? ? SS残 ? ? ? Y ? Y ? ? SS总 ? SS回 , v残 ? n ? p ? 1 ? ? 浙江大学医学院流行病与卫生统计学教研室 沈毅 统计量F的计算公式为: SS回 / p MS回 F? ? , v回 ? p,残 ? n ? p ? 1 SS残 /(n ? p ? 1) MS残 (15 ? 5) 式中MS回及MS残分别称为回归均方与残差均方。在无效假设H0: Bj均为零的条件下统计量F服从F(p,n-p-1)分布。如果F≥F α(p,n- p-1),则在α水准上拒绝H0,认为p个自变量X中至少有一个与应变量 Y之间存在线性回归关系。否则不拒绝 H0,即认为所有X与应变量 Y之间无线得到对方程的检验结果为:F=52.40,P=0.0001,故 在α=0.05水平上拒绝H0,可认为年龄和吸烟对血压的影响总的来 说具有统计学意义。 浙江大学医学院流行病与卫生统计学教研室 沈毅 二、偏回归系数的假设检验 在多元线性回归模型中,线性回归方程有统计学意义, 并不说明所有βj均不等于零。为了检验每个自变量是否与Y 都有线性回归关系,需分别对每个自变量Xj或相应的偏回 归系数bj进行假设检验,以免把无统计学意义的自变量引 入回归方程。所用检验方法有F检验法与t检验法,这两者 的检验结果是一致的。 浙江大学医学院流行病与卫生统计学教研室 沈毅 1.F检验 是在其它自变量存在于回归方程中的条件下考察 某一自变量Xj对应变量Y的回归效应。 检验假设为:H0:βj=0;H1:βj≠0;J=1,2,…,p。 α=0.05。 计算检验统计量的步骤为: 第一步:将所有p个自变量X1,X2,…,Xp全部引入回归方 程中,得到回归平方和SS回及残差平方和SS残。 浙江大学医学院流行病与卫生统计学教研室 沈毅 第二步:将拟检验的某个自变量Xj(j=l,2,…,p)从回归方 程中取出后,重新建立含p-1个自变量X1,…Xj-1,Xj+1,…Xp的回 归方程,并得到相应的回归平方和 SS回(-j)。差值SS回(-j)-SS回。 就是其它自变量存在于回归方程中的条件下,Xj单独引起的回归平 方和改变量,称为 Xj的偏回归平方和。 第三步:计算F统计量: Fj ? SS回(-j) ? SS回 SS残 /(n ? p ? 1) v1 ? 1, v2 ? n ? p ? 1 (15 ? 6) 在 H0为真条件下,Fj服从自由度为1及(n-p-1)的F分布。如果 Fj≥Fα(1,n-p-1),则在α水平上拒绝H0,否则不拒绝H0。 浙江大学医学院流行病与卫生统计学教研室 沈毅 2.t检验法 上面介绍的F检验法须计算一个含p个自变 量的回归方程和p个含p-1个自变量的回归方程,工作量 很大。但计算机统计软件中都有计算多元线性回归的偏回 归系数标准误Sbj(j=l,2,…,p)的程序,然后可用 t检 验法对各偏回归系数进行假设检验。只需计算一个包含 p 个自变量的多元线性回归方程,得到各偏回归系数的标准 误,t检验的计算公式为 tj=bj/Sbj t分布。 浙江大学医学院流行病与卫生统计学教研室 沈毅 (j=1,2,…,p) v=n-p-1 (15-7) 在无效假设 H0:βj=0条件下,tj服从自由度v=n-p-1的 对例15-1资料,由表15-3可知Y与X1和X2的回归方程 有统计学意义。同时从表15-2各变量的回归系数的假设 检验可知,X1的P=0.0001,X2的P=0.0005,每个变 量的作用均有统计学意义。 浙江大学医学院流行病与卫生统计学教研室 沈毅 应该指出,从回归方程中剔除一个自变量,如Xj,这绝不是简 单地把bjXj项从方程中剔除就完事了,而是再建立一个含有p-1个 自变量的新方程,新方程中Xk的偏回归系数bk与原方程中Xk的bk 是不同的,这是因为变量之间存在着相关性。当从原方程中剔除 一个变量时,其它变量,特别是那些与它相关密切的一些变量的 偏回归系数就会受到影响,有时影响是很大的,甚至会引起符号 的变化。所以,在进行t检验或F检验时,必须特别慎重。一般对 偏回归系数进行一次检验后,只能剔除其中的一个变量,这个变 量是所有无统计学意义的自变量中F值或t值为最小的。重新建立 新方程后,再对新的偏回归系数逐个进行检验,直到余下的偏回 归系数都具有统计学意义为止。 浙江大学医学院流行病与卫生统计学教研室 沈毅 在许多情况下需要比较各自变量对应变量的相对贡献大 小。但由于各自变量的测量单位不同,单从各偏回归系数的 绝对值大小来评价是不妥的,必须对各偏回归系数进行标准 化处理,即消除测量单位的影响后,才能进行比较。这种消 除测量单位影响后的偏回归系数称为标准化偏回归系数 bj 其计算公式为: bj ? b j ? ? S j / SY ? (15 ? 8) 式中 Sj及 SY分别为自变量 Xj及Y的标准差。bj为Xj的偏回 归系数。将各变量先经标准化处理后再配合回归模型,所得 的偏回归系数即为标准化偏回归系数。 浙江大学医学院流行病与卫生统计学教研室 沈毅 由表15-2的结果计算得例15-1资料中各变量Xj的标准化 偏回归系数为:b1 ? 0.8567, b2 ? 0.3411 。从两个标准化偏回归 系数的比较可知,年龄对收缩压的影响强度约为吸烟的 2.5倍。 浙江大学医学院流行病与卫生统计学教研室 沈毅 第三节 回归方程的评价 为了评价回归方程的拟会效果,应分析回归方程的残差分布, 利用残差提供的信息可以检验资料的正态性与方差齐性,并可 分析所建立的回归方程是否合适以及对哪些观察点的预报效果 较差。 残差系指观察值Yi与估计值 Y i 之差,即 ? i ? (Yi ? Y i ) 。在正常 ? ? 情况下的残差服从均值为0,方差为σ2的正态分布,它的标准 误为S 1 ? hi 。按式(15-9)去除εi的单位后的量称为学生氏 残差(Studentized residual)记为 ? i 。其计算公式为: ? ? i ?i S (1 ? hi ) (15 ? 9) 浙江大学医学院流行病与卫生统计学教研室 沈毅 其中hi为第i个样本点的杠杆值,是矩阵 H=X(X’X)X’ 中的第i对角线元素。杠杆值反映各点对回归方程的影响 强度。 ? ? 残差分析中最简单的方法是用 i 与 Y i 作成残差图进行 直观分析(见图15-1)。 浙江大学医学院流行病与卫生统计学教研室 沈毅 在图15-1中a图表示残差 ? i 与估计值 Y i 之间无特殊的分 ? 布趋势,为理想的残差分布。b图表示 ? 与 Y i 之间呈曲线 趋势,这提示所建立的回归方程对资料的信息概括得尚不 i ? 充分,需要增加新的非线性回归项如某自变量的平方项等。 c图表示 ? 与 ? i 之间呈扇形分布,反映方差有随估计值的 Yi 增大而增大的趋势。此外,可以根据残差的 P-P图检查资 料的正态性。如果检查出资料缺乏正态或(和)方差齐性, 可考虑拟合高阶线性回归、作变量变换、增加自变量的交 互作用项、用加权最小二乘法回归等来改进拟合回归方程 的效果。 浙江大学医学院流行病与卫生统计学教研室 沈毅 如果用一组资料建立起回归方程后再计算每一观察 点的残差,则该远离点的残差较其它点残差的绝对值 大。把预报效果较差的点称为特异点(outlier)。特 异点往往对回归系数的估计有较大的影响,分析时应 加以注意。 浙江大学医学院流行病与卫生统计学教研室 沈毅 用全部观察对象的资料建立起回归方程后得到的残差称 为普通残差。普通残差的敏感性较差,其原因是回归方程中 包含了残差所对应的观察点的信息。另一种残差称为预报残 差(prediction residual),它是用不含该观察点信息的回 归方程来计算该观察点的平均预报值所得到的残差,因此能 更好地反映出该观察点远离回归线的情况。如果该例的普通 残差较小而预报残差很大,则表示该观察点是对回归方程影 响较大的特异点,应对该资料的来源作深人的分析。 图15-2为例15-1资料的二元线性方程的残差分布图,残差 的分布未见明显的异常趋势。 浙江大学医学院流行病与卫生统计学教研室 沈毅 第四节 选择回归变量的方法 应用回归分析研究实际问题时,碰到的一个重要问题就是选择 回归自变量,一般说来,根据问题本身的专业理论及有关经验, 研究者罗列出可能与应变量(Y)有关的自变量(X)往往很多, 其中有一些自变量对应变量可能根本没有影响或影响很小。如果 回归模型把这样一些自变量都包含进来,不但计算量大,而且估 计和预测的精度也会下降。有时,某些指标的观测数据获得代价 较大,如果把这些与Y关系很小或根本就没有关系的指标选进模 型,会使模型应用的费用不必要地升高。本节对自变量的选择提 出一些准则(criterion),以帮助读者在使用统计软件包时,灵 活、熟练地应用这些准则,选取所需要的研究变量,建立较优回 归模型。 浙江大学医学院流行病与卫生统计学教研室 沈毅 一、选择变量的统计学标准 2 1.调整复相关系数 设 Radj 为调整后的复相关系数(adjusted 2 R2),则 Radj 的计算公式为 R 2 adj p(1 ? R2 ) ?R ? n ? p ?1 2 (15 ? 10) R2为决定系数,n为样本容量,p为自变量的个数。由上式可以 2 2 看出 R2 ? Radj ,而Radj 的值随着自变量个数的增加并不一定增大。 ? 例15-1的回归方程为:Y ? 44.293 ? 1.778 X1 ? 9.623 X 2 。它的调整后的 2 复相关系数为 Radj ? 0.768。再建立Y与X1、X2、X3作三元回归方程, 2 经过计算得 Radj ? 0.775 ,由此可见增加一个变量X3对Y的影响并不 2 显著,可以考虑剔除。在实际问题中通常可以选择较大的 Radj 来 确定该变量是否选入或不选入回归方程。 浙江大学医学院流行病与卫生统计学教研室 沈毅 2.Cp准则 近年来愈来愈得到广泛重视的一种变量选 择是基于 C.L.Mallows的Cp统计量(Cp-statistics),它 是从预测观点出发,基于残差平方和的一个准则,Cp统 计量定义如下: C p ? (n ? p ? 1)( MS 残, p ? 1) ? ( p ? 1) MS 残, 全部 (15 ? 11) 式中MS残,p为p个自变量残差平方和,MS残,全部为从全 部自变量作回归的残差均方,p为包括常数项在内的自变 量个数,第二项为增加解释变量的折扣,在实际问题的 应用研究中,可以选择Cp值最小的模型为最合适的回归 模型。 浙江大学医学院流行病与卫生统计学教研室 沈毅 3.AIC准则 众所周知,极大似然原理是统计学中估计参数的一 个重要方法,Aakaike把这一方法加以修正,提出了一种较为一般 的模型选择准则,文献中称该准则为Aakaike信息量准则(Aakaike information criterion,简记为AIC),AIC准则应用比较广泛。例如, 它可以用于时间序列分析中自回归阶数的确定等,本节讨论如何把 它应用于回归自变量的选择。 AIC的定义为:当模型是用最小二乘法估计时: AIC=nln(Q)+2p (15-12) 式中p为模型变量中的参数个数,Q是模型的残差平方和。 式(15-12)中等式右边第一项为衡量模型拟合优度的一个量, 第二项为增加参数个数的折扣。在实际应用问题中,可以选择最小 的AIC值来确定变量的选择,所以AIC准则也是判断回归模型拟合 优劣的一种方法。(表15-5) 浙江大学医学院流行病与卫生统计学教研室 沈毅 二、变量的筛选方法 在实际工作中涉及的因素很多,更需要进行筛选。筛选的方法有 1.向前筛选法(forward selection)事先给定一个入选标准即Ⅰ 类错误的概率α1,然后对自变量进行筛选,把偏回归平方和最大、 其偏F检验的概率水准小于α1者逐个引入回归方程,至无显著贡献 的自变量可以选入时为止。因素一旦入选便始终保留在方程中而不 被剔出。 2.向后剔除法(backward elimination)也是事先给定剔除标准α2 即变量保留方程中的概率水准。首先建立一个包括全部自变量的全 回归方程,然后逐个审查,把偏回归贡献最小而无统计学意义(即 Ⅰ类错误的概率>α2)的自变量从方程中逐个剔除,至方程内的所 有自变量都有显著贡献为止。 浙江大学医学院流行病与卫生统计学教研室 沈毅 3.逐步法(stepwise) 给出选入方程的检验水准α1和保留在 方程中的检验水准α2,每次选入一个在方程外而最具统计学意 义的自变量后,对方程中的自变量作剔除检验,把偏F值最小且 其P值大于α2。水平的自变量从方程中剔除。这个过程是一步一 步进行的,直到没有具统计学意义的自变量可以引入,也没有 无统计学意义的自变量保留在方程中为止。 从理论上讲,以向后剔除法效果最好,不会选错因子,但有 时难于实现,故实际工作中多采用逐步法。多元线性回归分析 多用于因素筛选,因此不必对α1及α2规定得很严格,可以选择几 个水平如0.05、0.10甚至0.15,以分析在不同检验水准下的自变 量与应变量之间的依存关系。 浙江大学医学院流行病与卫生统计学教研室 沈毅 第五节 回归诊断 (Regression diagnostics) 在医学研究中,通常遇到诸自变量间存在着线性关系或者 接近线性关系,如果自变量之间共线性程度很高(相关系数 接近于1),将使最小二乘法原理失效,使得回归方程中参 数变为不确定,而无法取得参数的估计值,因此当一个或几 个回归变量可以由另外的回归变量线性表示时,称为回归变 量与另外的回归变量间存在有共线性(collinearity)。 浙江大学医学院流行病与卫生统计学教研室 沈毅 由于在实际研究中往往对自变量之间的关系缺乏深人的 分析和认识,很可能把一些有共线性的自变量引人回归方 程。因此有时在有些回归分析中用最小二乘法计算出来的 回归系数符号与由专业知识预测的完全相反,有些变量从 专业知识的角度看似乎是重要的,但是在回归方程中却认 为是不重要的变量,一个重要的原因就是自变量之间的共 线性。 浙江大学医学院流行病与卫生统计学教研室 沈毅 一、共线性的识别 关于共线性的判定以及程度的度量问题,是近年来引人注目的 研究课题。已经提出了一些行之有效的方法,在SAS等软件包中 专门配有collinearity诊断命令,常用的一些判定方法有: 1.条件数 方阵X’X的条件数(condition number)定义为 k ? ?1 / ? p (15 ? 13) 其中λ1,λp分别为最大和最小特征根。 直观上,条件数度量了X’X的特征根散布程度,可以用来判断共 线性是否存在以及共线性的严重程度,根据应用经验,若0<k< 10,则认为没有共线,则认为存在中等程度或 较强的共线,则认为存在严重共线性。 浙江大学医学院流行病与卫生统计学教研室 沈毅 2.方差扩大因子 共线性严重程度的另一种度量是方差扩大 因子(variance inflation factor,VIF), Cij=(1-Rj)-1, j=1,2,…,p (15-14) Tol= (1-Rj)称为容许限因子(阅值 tolerance) Rj度量了自变量Xj与其余p-1个自变量的线性相依程度。这种相 依程度愈高(1-Rj)就愈接近零,Cij也就愈接近于1(注意Cij≥1) 即自变量之间共线性愈严重。可见Cij的大小也可以反映出自变量 之间是否存在共线性。应用经验表明,当Cij大于5或10时,就存 在着严重的共线性。 解决共线性的主要方法有:用主成分回归替代最小二乘估计。 筛选自变量及岭回归等。 浙江大学医学院流行病与卫生统计学教研室 沈毅 二、例 子 例15-1资料的分析中,如首先建立3个自变量的三元线 性方程,并对该方程进行共线是SAS的 输出结果。 条件数为3.209<10,可以认为该三元线性回归方程不 存在共线性。 浙江大学医学院流行病与卫生统计学教研室 沈毅 第六节 多元线性相关 当应变量Y及p个自变量X1,X2,…Xp都服从正态分布的 情况下,可以对p个自变量与应变量之间进行相关分析,所 用的指标为复相关系数(multiple correlation coefficient) 与偏相关系数(partial correlation coefficient)。下面分别 加以介绍。 浙江大学医学院流行病与卫生统计学教研室 沈毅 一、复相关系数 又称多元相关系数,用R表示。它表示p个自变量共同对应变 量的相关密切程度。其计算公式为: R ? SS回归 / SS总 ? 1 ? SS残 / SS总 (15-15) R的分布范围为0~1.0之间。总体复相关系数月的假设检验为 无效假设H0:ρ=0;备择假设计:H1:ρ>0。α=0.05。 所用统计量为: R2 / p F? , v2 ? n ? p ? 1, v1 ? p 2 (1 ? R ) /(n ? p ? 1) (15 ? 16) 如果F≥Fα(p,n-p-1),则在α水平上拒绝H0,而认为总体复相关系数 不为0,或偏回归系数不全为0。否则不拒绝H0,认为总体复相关 系数ρ=0。 浙江大学医学院流行病与卫生统计学教研室 沈毅 对于例15-1资料,应变量Y的总离均差平方和 SS总= 6341.875,建立二元线性回归方程后得到回归平方和 SS回 =4967.219,用式(15-15)求得复相关系数为: R ? 4967.219 6341.875 ? 0.885 用式(15-16)计算F统计量为: (0.885)2 / 2 F? ? 52.395, v1 ? 2, v2 ? 32 ? 2 ? 1 ? 29 2 (1 ? 0.885 ) /(32 ? 2 ? 1) 这与用式(15-5)计算的结果完全一致。查附表 5,F界 值表得F0.01(2,29)=5.42,故在α=0.05水平上拒绝无效假设 H0,表明总体复相关系数ρ≠0。可以认为年龄和吸烟与高血 压水平有较强的相关关系。 浙江大学医学院流行病与卫生统计学教研室 沈毅 二、偏相关系数 与简单相关系数不同,偏相关系数是在其它自变量固定 的条件下,某自变量与应变量之间的相关系数,从而排除 了其它自变量的干扰作用。但其计算比较复杂。 设有p个自变量与1个应变量,先计算出各变量两两之间 的简单相关系数rjk(j,k=1,2,…,p,Y)并排列成矩 阵形式,然后对这一矩阵求逆,记这矩阵中的元素为rjk, 则偏相关系数rjY· 的计算公式可写为: rjY ? ? (?r jY ) / r ij ? r YY (15 ? 17) 浙江大学医学院流行病与卫生统计学教研室 沈毅 式中rjY· 表示固定其它自变量条件下某自变量Xj与应变 量Y之间的偏相关系数。其假设检验为 H0 : ? jY ? ? 0; H1 : ? jY ? ? 0, ? =0.05 所用检验统计量为t统计量,tjy.的计算公式为: 2 t jY ? ? rjY ? / (1 ? rjY ? ) /( n ? p ? 1) (15 ?18) tjy.服从自由度v=n-p-l的t分布。 由SAS结果可知在控制吸烟状态的条件下,血压与年 龄的偏相关系数为0.877,P=0.000,表明这两者也有 一定的正相关关系。 浙江大学医学院流行病与卫生统计学教研室 沈毅 第七节 应用线性回归分析时需注意的问题 1.利用实际资料所建立的经验回归方程对应变量Y作预 报时,只能在X的现有取值范围内进行。这是因为对于所 建立的回归方程,只概括了在自变量X的观察值范围内应 变量的取值情况,不知道当X在观察范围外时Y的变化规律。 例如某些疾病的发病率有随年龄增长而增加的趋势,当超 过了发病年龄高峰之后,其发病率反而随年龄增长而下降, 故不能用某一年龄段的发病率资料建立的回归方程来推断 终生年龄跨度内的发病率。 浙江大学医学院流行病与卫生统计学教研室 沈毅 2.对线性回归,统计学假定应变量Y的误差e是独立服 从N(0,σ2)。等于说Y独立服从正态分布,而且方差一 致。当实际资料明显不满足这一假定时,需要对Y作变量 变换,使变换后的应变量能近似地满足这一假定。详细情 况请参阅本书的有关数据转换的内容。 3.在自变量为连续变量的情况下,当X与Y不呈线性关 系时,需对X作某种数据变换以期改善线性关系。某种数 据变换是否为优,可用确定系数R2作为判断的尺度。一个 好的数据变换可使R2明显增大。 浙江大学医学院流行病与卫生统计学教研室 沈毅 4.注意资料的特异点。如果实际资料比较规则,回归 方程也选择得当,则标准化残差εi*也近似服从N(0,1) 分布。按标准正态分布的95%范围估计,每100个观察点 中只有大约5个点的εi*≥1.96。如果有过多的点的 εi*≥1.96,或有个别点的ui大大超过1.96时,除了应考虑 所选用的回归模型是否恰当外,还应考虑资料的可靠性。 这些大于等于1.96 的ui可能是对回归方程有较大影响的 点。如果这些点的数据从专业上考虑不合理时,可考虑删 除这些特异点后重新建立回归方程,以便得到较稳定的回 归系数估计值。 浙江大学医学院流行病与卫生统计学教研室 沈毅 5.尽管用数学方法对模型的准确选择可以有一些帮 助,但在处理一个具体问题时,模型的准确选择在根本 上要依赖于所研究问题本身的专业知识和实践经验,这 一点很重要,当应用某种准则和方法选出的一个“最优” 回归模型明显与实际问题本身的专业理论不一致时,首 先需要重新考虑统平崧,仔细从数据中寻找是否含有特 异点、共线性、计算错误等。把变量选择方法看成僵死 的“教条”机械地搬用是不可取的,只有把它作为一种 辅助工具,与实际问题的专业知识和实践经验相结合, 才能取得好的研究结果。next 浙江大学医学院流行病与卫生统计学教研室 沈毅 浙江大学医学院流行病与卫生统计学教研室 沈毅 浙江大学医学院流行病与卫生统计学教研室 沈毅 表15-1 32例40岁以上男性的Quetelet指数、年龄、吸烟与收缩压实测值 编号(ID) 收缩压(Y) 年龄(X1) 吸烟(X2) 体重指数(X3) 1 2 3 4 5 6 7 135 122 130 158 146 129 162 45 41 49 52 54 47 60 0 0 0 0 1 1 1 2.876 3.251 3.100 3.768 2.979 2.790 3.668 8 9 10 157 144 180 54 44 64 1 1 1 3.612 2.368 4.637 11 166 59 1 3.877 点击此处查看续表一 浙江大学医学院流行病与卫生统计学教研室 沈毅 点击此处返回上一页 续表一 编号(ID) 收缩压(Y) 年龄(X1) 吸烟(X2) 体重指数(X3) 12 13 14 138 152 138 51 64 56 1 0 0 4.032 4.116 3.673 15 16 17 18 19 20 21 140 134 145 142 135 142 150 54 50 49 46 57 56 56 1 1 1 1 0 0 1 3.562 2.998 3.360 3.024 3.171 3.401 3.628 22 144 58 0 3.751 点击此处查看续表二 浙江大学医学院流行病与卫生统计学教研室 沈毅 点击此处返回上一页 续表二 编号(ID) 23 收缩压(Y) 137 年龄(X1) 53 吸烟(X2) 0 体重指数(X3) 3.296 24 25 26 27 132 149 132 120 50 54 48 43 0 1 1 0 3.210 3.301 3.017 2.789 28 29 30 31 32 126 161 170 152 164 43 63 63 62 65 1 0 1 0 0 2.956 3.80 4.132 3.962 4.010 浙江大学医学院流行病与卫生统计学教研室 沈毅 表15-2 用SAS得到的Y与X1和X2的回归方程的回归系数与标准误 自变量 常数项 回归系数 44.2931 标准误 9.9633 t 4.446 P 0.0001 标准化回归系数 0.0000 年龄X1 吸烟X2 体重指数 X3 1.7784 9.6227 5.6985 0.1807 2.4552 4.2868 9.844 3.919 1.332 0.0001 0.0005 0.1945 0.8567 0.3411 0.19894 浙江大学医学院流行病与卫生统计学教研室 沈毅 表15-3 用SAS得到的Y与X1和X2的回归方程的假设检验 误差来源 回归 残差 SS 4967.219 1374.656 v 2 29 MS 2483.610 47.402 F 52.395 P 0.0001 总 6341.875 31 浙江大学医学院流行病与卫生统计学教研室 沈毅 表15-4 用SAS得到的Y与X1和X2的回归方程的共线性诊断 特征根 条件数 方差比例 X1 X2 X3 1 2 3 1.84068 0.98053 0.17879 1.00000 1.37012 3.20859 0.0865 0.0023 0.9112 0.0128 0.9793 0.0079 0.0862 0.0062 0.9076 浙江大学医学院流行病与卫生统计学教研室 沈毅 表15-5 选择变量的统计学标准 自变量个数 R2 2 Radj Cp AIC X1 X2 X3 X1,X2 X1,X3 X2,X3 X1,X2,X3 0.6684 0.0589 0.5519 0.7832 0.6841 0.6412 0.7961 0.6574 0.0275 0.5370 0.7683 0.6623 0.6165 0.7743 2.0000 2.0000 2.0000 3.0000 3.0000 3.0000 4.0000 137.9293 171.3113 147.5650 126.3271 138.3783 142.4523 126.3688 浙江大学医学院流行病与卫生统计学教研室 沈毅 回归分析中伪变量的应用 线性回归分析要求变量均为计量值,对定 性分类指标需用数量化方法转换为计量值。如 两分类指标时用( 0 , 1 )来代表,以 1 代表能 使应变量Y增大的那一类。但对于k项分类 (k2)的定性指标,若用顺序数(1,2,…k) 代表,表示已假设该自变量各类别对 Y 影响的 差距是等距的,而实际常非如此。用设置伪变 量( Dummy Variable )的方法就可避免此缺 陷。 浙江大学医学院流行病与卫生统计学教研室 沈毅 一、伪变量设置方法: 定性指标为 k 个分类时, 可用 k-1 个伪变量来代 表。每个伪变量取值(0,1)或(0,1,-1)。 X X X 例如研究年龄( )、体重( )和经济状况( ) 与收缩压(Y)的关系。经济状况分为 4 个等级, X 就可用 3 个伪变量(Z 、Z 、Z )来代替变量 拟合回 归模型如下: ??? ?? X ?? X ?? Z ?? Z ?? Z Y 1 2 3 1 2 3 3 0 1 1 2 2 3 1 4 2 5 3 浙江大学医学院流行病与卫生统计学教研室 沈毅 1.当伪变量用(0,1)取值时,令某一类全为 0,其他各类取一个伪变量为 1。 如经济状况每个等级 Z 、Z 、Z 的取值及回归估计值 Y? 如下表: 1 2 3 —————————————————————————— 伪变量取值 ? Y 经济状况 ————————— Z1 Z2 Z3 ——————————————————————————— ? ?? X ?? X 1 0 0 0 ? ?? ?? X ?? X 2 1 0 0 ? ?? ?? X ?? X 3 0 1 0 ? ?? ?? X ?? X 4 0 0 1 ———————————————————————————— 0 1 1 2 2 0 3 1 1 2 2 0 4 1 1 2 2 0 5 1 1 2 2 可见 4 个等级的 Y? 只是常数项不同,若 ? ? ? ? ? ? 0 时,不同经济状况分 级 Y? 的差距就非等距了。? ,? ,? 各是第 2-4 等对第一等级 ? 的修正。而 X ,X 两个因素对收缩压的影响在各种经济情况时是相同的。 3 4 5 3 4 5 0 1 2 浙江大学医学院流行病与卫生统计学教研室 沈毅 2.若三个伪变量各取值(0,1,-1)时,令某一类全为-1,其他类各取一个伪变 量为 1,则经济状况每一类别的伪变量取值及回归估计值如下表: ——————————————————————————————— 伪变量取值 经济状况 ————————— 回归估计值 Y? Z1 Z2 Z3 ——————————————————————————————— ? ?? ?? ?? ?? X ?? X 1 -1 -1 -1 ? ?? ?? X ?? X 2 1 0 0 ? ?? ?? X ?? X 3 0 1 0 ? ?? ?? X ?? X 4 0 0 1 ———————————————————————————————— 四个类别的回归方程也是 ? ,? 相同,只是常数项不同,但此时的 ? 代表 1 等与 2-4 等常数项的中间值,与伪变量(0,1)取值时 ? 表示第 1 等的常数项不同, 可见伪变量赋值不同, 其 ? 的含义也会相应改。 可根据研究目的选择适当的取值。 0 3 4 5 1 1 2 2 0 3 1 1 2 2 0 4 1 1 2 2 0 5 1 1 2 2 1 2 0 0 i 3.当多分类变量为有序分类时,也有用对角线 来取值, 则各 ? 表示该等级与相邻前一等级之差。 i i i 浙江大学医学院流行病与卫生统计学教研室 沈毅 二、以伪变量作分组变量,用多元回归进行协方差分析 研究男女性两组 SBP 均数差别,可有多种方法,例如: ?两组均数的 t 检验。若两组年龄不同时会有年龄的混杂 影响,结论可能有偏差。 ? 以年龄作协变量作协方差分析。需先分性别作年龄与 SBP 的直线回归, 若两条回归直线: ? ? ? ,p ? ? 检验),再检验年龄均为合并均数时的两个修正均数间差 别(H0: Y? ? Y? )其计算较为繁琐。 F M 男 x 女 x ?性别以伪变量 Z(0 男,1 女)表示作多元线性回归。模 型 ? ? ? ? ? X ? ? Z ? ? XZ Y 0 1 2 3 由此所得男、女性两个回归方程与分性别配合的直线回归 式的回归系数是相同的。 浙江大学医学院流行病与卫生统计学教研室 沈毅 Z=0(男性)Y? ? ? ? ? X Z=1(女性)Y? ? (? ? ? ) ? (? ? ? ) X 可用偏回归平方和的 F 分析(或 t 检验),分别检验 每个偏回归系数。若 H0: ? ? 0,p ? ? ,表示年龄与性别间无 交互作用, 可推论男女两条回归线平行, 两性年龄与 SBP ? ? 0 若 p?,即 ? ? ? ? ? ,也就 变化关系一致。再检验 H0: 是 X 值相同时 Y? ? Y? ,即修正为年龄相同时两性 SBP 均数 差别有意义。若 p?则年龄相同时两性 SBP 均数差别无 意义。? ? 0 ,说明年龄与性别对 SBP 的影响有交互作用, 就不宜用协方差分析来排除年龄的混杂影响了。 仍可由 X 取不同数值范围时,两性修正均数之差的变化来作出推 论。 因而,用设伪变量的多元回归法作协方差分析,可 利用计算机计算较为简便,且可以推广到多组,多个协 变量时的比较,是常用的方法。 M 0 1 F 0 2 1 3 3 2 0 2 0 F M 3 浙江大学医学院流行病与卫生统计学教研室 沈毅 1.单个协变量两组比较 例 如 : 观 察 男 性 40 名 , 平 均 年 龄 46.9 岁 , SBP=155.15mmHg,女性 29 名,平均年龄 45.1 岁,SBP=139.86。可设伪变量 Z(男 ? 0,女 1)拟合多元回归: Y ? 110 ? 0.96 X ( 年龄) ? 12.96Z ? 0.012 XZ ,由①、②、③三个回归 方程的方差分析结果作偏回归系数的 F 检验: ( SBP ) ————————————————————————————————— 模型 变异来源 ? 0 1 df SS F 偏回归系数 F ------------? ? ? ?? X 回归 Y 1 14951.25 121.27** 残差 67 8260.51 —————————————————————————————————— ? ? ? ?? X ?? Z ? 回归 Y 2 18009.78 114.25** 38.80** ( ? ) 残差 66 5201.99 —————————————————————————————————— ? ? ? ? ? X ? ? Z ? ? XZ ? 回归 Y 3 18010.33 75.02** 0.007 ( ? ) 残差 65 5201.44 —————————————————————————————————— 由 F 值可知 ? ? 0 ,说明年龄与 SBP 有关。? ? 0 p? 说明男女性两条回归直线 是平行的,而 ? ? 0 说明修正年龄差别后两性 SBP 均数不同, ? ? ?12.96 ,女性(Z=1) 收缩压均数较同年龄男性低 12.96mmHg。 0 1 2 2 0 1 2 3 3 1 3 2 2 浙江大学医学院流行病与卫生统计学教研室 沈毅 镉作业工人接触烟尘年数与肺活量的关系研究 甲组(暴露≥10年) x1(年龄) 49 40 41 51 45 50 52 47 61 65 58 59 4.62 4.29 4.52 3.71 4.02 3.09 2.70 4.31 2.70 3.03 2.73 3.67 43 39 38 42 43 43 37 50 50 45 48 51 46 58 38 38 乙组(暴露10年) y2(肺活量,L) 4.91 4.73 4.58 4.12 4.89 4.62 4.30 3.70 3.50 4.20 4.06 4.51 4.66 3.88 4.64 5.09 y1(肺活量,L) x2(年龄) 浙江大学医学院流行病与卫生统计学教研室 沈毅 在不同的暴露水平上肺活量与年龄均呈线性关系! 如何分析比较:控制(或消除)年龄对肺活量的 线性影响后,再比较不同暴露年限的平均肺活量! 协方差分析 消除了年龄对肺活量的线性影响后,不同暴露年限的平均肺活量无统计学上的差异 浙江大学医学院流行病与卫生统计学教研室 沈毅 协方差分析的条件: 肺活量(Y)与年龄(X)均呈线 年龄与暴露时间交互作用无统计意义,提示两条 回归线平行,否则不平行不宜作协方差分析,但 可以用多元回归的方法来比较修正均数间的差异。 浙江大学医学院流行病与卫生统计学教研室 沈毅 2.单个协变量多组比较 例如:研究三个产地(G、V、W) 鸡的体重的差别,排除周龄(X)的影响,设置二个伪变量 Z 和 ? ? 143 Z ,观察 13 只鸡,求得 Y . ? 0.49 X ? 192 . Z ? 219 . Z (p0.01 R =0.98)(X 与 Z 、 Z 交互作用的各项偏回归系数经 F 检验均为 p?未列入方 程)方程中为标准化 ? ,经 F 检验均为 p0.01,对 Z 与 Z 的两个 标化 ? (-0.49 与-0.76)的差别作检验 p0.1。由回归方程可知同 龄鸡 G 与 V 产地均较 W 产地轻, 但 G 与 V 两地间差别无意义。 ——————————————————————————— 伪 变 量 ? Y 产地 —————————— 1 2 2 1 2 1 2 i 1 2 i Z1 Z2 ——————————————————————————— G 1 0 -0.49+0.49X V 0 1 -0.76+0.49X W 0 0 1.43+0.49X ——————————————————————————— 浙江大学医学院流行病与卫生统计学教研室 沈毅 3.多个协变量的协方差分析。 例如:比较生活条件不同三组人的 DBP,并调 整年龄( X )和体重指数( X )的混杂影响。可设两个伪变量如下 ———————————————————— 生活条件 好 中 差 ———————————————————— 1 0 0 Z 0 1 0 Z ———————————————————— 配合回归模型 1 2 1 2 ? ? ? ?? X ?? X ?? Z ?? Z ?? Z X ?? Z X ?? Z X ?? Z X Y 0 1 1 2 2 3 1 4 2 5 1 2 6 1 2 7 2 1 8 2 2 先检验 H0: ? ? ? ? ? ? ? ? 0 。若为 p?,则这些交互作用可以忽略,三组的?1 和 ?2 均相同(平行),可作协方差分析,三组 DBP 的修正均数各为: ? ?? ?? X ?? X 好 ? ?? ?? X ?? X 中 ? ?? X ?? X 差 若经检验 ? ? 0 , ? ? 0 ,且 ? ? ? ,提示年龄体重指数相同时三组人的 DBP 均数不 同。好与差两组的差距为 ?3 ,中与差两组的差距为 ?4 ,好与中的两组的差距为 ? ?? 。 5 6 7 8 0 0 3 4 1 1 2 2 1 1 2 2 0 1 1 2 2 3 4 3 4 3 4 浙江大学医学院流行病与卫生统计学教研室 沈毅 Thank you! 浙江大学医学院流行病与卫生统计学教研室 沈毅 对13名儿童心象面积Y与性别X1(男1 女2)、 月龄X2、身高X3、体重X4、胸围X5关系的多 元回归研究中,得以下回归方程: Y=3.593-7.836X1+ 0.119X2+ 0.287X3+1.138X4-0.955X5 假设检验结果:各偏回归系数P均小于0.05。 如何解释以上结果? 偏回归系数为负且较大,不符合专业知识,难于解释 原因:发现除性别外,其余四个指标两两间 有密切相关(r0.94)。 浙江大学医学院流行病与卫生统计学教研室 沈毅

本文链接:http://chondriac.com/feiliuxing/971.html