尊龙凯时手把手R教程：建立非线性回归预测模型_行业资讯

行业资讯

尊龙凯时手把手R教程：建立非线性回归预测模型

添加时间：2024-03-02

　　尊龙凯时手把手R教程：建立非线性回归预测模型在统计分析中，根据变量的不同类型可以建立不同的预测模型，如果因变量是连续型变量，最常见的是建立线性回归模型。但是，建立线性回归模型有很多前提条件（可以参考：）。

　　由于实际的临床研究中，变量之间关系复杂，因变量和自变量之间并非呈现线性关系，如果强行建立线性回归模型，就会影响模型的预测准确性。对于此类数据，应该如何处理呢？之前医咖会发布过的《R语言课程》，王九谊老师在“”视频课程中已做了详细介绍。本文以临床医生的角度，通过案例分析，结合R软件来讲解如何建立

　　临床中心衰、肝硬化的病人，常伴有体液潴留和低钠血症，医生会选择使用托伐普坦进行超滤治疗，但是目前这个药物价格昂贵，未能广泛使用。

　　假设有一种新的利尿剂上市，价格便宜，且具有类似作用。为了探究新利尿剂的治疗效果，研究人员开展了一项临床试验，共入组149人（数据库名称为urinetest），因变量为患者每日尿量（变量名为urine），自变量为每日新利尿剂使用剂量（变量名为dosage）。

　　从图形可以看出，当利尿剂使用剂量25ml时，病人的尿量在2000-2300ml之间波动。当利尿剂剂量为25-30ml时，两者成线ml时，随着利尿剂剂量的增加，尿量不再出现明显的变化。

　　非线性的变化关系，存在阈值效应和饱和效应，在不同药物剂量范围内，剂量-反应关系函数差别很大，如果强行用单一的线性回归来建立预测建模，不符合临床实际，模型预测的准确性将会大打折扣。下面我们先用线性回归来分析一下。

　　（3）模型的拟合情况。其中Residual standard error为残差标准误，是模型用自变量预测因变量的平均误差，该值越小说明模型拟合越好；Adjusted R-squared为调整R2，可理解为模型对数据集的解释程度，该值越大模型拟合程度越好。本研究中线性回归模型的残差标准误的值为159.8；调整R2为0.5902。

　　model.log- lm(urine ~ log(dosage), data = urinetest)#建立对数曲线方程

　　对数曲线模型的残差标准误的值为151.5，调整R2为0.6318，两个指标比简单线性回归模型略有提高。

　　在数据探索时我们发现，药物剂量和尿量的散点图分布呈现三段式变化特征，我们以此为依据，建立一个分段回归模型。在R中我们可以使用segmented这个包。

　　model.segmented - segmented(model.lm)#构建分段回归模型

　　显示，软件自动将模型分成了两段，拐点为dosage=32.534，残差标准误为124.9，调整R2为0.7499，两个指标较曲线模型得到了进一步提升。

　　abline(a=coef(model.lm)[1],b=coef(model.lm)[2],col=red,lwd= 2.5)

　　在构建的上述模型中，函数自动将模型分成了两段。但根据对散点图的分析，我们认为将模型分为三段更为合适，此时可以手动设置25和30两个剂量拐点，软件会自动寻找附近的点作为最佳拐点。

　　软件找到的两个最佳拐点分别为24.075和30.166，此时分段回归模型的残差标准误为99.01，调整R2为0.8427，预测效果比曲线模型明显提升。

　　abline(a=coef(model.lm)[1],b=coef(model.lm)[2],col=red,lwd= 2.5)

　　plot(model.segmented2, col=blue, lwd= 2.5 ,add=T)

　　上述提到的曲线方程和分段回归两种方法都有一定的缺点。曲线方程是非局部的，当某一个因变量的值发生变化时，即使距离很远的点也会受到影响。如果采用多项式建立曲线方程，当多项式的幂较高时，自变量的一个微小变化，就会引起因变量很大的变化，得出的模型不适合外推到其他数据样本。而在分段回归模型中，每一段都是基于线性回归而建立的，拐点之间的连接显得比较生硬。

　　。样条回归把数据集划分成一个个连续的区间，划分的点称为节点，每个节点之间用单独的模型（线性函数或者低阶多项式函数）来拟合。节点越多，模型就越灵活。但是过多的节点也会导致过拟合问题，所以一般先尝试设置

　　样条回归模型的残差标准误为139.6，调整R2为0.6872。比线性回归和曲线回归好，但不如分段回归。

　　model.lowess- lowess(urine ~ dosage)#建立局部加权回归

　　和lowess函数一样，广义可加模型也无法给出明确的系数，但它的适用范围更广，可以执行因变量与多个自变量之间的各种非参数拟合尊龙凯时ag旗舰厅官方网站。

　　它可以是任意的单变量函数的叠加，这些函数既可以是线性，也可以是非线性。它的因变量可以服从二项分布、Poisson分布、Gamma分布等更广义的范畴。它的任务就是根据目前的数据，找出一条最贴合的曲线。

　　广义可加模型的调整R2为0.837，但没有给出残差标准误的结果，所以我们需要利用模型生成预测值，用预测值和真实值进行比较，得出残差标准误为98.5，是上述众多模型中表现最优秀的。

　　data.frame(RMSE = RMSE(pr.gam, urinetest$urine),

　　stat_smooth(method = gam, formula = y ~ s(x))

　　从图形可以看出，广义可加模型的曲线拟合效果非常好尊龙凯时ag旗舰厅官方网站。虽然模型在本数据集中表现良好，但仍需要注意过拟合的情况。

　　通过比较模型指标，虽然广义可加模型表现较好，可是它并不能提供系数，无法解释变量之间的内在联系。而结合了专业背景而建立的分段回归模型表现相对更为优异。

　　在医咖会7周年之际，我们推出了会员，包含课程、直播、专属科研工作台尊龙凯时ag旗舰厅官方网站、科研工具、积分等12项权益。在会员正式上线天的会员预约

返回列表

产品中心

联系尊龙凯时

电话：18951665513

传真：+18951665513

地址：广东省广州市天河区88号

邮箱：zlksag@jxssjz.com