首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

R语言非线性回归和广义线性模型:泊松、伽马、逻辑回归、Beta回归分析机动车事故、小鼠感染、蛤蜊数据、补剂钠摄入数据|数据分享

全文链接:https://tecdat.cn/?p=33781

library(readr)

......

train

train_plot

......

train_lm

泊松回归

具有泊松误差的广义线性模型通常具有对数链接,尽管也可以具有恒等链接。例如,

pois_tib

......

geom_col(position = position_dodge())

上面显示了两个泊松分布,一个均值为5,另一个均值为20。请注意它们的方差如何变化。

对数链接(例如ŷ=ea+bx̂=eβ+αx)是一个自然的拟合方法,因为它不能得到小于0的值。因此,在这种情况下,我们可以这样做:

train_glm

......

然后,我们可以重新评估模型的假设,包括过分离。请注意,下面的QQ图并没有什么实际意义,因为这不是正态分布。

check_model(train_glm)

那么...残差怎么办呢?鉴于残差不是正态分布的,使用qqnorm图几乎没有意义。拟合残差关系仍然可能看起来很奇怪。

使用广义线性模型的分位数残差

评估广义线性模型(以及许多其他模型形式)的一种方法是查看其分位数残差。因此,首先让我们使用DHARMa生成一些模拟残差。

res

我们可以绘制这些图表,并进行非参数拟合检验。

plotQQunif(res)

很好,拟合效果不错。忽略异常值测试,因为在更详细的观察中我们发现没有异常值。

我们还可以查看预测与量化残差图。

plotResiduals(res)

check_overdispersion(train_glm) |> plot()

## `geom_smooth()` using method = 'loess' and formula 'y ~ x'

## `geom_smooth()` using method = 'loess' and formula 'y ~ x'

查看glm结果

让我们来看看模型结果。

summary(train_glm)

注意,在这里我们看到了标准的glm输出,我们可以像处理任何对数变换一样解释系数。我们还有一个离散参数,描述了均值和方差之间的关系。对于泊松分布,它的值为1。

最后,我们可以绘图。

train_plot +

......"log")))

Gamma回归

然而,我们的数据通常不是离散的。考虑蛤蜊数据。

clams %

mutate(MONTH = factor(MONTH))

AFD(无灰干质量)与月份和长度有什么关系?显然这里存在非线性关系。

clam_plot

......

clam_plot

现在,看起来我们应该用对数变换的模型进行拟合,但是…

clam_lm

显然存在明显的问题。即使对AFD取对数后的qq图也不好,残差拟合图也不好。Gamma glm采用其逆函数作为其规范连接,但它们通常也可以使用对数连接。

clam_gamma

data = clams)

check_model(clam_gamma)

还有

clam_res

ploals(clam_res)

好的,也许不是很好。但这主要是由于高值的稀疏性导致的,所以没关系。

我们可以使用predict进行绘图,在这里分别绘制每个月的图。

clam_plot +......

facet_wrap(~MONTH)

我们还可以查看其他属性。

summary(clam_gamma)

我们可以重新参数化伽马分布,使得均值=形状/速率。在这种情况下,我们使用该均值和形状参数化伽马分布。离散参数是1/形状。

但是,为了更容易理解,伽马的方差随均值的平方成比例地扩展。离散参数越大,方差扩展得越快。

最后,我们可以使用纳吉尔克计的伪R2来计算R2。

# fit

r2(clam_gamma)

这是正态的吗?

你可能会问为什么这里使用伽马分布而不是正态分布?我们可以用正态误差和对数链接进行glm拟合。

clam_glm_norm

data = clams)

一种判断的方法是寻找过离散。

norm_res

plotuals(norm_res)

我们可以看到QQ图很好。而且predobs也不糟糕(特别是与上面相比)。这是一些很好的证据,表明这里可能只需要正态误差和对数链接。

逻辑回归

让我们来看看我们的小鼠感染隐孢子虫的例子。请注意,数据被限制在0和1之间。

mouse

geom_point()

mouse_plot

这是因为虽然N是每个样本的总小鼠数量,但是我们不能有超过N的感染!实际上,每只老鼠就像一次抛硬币。它是否被感染了。

二项分布

二项分布有两个参数,成功的概率和硬币投掷的次数。得到的分布始终介于0和1之间。考虑使用不同概率进行15次硬币投掷的情况。

R

bin_tibble

geom_col(position = position_dodge())

我们也可以将x轴的范围调整为0到1,来表示比例。

或者,考虑相同的概率,但是不同次数的硬币投掷。

R

bin_tibble

geom_col(position = position_dodge())

你可以看到两个参数都会影响分布的形状。

二项式逻辑回归

在二项逻辑回归中,我们主要是估计获得正面的概率。然后我们以权重的形式提供(而不是估计)试验次数。这里使用的典型链接函数是logit函数,因为它描述了一个在0和1之间饱和的逻辑函数。

在R中,我们可以使用两种形式来参数化二项逻辑回归 - 这两种形式是等价的,因为它们将结果扩展为成功次数和总试验次数。

R

mouse_glm_cbind

data = mouse)

第二种方式使用权重来表示试验次数。

R

mouse_glm

data = mouse)

这两个模型是相同的。

从这一点开始,工作流程与以往一样 - 假设检验、分析和可视化。

R

checl(mouse_glm)

R

binduals(mouse_glm, ......

R

res_bin

R

plotRes_bin)

R

summary(moglm)

R

r2(mouse_glm)

注意,离散参数为1,就像泊松分布一样。

R

ggplot(mouse,

......

method.args = list(family = binomial))

Beta回归

最后,我们经常会遇到受限数据,但这些数据不是从二项式分布中抽取的 - 也就是说,并不存在独立的“硬币翻转”。

考虑以下关于服用不同补充剂时锻炼后钠摄入比例的分析,2300是推荐摄入量,所以我们将其标准化为这个值。

R

sodium

R

ggplot(sodium,

......

geom_boxplot()

现在,让我们使用Beta回归来观察这个结果。

R

sodium_beta

data = sodium)

R

soditmb

data = sodium)

chec......a_tmb)

R

plotQQunif(sodium_beta_tmb)

然后我们可以继续进行所有我们通常的测试和可视化。例如 -

R

emmeans(sodium_b......

confint(adjust = "none")

如果我们有一个连续的协变量,我们可以获得拟合值和误差,并将它们放入模型中。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OXH1b9m8NlJfLndCHFABbnAQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券