首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何在数据集上检验似然假设?

如何在数据集上检验似然假设?
EN

Data Science用户
提问于 2022-04-13 12:55:20
回答 1查看 47关注 0票数 1

如何检验以下假设?票价越大,顾客就越有可能独自出海。

利用下面的数据,我们怎样才能检验假设呢?

代码语言:javascript
运行
复制
import seaborn as sns

# dataset
df= sns.load_dataset('titanic')
df[['fare','alone']].head()

    fare    alone
0   7.2500  False
1   71.2833 False
2   7.9250  True
3   53.1000 False
4   8.0500  True

更新

代码语言:javascript
运行
复制
#subset for alone = True
alone = df['fare'].loc[df['alone'] == True]

#import Wilcoxon test
from scipy.stats import wilcoxon  

#run wilcoxon test
wilcoxon(alone, not_alone)

> WilcoxonResult(statistic=10173.0, pvalue=2.8669052202786427e-28)
EN

回答 1

Data Science用户

发布于 2022-04-13 14:37:34

对这个问题的回答,如评论所示,尝试在票价上进行“单独/倍数”的逻辑回归。这可能是一个很好的第一次思考,但它受到了一些问题。

  1. 除非你很小心(比很多人都更小心),否则你的分析就会检查与之相反的关系:较大的交易会与旅行者独处的可能性更小。
  2. 它测试一个严格的线性(对数概率)关系。
  3. 允许GLMs建模非线性(如样条)的标准方法不需要单调增加关系,因此模型在某个区域可能呈现下降趋势。

(我可能会说,如果某个地区的票价上涨会降低独自旅行的可能性,那是值得探讨的,但这不是你的问题。)

我主张进行一次片面的Wilcoxon检验,看看独自旅行的人是否会有更高的票价,这在逻辑上相当于你的问题。

Wilcoxon检验消除了与严格线性关系相关的问题(仅为线性移位),并且很容易进行单边检验。如果你用Spearman相关来探讨一个类似的问题,但是用一个连续的或序数的变量代替你的唯一/多个变量,那么Wilcoxon就是一个完美的匹配,因为Wilcoxon和Spearman相关都是比例概率序数logistic回归模型的特例。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/109972

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档