如何检验以下假设?票价越大,顾客就越有可能独自出海。
利用下面的数据,我们怎样才能检验假设呢?
import seaborn as sns
# dataset
df= sns.load_dataset('titanic')
df[['fare','alone']].head()
fare alone
0 7.2500 False
1 71.2833 False
2 7.9250 True
3 53.1000 False
4 8.0500 True
#subset for alone = True
alone = df['fare'].loc[df['alone'] == True]
#import Wilcoxon test
from scipy.stats import wilcoxon
#run wilcoxon test
wilcoxon(alone, not_alone)
> WilcoxonResult(statistic=10173.0, pvalue=2.8669052202786427e-28)
发布于 2022-04-13 14:37:34
对这个问题的回答,如评论所示,尝试在票价上进行“单独/倍数”的逻辑回归。这可能是一个很好的第一次思考,但它受到了一些问题。
(我可能会说,如果某个地区的票价上涨会降低独自旅行的可能性,那是值得探讨的,但这不是你的问题。)
我主张进行一次片面的Wilcoxon检验,看看独自旅行的人是否会有更高的票价,这在逻辑上相当于你的问题。
Wilcoxon检验消除了与严格线性关系相关的问题(仅为线性移位),并且很容易进行单边检验。如果你用Spearman相关来探讨一个类似的问题,但是用一个连续的或序数的变量代替你的唯一/多个变量,那么Wilcoxon就是一个完美的匹配,因为Wilcoxon和Spearman相关都是比例概率序数logistic回归模型的特例。
https://datascience.stackexchange.com/questions/109972
复制相似问题