我希望能够通过R将xvar放入等频箱中,然后根据每个箱中的响应变量分析变量,这将有助于选择我将哪些变量放入逻辑模型中。我尝试过通过rbin包使用rbin_equal_freq,但默认输出为20个rbin,这有助于选择变量,但最好是5个rbin。我是R和建模的新手,任何帮助都会很好,即使能够快速有效地将tibble转换成5个存储箱。
rbin_equal_freq(df, y, x, bins = 5).
Output:
lower_cut upper_cut bin_count good bad good_rate woe iv entropy
我有许多不同的数据集,它们都是离散数据。局部最小值不一定是最小的数据,但它是第一个峰值附近的谷地。我正在努力寻找第一个山峰周围的第一个谷地的指数。我的想法是搜索两个相邻点之间的差值,当差值小于某个临界值时,当前一点大于后点时,这就是我们想要的点。例如:
for k=PEAK_POS:END_POS
if ( (abs(y(k)-y(k-1))<=0.01) && (y(k-1)>y(k)) )
expected_pos = k;
break;
end
end
这对某些数据集有效,但不适用于所有数据集,因为某些数据集可能具有不同的采样步长,因此
print(news['title'][5])级7.5级地震袭击秘鲁-厄瓜多尔边境地区-印度教
print(analyser.polarity_scores(news['title'][5])) {'neg':0.0,'neu':1.0,'pos':0.0,‘复合’:0.0}
from nltk.tokenize import word_tokenize, RegexpTokenizer
import pandas as pd
from vaderSentiment.vaderSentiment import