对大约四百万个样本进行了一些数据科学研究,其中很多列都是分类的。所以,我取数据的随机子集进行部分拟合,然后重复。getClass(x) for x in dfY.values],classes=np.unique([getClass(x) for x in dfY.values]))
如何确保每次我都能得到所有可能的类,并且它们的顺序是相同的?
我有一个包含域名的数据框列,即newyorktimes.com。我被“.”分开了。并将CountVectorizer应用于"newyorktimes“。newyorktimes.com newyorktimes usa
newyorkreport.com newyorkreport usa "newyorktimes“也被添加为名为”split“的新数据框列我能得到术语频率 vectoriser = CountVectorizer<