我正在做一个使用FastText的文本相似度项目,我找到的训练模型的基本例子是: from gensim.models import FastText
model = FastText(tokens, size=100, window=3, min_count=1, iter=10, sorted_vocab=1) 据我所知,由于我指定了向量和ngram大小,模型在这里是从头开始训练的,如果数据集很小我发现的另一个选择是加载原始的维基百科模型,这是一个很大的文件: f
我在我的python库中使用了快速文本模型(来自官方的fasttext库)。为了运行我的u-test,我需要一个尽可能轻的模型(fasttext.FastText._FastText对象),这样我就可以在我的存储库中对其进行版本控制。我尝试创建了一个包含5行"fake.txt“和几个单词的假文本数据集,并调用 model = fasttext.train_unsupervised("./fake.txt&