在支持向量机( SVM )或逻辑回归( logistic回归)的基础上,如何利用单位图和双图作为特征,建立自然语言推理模型?在我的数据集上,有前提、低次和标签列。我计划在我的训练中使用前房发育或发育不全或两者兼具的单位和双程图。例如:
premise |hipotesis |hypothesis bigram
===============================================================================================
I am planning to use the unigram and bigram |I am planning to use the unigram |[(i, am), (am, planning), (planning, to), (to, use), (use, the), (the, unigram)]假设bigram是一个bigram(单词)列表,所以我不能用它作为我的svm或逻辑的输入。我能把假设二元图转换成矢量吗?
发布于 2020-07-02 07:32:36
您需要创建一个n-克的词汇表,也就是要用作特性的比格的编号清单。通常,这些都是最常见的。在创建特征向量时,从零向量开始,如果具有相应索引的n-gram出现在句子中,则放置一个(或添加一个)。
机器学习库通常具有这样的功能。例如,在scikit-learn中,您可以使用CountVectorizer完成这项工作。fit方法有一个ngram_range参数,它控制在特征向量中考虑的n克的长度。
https://datascience.stackexchange.com/questions/76984
复制相似问题