首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何在支持向量机或logistic回归中使用单位图和双图作为特征

如何在支持向量机或logistic回归中使用单位图和双图作为特征
EN

Data Science用户
提问于 2020-07-02 02:30:31
回答 1查看 1.2K关注 0票数 1

在支持向量机( SVM )或逻辑回归( logistic回归)的基础上,如何利用单位图和双图作为特征,建立自然语言推理模型?在我的数据集上,有前提、低次和标签列。我计划在我的训练中使用前房发育或发育不全或两者兼具的单位和双程图。例如:

代码语言:javascript
运行
复制
 premise                                      |hipotesis                         |hypothesis bigram
===============================================================================================
I am planning to use the unigram and bigram   |I am planning to use the unigram  |[(i, am), (am, planning), (planning, to), (to, use), (use, the), (the, unigram)]

假设bigram是一个bigram(单词)列表,所以我不能用它作为我的svm或逻辑的输入。我能把假设二元图转换成矢量吗?

EN

回答 1

Data Science用户

回答已采纳

发布于 2020-07-02 07:32:36

您需要创建一个n-克的词汇表,也就是要用作特性的比格的编号清单。通常,这些都是最常见的。在创建特征向量时,从零向量开始,如果具有相应索引的n-gram出现在句子中,则放置一个(或添加一个)。

机器学习库通常具有这样的功能。例如,在scikit-learn中,您可以使用CountVectorizer完成这项工作。fit方法有一个ngram_range参数,它控制在特征向量中考虑的n克的长度。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/76984

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档