问使用nlp在大型语料库中回答自定义问题
EN

Stack Overflow用户

提问于 2020-04-10 16:19:49

回答 1查看 52关注 0票数 0

假设我在一家公司的年报中有一个语料库，显示了他们4个行业的收入数据:汽车、半导体、绿色能源和医疗保健。对于人类来说，找到一个特定行业的收入数据并不难。如果我使用NLP将其自动化，这样我就不必阅读它，那么NLP是否可能将正确的收入数据与一个特定的行业相匹配？

我使用NLP进行情感分析、主题建模和文本生成。但这些似乎都与上面的应用程序无关。有什么想法吗？我可以在哪个库中使用什么函数？

发布于 2020-04-13 09:43:45

如果提问者为4个类别中的每个类别发布一些样本文本，即汽车、半导体、绿色能源和医疗保健，则评论将相对容易。尽管如此，作者试图提供一种在理论上可行的方法。

让我们尝试从NLP的角度来理解这个问题，如下所示。

识别相似内容的方法可以如下所示。这些步骤来自作者here的另一个答案。

Step 1部署了余弦相似性算法来度量来自多个文档的内容之间的相似性。为了使其更接近语义相似度，使用WORDNET构建用于计算余弦相似度的特征。这将确保来自超过阈值余弦值(例如: 0.75)的不同文档的标记更接近于来自不同文档的标记"road".
Step 2组内容，就像来自相同类的文档一样。
Step 3手动检查不同的组，以查看来自同一类的内容是否归为一组。如果在这些组中有多个类别的混合，则通过特征工程优化余弦相似度。例如，根据步骤3的结果，添加TfIDf以删除信息量较少的features.
Step 4，部署更多的功能工程，直到组看起来是同质的组5，可以部署信息检索技术来检索信息。这一步可以说是上面列出的所有步骤中最困难的一步，而且在撰写本文时，作者还没有任何IE/IR技术的实用知识。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/61136480

复制

相似问题

问使用nlp在大型语料库中回答自定义问题EN