首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >使用nlp在大型语料库中回答自定义问题

使用nlp在大型语料库中回答自定义问题
EN

Stack Overflow用户
提问于 2020-04-10 16:19:49
回答 1查看 52关注 0票数 0

假设我在一家公司的年报中有一个语料库,显示了他们4个行业的收入数据:汽车、半导体、绿色能源和医疗保健。对于人类来说,找到一个特定行业的收入数据并不难。如果我使用NLP将其自动化,这样我就不必阅读它,那么NLP是否可能将正确的收入数据与一个特定的行业相匹配?

我使用NLP进行情感分析、主题建模和文本生成。但这些似乎都与上面的应用程序无关。有什么想法吗?我可以在哪个库中使用什么函数?

EN

回答 1

Stack Overflow用户

发布于 2020-04-13 09:43:45

如果提问者为4个类别中的每个类别发布一些样本文本,即汽车、半导体、绿色能源和医疗保健,则评论将相对容易。尽管如此,作者试图提供一种在理论上可行的方法。

让我们尝试从NLP的角度来理解这个问题,如下所示。

  1. 有些文档是由一些内容组成的。每个文档都可以是财务报表或具有文本和相应事实的内容。
  2. 每个文档都应该有与一个类别相关的内容,即自动、半导体等。
  3. 一个类别的内容与另一个类别的内容重叠的可能性不为零。例如,关于绿色能源的内容可能会提到一些低排放汽车。

识别相似内容的方法可以如下所示。这些步骤来自作者here的另一个答案。

  1. Step 1部署了余弦相似性算法来度量来自多个文档的内容之间的相似性。为了使其更接近语义相似度,使用WORDNET构建用于计算余弦相似度的特征。这将确保来自超过阈值余弦值(例如: 0.75)的不同文档的标记更接近于来自不同文档的标记"road".
  2. Step 2组内容,就像来自相同类的文档一样。
  3. Step 3手动检查不同的组,以查看来自同一类的内容是否归为一组。如果在这些组中有多个类别的混合,则通过特征工程优化余弦相似度。例如,根据步骤3的结果,添加TfIDf以删除信息量较少的features.
  4. Step 4,部署更多的功能工程,直到组看起来是同质的组5,可以部署信息检索技术来检索信息。这一步可以说是上面列出的所有步骤中最困难的一步,而且在撰写本文时,作者还没有任何IE/IR技术的实用知识。
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/61136480

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档