首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >UMBC语义相似度实现

UMBC语义相似度实现
EN

Stack Overflow用户
提问于 2015-11-18 15:47:03
回答 1查看 601关注 0票数 3

我正在使用语义相似的web API,由UMBC提供。在我的java程序中,我发送一个HTTP http://swoogle.umbc.edu/SimService/GetSimilarityoperation=api&phrase1=XXXX&phrase2=XXXX,并解析输出以获得结果。

我遇到的问题是我正在处理一个大规模的数据。花了这么长时间,我不得不做很多次。我想知道是否有一种更快的方法来查询java中的Web?或者,这个工具有一个可实现的版本吗?对于非NLP专家来说,实施NLP有多容易呢?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-11-19 13:09:10

听起来,您需要快速处理许多短语对,这里提供的API是不可用的。

为了避免网络的痛苦,您的选择是:

  1. 使用批量提供的备用API。 --如果有一个调用可以同时接受多对短语并输出多个相似的分数--这将允许您更快地执行--但只要它们的API包含(lhs, rhs) -> score的函数调用,您就会受到调用该函数的速度的限制。

有一个被关闭为非主题的相关问题,但它提到cortical.io是一个提供“批量”比较的API。

  1. 要求源代码自己运行。与托管API的组织联系,询问他们是否可以(公开或仅对您)提供源代码。
  2. 自己实现他们的方法或类似的东西。

为了帮助3,我在下面提供了一些资源。

环顾他们的网站组的出版页面,我发现这个出版物可能很有趣。

Abhay L. Kashyap等人,基于LSA、机器学习和语言资源的鲁棒语义文本相似度,“语言资源和评价”,2016年1月,下载73次。

为了更容易实现,并且至少在性能上具有竞争力,我建议使用单词向量方法来实现相似性,比如斯坦福大学GloVe谷歌的word2vec (您可能需要重新训练以获得您想要的短语大小,或者您可以使用平均值或添加向量来表示短语)。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/33784448

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档