首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >NLP中语料库的人工标注工具

NLP中语料库的人工标注工具
EN

Stack Overflow用户
提问于 2014-08-25 18:09:21
回答 7查看 5K关注 0票数 3

我正在尝试构建我自己的命名实体识别训练语料库,但我不知道是否已经有了这样的工具,或者我是否必须自己实现一个工具。

基本上,我需要做的是取一个语料库,然后逐字逐句地标记它,这是相当乏味的,但它必须完成。

有人能告诉我是否已经有了吗?从哪里弄到?

EN

回答 7

Stack Overflow用户

回答已采纳

发布于 2014-08-26 21:52:01

我在布拉特上有很好的工作经验。门也是一个非常复杂的工具注释,更陡峭的学习曲线。

票数 3
EN

Stack Overflow用户

发布于 2018-03-06 13:23:58

我们有很好的使用DataTurks的经验。他们提供了很好的直观的UI,允许添加协作者,对数据的洞察力,注解器的领导板和其他一些有趣的特性。

https://dataturks.com

票数 2
EN

Stack Overflow用户

发布于 2016-10-28 18:55:51

对于较短文档的文本或HTML语料库的在线注释,我也推荐使用布拉特。如果您想要做任何自定义的事情,就必须在python应用程序的框架下进行操作。在大型HTML文档(大约100页)上,它也无法为我工作。

我还使用了独立的应用程序:

  • Protege + 知识者:设置/使用有点麻烦,但它能工作;
  • :也很麻烦,而且有点工作。定期备份注释,因为您可能会对堆栈跟踪感到惊讶,因为堆栈跟踪还删除或损坏了带注释的语料库(它只是序列化的Java对象)。

如果您正在处理PDF文档,我们构建了一个基于web的PDF注释工具:诺塔。它接受任何打印到PDF中的内容,包括扫描。我们做商业OCR在我们的一端,以恢复文本从图像。有一个REST来创建彩色编码的注释模式和带有注释的预填充文档,以及一个用于导出格式化文本和注释偏移量的REST。还有一个JS,您可以使用它来定制任何注释工作流,向注释添加元数据等等。支持大型文档,支持200+页面。给我们发电子邮件和我们可以给你一个API密钥来尝试它。详细信息和文档链接可以找到这里。它对小型研究项目是免费的。

下面是注释的截图:

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/25491886

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档