首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >在哪里为文本挖掘任务找到特定领域的语料库?

在哪里为文本挖掘任务找到特定领域的语料库?
EN

Stack Overflow用户
提问于 2014-02-27 14:38:51
回答 2查看 806关注 0票数 0

我的工作是一个文本挖掘项目,重点是计算机技术文档。所以有很多行话。像词性标注这样的任务需要一些训练数据来构建一个pos。我认为这些培训数据应该来自同一个领域,并正确标注".NET,COM,JAVA“这样的单词。

那么我在哪里可以找到这样的语料库呢?还是附近有工作?或者我们可以调优现有的标记器来处理特定于域的任务吗?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2015-12-21 20:47:49

收集培训数据(并定义特性)将是这个问题中最困难的一步。我肯定外面有数据集。但对你来说,另一种选择是找出几个关注你感兴趣领域的期刊或新闻网站,然后抓取它们,删除文本,也许是通过搜索关键词来验证每一篇文章。我以前这样做是为了开发一个集中于选举的语料库。

票数 3
EN

Stack Overflow用户

发布于 2014-02-27 16:12:40

不幸的是,在domain-specific中可以找到这样的语料库。

接-22。没有专门数据的一般来源。

就像没有通用软件来解决特定领域的问题一样。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/22071685

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档