我的工作是一个文本挖掘项目,重点是计算机技术文档。所以有很多行话。像词性标注这样的任务需要一些训练数据来构建一个pos。我认为这些培训数据应该来自同一个领域,并正确标注".NET,COM,JAVA“这样的单词。
那么我在哪里可以找到这样的语料库呢?还是附近有工作?或者我们可以调优现有的标记器来处理特定于域的任务吗?
发布于 2015-12-21 20:47:49
收集培训数据(并定义特性)将是这个问题中最困难的一步。我肯定外面有数据集。但对你来说,另一种选择是找出几个关注你感兴趣领域的期刊或新闻网站,然后抓取它们,删除文本,也许是通过搜索关键词来验证每一篇文章。我以前这样做是为了开发一个集中于选举的语料库。
发布于 2014-02-27 16:12:40
不幸的是,在domain-specific中可以找到这样的语料库。
接-22。没有专门数据的一般来源。
就像没有通用软件来解决特定领域的问题一样。
https://stackoverflow.com/questions/22071685
复制相似问题