问技术分词
EN

Stack Overflow用户

提问于 2014-06-25 15:01:26

回答 1查看 54关注 0票数 1

对于一个项目，我需要一个计算机科学技术词汇的数据库(更具体地说，是属于学术性质的词汇，因此堆栈溢出标签通常可能不起作用)。我正在尝试使用Coursera演讲文本文件建立数据库，但它们的问题是因为"ASR“文本彼此之间没有明显的分隔，例如”几个过渡“一起出现在一个文本文件中。是不是我可以把它们区分开呢？此外，任何帮助将不胜感激，如果有任何现有的类似数据库。

dataset

nlp

data-mining

回答 1

Stack Overflow用户

发布于 2014-06-25 15:17:12

下面的帖子和你的非常相似，可以给你一些启示。基本思想是创建一个isword()方法，并在非字典单词的所有字符串拆分上尝试它。isword()可以通过使用trie进行优化。这种方法非常简单，如果您只尝试拆分未通过拼写检查的单词，则应该足够快。

How to split a string into words. Ex: "stringintowords" -> "String Into Words"?

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/24402186

复制

相似问题

问技术分词
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问技术分词EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问技术分词
EN