文章/答案/技术大牛

发布

社区首页 >问答首页 >许多文章的单词列表.文档.术语矩阵

问许多文章的单词列表.文档.术语矩阵
EN

Stack Overflow用户

提问于 2009-12-25 02:23:33

回答 2查看 587关注 0票数 0

我有近15万篇土耳其文。我将使用文章进行自然语言处理的研究。我想在处理完文章后，在每篇文章中存储单词和频率。

我现在把它们存储在RDBS中。

我有三张桌子：

文章-> article_id，文本

单词-> word_id，类型，单词

单词-文章-> id，word_id，article_id，频率(word_id索引，article_id索引)

我会询问

一篇文章中的所有文字
每篇文章一个字的频率
所有文章和文章中出现的单词

我有数百万行文字在这个项目中，我总是和RDBS一起工作。从mysql开始，现在使用oracle。但是我不想使用甲骨文，我想要比mysql更好的性能。

另外，我还必须在一台4gb内存的机器上处理这项工作。

简单地说，如何存储文档项矩阵并对其进行查询？表现是必要的。“键值数据库”在性能上能超过mysql吗？或者什么能打败mysql？

如果您的答案编程语言依赖，我正在用python编写代码。但是C/C++，Java是可以的。

words

full-text-indexing

text-analysis

frequency-analysis

回答 2

Stack Overflow用户

发布于 2009-12-25 02:35:53

可以查看卢塞尼 (或php中的卢塞尼 )。这是非常好的FTS引擎。

票数 0

Stack Overflow用户

发布于 2009-12-25 03:12:30

对于150 K的文章，words_articles表中必须有数亿行。只要您正确配置MySQL，这是可管理的。

以下是一些小窍门：

确保您的表是MyISAM，而不是InnoDB。
删除words_articles表中的id字段，并使(word_id，article_id)成为主键。另外，在word_id表中为article_id和words_articles表创建单独的索引： ALTER words_articles删除主键，添加主键(word_id，article_id)，添加索引(word_id)，添加索引(article_id)； (在一个alter语句中执行所有操作都可以获得更好的性能)。
在word表中为word创建索引：更改表单词，添加索引(word)；
微调my.cnf.具体来说，增加缓冲区大小(特别是key_buffer_size)。我的-hge.cnf可能是个很好的起点。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/1960286

复制

相似问题

问许多文章的单词列表.文档.术语矩阵
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问许多文章的单词列表.文档.术语矩阵EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问许多文章的单词列表.文档.术语矩阵
EN