我有近15万篇土耳其文。我将使用文章进行自然语言处理的研究。我想在处理完文章后,在每篇文章中存储单词和频率。
我现在把它们存储在RDBS中。
我有三张桌子:
文章-> article_id,文本
单词-> word_id,类型,单词
单词-文章-> id,word_id,article_id,频率(word_id索引,article_id索引)
我会询问
我有数百万行文字在这个项目中,我总是和RDBS一起工作。从mysql开始,现在使用oracle。但是我不想使用甲骨文,我想要比mysql更好的性能。
另外,我还必须在一台4gb内存的机器上处理这项工作。
简单地说,如何存储文档项矩阵并对其进行查询?表现是必要的。“键值数据库”在性能上能超过mysql吗?或者什么能打败mysql?
如果您的答案编程语言依赖,我正在用python编写代码。但是C/C++,Java是可以的。
发布于 2009-12-25 02:35:53
可以查看卢塞尼 (或php中的卢塞尼 )。这是非常好的FTS引擎。
发布于 2009-12-25 03:12:30
对于150 K的文章,words_articles表中必须有数亿行。只要您正确配置MySQL,这是可管理的。
以下是一些小窍门:
https://stackoverflow.com/questions/1960286
复制相似问题