首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >许多文章的单词列表.文档.术语矩阵

许多文章的单词列表.文档.术语矩阵
EN

Stack Overflow用户
提问于 2009-12-25 02:23:33
回答 2查看 587关注 0票数 0

我有近15万篇土耳其文。我将使用文章进行自然语言处理的研究。我想在处理完文章后,在每篇文章中存储单词和频率。

我现在把它们存储在RDBS中。

我有三张桌子:

文章-> article_id,文本

单词-> word_id,类型,单词

单词-文章-> id,word_id,article_id,频率(word_id索引,article_id索引)

我会询问

  • 一篇文章中的所有文字
  • 每篇文章一个字的频率
  • 所有文章和文章中出现的单词

我有数百万行文字在这个项目中,我总是和RDBS一起工作。从mysql开始,现在使用oracle。但是我不想使用甲骨文,我想要比mysql更好的性能。

另外,我还必须在一台4gb内存的机器上处理这项工作。

简单地说,如何存储文档项矩阵并对其进行查询?表现是必要的。“键值数据库”在性能上能超过mysql吗?或者什么能打败mysql?

如果您的答案编程语言依赖,我正在用python编写代码。但是C/C++,Java是可以的。

EN

回答 2

Stack Overflow用户

发布于 2009-12-25 02:35:53

可以查看卢塞尼 (或php中的卢塞尼 )。这是非常好的FTS引擎。

票数 0
EN

Stack Overflow用户

发布于 2009-12-25 03:12:30

对于150 K的文章,words_articles表中必须有数亿行。只要您正确配置MySQL,这是可管理的。

以下是一些小窍门:

  • 确保您的表是MyISAM,而不是InnoDB。
  • 删除words_articles表中的id字段,并使(word_id,article_id)成为主键。另外,在word_id表中为article_id和words_articles表创建单独的索引: ALTER words_articles删除主键,添加主键(word_id,article_id),添加索引(word_id),添加索引(article_id); (在一个alter语句中执行所有操作都可以获得更好的性能)。
  • 在word表中为word创建索引: 更改表单词,添加索引(word);
  • 微调my.cnf.具体来说,增加缓冲区大小(特别是key_buffer_size)。我的-hge.cnf可能是个很好的起点。
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/1960286

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档