首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >对数据库进行建模,以存储文件并搜索其内容

对数据库进行建模,以存储文件并搜索其内容
EN

Software Engineering用户
提问于 2016-10-12 17:14:33
回答 1查看 89关注 0票数 0

我有一个我必须处理的功能。项目的要求是将文件转换为pdf并存储这些文件。其主要功能是用户能够搜索文件内容中的单词,例如用户正在寻找任何针对“生物风险”的书籍,该软件必须对每个pdf文件内容进行研究。所以我的想法是,每当用户上传一本新书或文件时,软件就会读取它的内容并将其存储在一个表格中,所以当用户查找任何内容时,就会得到所有有这些单词的书。

但问题是,数据库的规模将非常大。还有其他方法可以做到这一点吗?

EN

回答 1

Software Engineering用户

发布于 2018-06-01 17:27:01

我希望你已经解决了,但万一有用的话:

我不会把所有的PDF都放在桌子上。我宁愿接受一个固定的(或变量,但有限的)数量的关键字。当用户上传PDF时,这个过程分两个阶段:

1:将整个文本提取为明文。如果PDF是一种可读格式,那么可以使用任何库来实现这一点。例:https://github.com/spatie/pdf-to-text

如果只有文本图像,比如一本扫描过的书,事情就会变得更有趣。我会首先使用Google从图像中提取文本。

Google链接:https://cloud.google.com/vision/docs/ocr

2:从文本中提取关键词。最后,我会使用谷歌的自然语言API。它是人工智能驱动的,接受文本作为输入,并返回关键字,主题,类别,让你知道它是什么,每个标签的置信度。

链接:https://cloud.google.com/natural-language/

DB设计:我将使用一个pdf_contents表,其中包含两个或三个列: pdf_path ( VARCHAR您的下载链接)、关键字(文本字段)类别(如果Google能够对文本进行分类的话)。

那么查询就会是:

代码语言:javascript
运行
复制
SELECT UNIQUE path FROM pdf_contents WHERE keywords LIKE %{searchword}% OR categories LIKE %{search word}% LIMIT N;

编辑:忘记将指向pdf的链接放到PHP上的文本示例库中

票数 2
EN
页面原文内容由Software Engineering提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://softwareengineering.stackexchange.com/questions/333452

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档