前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Github项目推荐 | Ambar:开源的文档搜素引擎

Github项目推荐 | Ambar:开源的文档搜素引擎

作者头像
AI研习社
发布2019-05-08 18:00:07
5.4K1
发布2019-05-08 18:00:07
举报
文章被收录于专栏:AI研习社

Ambar: Document Search Engine

Site:https://ambar.cloud/

Ambar是一个开源文档搜索引擎,具有自动爬取、OCR、标记和即时全文搜索功能。

项目地址:

https://github.com/RD17/ambar

Ambar定义了在工作流中实现全文文档搜索的新方法:

  • 使用单个 docker-compose 文件就能轻松部署Ambar
  • 在文档和图像内容中执行类似google的搜索
  • Ambar支持所有流行的文档格式,如果需要的话也可以执行OCR
  • 给你的文档打标签
  • 使用一个简单的REST Api将Ambar集成到你的工作流中

特点

  • 搜索

教程:掌握Ambar搜索查询

  • 模糊搜索(John~3)
  • 短语搜索("John Smith")
  • 按作者搜索(作者:John)
  • 按文件路径搜索(文件名:*.txt)
  • 按日期搜索(时间:昨天,今天,上周等)
  • 按大小搜索(大小> 1M)
  • 按标签搜索(标签:ocr)
  • 按你的输入进行搜索
  • 支持的语言分析器:英语 ambar_en, 俄罗斯语 ambar_ru, 德语 ambar_de, 意大利语 ambar_it, 波兰语 ambar_pl, 中文 ambar_cn, 中日韩统一表意文字 ambar_cjk
  • 爬取

Ambar 2.0仅支持本地fs抓取,如果你需要抓取FTP位置的SMB共享 —— 只需使用标准Linux工具挂载它。 爬取过程是自动的,因为爬虫会监视fs事件并自动处理新文件,所以不需要进行调度。

  • 内容提取
  • Ambar支持大文件提取(>30MB)
  • ZIP档案
  • 邮件档案(PST)
  • MS Office文档(Word,Excel,Powerpoint,Visio,Publisher)
  • OCR图像
  • 带附件的电子邮件
  • Adobe PDF(带OCR)
  • OCR支持的语言:Eng,Rus,Ita,Deu(德文),Fra,Spa,Pl(波兰语),Nld(荷兰文)
  • OpenOffice文档
  • RTF,纯文本档案
  • HTML / XHTML
  • 多线程处理

安装

注意:Ambar要求在Docker运行,如果没有Docker将无法运行

请按照【安装指南】进行安装

Docker镜像请在Docker Hub上寻找

支持

Ambar是完全开源的,你可以免费使用,你也可以从我们的团队获得专门的支持,但是需要付费。具体可查看项目“Support”部分介绍。

隐私政策

License

项目遵循MIT License

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-03-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI研习社 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 特点
  • 支持
  • 隐私政策
  • License
相关产品与服务
文字识别
文字识别(Optical Character Recognition,OCR)基于腾讯优图实验室的深度学习技术,将图片上的文字内容,智能识别成为可编辑的文本。OCR 支持身份证、名片等卡证类和票据类的印刷体识别,也支持运单等手写体识别,支持提供定制化服务,可以有效地代替人工录入信息。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档