学习
实践
活动
专区
工具
TVP
写文章
  • 广告
    关闭

    热门业务场景教学

    个人网站、项目部署、开发环境、游戏服务器、图床、渲染训练等免费搭建教程,多款云服务器20元起。

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    纯 MongoDB 实现中文全文搜索

    摘要 MongoDB在2.4版中引入全文索引后几经迭代更新已经比较完美地支持以空格分隔的西语,但一直不支持中日韩等语言,社区版用户不得不通过挂接ElasticSearch等支持中文全文搜索的数据库来实现业务需求 本文首先描述遇到的业务需求和困难,介绍了MongoDB和Atlas Search对全文搜索的支持现状,然后从全文搜索原理讲起,结合MongoDB全文搜索实现,挂接中文分词程序,达到纯MongoDB社区版实现中文全文搜索的目标 倒排索引是所有支持全文搜索的数据库的基础,无论是PostgreSQL还是MySQL都是用它来实现全文搜索的,MongoDB也不例外,这也是我们最终解决问题的基础底座。 一元分词和二元分词 从上文可知,数据库全文搜索是基于空格切分的词作为最小单位实现的。中文分词的方法有很多,最基础的是一元分词和二元分词。 所谓一元分词:就是一个字一个字地切分,把字当成词。 期待用上内建中文全文搜索支持的那一天。

    1.3K20

    使用PostgreSQL进行中文全文检索

    分词 全文索引的实现要靠 PgSQL 的 gin 索引。 Word Segmentation 的首字母缩写(即:简易中文分词系统),其 GitHub 项目地址为 hightman-scws,我们下载之后可以直接安装。 ,PgSQL 会在每一行数据添加 score 字段存储查询到的总结果条数; 到这里,普通的全文检索需求已经实现了。 自此,一个良好的全文检索系统就完成了。 总结 简单的数据迁移并不是终点,后续要做的还有很多,如整个系统的数据同步、查询效率优化、查询功能优化(添加拼音搜索、模糊搜索)等。 参考: PostgreSQL系统配置优化 [PG]使用 zhparser 进行中文分词全文检索 SCWS 中文分词 Fast Search Using PostgreSQL Trigram Indexes

    1.4K120

    Laravel使用全文检索引擎TNTSearch和中文分词jieba-php实现中文全文搜索

    Laravel使用全文检索引擎TNTSearch和中文分词jieba-php实现中文全文搜索 ---- 全文搜索 搜索基本就是每个网站必备的 虽然是搜索 但是去搜索 我是一个php程序员,我是一个java 像 百度谷歌 可能会让用户一字不差的输入进去吗 这时候就会用到我们的全文搜索 简单的来说全文搜索的原理就是把内容按关键字给拆分了 比如说上面这句话拆成 php 、世界 、最好 、 语言 也就是php不用依赖第三方实现全文搜索的 TNTSearch ---- 中文分词 英文句子实现比较简单可以按空格去拆分 而中文 它并不懂 世界 、最好 、 语言 这些是词语 会把它给拆成单个字 这时候就需要中文分词了 中文分词就是会智能按中文的词语来拆分成关键字 ->mediumText('content')->comment('测试内容'); $table->timestamps(); }); } .env文件数据库配置 ,最好的php中文分词,中文拆分成关键字' ] ]); } 运行填充 php artisan db:seed --class=TestsTableSeeder

    1.5K10

    使用PostgreSQL进行中文全文检索 转

    ---- 分词 全文索引的实现要靠 PgSQL 的 gin 索引。 分词功能 PgSQL 内置了英文、西班牙文等,但中文分词需要借助开源插件 zhparser; SCWS 要使用 zhparser,我们首先要安装 SCWS 分词库,SCWS 是 Simple Chinese Word Segmentation 的首字母缩写(即:简易中文分词系统),其 GitHub 项目地址为 hightman-scws,我们下载之后可以直接安装。 ,PgSQL 会在每一行数据添加 score 字段存储查询到的总结果条数; 到这里,普通的全文检索需求已经实现了。 自此,一个良好的全文检索系统就完成了。 ---- 总结 简单的数据迁移并不是终点,后续要做的还有很多,如整个系统的数据同步、查询效率优化、查询功能优化(添加拼音搜索、模糊搜索)等。

    1.1K20

    【精】支付宝用户免费下载知网、万方等网站论文资料(超详细)

    免费方略学科导航 免费国务院发展研究中心信息网 免费GPO 美国政府出版物书目数据库 免费瀚堂典籍数据库 免费汉斯出版社中文期刊资源(Hans Publisher... 免费民国风云全文库 免费民国报纸(仅) 免费民国期刊(仅) 免费民国图书数据库 免费联合国图书馆 免费历代书法碑帖集成数据库 免费龙源期刊 免费皮书数据库 免费 皮书数据库 免费维普智立方知识资源服务平台(试用) 免费维普中文科技期刊 免费文渊阁《四库全书》(仅) 免费新东方多媒体学习库(试用) 免费新华社专供浙江图书馆(仅) 免费浙江图书馆戏曲动漫视频数据库 试用) 免费云图数字有声图书馆 免费中国知网数据库总站 免费(知网)国内外重要会议论文全文 免费中国(知网)国家科技成果 免费(知网)中国年鉴网络出版总库 免费(知网)中国博士学位论文全文 免费浙江图书馆馆藏数字资源服务平台(仅) 免费浙江图书馆家谱全文数据库 免费浙江图书馆馆藏拓片数据库(仅) 免费浙江省地方文献联合征集平台(揽越) 免费浙江海洋经济数据库 免费浙江新农村文化建设

    13920

    图书数据库系统

    library.py """ 分析图书馆案例 - 1.数据库配置 - 作者模型(一方) - 书籍模型(多方) - 2.添加测试数据 - 3.添加作者,书籍 - 4.删除作者,删除书籍 """ = Flask(__name__) app.config["SECRET_KEY"] = "fdfdfd" #使用CSRFProtect保护app CSRFProtect(app) #1.设置数据库配置信息 - 3.创建sqlalchemy对象db,关联app - 4.编写模型类,字段,继承自db.Model, - 5.操作数据库 - 增删改 - 查询 """ from flask import Flask from flask_sqlalchemy import SQLAlchemy app = Flask(__name__) #2.设置数据库的配置信息 #设置数据库的链接信息, app.config flask_migrate.py """ 数据库迁移[掌握] - 目的: 当数据库的表结构发生变化之后,如果直接删除原有的数据,再添加新的数据,有可能导致数据丢失 - 注意点: - 1.是为了备份表结构

    77330

    第30期:索引设计(全文索引中文处理)

    本篇是全文索引终篇,来细聊下 MySQL 全文索引对中文如何处理。在了解 MySQL 全文索引如何处理中文之前,先来看看什么是分词。 但是这种分割方法对多字节字符比如中文不是很友好,对中文来说每个字就是单独的字,无规律的字可以组成词,但是各个词之间不需要按照空格来分割。 如果按照默认的全文索引处理,搜索其中任何子句,结果肯定是出不来。这也间接导致大家说 MySQL 的全文检索结果不准确,不靠谱,其实并非如此,主要是 MySQL 全文索引对分词以及停止符界定有差异。 MySQL 从 5.7 就原生提供了处理中文的插件 ngram 来解决这个问题。下面我来介绍下中文处理插件Ngram . 查看 Ngram 插件是否正常加载, 结果显示为 ON 代表加载成功。 ,可以看到分词记录是按照停止词来划分的,其实对中文来说,这样的索引很不完整。

    20910

    42种网络学术搜索引擎大全--值得珍藏

    4 Vascoda http://www.vascoda.de/ Vascoda是一个交叉学科门户网站的原型,它注重特定主题的聚合,集成了图书馆的收藏、文献数据库和附加的学术内容。 它集文献搜索、试读、文献传递、参考咨询等多种功能为一体,以海量的数据库资源为基础,为用户提供切入目录和全文的深度检索,以及部分文献的全文试读,读者通过阅读文献的某个章节或通过文献传递来获取他们想要的文献资源 20 为学知识搜索 http://so.hbdlib.cn/ 为学知识搜索是湖北省数字图书馆组织开发的中文电子文献元数据仓储系统。 该系统实现了对省数图团购的中文全文期刊库、学位论文库、电子图书及其他各类中文网络文献资源元数据的统一仓储及一站式检索,构建了一个基于元数据的知识库,可提高中文电子资源在各图书馆的使用和利用效益。 40 指针网学术搜索 http://www.zhizhen.com/ 提供370万种图书的搜索、查询、免费试读服务,提供图书的免费全文阅读,在线购买,下载等链接,提供书评,收藏,交友,互动等服务的读者网上平台

    2.6K62

    见招拆招-PostgreSQL中文全文索引效率优化

    前言 上文 使用PostgreSQL进行中文全文检索 中我使用 PostgreSQL 搭建完成了一套中文全文检索系统,对数据库配置和分词都进行了优化,基本的查询完全可以支持,但是在使用过程中还是发现了一些很恼人的问题 博客欢迎转载,请带上来源:http://www.cnblogs.com/zhenbianshu/p/8253131.html  ---- 使用B树索引优化查询效果 分词问题 一开始是分词效果的问题: 中文博大精深 key 对应的 posting list 过大时,数据操作会很慢,如我们的数据中地点名带有 饭店 的数据就很多,有几十万,而我们的需求有一项就是要对查询结果按照 评分 一列倒序排序,这么几十万数据,数据库响应超时会达到

    1.1K80

    免费下载中英文文献,这些强大的方法不容错过

    硕博士论文下载 01 ProQuest Dissertations & Theses (简称PQDT) PQDT学位论文全文库是目前国内唯一提供国外高质量学位论文全文数据库,主要收录了来自欧美国家 中文文献下载 01 idata 全球最知名的知网镜像网站,https://www.cn-ki.net,期刊和博士硕士论文什么的都能下 不过idata的使用必须要注册后登录,每个账户每天最多免费下载 5篇中文文献 多出来的需要花钱。。。 浙江图书馆、绍兴图书馆、深圳图书馆、广西图书馆都可以这么操作,可以直接下载知网的文献,下面以“浙江图书馆操作”举个栗子 支付宝搜索框中输入“浙江图书馆”进行搜索,关注浙江图书馆生活号 进入浙江图书馆生活号后 选择“立即领取读者证”将读者证收入支付宝卡包,有时会提示发卡失败,稍等一会重试即可 打开浙江图书馆的网站http://www.zjlib.cn/,在网站右上角,使用刚才记录的读者证号登陆,即可免费下载数据库杂志和论文资源

    2.2K10

    Web-第二十八天 Lucene&solr使用一【悟空教程】

    数据采集 在电商网站中,全文检索的数据源在数据库中,需要通过jdbc访问数据库中book表的内容。 4.4.1.1. 中文分词器 5.3.1. 什么是中文分词器 学过英文的都知道,英文是以单词为单位的,单词与单词之间以空格或者逗号句号隔开。 而中文则以字为单位,字又组成词,字和词再组成句子。中文“我爱中国”就不一样了,电脑不知道“中国”是一个词语还是“爱中”是一个词语。 把中文的句子切分成有意义的词,就是中文分词,也称切词。 测试中文分词效果。 如果要在详情页面显示描述,解决方案: 从lucene中取出图书的id,根据图书的id查询关系数据库(MySQL)中book表得到描述信息。 6.3.2.

    49010

    这可能是史上最全的常用学术网站

    网站上论文很多,下载方便,还有很多外文书籍和中文书籍,几乎每天都在更新。这也是一个神奇网站,基本上所有的外文书籍和论文都可以搜到并下载,最近的学术论文也可以下载。 其中综合性数据库为中国期刊全文数据库、中国博士学位论文数据库、中国优秀硕士学位论文全文数据库、中国重要报纸全文数据库和中国重要会议文论全文数据库。 OA图书馆致力于让中国人可以免费获得高质量的文献,最早提供了很多的Open Access数据库和资源,但是由于OA的数据库资源比较分散并且数据库存储格式不统一,利用起来的非常不方便。 里面的搜索引擎琳琅满目到无从下手,不管你要中文,外文,硕博论文。在这里你都可以得到答案。 主要开设有资讯、资源、专题、服务四个栏目,资源包括中文期刊、外文期刊、外文图书、古籍四类,收录哲学社会科学相关领域文献共计10,000,000余条,提供有线阅读、全文下载等服务;还收录有国内外哲学社会科学领域重要的政府机构

    3.1K10

    day65_Lucene学习笔记

    全文检索搜索的这些数据称为非结构化数据。 什么是非结构化数据?   结构化数据:指具有固定格式或有限长度的数据,如数据库、元数据等。    (2)数据库采集(掌握) 针对电商站内搜索功能,全文检索的数据源在数据库中,需要通过jdbc访问数据库中book表的内容。 3.5.1、输入查询语句 详解如下: 同数据库的sql一样,lucene全文检索也有固定的语法: 最基本的有比如:AND, OR, NOT 等 举个例子,用户想找一个description中包括java `不存储是用来不在lucene的索引文件中记录`,`节省lucene的索引文件空间`,如果要在详情页面显示描述: 思路:从lucene中取出图书的id,根据图书的id查询关系数据库中book表得到描述信息 5、索引的维护 5.1、需求 管理人员通过电商系统更改图书信息,这时更新的是数据库,如果使用lucene搜索图书信息需要在数据库表book信息变化时及时更新lucene索引库。

    31940

    所有科研人都应该收藏的论文下载网站,不是sci-hub!

    全国图书馆参考联盟 http://www.ucdrs.superlib.net/ 【使用简单】只需要注册,即可查找文献,然后对感兴趣的文献使用发文献到邮箱的按钮,填写相关信息,一般过几分钟到几个小时即会由工作人员将文章发到你的邮箱 注册页面 注意:注册时,所属单位一定要选择“全国图书馆参考咨询联盟”。 ? 文献检索界面 在文献检索界面,找到你要下载的论文,点击“邮箱接收全文“。 然后输入你的邮箱就可以了。 因为后台是人工检索发送的,这个网站是全国各地图书馆的一个服务项目。也正因为是人工,所以没有法律问题。 【资料最全】中文英文、期刊会议、毕业论文、标准专利,应有尽有! 中文英文资料都有,不过估计没多少人看中文吧。。。 期刊会议都有,参与资料共享的图书馆订阅的期刊会议估计应该能够囊括大多数学术期刊会议了吧。。。收录文献种类绝对超过大多数大学的自购数据库

    85720

    关注

    腾讯云开发者公众号
    10元无门槛代金券
    洞察腾讯核心技术
    剖析业界实践案例
    腾讯云开发者公众号二维码

    相关产品

    • Elasticsearch Service

      Elasticsearch Service

      腾讯云 Elasticsearch Service(ES)是云端全托管的ELK服务,包含 Kibana ,集成X-Pack。帮助您快速部署、轻松管理、按需扩展集群,简化复杂运维操作,快速构建日志分析、全文搜索、BI 分析等业务。     

    相关资讯

    热门标签

    活动推荐

    扫码关注腾讯云开发者

    领取腾讯云代金券