首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

移动客户端多音字搜索

所以,微信全文搜索的多音字搜索成了一个迫切需要解决的问题。本文重点讲述微信安卓客户端在SQLite FTS5的基础上,多音字问题的解决方案。...客户端索引方案 ---- 在确定字表方案后,需要在客户端本地使用SQLite FTS5建立索引。因为拼音搜索主要是采用前缀搜索的方式,所以建立索引的内容以及方式需要考虑FTS5前缀搜索的过程 ?...在FTS5匹配以上Query时,用户1、2两种输入都作为"shiweishuji"的前缀匹配,而3的输入会作为“swsj”的前缀匹配。...而SQLite FTS5正是通过搜索一个词语来找到对应的DocId,通过TermOffset来定位该词语在Document的位置。...在SQLite FTS5,一个词语可以通过一个DocId和一个TermOffset来定位,所以当两个词语拥有同一个DocId和TermOffset时,就可以说这两个词语为同义词了,也就有了如下的索引方案

3.6K210

iOS微信全文搜索技术优化

这些搜索功能从2014年上线至今,已经多年没有更新底层搜索技术,聊天记录使用的全文搜索引擎还是SQLite FTS3,而现在已经有SQLite FTS5,收藏首页的搜索还是使用简单的Like语句去匹配文本...在SQLite几个版本的引擎FTS5的搜索语法更加完备严谨,提供了很多接口给用户自定义搜索函数,所以搜索能力也相对强一点。...2、实现FTS5的Segment自动Merge机制 SQLite FTS5会把每个事务写入的内容保存成一个独立的b树,称为一个segment,segment中保存了本次写入内容的每个词在本次内容中行号...,后者就不能成为前者的前缀。...那展示搜索结果时如何获取高亮匹配内容呢?我们采用的方式是将用户的搜索文本进行分词,然后在展示结果时查找每个Token在展示文本的位置,然后将那个位置高亮显示

2.2K60
您找到你想要的搜索结果了吗?
是的
没有找到

微信团队分享:微信移动端的全文检索多音字问题解决方案

本文重点讲述微信安卓客户端在SQLite FTS5的基础上,多音字问题的解决方案。...6、客户端索引方案 在确定字表方案后,需要在客户端本地使用SQLite FTS5建立索引。因为拼音搜索主要是采用前缀搜索的方式,所以建立索引的内容以及方式需要考虑FTS5前缀搜索的过程。 ?...在FTS5匹配以上Query时,用户1、2两种输入都作为"shiweishuji"的前缀匹配,而3的输入会作为“swsj”的前缀匹配。...而SQLite FTS5正是通过搜索一个词语来找到对应的DocId,通过TermOffset来定位该词语在Document的位置。 方案优点: 实现较为简单; 可覆盖所有多音字情况。...在SQLite FTS5,一个词语可以通过一个DocId和一个TermOffset来定位,所以当两个词语拥有同一个DocId和TermOffset时,就可以说这两个词语为同义词了,也就有了如下的索引方案

5.5K32

微信全文搜索耗时降94%?我们用了这种方案

这些搜索功能多年没有更新底层搜索技术,聊天记录使用的全文搜索引擎还是 SQLite FTS3,而现在已经有 SQLite FTS5;收藏首页的搜索还是使用简单的 Like 语句来匹配文本;联系人搜索甚至用的是内存搜索...在 SQLite 几个版本的引擎FTS5 的搜索语法更加完备严谨。它提供了很多接口给用户自定义搜索函数,所以搜索能力相对强一点。...“happi” ,后者就不能成为前者的前缀。...搜索结果还要支持获取匹配结果的层级、位置以及该段内容的原文和匹配词。 这个能力 FTS5 还没有,而 FTS5 的自定义辅助函数支持在搜索时获取到所有命中结果的每个命中 Token 位置。...那展示搜索结果时如何获取高亮匹配内容呢?我们采用的方式是将用户的搜索文本进行分词,在展示结果时查找每个 Token 在展示文本的位置,然后将那个位置高亮显示

2.6K62

微信全文搜索优化之路

与基于服务端提供的搜索服务不同,移动端受硬件条件限制,尤其在数据量相对较大的情况下,搜索性能问题表现得十分突出。...SQLite FTS Extension ---- SQLite FTS Extension是SQLite为全文搜索开发的一个插件,它是内嵌在标准的SQLite分布版本当中,它具有如下的特点: 搜索速度快...FTS5发布于2015年。 存储架构 ---- 微信全文搜索在2014 年底上线,最初主要服务于联系人和聊天记录的业务搜索。...在移动端由于屏幕的限制,往往在最后显示搜索结果时,只会高亮少量命中的关键词,而Offsets函数会计算命中Doc中所有目标词语偏移,所以需要对Offsets函数进行改造。...在一番研究以后,我发现FTS5支持自定义辅助函数,并且有比较好的API的封装,所以最后使用FTS5自定义辅助函数(MMHighLight)重新实现Offsets函数的功能,并加入优化逻辑。

1.5K20

微信全文搜索优化之路

与基于服务端提供的搜索服务不同,移动端受硬件条件限制,尤其在数据量相对较大的情况下,搜索性能问题表现得十分突出。...SQLite FTS Extension SQLite FTS Extension是SQLite为全文搜索开发的一个插件,它是内嵌在标准的SQLite分布版本当中,它具有如下的特点: 搜索速度快:使用倒排索引加速查找过程...FTS5发布于2015年。 存储架构 微信全文搜索在2014 年底上线,最初主要服务于联系人和聊天记录的业务搜索。...在移动端由于屏幕的限制,往往在最后显示搜索结果时,只会高亮少量命中的关键词,而Offsets函数会计算命中Doc中所有目标词语偏移,所以需要对Offsets函数进行改造。...在一番研究以后,我发现FTS5支持自定义辅助函数,并且有比较好的API的封装,所以最后使用FTS5自定义辅助函数(MMHighLight)重新实现Offsets函数的功能,并加入优化逻辑。

9K42

微信团队开源的终端数据库WCDB有什么优势?

今天我们来看看到底是怎么个事儿 WCDB是微信团队开源的一款基于SQLite的终端数据库。...FTS5优化:WCDB对SQLiteFTS5组件进行了优化,重新设计了FTS5分词器,并丰富了分词器的能力,还支持了拼音搜索。...代码框架 开源地址 https://github.com/Tencent/wcdb 3、功能说明 更丰富的开发语言支持: 说明:新版WCDB通过使用C++作为核心逻辑的实现语言,使得其他开发语言Java...FTS5优化使得全文搜索更加高效,而可中断事务则允许在长时间运行的数据库操作,主线程可以及时响应用户操作,避免应用卡顿。 举例:在一个电商平台中,用户搜索商品时需要快速返回搜索结果。...如何在WCDB实现数据备份和修复方案 在WCDB 1.0,备份和修复方案主要是针对SQLite数据库的页码进行备份,以解决数据库损坏后数据丢失的问题。

9100

微信手机端的本地数据全文检索优化之路

与基于服务端提供的搜索服务不同,移动端受硬件条件限制,尤其在数据量相对较大的情况下,搜索性能问题表现得十分突出。...FTS5发布于2015年。 3、存储架构 微信全文搜索在2014 年底上线,最初主要服务于联系人和聊天记录的业务搜索。...在移动端由于屏幕的限制,往往在最后显示搜索结果时,只会高亮少量命中的关键词,而Offsets函数会计算命中Doc中所有目标词语偏移,所以需要对Offsets函数进行改造。...在一番研究以后,我发现FTS5支持自定义辅助函数,并且有比较好的API的封装,所以最后使用FTS5自定义辅助函数(MMHighLight)重新实现Offsets函数的功能,并加入优化逻辑。...所以这里关键的实现点在于中间转化函数的实现,微信的中间转化函数MMRank是通过FTS5的辅助函数实现的。 ?

2.6K20

筛选和分析文献的AI神器paperai

就是在这样一项比赛,这个paperai,获得了8项任务大奖的6项: 创建了与新冠肺炎相关的人口研究的汇总表; 创建了与新冠肺炎相关的患者描述的汇总表; 创建了与新冠肺炎相关的模型和未决问题的汇总表;...句嵌入索引分析CORD-19 简单来说就是,该模型就是句嵌入索引和带有文章的SQLite数据库的组合。 首先,每篇文章都被解析成句子,并与文章元数据一起存储在SQLite。...SQLite本身就具有虚拟表模块FTS5,可以进行全文搜索。 这个全文搜索引擎,允许用户在大量文档集合中高效地搜索包含一个或多个搜索词。...SQLiteFTS5默认加权方案是tf-idf,此外,它还支持BM25,这使得性能够进一步提高。 ? 之后,使用FastText+BM25创建句嵌入索引。...最后,检索出来句子,会通过过TextRank算法进行分析和运行,以便在最终的报告,以高亮的形式框出。 ? 以上图为例,在目标进行检索后,系统会输出文献的基本信息,日期、研究方向、期刊等。

2.8K30

Kaggle八项大奖斩获其6:用于筛选和分析文献的paperai

就是在这样一项比赛,这个paperai,获得了8项任务大奖的6项: 创建了与新冠肺炎相关的人口研究的汇总表; 创建了与新冠肺炎相关的患者描述的汇总表; 创建了与新冠肺炎相关的模型和未决问题的汇总表;...句嵌入索引分析CORD-19 简单来说就是,该模型就是句嵌入索引和带有文章的SQLite数据库的组合。 首先,每篇文章都被解析成句子,并与文章元数据一起存储在SQLite。...SQLite本身就具有虚拟表模块FTS5,可以进行全文搜索。 这个全文搜索引擎,允许用户在大量文档集合中高效地搜索包含一个或多个搜索词。...SQLiteFTS5默认加权方案是tf-idf,此外,它还支持BM25,这使得性能够进一步提高。 之后,使用FastText+BM25创建句嵌入索引。...最后,检索出来句子,会通过过TextRank算法进行分析和运行,以便在最终的报告,以高亮的形式框出。 以上图为例,在目标进行检索后,系统会输出文献的基本信息,日期、研究方向、期刊等。

42320

五年沉淀,微信全平台终端数据库WCDB迎来重大升级!

图25:压缩预处理INSERT1 这里WCDB_CT_content这个字段,就是content字段的压缩状态字段,它加了个前缀。...主要要解决两个问题,一个是如何在执行出错时获取到这个表格对应的 ORM 类,一个是如何避免将错误的列添加到表格。...这种情况可以通过提取报错信息的列名去匹配 Winq 语句中的列名来解决。 2. 防止开发者用错 ORM 类时把这个类配置的列都误添加进来。...这种情况可以通过检测匹配的 ORM 类配置的列必须有一半已经添加到这个表格来解决。极端情况下,即便误添加一些列,只要这些列不实际写入数据,也不会占用存储空间和影响读写性能。...变化五:更极致的性能优化能力 1、FTS5 优化 iOS微信在 2020 年到 2021年期间,将联系人搜索、聊天记录搜索、收藏搜索这三个主要的本地搜索逻辑全部改用 SQLiteFTS5 组件来实现

73320

五年沉淀,微信全平台终端数据库WCDB迎来重大升级

图25:压缩预处理INSERT1 这里WCDB_CT_content这个字段,就是content字段的压缩状态字段,它加了个前缀。...主要要解决两个问题,一个是如何在执行出错时获取到这个表格对应的 ORM 类,一个是如何避免将错误的列添加到表格。...这种情况可以通过提取报错信息的列名去匹配 Winq 语句中的列名来解决。 2. 防止开发者用错 ORM 类时把这个类配置的列都误添加进来。...这种情况可以通过检测匹配的 ORM 类配置的列必须有一半已经添加到这个表格来解决。极端情况下,即便误添加一些列,只要这些列不实际写入数据,也不会占用存储空间和影响读写性能。...变化五:更极致的性能优化能力 1、FTS5 优化 iOS微信在 2020 年到 2021年期间,将联系人搜索、聊天记录搜索、收藏搜索这三个主要的本地搜索逻辑全部改用 SQLiteFTS5 组件来实现

56941

ES系列五、ES6.3常用api之搜索类api

有关 不同荧光笔如何找到最佳碎片的更多详细信息,请参阅文档高亮显示器如何在内部工作。 phrase_limit:控制考虑的文档匹配短语的数量。防止fvh荧光笔分析太多短语并消耗太多内存。...require_field_match:默认情况下,仅突出显示包含查询匹配的字段。设置require_field_match为false突出显示所有字段。默认为true。...这个hightlighter将文本分成句子,并使用BM25算法对单个句子进行评分,就好像它们是语料库的文档一样。它还支持准确的短语和多项(模糊,前缀,正则表达式)突出显示。...为了准确反映查询逻辑,它会创建一个微小的内存索引,并通过Lucene的查询执行计划程序重新运行原始查询条件,以访问当前文档的低级别匹配信息。对每个字段和需要突出显示的每个文档重复此操作。...看到 matched_fields 可以为不同位置的匹配分配不同的权重,允许在突出显示提升词组匹配的提升查询时,将词组匹配等术语排序在术语匹配之上

2.2K10

何在 TypeScript 中使用函数

以下代码块显示了一般语法,突出显示了类型声明: function functionName(param1: Param1Type, param2: Param2Type): ReturnType {...''}${user.firstName} ${user.lastName}`; } 在此代码块的第一个突出显示部分,我们正在向函数添加一个可选的前缀参数,在第二个突出显示部分,我们将使用它作为用户全名的前缀...''}${user.firstName} ${user.lastName}`; 如果我们想明确说明函数的返回类型,可以在 () 之后添加它,如以下代码块突出显示的代码所示: const getUserFullName...请注意此处突出显示的其余参数 args。类型被设置为一个数字数组:number[]。...例如,将以下突出显示的注释添加到示例重载: ... /** * Get a user by their ID. */ function getUser(id: number): User | undefined

15K10

Sqlite3详细解读

VARCHAR型字段的另一个突出的好处是它可以比CHAR型字段占用更少的内存和硬盘空间。当你的数据库很大时,这种内存和磁盘空间的节省会变得非常重要。...1、选择所有列 例如,下面语句显示testtable表中所有列的数据: SELECT *FROM testtable 2、选择部分列并指定它们的显示次序 查询结果集合数据的排列顺序与选择列表中所指定的列名排列顺序相同...testtable 4、删除重复行 SELECT语句中使用ALL或DISTINCT选项来显示符合条件的所有行或删除其中重复的数据行,默认为ALL。...方括号[]:指定一个字符、字符串或范围,要求所匹配对象为它们的任一个。[^]:其取值也[] 相同,但它要求所匹配对象为指定字符以外的任一个字符。.../* 对于SQlite3,所有的API函数都有一个前缀sqlite3_。这个前缀表明这些APIs由SQlite数据库产品提供,3代表版本。所有的常量都有一个前缀SQLITE_。

3.6K10

2019年开源数据库报告发布:MySQL仍卫冕!

报告内部部署不到一半的开源数据库包括MariaDB占47.2%,SQLite占43.8%,Redis占42.9%。内部部署最少的数据库是Elasticsearch,仅为34.5%。...开源数据库部署:公共云部署 现在,我们来看看公共云部署开源数据库的细分情况。 SQLite是公共云基础架构中最常部署的开源数据库,占其部署的43.8%,紧随其后的是Redis,占42.9%。...在下面的图表,左列的数据库表示该数据库类型的样本大小,顶部列出的数据库表示与该数据库类型组合的百分比。蓝色突出显示的单元格表示100%的部署组合,而黄色表示0%的组合。...这可以在MySQL的第一行中看到,因为与MySQL的第一列相比,这些是较浅的蓝色到黄色,第一列显示了与蓝色(代表100%组合)更高的匹配颜色。...用黑色边框突出显示的单元格表示仅利用一种数据库种类的部署,从黑色边框突出显示的单元格的情况来仅使用MySQL的情况占MySQL部署情况的23%。

1.4K20

dotnet 关于 SmartSql 的 SQL 语句的属性替换前缀说明

请看下文 可以关注到在 Select * From T_User Where Id=@Id 需要替换的属性包含了前缀 ParameterPrefix 属性前缀 @ 符号。...而根据方法里面的 Param 特性找到对应的参数,从而拿到对应的值 如在以上例子,在 SQL 语句中使用了 @Id 标识,此时将可以通过前缀 @ 判断取出需要替换的属性是 Id 属性。...MySQL 时,可能存在 SQL 的属性替换失败,在 SmartSql.Middlewares.PrepareStatementMiddleware 的输出里面没有参数,显示代码是 Parameters...而 sqlConfig.Database.DbProvider.ParameterPrefix 是对应数据库的默认属性前缀的值 假定如上示例开发者自定义的属性前缀是 $ 字符,而采用数据库是 SQLite..., SQLite 数据库的默认属性前缀的值是 @ 字符 根据正则字符串可以找到 SQL 里面所有的属性字符串,将属性替换为具体的参数即可完成实际使用的 SQL 语句。

2K20
领券