展开

关键词

elasticsearch 拼音检索能力研究

,按最小拼音分词个数拆分拼音,优先拆分全拼 curl -X POST -d '{ "analyzer" : "lc_search", "text" : ["刘德华"] }' "http://localhost "start_offset": 2, "end_offset": 3, "type": "word", "position": 2 } ] } 拼音全拼 ": { "name": [ "<tag1>携程旅行</tag1>网" ] } } ] } } 拼音首字母 ,比如 刘德华刘德华 只会保留一份拼音 liu,de,hua;相对的 remove_duplicated_term=false 则会保留两份 liu,de,hua。 注意:参数 keep_none_chinese 是不会影响首字母以及所有字符组成全拼的拼音,上述文本生成的首字母拼音为 l20dbhdj,所有字符组成的全拼为:liu20debhuadj,特别字符始终是被过滤去除的

1.2K20

ElasticSearch实战系列02:中文+拼音混合检索,并高亮显示

本文导读 本文仿照QQ的用户搜索,搭建一个中文+拼音的混合检索系统,并高亮显示检索字段。 【ps:留言区附完整版项目源码地址】 01 项目简介 本项目基于ElasticSearch 7.7.1,analysis-pinyin 7.7.1,参考QQ的用户搜索效果,完成一个中文+拼音的混合检索系统 中文+首字母+全拼检索 其实QQ的用户检索是有很多限制的,比如说首字母检索时,必须从第一个字开始匹配【输入“gz”,可以检索到“关注我”,但是不能检索到“我关注”】; 再比如说全拼+首字母检索时,全拼必须在前面 【输入“guanz”,可以检索到“关注我”,但是输入“gzhu”,是不能检索到结果的】; 至于为什么会有如此限制,个人猜测是考虑检索性能(PS:欢迎留言讨论)。 1.2 检索需求描述 参考QQ,列出“用户检索系统”的需求如下: 1)支持首字母检索; 2)支持首字母+全拼检索; 3)支持中文+首字母+全拼混合检索; 4)检索词有中文,则必须包含; 5)高亮显示检索命中词

1.8K20
  • 广告
    关闭

    老用户专属续费福利

    云服务器CVM、轻量应用服务器1.5折续费券等您来抽!

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    搜狗拼音设置

    安装到最后发现装不上 sudo apt-get update sudo apt-get upgrade sudo apt-get install -f 搜狗拼音就自动被 apt-get install -f 装上了 ---- 设置英语为默认输入语言 桌面右上角拼音图标 –> 设置 –> 高级(D) –> 打开Fcitx设置 : 将里面的 Keyboard-English(US) 调到 Sogou Pinyin

    33540

    正则匹配拼音

    把可能的列出来就可以了,因此正则表达式这样写: [āáǎàēéěèīíǐìōóǒòūúǔùǖǘǚǜüêɑńňɡa-zA-ZA-Za-z\\s∥-]+ 在c#中...

    1.3K50

    汉字转拼音

    汉字转拼音 1、前言 FME的功能已经足够强大,在FME丰富的数据格式与众多转换器的支持下,我们可以完成很多复杂的工作。但是如果能使用Python来对其进行进一步的功能扩展的话,将会使FME更加开放。 在做完第一步的准备工作后,需要安装汉字转拼音的包pypinyin 如下图,安装所需包 ? 这样,就基本完成了环境的配置,我们可以进行下一步的操作。 PythonCaller转换器:首先导入所需的包,然后获取需要的字段,并转换为拼音(首字母大写),最后将转换好的拼音输出。整体如下图所示: ? 4、运行魔板预览数据 直接上结果截图了: ?

    48420

    汉字转拼音工具

    net.sourceforge.pinyin4j.format.exception.BadHanyuPinyinOutputFormatCombination; 6 7 8 /** 9 * 汉字转化为拼音的工具类 { 43 return toPinYin(str, spera, Type.LOWERCASE); 44 } 45 46 /** 47 * 将str转换成拼音 ,如果不是汉字或者没有对应的拼音,则不作转换 48 * @param str:要转化的汉字 49 * @param spera:转化结果的分割符 50 * @return 23 if (String.valueOf(cl_chars[i]).matches("[\u4e00-\u9fa5]+")){// 如果字符是中文,则将中文转为汉语拼音 String.valueOf(cl_chars[0]); 108 if (str.matches("[\u4e00-\u9fa5]+")) {// 如果字符是中文,则将中文转为汉语拼音

    8320

    ubuntu 安装google 拼音,淘汰sogou拼音;解决乱码输入的问题;

    最近在进行开发的时候,发现之前的sogou拼音会出现乱码;就像下面这样:(图片来源自网络) ?  为了解决,这个问题,网友找到很多方法;但都是临时解决。根本原因应该是软件的bug。

    27710

    将QQ拼音词库导入到搜狗拼音

    我以前用的是搜狗拼音,但是有一次我的词库数据莫名其妙的丢失后,而且发现搜狗拼音的词库不能导出为纯文本,所以我就放弃搜狗使用QQ拼音了。 昨天看到搜狗拼音推出了云输入法,真是让我眼前一亮,真是很有创意的一个输入法,就因为搜狗推出了该输入法,因为他们的创意,所以我决定回到搜狗拼音。 要回归搜狗拼音输入法,那么词库问题是一个很严重的问题,默认情况下,QQ拼音输入法的词库是没办法导入到搜狗拼音输入法中的,直接将QQ拼音输入法词库导出,再在搜狗拼音输入法中导入时提示如下: 所以我不得不写一个小程序 ,将QQ拼音的词库格式转换一下,然后再进行导入。 分析了一下QQ拼音词库的格式和搜狗拼音词库格式,区别在于: QQ拼音词库中提供了词频数,而搜狗词库没有。 QQ拼音拼音前面是没有单引号的,但是搜狗词库必须要有。

    9630

    中文转拼音【真正的完整版】 拼音 驼峰命名专用

    把下面的代码复制了, 在桌面建一个后缀为“.html”格式的文件,如:“拼音.html” , 打开 拼音.html ,Ctrl + V ,Ctrl + S,关闭,再打开 <! , 地址, 备注 </textarea>

    <input type="button" value="生成<em>拼音</em> jg"> <textarea id="t2"></textarea>

    excel vba获取拼音

    33120

    Java 读取汉字拼音

    <artifactId>pinyin4j</artifactId> <version>2.5.1</version> </dependency> 汉字转拼音工具类 net.sourceforge.pinyin4j.format.HanyuPinyinVCharType; import net.sourceforge.pinyin4j.format.exception.BadHanyuPinyinOutputFormatCombination; /**汉字解析拼音处理

    24540

    PHP汉字转拼音

    基于 CC-CEDICT 词典的中文转拼音工具,更准确的支持多音字的汉字转拼音解决方案。 require "overtrue/pinyin:~3.0"使用可选转换方案:- 内存型,适用于服务器内存空间较富余,优点:转换快- 小内存型(默认),适用于内存比较紧张的 基于 CC-CEDICT 词典的中文转拼音工具 ,更准确的支持多音字的汉字转拼音解决方案。 缺点:转换慢,不如内存型转换快,php >= 5.5 拼音数组 use Overtrue\Pinyin\Pinyin; // 小内存型$pinyin = new Pinyin(); // 默认// 内存型 ,别看这一小功能却能发挥很大的作用,以上代码是基于PHP如何把汉字转化为拼音的全部叙述

    73820

    网页|高级检索与专业检索

    1、高级检索 高级检索也称命令检索,是相对于基本检索而言,高级检索可以让你使用多于基本检索的标准来精炼检索,使检索信息更加详细,搜索出的结果可用性也更大。 ? 图1.1 百度高级检索示例图 ? 图1.2 知网高级检索示例图 使用高级检索可以直接根据示例图所示,搞清楚查找资料的关系后,然后根据高级检索的相关内容直接输入逻辑关系搜索从而精确搜索信息。 图1.3 知网高级检索示例图2 2、专业检索 专业检索就是运用检索表达式实现的检索方式。这种检索方式可以让通过运用检索字段精确检索需要的内容。 ? 图2.1 知网专业检索示例图 百度专业检索直接在搜索框输入检索式即可。 图2.4 示例2检索结果 结语 运用高级检索和专业检索可以让搜索更加详细。

    1.1K20

    短语检索也学习通道检索

    密集检索方法在一系列NPL问题上比稀疏方法显得大有希望。在其中,密集的短语检索-最高质量的-细粒度检索单元-是吸引人的因为短语能够直接的用作问题回答和插槽填充任务的输出。 在这项工作中,我们跟随直觉,即检索短语自然需要检索较大的文本块以及研究短语检索是否可以充当包括文章和文献在内的粗级检索的基础。 我们首先注意到的是,与通道检索器相比,密集短语检索方法系统没有任何再培训,已经实现更好的通道检索精确性(前五精确性为+3-5%),这也有助于通过较少的通道实现更好的首尾相连地QA性能。 然后,我们为为什么短语级监督有助于学习比通道级监更好的细粒度要求提供了解释,并且也展示了短语检索可以改进去实现在文献检索任务中的绩效竞争。比如说实体链接和知识基础对话。 最后,我们演示了短语过滤和矢量量化可以怎样将索引的大小减少4-10倍,让密集短语检索在多粒度检索中成为一种切实可行的和多功能的解决方案。

    13940

    PHP汉字转拼音函数

    <?php function Pinyin($_String, $_Code='UTF8'){ //GBK页面可改为gb2312,其他随意填写为UTF8 ...

    73450

    让Alfred支持拼音搜索

    Alfred是个好东西,不过检索程序的时候不支持拼音搜索;我在论坛看到有人给作者反馈过,无奈作者说支持中文,他不知道拼音是什么,于是就不了了之了。 如果Alfred能支持拼音搜索,这些问题全部都没了!而且,Alfred可以强制使用英文输入,直接使用字母检索,不用切换输入法了。 原理 经过简单的观察之后,发现Alfred检索程序不仅仅是检索名字,还收集了一些额外的信息;在Alfred作者的帮助下,知道它利用了Mac文件系统的一个拓展信息的字段;如果你发现某些目录后面有@那么就是有拓展信息了 所以,我们可以通过把拼音信息添加到文件的拓展信息里面去,这样Alfred就能借助这些信息帮助拼音检索了。 : x + y, lazy_pinyin(app_name, errors='ignore')) 添加拼音信息 拼音信息被添加到文件的拓展信息里面,直接使用xattr添加即可: def_add_meta_data

    1.6K10

    C# 汉字转拼音

    记录 直接上代码 #region 汉字转拼音 #region 数组信息 private static int[] pyValue = new int[] "黧","黥","黪","黯","鼢","鼬","鼯","鼹","鼷","鼽","鼾","齄" }; ///

    /// 二级汉字对应拼音数组 ; } return sb.ToString(); } /// /// 获取单字拼音 } return String.Empty; } /// /// 把汉字转换成拼音 (全拼) /// /// <param name="str">汉字字符串</param> /// <returns>转换后的拼音(全拼

    32720

    汉字转化为拼音

    php /* 汉字转化为拼音类 */ class Pinyin{ /** * 汉字ASCII码库 * * @var array */ protected * * @return void */ public function __construct(){ } /** * 汉字转化并输出拼音 * * @param string $str 所要转化拼音的汉字 * @param boolean $utf8 汉字编码是否为utf8 * 256+$temp2-65536; } $pinyin .= $this->num2str($temp); } //输出的拼音编码转换

    14400

    第2-3课 检索数据检索检索排序数据

    这两课主要介绍sql中利用select语句对数据的简单检索。 下面分别讨论不同类型的检索 检索列 单个列 select prod_id from Products; 多个列 select prod_id, prod_name, prod_price from Products ; 所有列 select * from Products; 检索不同值 的列 select distinct vend_id from products; 检索前几列或者后几列 select prod_name from products limit 5; select prod_name from products limit 5 offset 5; 检索排序数据 单个列排序 select prod_name

    15020

    相关产品

    • 文本内容安全

      文本内容安全

      文本内容安全(Text Moderation System,TMS)服务使用了深度学习技术,可有效识别涉黄、涉政、涉恐等有害内容,支持用户配置词库,打击自定义的违规文本。通过 API 接口,能检测内容的危险等级,对于高危部分直接过滤,可疑部分人工复审,从而节省审核人力,释放业务风险。

    相关资讯

    热门标签

    活动推荐

    扫码关注腾讯云开发者

    领取腾讯云代金券