学习
实践
活动
专区
工具
TVP
写文章
  • 广告
    关闭

    2023新春采购节

    领8888元新春采购礼包,抢爆款2核2G云服务器95元/年起,个人开发者加享折上折

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Postgresql模糊匹配案例(包括中文前后模糊)

    经常被问到为什么模糊匹配不走索引,验证几种情况(Pg9.4.18) 构造测试数据 create table test(id int, info text); insert into test select ); explain (analyze,verbose,timing,costs,buffers) select * from test where info like '%4152%'; 前后模糊中文 规则 对于中文,lc_ctype不能为"C",只有TOKEN分割正确效果才是OK的 在"C"的库中使用有严重性能问题 test01 DB : test06 | pg9002311 | UTF8 | 如果有前后模糊查询需求,并且包含中文,请使用lc_ctype <> "C"的数据库,同时使用pg_trgm插件的gin索引。 (只有TOKEN分割正确效果才是OK的。 如果有前后模糊查询需求,并且不包含中文,请使用pg_trgm插件的gin索引。 如果有正则表达式查询需求,请使用pg_trgm插件的gin索引。

    48650

    前端基础-匹配中文(utf-8编码)

    第5章 匹配中文(utf-8编码) 每个字符(中文、英文字母、数字、各种符号、拉丁文、韩文、日文等)都对应着一个Unicode编码。 查看Unicode编码,找到中文的部分,然后获取中文的Unicode编码的区间,就可以用正则匹配了。 前面我们用[a-z]表示小写字母,[0-9]表示数字,这就是一个范围表示,如果有一个数x能够表示第一个中文,有一个数y能够表示最后一个中文,那么[x-y]就可以表示所有的中文了。 中文的Unicode编码从4E00开始,到9FA5结束。 [\u4E00-\u9FA5]这个区间就能够表示中文。 console.log(res);//["你", "好", "世", "界"] 案例二 解决结巴程序 把“今今今天晚晚晚晚晚晚上吃吃吃吃吃吃鸡”字符串换成单字的形式,即“今天晚上吃鸡”; 核心思想:匹配到重复的字符时

    72910

    python正则表达式匹配中文(Excel如何根据名字匹配编码)

    这不是在做正则匹配中文时候,编码又一次成了拦路虎,在这儿记录两点。第一,字符串编码。第二,正则匹配中文。 早期编码都用ASCII编码,用一个字节来处理编码。 如大写A编码为65,但处理中文时候,一个字节显然不够,至少两哥字节,还不能和ASCII冲突,,中国制定GB2312编码,把中文编进去。 由于Python源代码也是一个文本文件,所以,当你的源代码中包含中文的时候,在保存源代码时,就需要务必指定保存为UTF-8编码。 关于Python正则表达式匹配中文,其实只要同意编码就行,我电脑用的py2.7,所以字符串前加u,在正则表达式前也加u即可。 u9fa5]+") result=re.findall(pattern,str) # print result.group() for w in result: print w 更加详细正则匹配内容

    23030

    源晶振匹配电容—计算方法

    以前有写过一篇文章“晶振”简单介绍了晶振的一些简单参数,今天我们来说下源晶振的匹配电容计算方法: 如上图,是常见的的源晶振常见接法,而今天来说到就是这种常见电路的电容计算方法,有两种: A,知道晶振的负载电容 方法A: 如上图:Ce1=Ce2=2*[Cl-(Cs+Ci)] 其中,Ce1,Ce2为晶振外部的负载电容,也即是匹配电容 Cl为晶振规格书的负载电容 Cs为PCB板的走线、IC PAD的寄生电容的和 方法B: C1,C2为晶振的外部匹配电容 Cstray为trace,pad and chip的寄生电容 Cl则为我们需要的晶振参数。 总结:上面两种方法,一种是先确定了晶振的参数,然后对应去算匹配电容范围,简单方便。另外一种是根据平台推荐的匹配电容,去算晶振的参数,然后去选择对应的型号。仔细看看,这两种方法其实是一样的。

    1.2K20

    如何用正则表达式匹配中文

    没办法,干脆用正则匹配吧。因为之前并没有学过正则表达式,只好恶补了一下。在匹配的过程中遇到了一些问题,特别是在匹配中文的时候,很是蛋疼。下面说一下我的学习成果。 使用php在匹配中文的时候不能使用 \w 来匹配,可以使用元字符 . 来粗略匹配中文 精确匹配中文时需要考虑编码环境,gb2312和 utf-8。这两种编码有什么区别呢 ? 一、好了,下面进入正题,如果你想匹配中文的话,可以采用下面的表达式: utf-8编码: [\x{4e00}-\x{9fa5}] 例如:匹配5个汉字,便可以这么写: /[\x{4e00}-\x{9fa5 二、通过上面的表达式我们可以匹配一段模糊的中文,那如果我们想要匹配精准的某个字或者词语呢 ?例如,我在做教务处爬虫时,抓取到的成绩不仅仅只是数字,还有优秀、通过、良好等。这种我们总不能漏掉吧? 可以使用下面的方式来匹配: 先将汉字转换成为16进制Unicode编码,可以在这个网站方便的转换:Unicode与中文互转 16进制Unicode编码转换、还原 例如我们将 优秀 两个字转换成了该编码,

    47420

    监督语义匹配实战

    然而,在实际工业界或项目中,或是限于经费,或是只是小试牛刀,没有标注好的语料进行训练,那么如何在监督上把语义匹配玩转呢? 最近我们请来了(曾经?) 大红大紫的BERT,来做监督的Query-词的语义匹配。 难点分析与思路 那么,你说的这个监督的Query-词的语义匹配,到底难在哪里呢? 训练语料 首先自然是监督啦,在千奇百怪的实际业务中很难在网上找到适合训练的语料,而基于种种原因不能或不想标注的话,你大概率要和有监督say no了。 之后笔者会出word2vec及其改良篇的语义匹配,敬请期待。 这里你可能会问,大家都拿BERT来做有监督,在它后面再加一两层网络然后用自己业务的有监督数据微调,要怎么做监督啊? 说点题外话,除了官方释放的BERT模型之外,百度、哈工大讯飞等各界大佬也利用自己的中文语料训练了BERT模型并开源,可以多做几次实验横向对比选择最好的。

    1.7K30

    ES中文分词器之精确短语匹配(解决了match_phrase匹配不全的问题)

    本文讲的中文分词器就是IK分词器。 分词器需要达到的效果 1)短语可以精确匹配 2)查找时间要比standard少 3)如果查找的词语不在词典中,也必须要查到 4)如果数据在原文中出现,就一定要查全 IK分词器短语精确匹配的问题 楼主意淫着将所有的单字放入词典中 感恩 2 从上面可以看出,查找时ik_smart将语句分为了快乐和感恩两个词,位置分别为1和2,而ik_max_word建索引时,快乐和感恩的位置分别是1和4,在match_phrase看来,这种是不匹配的 虽然查找时可以减少每个token对应的文档数,但是存储量会增大很多,而且不在支持模糊的match匹配。很土。 至此总算解决了ES中文分词切精确匹配的问题。 源码修改: * 修改IK不支持小语种的问题 * 修改中文之间特殊字符不能过滤的问题。即原文“节 日 快 乐”不能匹配“节日快乐”的问题。

    3.4K40

    PHP使用正则表达式匹配中文,有部分匹配不出来的解决办法

    今天在开发的时候有个需要,就是匹配出一条计价公式里的材料文本,示例:[羊脂玉价格]*[羊脂玉重量]+[白金价格]*[白金重量]+[皓石价格]*[皓石重量]+[钻石价格]*1.5*[钻石重量]+[硬金价格 ]*1.67*[硬金重量],要匹配出[***_价格],就是中括号内,以_价格结尾的字符串(代表材料的名称),我用的语言是PHP,写了一条正则表达式出来,代码如下: $pattern = "/\\[([^ _价格]+)_价格\\]/"; $res = preg_match_all($pattern, $s, $matches); var_dump($matches); ,前面三个能匹配出来,但“钻石”一直匹配不到 ,非常奇怪,后面测试了一下,跟匹配的数量没有关系,因为如果把“钻石”也改成“白金”的话是能匹配出来的,改成“石”字的话也可以匹配出来,根据这种现象判断,感觉有可能是字符集的问题,有可能是默认的字符集中是没有 “钻”这个字的,所以匹配不到,后面搜索了很多网友关于PHP使用正则匹配中文的文章,发现最全面的匹配方式是使用16进制的,换过来后,果然成功了,故分享出来,以飨大家,最终的代码如下: $s = ‘[羊脂玉价格

    25010

    医疗中文问句意图匹配Top3方案ppt

    机器学习AI算法工程 公众号:datayx 问句匹配是自然语言处理的最基本任务之一,是自动问答,聊天机器人,信息检索,机器翻译等各种自然语言处理任务基础。 问句匹配的主要目的是判断两个问句之间的语义是否等价。判别标准主要根据主句(即提问者)所蕴含的意图来判断两个语句是否等价,而不直接判断两个语句是否表达相同的语义。因此,其核心是语句的意图匹配。 本次评测任务的主要目标是针对中文的真实患者健康咨询语料,进行问句意图匹配。给定两个语句,要求判定两者意图是否相同或者相近。所有语料来自互联网上患者真实的问题,并经过了筛选和人工的意图匹配标注。 问句匹配 ? 问句匹配 ? 问句匹配 ? 问句匹配 ? 问句匹配 ? 问句匹配 ? 智能医疗 ? 智能医疗 ? 智能医疗 ? ? ? ? ? ? ? ? ? ? ? ? ? ?----

    79410

    【学习】深度解析中文分词器算法(最大正向逆向匹配

    中文分词算法概述: 1:非基于词典的分词(人工智能领域) 相当于人工智能领域计算。一般用于机器学习,特定领域等方法,这种在特定领域的分词可以让计算机在现有的规则模型中,推理如何分词。 2:基于词典的分词(最为常见) 这类分词算法比较常见,比如正向/逆向匹配。例如: mmseg分词器 就是一种基于词典的分词算法。以最大正向匹配为主,多种 消除歧义算法为辅。但是不管怎么分。 由于中文比较复杂,不推荐采用正向最大匹配算法的中文分词器。。逆向最大匹配算法在处理中文往往会比正向要准确。 接下来分析第2种:基于词典的分词算法(最长的词优先匹配)。 先分析最大正向匹配算法 一: 具体流程图如下: ? 以上代码实现了两种正向和逆向的算法,可以很明显的比较中文分词结果。 但是效率,,呵呵!确实不咋的。欢迎打脸。 比如:数据结构就先不提。

    1.5K60

    一个流传广泛的正则匹配所有中文的错误表示

    在网上搜索正则表达式匹配中文的时候,通常会得到这样一个正则表达式: \u4e00-\u9fa5 # 常用的标点符号则直接列举出来 \u3002\uff1f\uff01\uff0c\u3001\uff1b 于是用正则“\u4e00-\u9fa5”去匹配问题字符串中的中文时,发现“䶮”这个字没有命中。 于是搜索所有中文的unicdoe编码,这是一个正确的方向: 2E80~33FF:中日韩符号区。 https://blog.csdn.net/iteye_2386/article/details/81929295 ,https://www.jianshu.com/p/e39247e669ad ) 于是要匹配所有中文 (简体、繁体、生僻字等),直接使用下面的表达式: \u2e80-\u9fff 不过需要说明的是,这并不是一个严格的匹配所有中文的正则表达式(会把一些日韩的字符也匹配到),不过对于我们的场景却是合适的。

    13620

    关注

    腾讯云开发者公众号
    10元无门槛代金券
    洞察腾讯核心技术
    剖析业界实践案例
    腾讯云开发者公众号二维码

    相关产品

    • 云函数

      云函数

      云函数(Serverless Cloud Function,SCF)是腾讯云为企业和开发者们提供的无服务器执行环境,帮助您在无需购买和管理服务器的情况下运行代码。您只需使用平台支持的语言编写核心代码并设置代码运行的条件,即可在腾讯云基础设施上弹性、安全地运行代码。SCF 是实时文件处理和数据处理等场景下理想的计算平台。

    相关资讯

    热门标签

    活动推荐

    扫码关注腾讯云开发者

    领取腾讯云代金券