展开

关键词

Elasticsearch安装IK

环境:elasticsearch版本是5.5.2,其所在目录为/usr/local/elasticsearch-5.5.2 载 curl -L -O https://github.com/medcl/ download/v5.5.2/elasticsearch-analysis-ik-5.5.2.zip 解压到 /usr/local/elasticsearch-5.5.2/plugins/ , 目录结构如 jar │ ├── httpcore-4.4.4.jar │ └── plugin-descriptor.properties 重启 elasticsearch 测试 别用面两种方式检查一效果 ik_max_word法 GET _analyze { "analyzer":"ik_max_word", "text":"华人民共和国国歌" } 结果 { "tokens": [ start_offset": 7, "end_offset": 9, "type": "CN_WORD", "position": 9 } ] } 智能

31330

CentOS7安装Sphinx 【PHP+MySQL】

国内有 讯搜,国外有 Sphinx 最终选择了Sphinx Sphinx官网:http://sphinxsearch.com/ 阅读本需要: 1、知道Linux的基本命令 2、知道Linux的基本命令 3、稍微熟悉Linux 因为间可能有些步骤我写错了,或者就少了那么简单的一步,你就不知道怎么回事了。。 sphinx/etc/sphinx.conf 该目录有三个件, ? 具体详细信息可以参见:https://www.cnblogs.com/yjf512/p/3598332.html 不过我是看他写得我头都大了。 注意,以上A.B.C.D虽然我是开展示出来的,但是他们都是在sphinx.conf件里面的。

70120
  • 广告
    关闭

    什么是世界上最好的编程语言?丨云托管征文活动

    代金券、腾讯视频VIP、QQ音乐VIP、QB、公仔等奖励等你来拿!

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    SCWS

    写在前面:http://www.xunsearch.com/scws/index.php 私人定制:scws 上面那个压缩包是在thinkphp使用的! 将swcs件夹放在Vendor目录;备注:我用的require_once引入的!因为verdor怎么都不能引入!!!! 那Words的类可以放在自己的扩展包,用的时候引入即可! 比如我的放在COM目录,那么用的时候导入 使用例子: $str = ‘我是Joyous,我喜欢PHP,喜欢计算机’; $words = Words::segment($str); 结果: Array

    82460

    库 jieba

    使用 python 的 jieba库可以将句子割成一个一个语, 在机器学习,可用于生成向量。我们可以使用 pip 免费安装 jieba 库。 jieba 有三种模式: 精确模式 把本精确的切开,不存在冗余的语。是最常用的模式。 全模式 把所有可能的语都扫描出来,有冗余。 import jieba #lcut()函数返回一个列表类型的结果 >>> jieba.lcut("国是一个伟大的国家") #精确模式.第一次调用时会创建初始的库 Building prefix '华', '华人', '人民', '共和', '共和国', '华人民共和国', '是', '伟大', '的'] 我们还可以向jieba的典加入自定义的: >>> jieba.add_word , '雨女', '无瓜'] 面的例子介绍了如何用结巴库统计《西游记》各个语出现的次数,看看谁是主要角色: ?

    1K30

    NLP(2)——的概念方法类CRFHMM

    上一篇章提到了向量的相关知识,可如何用计算机对一篇章或者一些句子进行,从而让计算机更好理解句子呢? 假设典里条的最大长度是Maxlen,则每次从本最左边截取一个字符串,其长度为Maxlen,把该字串在进行匹配,如果匹配成功,则将这个从句子出来;若匹配不成功,则将这个字串的最后一个字去掉 循环这个过程,直到切出所有的。 基于统计的算法和基于理解的算法 基于统计的算法主要思想是,是稳定的字的组合,两个字在连续出现的次数越多,就越有可能组合成一个。 因此这类算法通过对大量本的统计,根据字串在出现的统计频率来决定其是否构成一个。其主要的统计模型有:互信息、N元法模型、神经网络模型和隐马尔科夫模型(HMM)等。 面就介绍一最大随机场和隐马可夫模型在的应用 CRF 原理 用一句话来解释就是“有序列的类”。

    89550

    原理及常用Python库介绍

    与英有很大的不同,对英而言,一个单就是一个,而汉语是以字为基本的书写单位,语之间没有明显的区标记,需要人为切。 切标志有自然和非自然之。自然切标志是指出现的非字符号,如标点符号等;非自然标志是利用缀和不构成(包 括单音、复音节以及象声等)。 基于统计的方法 该方法的主要思想:是稳定的组合,因此在上,相邻的字同时出现的次数越多,就越有可能构成一个。因此字与字相邻出现的概率或频率能较好地反映成的可信度。 在实际应用此类算法一般是将其与基于典的方法结合起来,既发挥匹配速度快、效率高的特点,又利用了无结合上识别生、自动消除歧义的优点。 THULAC具有如几个特点: 能力强。利用集成的目前世界上规模最大的人工性标注语料库(约含5800万字)训练而成,模型标注能力强大。 准确率高。

    2.3K60

    Python模块推荐:jieba

    一、结巴采用的算法 基于Trie树结构实现高效的图扫描,生成句子汉字所有可能成情况所构成的有向无环图(DAG) 采用了动态规划查找最大概率路径, 找出基于频的最大切组合 对于未登录 ,采用了基于汉字成能力的HMM模型,使用了Viterbi算法 二、结巴支持的模式 目前结巴支持三种模式: 精确模式,试图将句子最精确地切开,适合析; 全模式,把句子所有的可以成语都扫描出来 jieba.cut_for_search方法接受一个参数:需要的字符串,该方法适合用于搜索引擎构建倒排索引的,粒度比较细 注意:待的字符串可以是gbk字符串、utf-8字符串或者unicode (…))转化为list 三、结巴的其他功能 1、添加或管理自定义典 结巴的所有字典内容存放在dict.txt,你可以不断的完善dict.txt的内容。 "结巴模块是一个非常好的Python组件" tags = jieba.analyse.extract_tags(text,2) print "关键抽取:","/".join(

    63840

    django - 搜索

    django - 搜索 2019年3月23日 ⋅ 浏览量: 28    全检索不同于特定字段的模糊查询,使用全检索的效率更高,并且能够对于进行处理 、xapian、Elasticsearc等,但是无二进制包,程序不会莫名其妙的崩溃,对于小型的站点,whoosh已经足够使用 whoosh档 jieba:一款免费的包,如果觉得不好用可以使用一些收费产品 'haystack', ) #更改引擎 HAYSTACK_CONNECTIONS = { 'default': { #使用whoosh引擎 'ENGINE } #当添加、修改、删除数据时,自动生成索引 HAYSTACK_SIGNAL_PROCESSOR = 'haystack.signals.RealtimeSignalProcessor' 博客app创建

    55740

    利器-jieba

    jieba jieba,你可以叫它『结巴』,事实上,官方的档上就是这样介绍的。它是Python最好用的一款组件之一。 划重点:,只对有效。 它可以用来做什么呢? 作为一门有悠久历史的语言,其化之丰富,底蕴之深厚可想而知。英,可以通过以空格切实现,就麻烦了。 麻烦在所有的挨在一起,组成一句话。怎么?比如:我家的大黄喜欢吃屎。 精确模式就是试图将句子最精确地切开,适合析。一般我们对本操作,都使用此模式,此模式还是默认模式。也就是说:你不指定的情况,就是精确模式。 file_name 若为路径或二进制方式打开的件,则件必须为 UTF-8 编码。 频省略时使用自动计算的能保证出该频。 例如: 创新办 3 i 云计算 5 凱特琳 nz 台 这一块内容,常人涉及不到,此处不过多阐述,如果有兴趣,可参考官方档:结巴 2.3搜索引擎模式 seg_list = jieba.cut_for_search

    52931

    Hanlp之CRF析详解

    语料格式等与感知机析器相同,请先阅读《感知机析器》。 训练         CRFSegmenter segmenter = new CRFSegmenter(null);         segmenter.train("data/test/pku98 性标注 CRF性标注器的训练与加载与类似,对应CRFPOSTagger。 命名实体识别 CRF命名实体识别也是类似的用法,对应CRFNERecognizer。 CRF析器 训练了1至3个模型后,可以构造CRF析器:     /**      * 构造CRF析器      *      * @param cwsModelPath CRF器模型路径 (sentence));             System.out.println(analyzer.seg(sentence));         } 在1.6.2以上版本,所有的析接口都同时支持简繁

    93430

    和二元综合对比

    和二元综合对比     为了测试和二元的差异,现将初步的测试数据做了对比。关于二元可以参考车东先生的相关章。 采用每1M产生1.55M的索引件,膨胀率1.55;每1M用时大约10秒;采用二元每1M产生2.21M的索引件,膨胀率2.21;每1M用时大约7秒; 从搜索结果来看,两者可以大致相同数量的搜索结果 对本进行的目的是要提高档检索的相关性,由于相关性的算法(如图)涉及到很多因素,所以对二元切显示结果到底谁更相关(人理解的意义相关?),还无法得出结论。 可参考本最后表格的图片对比。图的数据是出现频率第100至120个Term情况,二元产生了大量的没有意义的Term。 2.325 238064.00 50330.66 35 7.399 二元 索引源大小 14.2M 14.2M 索引源内容 论坛某天全部发言 论坛某天全部发言 建立索引用时 105秒

    39040

    ElasticSearch器-IK器的使用

    IK器的使用 首先我们通过Postman发送GET请求查询效果 GET http://localhost:9200/_analyze { "text":"农业银行" } 得到如结果,可以发现 es的默认器无法识别农业、银行这样的汇,而是简单的将每个字拆完为一个,这显然不符合我们的使用要求。 es对应版本的器。 将解压后的后的件夹放入es根目录的plugins目录,重启es即可使用。 我们这次加入新的参数"analyzer":"ik_max_word" k_max_word:会将本做最细粒度的拆,例如「华人民共和国国歌」会被拆为「华人民共和国、华人民、华、华人、人民共和国

    87150

    基于典规则的

    字数:5232字 阅读时间:15钟 前言 算法大致为基于典规则与基于机器学习两大派别,不过在实践多采用结合典规则和机器学习的混合。 由于本是由连续的汉字所组成,因此不能使用类似英以空格作为隔符进行的方式,需要考虑语义以及上语境。本主要介绍基于典规则的。 基于典规则的简单来说就是将本按照顺序切成连续序,然后根据规则以及连续序是否在给定的来决定连续序是否为最终的结果。不同规则对应最终的结果是不一样的。 基于这个简单的小典不需要任何的理论知识可以非常容易的面这四种结果: 网易 / 杭研 / 大厦 网易 / 杭研大厦 网易杭研 / 大厦 网易杭研大厦 上面这四种结果都是正确的,不过在越长的单所表达的意义越丰富并且含义越明确 在越长的单所表达的意义越丰富并且含义越明确,因此就有了第一条规则:在以某个标递归查的过程,优先输出更长的单,这种规则也被称为最长匹配算法。

    1.1K31

    云可视化——云制作

    随着微博研究的深入,社会网络析和可视化技术的需要,面临处理问题,开始钻研本挖掘的问题,过去的传统的数据挖掘一直研究的是结构化数据,本挖掘和意见挖掘涉及内容更多,特别是处理是不可逾越的障碍 从网络析、本挖掘和意见挖掘角度看,主要解决以内容:网络抓数据—MySql和Hadoop存储—API接口—创建网络数据—Knime和R语言挖掘-KOL意见领袖和网络析—语料和本语义—R语言与 3 第三:和关键抽取 当你获得语料后,如果需要抽取关键,就需要学习对一些人是技术和障碍,但是现在是一个简单而通用的技术,很多软件和在线工具都可以完成一般意义,例如:Rweibo、weiRbo、科院张华平老师ICTCLAS2012、武大沈阳老师的 特别强调:任何如果能够加入人工干涉和主观判断都会提升准确性和有效性;面介绍的在线个性化本身也可完成(包括,体验效果:不同语料和多少,时好时坏) 4 第四:主题图片和个性化调整

    1.3K50

    云可视化:云制作

    哈哈 从网络析、本挖掘和意见挖掘角度看,主要解决以内容:网络抓数据—MySql和Hadoop存储—API接口—创建网络数据—Knime和R语言挖掘-KOL意见领袖和网络析—语料和本语义— 面来说说个性化云制作。 1主题和意义 你为什么需要制作个性化云,是艺术品还是研究析内容的一种表现方式,是本挖掘技术的可视化,还是为了传播更方便。 3和关键抽取 当你获得语料后,如果需要抽取关键,就需要学习对一些人是技术和障碍,但是现在是一个简单而通用的技术,很多软件和在线工具都可以完成一般意义,例如:Rweibo、weiRbo、科院张华平老师ICTCLAS2012、武大沈阳老师的 特别强调:任何如果能够加入人工干涉和主观判断都会提升准确性和有效性;面介绍的在线个性化本身也可完成(包括,体验效果:不同语料和多少,时好时坏) ?

    1.1K20

    jieba-Python领域的佼佼者

    3 pandas参数设置小技巧 ---- Python大数据析 data creates value做最好的 Python 组件。 可见jieba已经稳居领域c位。 jieba的主要功能是做,可以进行简单、并行、命令行,当然它的功能不限于此,目前还支持关键提取、性标注、位置查询等。 当然本不是纯粹的种草章,会简单介绍jieba的使用方法。 3. 所谓就是将一段表述里的汇进行解,比如“我爱国”,解后有三个:我、爱、国,别是名、动、名。 jieba库用于的方法有三个: jieba.cut 给定字符串,解后返回一个迭代器,需要用for循环访问。

    8430

    Jieba (一) ——与自定义字典

    jieba特点 支持四种模式: 精确模式 试图将句子最精确地切开,适合析; 全模式 把句子所有的可以成语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式 在精确模式的基础上 主要功能 1、基本步骤 初始化 ---- 初始化时,先加载件dict.txt,遍历每一行,生成语-数的键值对和总数,并将生成结果保存到cache次直接从cache读取即可。 初始化可以简单理解为,读取件,构建语-数键值对,方便后面步骤典,也就是字符串匹配。 切短语 ---- 首先进行将语句转换为UTF-8或者GBK。 查典进行字符串匹配的过程,可能会出现好几种可能的切方式,将这些组合构成有向无环图,如图所示: ? 得到语句的有向无环图DAG,DAG记录了某个的开始位置和它可能的结束位置。 例如: 创新办 3 i 云计算 5 凱特琳 nz 台 更改器(默认为 jieba.dt)的 tmp_dir 和 cache_file 属性,可别指定缓存件所在的件夹及其件名,用于受限的件系统

    1.5K30

    PYTHON3.6对、去停用以及频统计

    突然脑洞想做个频统计看看《新一代人工智能规划》频什么的。  用的工具是PYTHON里面的JIEBA工具。  先参考了官方给出的示例,官方给出的示例主要是对一条本进行全和精确。  # 搜索引擎模式 print("/ ".join(seg_list))   得到的结果如:  可以注意到全模式会对已经出来的再进行,一般情况使用精确模式(个人感觉)。   本的预处理过程可以->去停用(包含空格、回车、标点符号等都算作停用)->频统计  在没有仔细了解的情况,我误以为结巴里面含有停用表,然后查了一资料发现根本就不是这个样子:( 程序的编写方法是,在的过程就比较停用,如果不在停用就写入结果,否则就跳过。 在完成操作后把str结果写入目标,再读取删除好停用件后进行wordcount操作。

    1.3K00

    pyhanlp 性标注与简介

    封面.jpg pyhanlp实现的器有很多,同时pyhanlp获取hanlp器也有两种方式 第一种是直接从封装好的hanlp类获取,这种获取方式一共可以获取五种器,而现在默认的就是第一种维特比器 默认的标准器也就是维特比器,也**可以使用newSegment函数,传入上面的器英名称来获取新的器,如使用HanLP.newSegment("crf")来获取CRF器。 /w, 接来/vl, 请/v, 从/p, 其他/rzv, Demo/nx, /f, 体验/v, HanLP/nx, 丰富/a, 的/ude1, 功能/n, ~/nx] # 标准 text = ( 所以同一个器才会出现,第二次总比第一次快的现象。 标准 说明 1.HanLP有一系列“开箱即用”的静态器,以Tokenizer结尾,在接来的例子会继续介绍。 如果想要只获取性也是可以的,因为原器返回的是Java的ArrayList属性,list的每个单元都是一个term类,因此我们也可以通过获取term的word字段来直接获取语,或者nature

    43941

    Python实现

    首先给出昨天章里最后的小思考题的答案,原链接为: Python从序列选择k个不重复元素 既然选择的是不重复的元素,那么试图在[1,100]这样的区间里选择500个元素,当然是不可能的,但是机器不知道这事 今天的话题是:Python扩展库jieba和snownlp很好地支持了,可以使用pip命令进行安装。 在自然语言处理领域经常需要对字进行的准确度直接影响了后续本处理和挖掘算法的最终效果。 >>> import jieba #导入jieba模块 >>> x = '的准确度直接影响了后续本处理和挖掘算法的最终效果。' 如果有一本Python书,像面图所展示的写作风格,大家会不会很喜欢呢,至少我是会的。 ? ? ? ? ? ? ? ? ?

    2K80

    相关产品

    • 自然语言处理

      自然语言处理

      腾讯云自然语言处理(NLP)深度整合了腾讯内部顶级的 NLP 技术,依托千亿级中文语料累积,提供16项智能文本处理能力,包括智能分词、实体识别、文本纠错、情感分析、文本分类、词向量、关键词提取、自动摘要、智能闲聊、百科知识图谱查询等,满足各行各业的文本智能需求。

    相关资讯

    热门标签

    扫码关注云+社区

    领取腾讯云代金券