首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    深蓝词库转换1.7发布,支持QQ分类词库解析

    昨晚收到了keke的邮件,得知了该大侠对QQ分类词库的解析有所研究,并Java实现了对QQ分类词库的解析,大喜,于是今天通过一天的努力,终于在C#中实现了对QQ分类词库(qpyd格式)的解析。...qpyd格式的解析一直是深蓝词库转换功能上的遗憾,我在一年多前的博客中提到了希望实现该功能,但是只可惜鄙人能力有限,不能悟透其中的格式,无法解析出来,现在有了keke大侠的帮助,同时还有Java源码作为参考...深蓝词库转换1.7主要做了以下3方面的改动: 支持QQ分类词库(qpyd格式)的解析。 支持拖拽单个文件时感知文件格式,自动识别转换的源格式。...习惯了搜狗输入法,但是却有一个专业的词库只有QQ分类词库有,现在有了深蓝词库转换,不管选择用哪种输入法,其他方的词库都可以为我所用!...附上keke大侠关于QQ分类词库解析的Java源码: http://code.google.com/p/dict4cn/source/browse/trunk/importer/src/QQPinyinQpydReader.java

    56410

    中文分词原理及常用Python中文词库介绍

    原理 中文分词,即 Chinese Word Segmentation,即将一个汉字序列进行切分,得到一个个单独的词。...基于语义的分词方法 语义分词法引入了语义分析,对自然语言自身的语言信息进行更多的处理,如扩充转移网络法、知识分词语义分析法、邻接约束法、综合匹配法、后缀分词法、特征词库法、矩阵约束法、语法分析法等。...主要功能包括:中文分词,词性标注,命名实体识别,用户词典、新词发现与关键词提取等功能。...LTP制定了基于XML的语言处理结果表示,并在此基础上提供了一整套自底向上的丰富而且高效的中文语言处理模块(包括词法、句法、语义等6项中文处理核心技术),以及基于动态链接库(Dynamic Link Library...以上便是一些分词库的基本使用,个人比较推荐的有 jieba、THULAC、FoolNLTK。

    4.6K60

    Python中文词库——jieba的用法

    1.介绍jieba是优秀的中文分词第三方库。由于中文文本之间每个汉字都是连续书写的,我们需要通过特定的手段来获得其中的每个单词,这种手段就叫分词。...分词原理:简单来说,jieba库是通过中文词库的方式来识别分词的。它首先利用一个中文词库,通过词库计算汉字之间构成词语的关联概率,所以通过计算汉字之间的概率,就可以形成分词的结果。...当然,除了jieba自带的中文词库,用户也可以向其中增加自定义的词组,从而使jieba的分词更接近某些具体领域的使用。2.使用说明jieba分词有三种模式:精确模式、全模式和搜索引擎模式。...简单说,精确模式就是把一段文本精确的切分成若干个中文单词,若干个中文单词之间经过组合就精确的还原为之前的文本,其中不存在冗余单词。精确模式是最常用的分词模式。...w最重要的就是jieba.lcut(s)函数,完成精确的中文分词。

    41210

    白话Elasticsearch30-IK中文分词之热更新IK词库

    ---- 概述 继续跟中华石杉老师学习ES,第30篇 课程地址: https://www.roncoo.com/view/55 白话Elasticsearch28-IK中文分词器的安装和使用 白话Elasticsearch29...-IK分词器配置文件+自定义词库 上面两篇学习了如何安装IK以及基本的使用,当我们使用自定义词库的时候,是不是每次都得重启,而且得逐个节点依次修改,是不是有点不方便呢?...主要缺点: 每次添加完,都要重启es才能生效,非常麻烦 es是分布式的,如果有数百个节点… ---- 热更新方案 常用的有两种方式 修改ik分词器源码,然后手动支持从mysql中每隔一定时间,自动加载新的词库...两件事儿,加载主词库 和 停用词词库 ,那我们就把自定义的mysql部分分别放到这两个方法里就OK了。...:1.8.0_161] at java.lang.Thread.run(Thread.java:748) [?

    85541

    词库】Python关键词筛选分类,Levenshtein编辑距离算法分词

    Python关键词筛选分类,使用Levenshtein模块进行关键词筛选及分类,使用编辑距离的算法,速度相当快。...这个算法有别人用c语言写好的,而且不用分词,因此速度上比上面的算法会快很多,但是分类效果没那么好。一些不相关的词也可能会被分类到同一个分类下。 最终格式为json文件格式! ?...ascii编码.想输出真正的中文需要指定ensure_ascii=False。...,有些分类是没有关键词的或者只有少数相关词 那么对于这些分类就可能不需要了,那么我们就直接把它们过滤掉就好了 :param result_dict: 要筛选的分类结果 :param...ascii编码.想输出真正的中文需要指定 ensure_ascii=False f.close() print("done,consume %.3f" % (time.time() -

    3K20

    各大输入法分类词库内部格式的简单比较

    之前一直利用闲暇时间做深蓝词库转换,对各大输入法的分类词库有了一些大概的了解,下面来比较下各个词库格式的特点: 1.搜狗细胞词库scel格式 scel格式是采用Unicode编码了汉字、拼音。...2.QQ分类词库qpyd格式 qpyd格式是我一直很头疼的格式,原来是采用了zip压缩词条列表。qpyd格式的内容是:头信息、词库简介、压缩的词条列表。...3.百度分类词库bdict格式 百度的bdict格式算是比较简单的,它其实和搜狗的scel格式很相似,主要不同是使用了默认的声母和韵母列表,而不是写在词库文件中。...4.紫光分类词库uwl格式 uwl格式的词库并不是很多,所以我现在还不支持对该词库格式的转换,但是使用了WinHex大概看了下,该格式的词库和scel也比较类似,没有使用压缩,但是编码上好像UTF8和...总结下: 这几种词库格式中,感觉scel是比较清晰的,也比较节约空间,而且容易理解,如果能够像QQ词库那样压缩的话,就更节省空间了。

    95210

    Hanlp等七种优秀的开源中文词库推荐

    纵观整个开源领域,陆陆续续做中文分词的也有不少,不过目前仍在维护的且质量较高的并不多。下面整理了一些个人认为比较优秀的中文词库,以供大家参考使用。...臺灣正體、中国香港繁體) l 文本推荐 l 语义推荐、拼音推荐、字词推荐 l 依存句法分析 l 基于神经网络的高性能依存句法分析器 l MaxEnt依存句法分析 l 文本分类...4、sego —— Go 中文分词 sego 是一个 Go 中文词库,词典用双数组 trie(Double-Array Trie)实现, 分词器算法为基于词频的最短路径加动态规划。...—— 基于 n-Gram+CRF+HMM 的中文分词的 Java 实现 Ansj 中文分词是一个基于 n-Gram+CRF+HMM 的中文分词的 java 实现。...下面是一个简单的分词效果,仅做参考: 7、word 分词 —— Java 分布式中文分词组件 word 分词是一个 Java 实现的分布式的中文分词组件,提供了多种基于词典的分词算法

    3.2K40

    7个优秀的开源中文词库推荐,实用性强!

    纵观整个开源领域,陆陆续续做中文分词的也有不少,不过目前仍在维护的且质量较高的并不多。下面整理了一些个人认为比较优秀的中文词库,以供大家参考使用。...3、Jcseg —— 轻量级 Java 中文分词器 Jcseg 是基于 mmseg 算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于...4、sego —— Go 中文分词 sego 是一个 Go 中文词库,词典用双数组 trie(Double-Array Trie)实现, 分词器算法为基于词频的最短路径加动态规划。...—— 基于 n-Gram+CRF+HMM 的中文分词的 Java 实现 Ansj 中文分词是一个基于 n-Gram+CRF+HMM 的中文分词的 java 实现。...分布式中文分词组件 word 分词是一个 Java 实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用 ngram 模型来消除歧义。

    11.3K41

    中文分词基本算法主要分类

    和 Benjamin K.T.(1995)的研究表明,中文中90.0%左右的句子,正向最大匹配法和逆向最大匹配法完全重合且正确,只有大概9.0%的句子两种切分方法得到 的结果不一样,但其中必有一个是正确的...这正是双向最大匹配法在实用中文信息处理系统中得以广泛使用的原因所在。 1.3设立切分标志法 收集切分标志,在自动分词前处理切分标志,再用MM、RMM进行细加工。...具体概念:有限状态机\语法约束矩阵\特征词库 1.4基于字标注的中文分词方法 以往的分词方法,无论是基于规则的还是基于统计的,一般都依赖于一个事先编制的词表(词典)。...考虑到中文真实文本中不可避免地会包含一定数量的非汉字字符,本文所说的“字”,也包括外文字母、阿拉伯数 字和标点符号等字符。所有这些字符都是构词的基本单元。...2.1 中文分词的难点 中文分词的难点主要在于: 1、歧义消除,结合上下文语义 2、未登陆词识别

    1.1K40

    python 中文文本分类

    一,中文文本分类流程: 预处理 中文分词 结构化表示–构建词向量空间 权重策略–TF-IDF 分类器 评价 二,具体细节 1,预处理 1.1得到训练集语料库 即已经分好类的文本资料(例如:语料库里是一系列...\art\21.txt) 推荐语料库:复旦中文文本分类语料库,下载链接:http://download.csdn.net/detail/github_36326955/9747927 将下载的语料库解压后...测试预料可以从1.1中的训练预料中随机抽取,也可以下载独立的测试语料库,复旦中文文本分类语料库测试集链接:http://download.csdn.net/detail/github_36326955/...中文分词有其特有的难点(相对于英文而言),最终完全解决中文分词的算法是基于概率图模型的条件随机场(CRF)。...如果你有强迫症,希望得到更高精度的分词工具,可以使用开源项目Anjs(基于java),你可以将这个开源项目与python整合。

    1.2K20

    中文情感分类单标签

    超详细的 Bert 文本分类源码解读 | 附源码 章节 背景介绍 预处理 完整的 GitHub 项目代码地址: https://github.com/sherlcok314159/ML/blob/main.../nlp/practice/sentiment.md 背景介绍 这次的任务是中文的一个评论情感去向分类: 每一行一共有三个部分,第一个是索引,无所谓;第二个是评论具体内容;第三个是标签,由0,1,2组成...第一步我们需要读取文件进来,这里需要注意的是中文要额外加一个utf-8编码。 读取好之后,这里模仿创建train_data为空列表,索引值为0。...同时因为中文每行结束会有换行符("\n"),需要换为空白。 至于dev和test数据集处理方式大同小异,只需要将名字换一下,这里不多赘述,这里放了处理训练集的完整函数。...最重要的是去main(_)方法下面添加自己定义的数据处理类别 模型去bert官方下载中文的预训练模型,其他的对着改改就好,相信看过我的文本分类(https://github.com/sherlcok314159

    56930

    Effective Java Second Edition中文版已出版 博客分类Java 出版JavaHibernate金山编程

    阅读更多 我自己今天才刚见到书:) 译者序   Java从诞生到日趋完善,经过了不断的发展壮大,目前全世界拥有了成千上万的Java开发人员。...作为经典Jolt获奖作品的新版书,它已经进行了彻底的更新,涵盖了自第1版之后所引入的Java SE 5和Java SE 6的新特性。...如果你现在已经在Java开发方面有了一定的经验,而且想更加深入地了解Java编程语言,成为一名更优秀、更高效的Java开发人员,那么,建议你用心地研读本书。...:陷阱和缺陷,并重点关注Java语言本身和最基本的类库:java.lang、java.util,以及一些扩展:java.util.concurrent和java.io等等。...在这里,我要感谢在翻译过程中一起讨论并帮助我的朋友们,他们是:满江红开放技术研究组织创始人曹晓钢,Spring中文站创始人杨戈(Yanger),SpringSide创始人肖桦(江南白衣)和来自中国宝岛中国台湾的李日贵

    50540

    2019-02-06 如何从文本中抽取结构化信息

    、英文模拟中文发音、汪峰歌词生成器、职业名称词库、同义词库、反义词库、否定词库、汽车品牌词库、汽车零件词库、连续英文切割、各种中文词向量、公司名字大全、古诗词库、IT词库、财经词库、成语词库、地名词库、...历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库中文聊天语料、中文谣言数据、百度中文问答数据集、句子相似度匹配算法集合、bert资源、文本生成&摘要相关工具、cocoNLP信息抽取工具...中文词库、停用词、敏感词 dongxiexidian/Chinese 此package的敏感词库分类更细: 反动词库, 敏感词库表统计, 暴恐词库, 民生词库, 色情词库 15....> 2016-06-13 15:00:00-false 周一开会 >> 2016-06-13 00:00:00-true 下下周一开会 >> 2016-06-20 00:00:00-true java...36. bert资源: 文本分类实践: github bert tutorial文本分类教程: github bert pytorch实现: github bert用于中文命名实体识别 tensorflow

    3.4K40

    轻量级中文分词器

    支持自定义词库。在lexicon文件夹下,可以随便添加/删除/更改词库词库内容,并且对词库进行了分类。 支持词库多目录加载. 配置lexicon.path中使用';'隔开多个词库目录....中英文同义词追加/同义词匹配 + 中文词条拼音追加.词库整合了《现代汉语词典》和cc-cedict辞典中的词条,并且依据cc-cedict词典为词条标上了拼音,依据《中华同义词词典》为词条标上了同义词(...配对标点内容提取:例如:最好的Java书《java编程思想》,‘畅想杯黑客技术大赛’,被《,‘,“,『标点标记的内容。(1.6.8版开始支持)。 智能中文人名/外文翻译人名识别。...中文人名识别正确率达94%以上。...ant all(或者使用maven编译) 运行:java -jar jcseg-core-{version}.jar 你将看到如下的终端界面 在光标处输入文本开始测试(输入:seg_mode参数切换可以体验各种切分算法

    1.9K30
    领券