最近利用晚上的时间,对很久没有新版本发布的深蓝词库转换进行了版本升级。本次升级主要包含的功能包括:
2020年过年期间,由于冠状病毒肺炎的流行,在家无事,就把搁置了很久的词库进行了改进。发布了2.7版:https://github.com/studyzy/imewlconverter/releases/tag/v2.7.0
经过了3个多月的沉寂,今天深蓝词库转换终于迎来了1.9版。这次版本升级主要包含了以下新特性:
经过了2个多月的改进,终于深蓝词库转换2.0版正式与大家见面了。在1.9版本中增加了对Rime拼音输入法的支持,也得到了网友的反馈,所以在2.0版本中增加了几个新功能:
单机:R语言+Rwordseg分词包 (建议数据量<1G) 分布式:Hadoop+Smallseg库 词库:Sougou词库,Sougou输入法官网可下载 这里只先介绍单机的实现: 1、R语言:专门用于统计分析、绘图的语言 2、Rwordseg分词包:引用了@ansj开发的ansj中文分词工具,基于中科院的ictclas中文分词算法,无论是准确度还是运行效率都超过了rmmseg4j。
2013年12月,搜狗与Ubuntu Kylin团队开始合作开发“搜狗输入法Linux版”。经过五个月的合作,于2014年4月17日,正式发布了1.0版本。2015年10月16日更新至2.0版本。
* 中文分词常用实现: 单机:R语言+Rwordseg分词包 (建议数据量<1G) 分布式:Hadoop+Smallseg库 词库:Sougou词库,Sougou输入法官网可下载 这里只先介绍单机的实现: 1、R语言:专门用于统计分析、绘图的语言 2、Rwordseg分词包:引用了@ansj开发的ansj中文分词工具,基于中科院的ictclas中文分词算法,无论是准确度还是运行效率都超过了rmmseg4j。 * 环境准备 (Windows或Linux版本都行): R下载:http://mirrors.us
背景:分析用户在世界杯期间讨论最多的话题。 思路:把用户关于世界杯的帖子拉下来,然后做中文分词+词频统计,最后将统计结果简单做个标签云. 后续:中文分词是中文信息处理的基础,分词之后,其实还有特别多有趣的文本挖掘工作可以做,也是个知识发现的过程。 * 中文分词常用实现: 单机:R语言+Rwordseg分词包 (建议数据量<1G) 分布式:Hadoop+Smallseg库 词库:Sougou词库,Sougou输入法官网可下载 这里只先介绍单机的实现: 1、R语言:专门用于统计分析、绘图的语言 2、
这段时间小叮咚分词模块基本上没有什么大更新了,不是不想更新,而是感觉好像碰到了天花板,不知道该如何进一步拓展分词的功能了。当然分词不是目的,只是为了让小叮咚理解自然语言的一步必须的中间环节。我对小叮咚的定位是一个智能知识问答系统。这样让小叮咚理解用户输入的内容是最基础也最关键的一步。我们学习一门语言,首先要了解句子的构成,句子的成份,主、谓、宾、定、状、补等等。让机器理解人的语言,也应该采取大致的步骤。
我有 1tb 的一个大索引若干,要迁移到另外一个新集群去,有没有好办法?reindex好像会中断......
简单概述一下,Linux输入法可选的有ibus和fcitx等 目前绝大部分Linux输入法都基于fcitx 包括谷歌中文输入法、搜狗输入法、百度输入法等
正如作者所说的那样,一个输入法不应该只是通过界面的点击就能够简单设置一些操作。而是应该可以根据每个人的使用习惯进行定制,包括每个按键、快捷键、符号。
RIME/中州韵输入法引擎(Rime Input Method Engine),是一个跨平台的输入法算法框架。基于这个算法框架开发的输入法,可以粗暴的称为 Rime 输入法。然而,每个平台都有各自的名称:
可部署至「本地服务器」或「专有云服务器」,保障数据私密性,提供一键启动软件部署包私有化。
搜狗输入法,荣获多个国内软件大奖的搜狗拼音输入法是一款打字超准、词库超大、速度飞快、外观漂亮、用了让您爱不释手的输入法,是您装机必备的好选择。享受输入,从搜狗开始!
在阅读本文之前,建议首先阅读“简单易学的机器学习算法——word2vec的算法原理”(目前还没发布),掌握如下的几个概念: 什么是统计语言模型 神经概率语言模型的网络结构 CBOW模型和Skip-gram模型的网络结构 Hierarchical Softmax和Negative Sampling的训练方法 Hierarchical Softmax与Huffman树的关系 有了如上的一些概念,接下来就可以去读word2vec的源码。在源码的解析过程中,对于基础知识部分只会做简单的介绍,而不会做太多的推导,原理
Elasticsearch 搜索引擎内置了很多种分词器,但是对中文分词不友好,所以我们需要借助第三方中文分词工具包。
距离上一次大版本的发布已经很久很久了,中间是不是会收到一些用户的来信,提出新的需求,于是只是做小版本的更新,终于积累了一些更新后,打算做个大版本的发布了。
经过一段时间网友提出的新的需求,鄙人利用闲暇时间对深蓝词库转换程序进行了升级,现将1.8版本发布。
建立关键词词库,是SEO优化工作非常重要的事情。高权重的网站,必然需要强大的关键词库支持。实际上,网站权重的提升是一个增加网站词汇的过程。但大部分SEO人员,却没有合理的规划关键词库,甚至连最基本的Excel表格都没有,实际上这是一种盲目而又随意的行为。
在很早之前,GitHub的issue中,就有人在讨论Google最新的手机输入法Gboard。这个输入法是一个多语言输入法,干净整洁,有不少粉丝。最新的Gboard已经支持简体中文词库的导入导出,于是我根据网友的讨论,在代码中进行了实现,使用深蓝词库转换可以直接生成Gboard支持的词库文件,然后复制到手机上后就可以直接导入了,而不需要再调整格式,压缩文件之类的。
我在之前写过一个小程序,用于实现QQ拼音、搜狗拼音、谷歌拼音和百度手机拼音输入法词库的互转,文章地址是:http://www.cnblogs.com/studyzy/archive/2009/12/31/1637030.html
新浪最近出了自己的输入法,具体介绍我就不说了,参见这里。由于之前一直做深蓝词库转换的工具,目前已经支持了大部分主流的输入法词库的转换,既然出了一个新的输入法,那么肯定要增加对这个输入法的词库的支持了。
百度输入法也推出了自己的分类词库,词库格式为bdict,这个词库格式比较简单,用户如果喜欢某个词库,可以将该百度分类词库转换为自己习惯的输入法。比如我们觉得百度分类词库中的动漫作品词汇这个词库不错,但是用的又是搜狗输入法,所以需要将该词库转换为搜狗输入法。
昨晚收到了keke的邮件,得知了该大侠对QQ分类词库的解析有所研究,并Java实现了对QQ分类词库的解析,大喜,于是今天通过一天的努力,终于在C#中实现了对QQ分类词库(qpyd格式)的解析。
最近,在GitHub上,有人收罗了一份资源,汇集了40个关于中文NLP词库,涵盖了各个方面。
亲爱的小伙伴们!阔别大家将近10天,是不是等得有些着急了呢?本期大猫课堂将继续《R文本挖掘》系列,上节课中已经教大家如何用jiebaR分词包进行分词,本期将教大家一个更加进阶的分词功能:把搜狗专业词库添加进自己的用户自定义词典中。
“深蓝词库转换”是我在闲暇时写的一个词库转换程序,实现了各种输入法的用户词库、网络词库(细胞词库)之间的相互转换。
前段时间结识了两位创业做输入法的朋友,花了一个下午和他们畅聊了下输入法,也开拓了下自己的思路,于是写此博文以记之。
之前推出了深蓝词库转换工具,受到大家的欢迎,有朋友陆陆续续来信,希望增加一些实用的功能,于是乎今天深蓝词库转换1.2推出。该版本主要实现了3个新功能:
Win10自带的微软拼音一直以来有不少忠粉,但是词库导入导出一直是一个问题,因为微软拼音的自学习词库是自有格式,没有对外开放,所以一直没有解决。只能通过自定义短语的形式导入其他输入法的词库到微软拼音中。
调用分词服务的服务发现超时并告警,查看分词服务被调耗时发现一切正常;本机手动请求发现确实存在响应慢的问题。
今天要给大家在推荐 Github 上一个优质的中文 NLP 工具和资源集合项目——funNLP,已经获得了 5.3k Stars,1k+ Forks。
Elasticsearch 实战项目中势必会用到中文分词,而中文分词器的选型包含但不限于如下开源分词器:
之前一直利用闲暇时间做深蓝词库转换,对各大输入法的分类词库有了一些大概的了解,下面来比较下各个词库格式的特点:
我以前用的是搜狗拼音,但是有一次我的词库数据莫名其妙的丢失后,而且发现搜狗拼音的词库不能导出为纯文本,所以我就放弃搜狗使用QQ拼音了。昨天看到搜狗拼音推出了云输入法,真是让我眼前一亮,真是很有创意的一个输入法,就因为搜狗推出了该输入法,因为他们的创意,所以我决定回到搜狗拼音。
由于在技术上和功能上没有什么突破,一直心里的痛就是对QQ拼音分类词库(qpyd格式)的解析,一直无从下手,所以这半年来我一直都没有发布新版本的“深蓝词库转换”。期间也收到了很多朋友的来信,提出了修改意见和建议,我表示非常感谢。最近听闻搜狗细胞词库(scel格式)的内部格式有所改变,最新的词库文件1.5版无法进行解析了,所以我经过调试修改了解析的算法,发布1.6版。
6、自动词性标注:基于词库+(统计歧义去除计划),目前效果不是很理想,对词性标注结果要求较高的应用不建议使用。
以前在搜狗拼音输入法和QQ拼音输入法之间纠结,手机上用的又是百度手机输入法(也就是之前的点讯梅花输入法),在不断纠结的过程中,所以写了一个小工具,实现了各个输入法之间的词库互转,具体参见:http://www.cnblogs.com/studyzy/archive/2010/03/02/1676774.html
随着互联网、智能设备及各种新生业务的快速发展,互联网数据呈指数式增长,其中也充斥着诸如低俗内容、垃圾广告等各种不可控的风险因素。尤其是在即时通信场景,海量聊天、弹幕、评论等即时通信消息中更是潜藏着大量不安全、不适宜的内容,需要平台去识别处理。对于集成了即时通信系统的应用来说,稳定、可靠、高效的内容审核能力已经成为保障产品体验及业务安全的基石。因此,腾讯云即时通信IM进一步优化升级了自身内容审核能力,在服务端内容回调的基础上补齐客户端能力,为广大用户提供客户端本地文本检测即本地审核功能,为您的产品体验及业务安
原文地址:https://github.com/fighting41love/funNLP
Cowsay 是一个可配置的会说话(或会思考)的牛。它接受一个文本字符串并输出一个牛说话的图形。有一头牛说它喜欢 Linux: # cowsay "I love Linux" < I love Linux > -------------- \ ^__^ \ (oo)\_______ (__)\ )\/\ ||----w | || || 安装 # yum install
项目地址:https://github.com/TapTap/pinyin-plus
实时质检就是在通话过程中,将双方的对话语音转化成文本模式,并同步到系统中进行实时质检。此过程可以及时地发现在通话中的问题,让用户可以在第一时间去处理其中的问题。
之前,由于我要从QQ拼音平台转换到搜狗拼音上,所以我写了一个小程序把QQ拼音词库转换为搜狗拼音词库。后来陆续收到来信,索要程序同时也希望把搜狗拼音词库转换为QQ拼音,所以我就在这个小程序上做了一点改进。这两天我给手机换了百度拼音输入法,之所以用这个输入法是因为这个输入法可以将词库保存到服务器上,那么我重装系统后重新安装输入法就可以把服务器上我的词库同步到我的手机上了。百度手机输入法支持本地文本文件的备份和还原,所以我就希望将我电脑中的输入法词库导入到手机中,这样我平时发短信就更快了。
Eudic欧路词典内置常用英汉词条30多万个,专业词条40万个;支持加载MDict、灵格斯、Babylon等多种词典格式;可以打开众多网友制作的大量精美词典库;支持百度、有道、American Heitage等多部在线词典;提供免费词库编辑器,自行制作导入Windows系统中的词库,功能十分强大!
领取专属 10元无门槛券
手把手带您无忧上云