首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

折腾词库,一个词库互转程序

我在之前写过一个小程序,用于实现QQ拼音、搜狗拼音、谷歌拼音和百度手机拼音输入法词库的互转,文章地址是:http://www.cnblogs.com/studyzy/archive/2009/12/31...经过两天的努力,终于完成了我的词库转换小工具,将现有词库的以文本格式导出,然后选择源词库格式和新词库格式,单击“转换”按钮即可词库格式的转换。...如果大家谁知道怎么解析搜狗细胞词库和QQ分类词库的话还希望不吝赐教! 如果希望将搜狗细胞词库导入到谷歌拼音中,该怎么实现呢?首先需要到官方网站去下载txt格式的细胞词库,该词库中只有词条,没有拼音!...选择该txt文件,然后选择“搜狗细胞词库Txt”作为转换源,以谷歌拼音作为目标格式即可! 对于没有拼音的文本词库,程序会找到每个字的拼音,自动生成带拼音的词库,这里面有一个问题是出现多音字怎么办?...现在这个程序功能还很弱,只支持:百度手机、QQ手机、搜狗拼音、搜狗五笔、QQ拼音、谷歌拼音、搜狗细胞词库Txt,仍然有以下问题有待解决: 如何解析搜狗细胞词库scel格式和QQ分类词库qpyd格式?

71010

深蓝词库转换1.2版本发布——支持紫光拼音和拼音加加

之前推出了深蓝词库转换工具,受到大家的欢迎,有朋友陆陆续续来信,希望增加一些实用的功能,于是乎今天深蓝词库转换1.2推出。该版本主要实现了3个新功能: 1.支持紫光拼音输入法词库导入导出。...以搜狗细胞词库紫光输入法为例,选择一个下载的细胞词库,然后在目标中选择紫光输入法即可,如图: 然后在紫光拼音中导入用户词库便可,如图: 【注意:紫光拼音在导入词库时对单词的检查比较严格,所以有可能会提示出现错误...尉yu迟琳嘉 查zha京 曾zeng毅 然后用深蓝词库转换进行词库转换,假设转换成谷歌拼音,转换结果如图所示: 3.支持批量的词库转换。...在高级设置菜单中有一个“允许批量词库转换”选项,选中了该选项,那么就可以多选词库文件,当然多选的词库文件必须是同一种类型的词库,我相信有人肯定有很多细胞词库,那我就以细胞词库批量转换为例,转换成谷歌拼音输入法...目前还有微软拼音输入法、智能ABC等常用的老牌输入法我还没有搞定,尤其是智能ABC,相信这是很多人的第一个拼音输入法,不知道他的词库内部是什么结构,不知道该如何解析。

41920
您找到你想要的搜索结果了吗?
是的
没有找到

重新写了一个拼音输入法词库转换小程序

之前,由于我要从QQ拼音平台转换到搜狗拼音上,所以我写了一个小程序把QQ拼音词库转换为搜狗拼音词库。...这两天我给手机换了百度拼音输入法,之所以用这个输入法是因为这个输入法可以将词库保存到服务器上,那么我重装系统后重新安装输入法就可以把服务器上我的词库同步到我的手机上了。...为了能够把电脑上的QQ拼音词库和搜狗拼音词库(文本导出)转换到百度手机输入法上,于是我就继续改进了这个输入法词库转换小程序。...小程序运行的界面如图所示: 以QQ拼音百度为例,选择QQ拼音词库的路径,长度过滤默认是5,也就是说只要大于等于5个字的词就不转换,词频过滤默认是3,也就是说小于3的词频的词都不会转换,只有大于等于3...然后点击“QQ百度”按钮,系统将成功转换符合条件的词并提示完成。 把转换后的词文件复制到手机上,然后运行百度手机输入法的用户词库管理-》用户词恢复-》从文本导入,即可。

75430

深蓝词库转换2.9发布——支持Gboard词库的导入导出

操作步骤: 以电脑上使用搜狗拼音的我,在手机上想试用Gboard为例,我只需要进行以下操作: 1.在电脑上的搜狗拼音输入法中备份用户词库成bin文件到本地。...2.打开深蓝词库转换2.9版,选定备份的文件,选择源词库是搜狗备份词库,而目标词库选择Gboard: 3.由于我的源词库内容很多,有些是一个字的,有些是只使用过一次的,所以通过使用“高级设置”中的“词条过滤...生成的是一个“Gboard词库.zip”文件,和当前运行的深蓝词库转换.exe在同一个文件夹。 5.通过USB或者微信之类的手段,将生成的词库zip文件传到手机上。...7.选择“导入”菜单选项,然后选择刚才我们传到手机上的词库zip文件。一会儿后,Gboard词库就导入成功了。这里可能会等几分钟,甚至黑屏,这取决与我们词库的词条数量。...Gboard对词库的支持,感觉更像是自定义短语的支持,而不是拼音的支持,所以我们以后可以进一步升级,在上面支持我们习惯的双拼词库,其他输入法的词库

7.5K20

将搜狗细胞词库转换为其他输入法词库——深蓝词库转换1.1发布

以前在搜狗拼音输入法和QQ拼音输入法之间纠结,手机上用的又是百度手机输入法(也就是之前的点讯梅花输入法),在不断纠结的过程中,所以写了一个小工具,实现了各个输入法之间的词库互转,具体参见:http://...于是乎,想到将功能进行增强,弥补上一个版本留下的遗憾,经过一天的努力,终于把搜狗细胞词库的scel格式解析出来了,于是我的深蓝词库转换1.1发布了!...介绍一下该小工具的功能: 1.到搜狗拼音官方网站下载想要导入的细胞词库,最近在举行世界杯,就以官方的“2010南非世界杯词库【官方推荐】”为例,下载到本地硬盘上。...2.打开“深蓝词库转换1.1”(需要.net framework 2.0的支持),选择刚下载的词库的路径,然后选择导出的词库类型,比如“百度手机”这个输入法,然后单击“转换”按钮,如图所示: 3.将词库保存到本地硬盘上...目前就是QQ分类词库的格式我还没有解析出来,希望接下来能够在下一版本中实现QQ分类词库的导出吧。

68230

如何批量导入搜狗词库

概 述 上一期大猫讲到了如何使用@qinwf写的cidian包(大家可以在github上找到)将搜狗词典导入分词词库,使用到的核心函数是: decode_scel 至于批量导入呢,其实方法非常简单。...核心就是使用list.files函数获取工作目录下面的所有词库文件名,然后使用lapply函数全部导入。最后把导入的文件汇总并去除重复的观测后输出,就大功告成啦。 一步一步来。...步 骤分解 首先是建立相关目录 # 建立相关目录 ---- # 建立数据目录,本项目所有数据都保存在这个文件夹下(包括搜狗词库文件)。...= T) 其次是依次导入目录下所有词库 # 将所有词库逐个导入,并输出成.txt文件 ---- lapply(seq_along(scel.paths), function(i) { decode_scel...output = str_c(scel.paths[i], ".txt"), cpp = TRUE)}) %>% invisible() 接着,将所有词库合并成一个词库

2.8K10

深蓝词库转换2.7版发布——支持Mac原生输入法词库,QQ拼音新词库qcel格式

2020年过年期间,由于冠状病毒肺炎的流行,在家无事,就把搁置了很久的词库进行了改进。...本次2.7版的更新主要包含了以下新特性: 一、MacOS原生简体拼音输入法自定义短语词库的支持 在MacOS的“系统偏好设置”中选择“键盘”,“文本”,即可看到,Mac简体拼音输入法的自定义短语词库。...假如我们想把某搜狗细胞词库转换为Mac简体拼音的词库,可以在Mac中安装dotnet core,下载解压imewlconverter_Linux_Mac.tar.gz,然后运行以下命令: p.p1 {...成功后界面如图:  实践中发现Mac的自定义短语支持的量有限,具体上限我不知道,但是一旦词库太大会导致导入失败。...二、QQ词库qcel格式的支持  QQ输入法和搜狗拼音合并后,QQ输入法放弃了原有的qpyd格式,而是采用了和搜狗细胞词库scel基本一模一样的qcel格式。我们从官网下载的词库都是新qcel格式了。

2.5K20

深蓝词库转换1.7发布,支持QQ分类词库解析

昨晚收到了keke的邮件,得知了该大侠对QQ分类词库的解析有所研究,并Java实现了对QQ分类词库的解析,大喜,于是今天通过一天的努力,终于在C#中实现了对QQ分类词库(qpyd格式)的解析。...深蓝词库转换1.7主要做了以下3方面的改动: 支持QQ分类词库(qpyd格式)的解析。 支持拖拽单个文件时感知文件格式,自动识别转换的源格式。...调整下拉列表中各个词库的顺序,将常用的搜狗拼音和QQ拼音放在最上面,方便大家使用。 还在犹豫是使用搜狗输入法还是QQ输入法,亦或是谷歌输入法吗?...习惯了搜狗输入法,但是却有一个专业的词库只有QQ分类词库有,现在有了深蓝词库转换,不管选择用哪种输入法,其他方的词库都可以为我所用!...附上QQ分类词库转换为搜狗拼音词库的截图: 深蓝词库转换是一个开源项目,项目地址:http://code.google.com/p/imewlconverter/ 深蓝词库转换1.7的下载地址是:http

50910

hanlp 加载远程词库示例

微信图片_20190426094013.jpg 说明 ·目前的实现方式是以远程词库的内容重新构建CustomDictionary.trie,demo主要是为了实现同步远程词库,对性能暂不作考虑,对性能要求要以...·ik的方案,远程词库并不含有词性词频等额外信息,这里为了保证词库和复用也保持一致,默认词性为Nature.nz,词频为1 CoreDictionary.Attribute att = new CoreDictionary.Attribute...(Nature.nz, 1); ·ik支持多个远程词库,该示例只支持单项 多词库在现方案下,要作任务协作的处理,虽然不难,但改动后和ik原码的差距会比较大 项目只是个参考,因此代码尽量和ik保持一致,一个远程词库...,对大部分场景也够用了 测试 启动nginx作为远程词库服务 docker run -d --name nginx -p 1888:80 -v $(pwd)/nlp:/usr/share/nginx/html...sentence=小明北飘在北京 词库同步任务间隔1分钟,服务启动后浏览器多刷新几次便能看到区别 如要扩展至本地项目 1 添加依赖 org.apache.httpcomponents

84140

深蓝词库转换2.4版发布,支持最新的搜狗用户词库备份bin格式

很高兴的告诉大家,感谢GitHub上的h4x3rotab提供python版的搜狗用户词库备份bin格式的解析算法,感谢tmxkn1提供了C#版的实现,深蓝词库转换终于迎来了一个重大更新,能够支持搜狗用户词库的...搜狗bin词库只解析到了用户词条和词频,没有拼音,所以如果要导出其他拼音输入法,中间转换工具会根据词条的内容重新生成拼音。...另外在2.4版中,增加了用户词频强制设置的功能,比如将搜狗用户词库bin格式备份转换为Win10自带的微软拼音,那么词频会导致该词条在微软拼音上的位置不对,那么我们就需要忽略掉搜狗bin格式解析出来词频...,再声讨一下一个叫“ 奥创词库转换”的,把我的深蓝词库转换代码拿来改一下界面,就变成了自己的软件,极度无耻和恶心。...深蓝词库转换一直是免费绿色开源的,但是也看不惯这种无底线的剽窃行为,强烈谴责一下。

1.5K20

输入法畅想

之前看了吴军老师的《数学之美》,里面也提到了输入法,对于中文而言,拼音输入才是更接近人本性的一种输入方式,虽然现在的拼音输入法重码率高,导致输入效率还不够高,但从长远来看,拼音输入法必将打败五笔输入法。...说到搜狗拼音输入法,这个目前大陆输入法市场的老大,那么就必须要说到搜狗输入法当年做得很成功的词库。...前面提到输入法框架,只需要配上核心词库和输入设置,就可以变成一个全新的输入法。核心词库是对一个语言通用的,还记得当年谷歌输入法出来的时候,就被搜狗告了,就是因为谷歌输入法盗用了搜狗输入法的核心词库。...比如之前一直用搜狗输入法,现在想换成谷歌输入法,但是又觊觎搜狗输入法的细胞词库,那么可以用深蓝词库转换将搜狗细胞词库转换成谷歌拼音词库,导入谷歌拼音。...对于个人词库,也是如此,只需要在搜狗输入法中将个人词库备份,然后使用深蓝词库转换将备份文件转换成谷歌拼音的词库导入即可。

2.4K30

深蓝词库转换2.0发布——支持仓颉、注音、五笔、郑码、二笔等

深蓝词库转换在1.9版本中增加了对Rime拼音输入法的支持,现在在2.0中进行了增强,除了拼音外,还能够导入导出五笔、注音、仓颉和其他输入法编码。...调查了下英文输入法的支持,结果如下: 搜狗拼音输入法虽然在打2次英文词后会记录下来,但是在导出的用户词库中没有英文词库。...QQ拼音输入法支持单独对英文词库的导出,使用“英文单词,词频”的格式。 谷歌输入法不支持英文词库导出。...然后到QQ拼音输入法词库设置界面,单击英文用户词库下的“导入”按钮,选择我们转换而来的词库文件,即可将灵格斯词库导入到QQ拼音中。 四、增加了简繁体转换功能。...九、词库列表增加百度拼音PC版 百度拼音PC版本身支持搜狗、谷歌等输入法的词库格式,所以一直没有将其添加到深蓝词库转换的输入法列表中。

2.3K10

深蓝词库转换1.5发布

经过了漫长的修改,终于把深蓝词库转换1.5完成了。这次修改注意包括以下改进: 1.增加百度输入法bdict词库导出的功能。...百度输入法也推出了自己的分类词库词库格式为bdict,这个词库格式比较简单,用户如果喜欢某个词库,可以将该百度分类词库转换为自己习惯的输入法。...比如我们觉得百度分类词库中的动漫作品词汇这个词库不错,但是用的又是搜狗输入法,所以需要将该词库转换为搜狗输入法。 2.增加拖拽选择词库功能。...比如要将一个百度的分类词库转换为拼音加加的词库,那么对应的命令行为: 深蓝词库转换.exe -i:bdict F:\a.bdict -o:pyjj F:\jj.txt 4.增加触宝输入法词库导出功能。...这个功能其实是1.4版的功能,但是我分析了很久,也只是实现了将触宝手机输入法的备份词库文件解析出来,而将其他词库格式生成触宝输入法备份词库却有点问题,生成后可能导致触宝输入法报错,所以我最终没有把生成触宝输入法词库的功能放出来

36820

深蓝词库转换1.6发布

由于在技术上和功能上没有什么突破,一直心里的痛就是对QQ拼音分类词库(qpyd格式)的解析,一直无从下手,所以这半年来我一直都没有发布新版本的“深蓝词库转换”。...最近听闻搜狗细胞词库(scel格式)的内部格式有所改变,最新的词库文件1.5版无法进行解析了,所以我经过调试修改了解析的算法,发布1.6版。...这次发布我个人觉得没有什么大的改进,下面还是总结下与1.5版比有什么不同吧: 修改了搜狗细胞词库(scel格式)的解析算法,可以解析最新的搜狗细胞词库。...生成触宝输入法的词库文件,供触宝输入法导入。 生成百度词库(bcd格式)文件,供百度手机输入法用。...另外还有一点,不知道百度手机输入法在对词库导入时为什么会加入文件大小的限制,如果一个词库文件大于4M,那么就会导入失败,所以使用百度手机输入法的同学要注意了,如果你生成的词库文件大于4M,那么就需要拆分成多个文件

31410
领券