首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

HanLP极致简繁转换详细讲解

关于这些汉语语言上的详情,请参考郭家寶的OpenCC项目。HanLP整合了该项目的词库,用原生的AhoCorasickDoubleArrayTrie算法实现了各语言分支的转换。...对于简繁转换模块来说,算法都是类似的,最宝贵的地方在于词库,在此向OpenCC表示敬意和感谢!...如果说OpenCC定义了自己的“OpenCC繁体标准”的话,那么这也可以算得上“HanLP繁体标准”。...中国香港繁體 指的是中国香港地区使用的繁体中文,据OpenCC的wiki介绍,属于“中国香港小學學習字詞表標準”。...词库 由于我并没有OpenCC作者那样深厚的繁体中文语言知识,所以这些接口未必能完美地满足广大繁体中文用户的需求,希望大家多多包涵,提出宝贵意见。

1.4K30

ChineseWiki︱百万中文维基百科词条下载与整理

本篇主要是写如何进行整理: 1、繁简转化库——opencc的安装与使用 2、wiki中文词条整理 3、关键词检索模块 额外的还有一些其他辅助信息: 1、重定向匹配表,中文维基重定向的同义词表 2、词条的编号信息...,opencc的安装,网上的说明程序真尼玛多,没一个搞的定的,吐槽一下!!!...直接来看github原文,安装方式: pip install opencc-python-reimplemented 或者把github下载下来用python setup.py install安装,哪有网上教程那么麻烦...使用也不太一样: from opencc import OpenCC openCC = OpenCC('s2t') # convert from Simplified Chinese to Traditional...Chinese # can also set conversion by calling set_conversion # openCC.set_conversion('s2tw') to_convert

5.5K31
领券