展开

关键词

OpenCC中文简体和繁体互转

下载地址:https:github.comBYVoidOpenCC.git编译环境:MAC设备1、OpenCC的安装进行编译make PREFIX=usrlocalsudo make PREFIX=usrlocal image此时验证成功2、Configurations配置文件解压之后在opencc中的share-->opencc中有需要的json文件就是opencc的配置文件,用来制定语言类型的转换因为我是MAC image3、opencc的使用下面我们通过CMD命令,将下面这句话完成从繁体到中文简体的转换。? imageCMD命令如下:opencc -i 需要转换的文件路径 -o 转换后的文件路径 -c 配置文件路径栗子:? OpenCC的Windows使用教程请参考:https:blog.csdn.netsinat_29957455articledetails81290356温馨提示:如果遇到格式问题,请用网页打开即可!

1.3K10

原 编译安装opencc(linux简繁转

说明:apt-get install opencc 安装的,在运行时提示下面的错误,所以不得不apt-get remove opencc 然后从git取源码安装。 运行时错误提示:OpenCC initialization errorConfiguration errorConfiguration file parse error系统说明本次操作基于tensorflow done.github: https:github.comBYVoidOpenCC第一次编译root@tensorflow-py3:~# cd OpenCCroot@tensorflow-py3:~OpenCC failedmake: *** Error 127 cd 进入项目后,查看文件列表,然后用 make 命令编译,由于缺少 cmake 提示报错 安装 cmakeroot@tensorflow-py3:~OpenCC 安装 doxygenroot@tensorflow-py3:~OpenCC# apt-get install doxygenReading package lists...

75710
  • 广告
    关闭

    50+款云产品免费体验

    提供包括云服务器,云数据库在内的50+款云计算产品。打造一站式的云产品试用服务,助力开发者和企业零门槛上云。

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    GitHub Actions 真香系列之文档自动简繁体转换

    (动作):每个 step 可以依次执行一个或多个命令(action);感兴趣的可以看看 官方文档 或者 应用市场 ,入手还很快的这篇文章说一下自动翻译简体中文文档到繁体中文问题的 action,基于 opencc 首先需要安装 opencc ,我们使用的是 ubuntu-latest 的环境,所以直接使用 apt-get 安装apt-get install libopencc-dev -y 使用 PHP 的 opencc4php Setup PHP uses: shivammathursetup-php@v2 with: php-version: 7.4 tools: phpize ini-values: extension=opencc - name: Install OpenCC run: | sudo apt-get install libopencc-dev -y - name: Build opencc4php run: | github.comnauxliuopencc4php.git --depth 1 cd opencc4php phpize .configure make sudo make install php --ri opencc

    20720

    HanLP极致简繁转换详细讲解

    图1.jpg 关于这些汉语语言上的详情,请参考郭家寶的OpenCC项目。HanLP整合了该项目的词库,用原生的AhoCorasickDoubleArrayTrie算法实现了各语言分支的转换。 对于简繁转换模块来说,算法都是类似的,最宝贵的地方在于词库,在此向OpenCC表示敬意和感谢! 如果说OpenCC定义了自己的“OpenCC繁体标准”的话,那么这也可以算得上“HanLP繁体标准”。 中国香港繁體指的是中国香港地区使用的繁体中文,据OpenCC的wiki介绍,属于“中国香港小學學習字詞表標準”。臺灣正體指的是中国台湾地区使用的繁体中文,即“臺灣正體標準”。 词库由于我并没有OpenCC作者那样深厚的繁体中文语言知识,所以这些接口未必能完美地满足广大繁体中文用户的需求,希望大家多多包涵,提出宝贵意见。所有的词库都是以文本方式维护,命名规则与接口保持一致。

    34930

    ChineseWiki︱百万中文维基百科词条下载与整理

    本篇主要是写如何进行整理:1、繁简转化库——opencc的安装与使用2、wiki中文词条整理3、关键词检索模块额外的还有一些其他辅助信息:1、重定向匹配表,中文维基重定向的同义词表2、词条的编号信息,官方提供 zhwiki-20180301-pages-articles-multistream-index.txt.bz2 23.6 MB----1、繁简转化库——opencc的安装与使用其中繁体转简体中文的库 ,opencc的安装,网上的说明程序真尼玛多,没一个搞的定的,吐槽一下!!! 直接来看github原文,安装方式:pip install opencc-python-reimplemented或者把github下载下来用python setup.py install安装,哪有网上教程那么麻烦 使用也不太一样:from opencc import OpenCC openCC = OpenCC(s2t) # convert from Simplified Chinese to Traditional

    2.1K30

    详解中文维基百科数据处理流程及脚本代码

    (3)OpenCC第三方库,是中文字符转换,包括中文简体繁体相互转换等。 OpenCC:https:github.comBYVoidOpenCC,OpenCC源码采用c++实现,如果会用c++的可以使用根据介绍,make编译源码。 OpenCC也有python版本实现,可以通过pip安装(pip install opencc-python),速度要比c++版慢,但是使用方便,安装简单,推荐使用pip安装。 我们利用OpenCC进行繁体转简体的操作,这里已经写好了一份python版本的脚本来进行处理chinese_t2shttps:github.combamtercelboocorpus_process_scripttreemasterchinese_t2s References 繁体转简体,CentOS安装OpenCC,升级到gcc4.6http:www.linuxdown.netinstallsoft201601224445.html OpenCC -

    69220

    使用word2vec训练wiki中文语料

    x_str_unicode_vs_python_3_x_bytes_str这样处理后打开wiki.cn.text看有大部分的繁体字和少量英文,所以还需进一步处理(3) 然后将繁体改为简体,本次实验采用了opencc 安装:sudo apt-get install opencc安装完后执行opencc -i wiki.cn.text -o wiki.cns.text -czht2zhs.ini即实现了繁体转简体并保存在

    1.7K100

    为了一碟醋,我包了两顿饺子

    后来又发现了貌似很牛逼的,用 C++ 写的 opencc,以及它的封装 opencc-rust,可惜 opencc-rust 做的不好,编译时需要系统先安装好 opencc 才能用,我在 github action 里跑的时候,即便 apt install opencc 还是会编译错误,故而我萌生了自己写一个的念头。 很快写出来的第一版和几个已有的库比较:| tests | fast2s | simplet2s-rs | opencc-rust | character_conver || ----- | ------ 2.82ms | 12.24ms | 26.11s | Test result (mutate existing string): | tests | fast2s | simplet2s-rs | opencc-rust 的结果差不多,但因为我的 fast2s 用了一些特殊的优化,所以在使用 fst 的情况下,依旧性能和 simplet2s 旗鼓相当:| tests | fast2s | simplet2s-rs | opencc-rust

    10620

    windows下使用word2vec训练维基百科中文语料全攻略!(二)

    4、繁简转换上一篇中讲到了将文档从xml中抽取出来,下一步是将繁体字转换为简体字,那么我们使用opencc工具进行繁简转换,首先去下载opencc:https:bintray.compackagefilesbyvoidopenccOpenCC 下载完成之后解压即可,随后使用命令:opencc -i wiki.zh.text -o wiki.zh.jian.text -c t2s.json进行转换效果如下:?

    59540

    中文维基百科文本数据获取与预处理

    关于繁简转换,来斯惟和52nlp的博文都用到了一个繁简转换工具——OpenCC,关于此,引官方介绍如下:Open Chinese Convert(OpenCC)是一個中文簡繁轉換開源項目,提供高質量的簡繁轉換詞庫和可供調用的函數庫 如在Mac下,直接:brew install opencc将繁体转为简体的命令如下:opencc -i wiki_zh.text -o wiki_zhs.text -c zht2zhs_config.json OpenCC的配置文件,现在已支持json写法,如下:{ name: Traditional Chinese to Simplified Chinese, segmentation: { type: mmseg

    1.1K20

    使用中文维基百科语料库训练一个word2vec模型并使用说明

    这里我们利用OpenCC来进行转换。 OpenCC的使用教程请参考下篇:OpenCC中文简体和繁体互转d、正则表达式提取文章内容并进行分词使用WikiExtractor提取的文章,会包含许多的,所以我们需要将这些不相关的内容通过正则表达式来去除

    72520

    基于维基百科的中文词语相关度计算

    可以使用开源工具opencc进行繁简中文的转化。我的环境是macos,使用brew即可方便安装。 opencc配置好后,在终端中运行以下命令进行繁简转化,将简体中文维基数据保存至wiki.zh.jian.text中。 opencc -i wiki.zh.text -o wiki.zh.jian.text -c t2s.json现在每行对应一条维基条目的文本内容,我们需要对语句进行中文分词,这样得到的数据才是由一个个词语组成的语料

    33930

    让你的运维系统充满“诗意”

    # _#_ coding:utf-8 _* import randomimport osimport jsonimport sysimport opencc POEM_MAX_LEN = 50FILE_PATH

    19910

    Mac 10.13 安装中文版 man 命令

    因为需要编译安装,所以你电脑上需要有编译工具,运行下面两个命令安装brew install automakebrew install opencc我这边是需要安装这两个编译工具,如果你下面编译出错,会提示你需要安装说明编辑工具的

    1.2K80

    你目前在用的 RSS 服务还满意吗,赶紧进来手把手教你自建一个私有的 RSS 服务器!

    Docker 容器,分别是:Tiny Tiny RSS 本身,监听端口为 0.0.0.0:181 -> 80,同时暴露给外网PostgreSQL 数据库,仅供内部使用Mercury 全文抓取服务,仅供内部使用OpenCC Tiny Tiny RSSTiny Tiny RSS 配置、主题如果上面步骤没有问题的话,我们在服务器上面所部署的 Tiny Tiny RSS 本身就已经包含了:Mercury 全文提取服务(默认未开启)OpenCC

    2K10

    上百种预训练中文词向量:Chinese-Word-Vectors

    traditional Chinese characters are converted into simplified characters with Open Chinese Convert (OpenCC

    2.5K30

    『深度应用』NLP机器翻译深度学习实战课程·壹(RNN base)

    in enumerate(w_keys) } return w_dict,i_dict中文处理在处理中文时可以发现,有繁体也有简体,所以最好转换为统一形式:(参考地址)# 安装pip install opencc-python-reimplemented

    41810

    中文NLP福利!大规模中文自然语言处理语料

    利用Python构建Wiki中文语料词向量模型试验A tool for extracting plain text from Wikipedia dumpsOpen Chinese convert (OpenCC

    3.5K30

    想要训练中文NLP模型却苦于没数据?是时候支持开源中文了

    但即使采用维基中文数据,也有一系列处理过程,包括使用 wikiextractor 抽取维基文字和使用 OpenCC 将繁体转化为简体等。

    71540

    不是技术牛人,如何拿到国内IT巨头的Offer

    无坚不摧——完整项目“当他说他是OpenCC的作者的那一刻,哪个面试官不被秒杀。”当然你不需要NB到这个程度。如果你能对面试官说:“我读书期间做的项目有x万行代码。

    48540

    相关产品

    • 云服务器

      云服务器

      腾讯云服务器(CVM)为您提供安全可靠的弹性云计算服务。只需几分钟,您就可以在云端获取和启用云服务器,并实时扩展或缩减云计算资源。云服务器 支持按实际使用的资源计费,可以为您节约计算成本。

    相关资讯

    热门标签

    活动推荐

      运营活动

      活动名称
      广告关闭

      扫码关注云+社区

      领取腾讯云代金券