使用word2vec训练wiki中文语料

实验环境:Ubuntu + eclipse + python3.5

首先(1)下载最新中文wiki语料库:

wget https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2

(2)由于下载之后,语料库上的编码格式会有不同,因此需要进行处理一下:借鉴了这篇文章。

http://www.crifan.com/summary_python_string_encoding_decoding_difference_and_comparation_python_2_x_str_unicode_vs_python_3_x_bytes_str/

这样处理后打开wiki.cn.text看有大部分的繁体字和少量英文,所以还需进一步处理

(3) 然后将繁体改为简体,本次实验采用了opencc工具。安装:

sudo apt-get install opencc

安装完后执行opencc -i wiki.cn.text -o wiki.cns.text -czht2zhs.ini即实现了繁体转简体并保存在wiki.cns.text中。

(4)接下来对文本分词处理,这里使用的是jieba分词,安装用命令sudo pip3 install jieba

然后运行:

python3 separate_words.py wiki.cns.textwiki.cns.text.sep

(5)接下来去除文本中的一些英文和其他非中文。对remove_words.py做类似的修改。其实为了方便该代码和运行,可以直接使用eclipse软件,使用Run as ->Run configurations , 然后再(x)=Arguments一栏里输入参数,也可以运行。

运行后打开发现还是有许多多余的空格,虽然对后面实验没影响,但是我觉得有必要把多余空格去掉,于是,改写原正则表达式 为:'[\u4e00-\u9fa5]+\s+?|\n'意即匹配所有汉字及后面的一个空格(非贪心匹配)以及所有换行符’\n。得到的分词结果大致如下:

其次,进入正式的训练,训练的结果如下:

最后,测试模型:

使用ipython notebook

Sudo pip3 install ipython

Sudo pip3 isntall notebook

终端输入Ipython notebook打开notebook。新建notebook并测试,结果如下:

可以看到效果还是不错的。当然最经典的国王-男人=女王-女人肯定也在情理之中。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Java技术栈

5分钟带你理解一致性Hash算法。

一致性Hash算法背景 一致性哈希算法在1997年由麻省理工学院的Karger等人在解决分布式Cache中提出的,设计目标是为了解决因特网中的热点(Hot s...

3818
来自专栏ATYUN订阅号

NLP研究者的福音—spaCy2.0中引入自定义的管道和扩展

以前版本的spaCy很难拓展。尤其是核心的Doc,Token和Span对象。他们没有直接实例化,所以创建一个有用的子类将涉及很多该死的抽象(想想FactoryF...

3819
来自专栏颇忒脱的技术博客

面向程序员的网络基本知识 - 子网分割

本系列文章旨在向程序员分享一些网络基本知识,让程序员具备基本的网络常识,以便与网络工程师沟通。本系列文章不会涉及如何组建网络、如何配置交换机/路由器等硬件相关的...

1223
来自专栏Python中文社区

Python量子力学计算模拟以及数据可视化

專 欄 ❈Pytlab,Python 中文社区专栏作者。主要从事科学计算与高性能计算领域的应用,主要语言为Python,C,C++。熟悉数值算法(最优化方法,...

8159
来自专栏吉浦迅科技

DAY57:阅读Execution Configuration

Any call to a __global__ function must specify the execution configuration for t...

753
来自专栏mukekeheart的iOS之旅

MySQL学习笔记(一)

一、MySQL基础知识 MySQL 是一个真正的多用户、多线程 SQL 数据库服务器。 SQL(结构化查询语言)是世界上最流行的和标准化的数据库语言。MySQL...

2498
来自专栏老九学堂

浅谈计算机中的存储模型(一)物理内存

今天,我们来了解一下计算机中的存储模型,大雄将这部分知识分成了三块,也就是我们会对这部分的知识推送三次。

1724
来自专栏小樱的经验随笔

CTF---隐写术入门第三题 打不开的文件

打不开的文件分值:10 来源: 实验吧 难度:中 参与人数:2718人 Get Flag:1222人 答题人数:1276人 解题通过率:96% 咦!这个文件怎么...

53512
来自专栏逸鹏说道

Toxy新手教程

Toxy新手教程 官方网站:http://toxy.codeplex.com Toxy是干嘛用的?它是.NET平台上的文件抽取框架,主要解决各种格式的内容抽取问...

2916
来自专栏轮子工厂

教你用翻译软件快速阅读大量英文文献

对于一些引用的英文文献,我们需要快速地了解整篇文献讲了什么内容,来判断是否可以作为“国内外研究现状”来进行详细分析。

2004

扫码关注云+社区

领取腾讯云代金券