首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

windows下使用word2vec训练维基百科中文语料全攻略!(二)

全文共454个字,3张图,预计阅读时间5分钟。

训练一个聊天机器人的很重要的一步是词向量训练,无论是生成式聊天机器人还是检索式聊天机器人,都需要将文字转化为词向量,时下最火的词向量训练模型是word2vec,所以,今天小编文文带你使用维基百科训练词向量。

繁简转换

上一篇中讲到了将文档从xml中抽取出来,下一步是将繁体字转换为简体字,那么我们使用opencc工具进行繁简转换,首先去下载opencc:https://bintray.com/package/files/byvoid/opencc/OpenCC

效果如下:

转换前-繁体

转换后-简体

文章分词

使用jieba分词器对文章及进行分词,代码如下:

训练词向量

接下来就可以训练词向量啦,代码如下:

使用命令开始训练

发现训练开始:

今天先记录到这里啦,下一篇,小编带你一起体验一下word2vec的训练结果。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190110A12DQE00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券