前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >[语音识别] 文本加标点--准备训练数据 (适用于LSTM与BERT)

[语音识别] 文本加标点--准备训练数据 (适用于LSTM与BERT)

作者头像
MachineLP
发布2021-07-21 14:48:59
4040
发布2021-07-21 14:48:59
举报
文章被收录于专栏:小鹏的专栏小鹏的专栏
代码语言:javascript
复制
#下载维基百科数据
# wget https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 
# 解析wikie的xml文件为txt文件 
python wikiextractor/WikiExtractor.py zhwiki-latest-pages-articles.xml.bz2 -o wiki.txt
# 将多个txt文件合并为一个
python merge2txt.py
# 将繁体中文转为简体中文
python chinese_t2s.py -i corpus.zhwiki.txt -o corpus.zhwiki.simplified.txt 
# 去除英文和空格
python remove_en_blank.py -i corpus.zhwiki.simplified.txt -o corpus.zhwiki.simplified.done.txt
# 选取合适的句子  ( 使用正则:'[a-zA-Z0-9’"#$%&\'()*+-/::<=>@★…【】_-—℃%¥℉°()·「」『』 《》 “”‘’[\\]^_`{|}~]+' )
python select_words.py 
# 对句子进行分词
python seg_words.py
# 生成训练数据npy 
python generate_train_data.py 

# 解析wikie的xml文件为txt文件 :

代码语言:javascript
复制
#!/usr/bin/env python
# -*- coding: utf-8 -*-

# =======================
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2021-07-19 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档