专栏首页小鹏的专栏[语音识别] 文本加标点--准备训练数据 (适用于LSTM与BERT)

[语音识别] 文本加标点--准备训练数据 (适用于LSTM与BERT)

#下载维基百科数据
# wget https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 
# 解析wikie的xml文件为txt文件 
python wikiextractor/WikiExtractor.py zhwiki-latest-pages-articles.xml.bz2 -o wiki.txt
# 将多个txt文件合并为一个
python merge2txt.py
# 将繁体中文转为简体中文
python chinese_t2s.py -i corpus.zhwiki.txt -o corpus.zhwiki.simplified.txt 
# 去除英文和空格
python remove_en_blank.py -i corpus.zhwiki.simplified.txt -o corpus.zhwiki.simplified.done.txt
# 选取合适的句子  ( 使用正则:'[a-zA-Z0-9’"#$%&\'()*+-/::<=>@★…【】_-—℃%¥℉°()·「」『』 《》 “”‘’[\\]^_`{|}~]+' )
python select_words.py 
# 对句子进行分词
python seg_words.py
# 生成训练数据npy 
python generate_train_data.py 

# 解析wikie的xml文件为txt文件 :

#!/usr/bin/env python
# -*- coding: utf-8 -*-

# =======================

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 内存用量1/20,速度加快80倍,腾讯QQ提出全新BERT蒸馏框架,未来将开源

    BERT 已经被验证是解决口语化短文本语义量化的极为有效的工具,对于口语化人机交互系统如 FAQ、语音助手等产品意义重大。但受限于模型的高复杂度和高计算量,其产...

    机器之心
  • 腾讯云大学大咖分享 | 腾讯云知识图谱实践

    知识图谱最早由谷歌公司在2012年提出,其使用语义检索的方法从多种语言的数据源(例如FreeBase、维基百科等)收集信息并加工,以提高搜索质量、改善搜索体验。...

    可可爱爱没有脑袋
  • 文本纠错与BERT的最新结合,Soft-Masked BERT

    1.http://www.doc88.com/p-8038708924257.html

    机器学习AI算法工程
  • NLP新秀:BERT的优雅解读

    恰逢春节假期,研究了一下BERT。作为2018年自然语言处理领域的新秀,BERT做到了过去几年NLP重大进展的集大成,一出场就技惊四座碾压竞争对手,刷新了11项...

    腾讯技术工程官方号
  • NLP新秀:BERT的优雅解读

    恰逢春节假期,研究了一下BERT。作为2018年自然语言处理领域的新秀,BERT做到了过去几年NLP重大进展的集大成,一出场就技惊四座碾压竞争对手,刷新了11项...

    腾讯技术工程官方号
  • 腾讯云知识图谱实践

    知识图谱最早由谷歌公司在2012年提出,其使用语义检索的方法从多种语言的数据源(例如FreeBase、维基百科等)收集信息并加工,以提高搜索质量、改善搜索体验。...

    无问西东
  • BERT模型进军视频领域,看你和面就知会做蛋糕

    尽管人类可以轻松地识别视频中发生的活动以及预测接下来可能发生的事件,但对机器而言这样的任务却要困难得多。然而,对于时间定位、动作检测和自动驾驶汽车导航等应用,理...

    机器之心
  • 一文讲透预训练模型的改进训练算法 ,轻松达到State of the Art

    在NLP的预训练语言模型时代,针对已有的两种主流算法NFT-TM和FT-NTM,本文提出了一种新算法FT-TM。它首先在BERT的基础上建立一个上层神经网络(L...

    数据猿
  • NLP领域近期有哪些值得读的开源论文?(附下载)

    本文是清华大学徐葳老师组和刘知远老师组发表于 ACL 2019 的工作,论文在远程监督与弱监督融合两种技术之间搭建起了一座桥梁,既通过自动生成模式减轻了对领域专...

    数据派THU
  • 红楼梦、法律,BERT 已有如此多的神奇应用

    2019 年 5 月 ACM 图灵大会上,朱松纯教授(加州大学洛杉矶分校)与沈向洋博士(微软全球执行副总裁)在谈到「人工智能时代的道路选择」这个话题时,沈向洋博...

    机器之心
  • 进一步改进GPT和BERT:使用Transformer的语言模型

    作者:Chenguang Wang、Mu Li、Alexander J. Smola

    机器之心
  • 后BERT时代:15个预训练模型对比分析与关键点探索(附链接)

    在之前写过的《NLP的游戏规则从此改写?从word2vec, ELMo到BERT》一文中,介绍了从word2vec到ELMo再到BERT的发展路径。而在BERT...

    数据派THU
  • 后BERT时代:15个预训练模型对比分析与关键点探究

    在小夕之前写过的《NLP的游戏规则从此改写?从word2vec, ELMo到BERT》一文中,介绍了从word2vec到ELMo再到BERT的发展路径。而在BE...

    zenRRan
  • NLP这两年:15个预训练模型对比分析与剖析

    在之前写过的《NLP的游戏规则从此改写?从word2vec, ELMo到BERT》一文中,介绍了从word2vec到ELMo再到BERT的发展路径。而在BERT...

    AI科技大本营
  • NLP之从word2vec到ELMO GPT再到BERT与attention transformer过程笔记与详解

    在NLP自然语言处理学习或者发展过程中,在13年word2vec word embedding后,人们发现一个单词通过Word Embedding表示,很容易找...

    大鹅
  • 预训练模型超全知识点梳理与面试必备高频FAQ

    预训练模型(Pre-trained Models,PTMs)的出现将NLP带入了一个全新时代。2020年3月18日,邱锡鹏老师发表了关于NLP预训练模型的综述《...

    zenRRan
  • 19年NAACL纪实:自然语言处理的实用性见解 | CSDN博文精选

    计算语言:人类语言技术学会北美分会2019年年会(North American Chapter of the Association for Computati...

    AI科技大本营
  • 美团搜索中NER技术的探索与实践

    命名实体识别NER是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程...

    美团技术团队
  • 挑战真实场景对话——小爱同学背后关键技术深度解析

    本文来自PaperWeekly和biendata组织的企业AI技术实战讲座。作者为小米人工智能部的崔世起,崔老师以著名的“小爱同学”为实例,详细介绍了全双工关键...

    朴素人工智能

扫码关注云+社区

领取腾讯云代金券