专栏首页小鹏的专栏[语音识别] 文本加标点--训练BLSTM

[语音识别] 文本加标点--训练BLSTM

文本加标点--训练BLSTM

bert4keras==0.5.9

# -*- coding:utf-8 -*-
import os 
import re
import sys
import time
import jieba
import gensim   
import logging
import numpy as np
import pandas as pd
from tqdm import tqdm
import multiprocessing
from bert4keras.snippets import sequence_padding, DataGenerator
from bert4keras.optimizers import Adam
import warnings
warnings.filterwarnings(action='ignore', category=UserWarning, module='gensim')# 忽略警告
np.random.seed(2019)

import keras
from keras.models import *
from keras.layers import *
from keras.optimizers import *
from keras.regularizers import l2
from keras.callbacks import *
from keras.optimizers import *
from keras.callbacks import *
from keras import backend as K


# 超参数
batch_size = 32
learning_rate = 0.001
epochs = 50



def load_data(filename1, filename2):
    xlist = np.load('./wikiw2v.npy') 
    ylist = np.load('./wikipunc.npy

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • [语音识别] 文本加标点--训练BLSTM+ATTENTION

    MachineLP
  • 腾讯 AI Lab 副主任俞栋:过去两年基于深度学习的声学模型进展

    本文摘取该论文主干部分进行编译介绍,希望为读者提供相关进展的概括性了解。

    腾讯AI实验室
  • 实战:基于tensorflow 的中文语音识别模型 | CSDN博文精选

    目前网上关于tensorflow 的中文语音识别实现较少,而且结构功能较为简单。而百度在PaddlePaddle上的 Deepspeech2 实现功能却很强大,...

    AI科技大本营
  • 语音识别真的比肩人类了?听听阿里 iDST 初敏怎么说

    用户1737318
  • 大会 | 思必驰-上海交大实验室14篇ICASSP 2018入选论文解读

    AI 科技评论按:为期 5 天的 ICASSP 2018,已于当地时间 4 月 20 日在加拿大卡尔加里(Calgary)正式落下帷幕。ICASSP 全称 In...

    AI科技评论
  • [语音识别] 文本加标点--训练BERT

    MachineLP
  • [语音识别] 文本加标点--训练LSTM

    MachineLP
  • CV学习笔记(二十一):CRNN+CTC

    上次的一篇文章说了下DenseNet,这一篇文章来说一下CRNN+CTC的识别原理以及实现过程。这篇文章原理部分主要参考于白裳老师的“一文读懂CRNN+CTC文...

    云时之间
  • CV学习笔记(二十一):CRNN+CTC

    上次的一篇文章说了下DenseNet,这一篇文章来说一下CRNN+CTC的识别原理以及实现过程。这篇文章原理部分主要参考于白裳老师的“一文读懂CRNN+CTC文...

    云时之间
  • 大牛讲堂 | 深度学习Sequence Learning技术分享

    雷锋网按:本文作者都大龙,2011年7月毕业于中科院计算技术研究所;曾任百度深度学习研究院(IDL)资深研发工程师,并连续两次获得百度最高奖—百万美金大奖;现在...

    AI科技评论
  • 【微软语音识别新突破,错误率降至5.1%】黄学东:新的行业里程碑

    【新智元导读】微软语音识别系统取得最新突破:微软的语音对话研究小组在Switchboard语音识别任务中,将错误率从去年的 5.9% 再一次降低到 5.1%,达...

    新智元
  • Hybrid semi-Markov CRF for Neural Sequence Labeling

    对于命名实体识别任务,现有的模型基本已经能够达到很好的结果。近期,在ICLR 2018上提出了使用active learning,可以在少量数据集下得到较优结果...

    zenRRan
  • 今日 Paper | 联合抽取;流式语音识别;差异学习;Skip-Thought向量等

    将混合CTC/Attention方法嵌入到Transformer结构中实现在线端到端的流式语音识别架构

    AI科技评论
  • 动态 | 新里程碑!微软语音到文字转录已经达到人类水平

    AI 科技评论按:语音到文字的转换是语音研究领域的重要课题。自引入神经网络的方法以来,语音识别正确率有了长足的进展,也为苹果 Siri、亚马逊 Echo、科大讯...

    AI科技评论
  • EAST+CRNN银行卡号识别,附数据集

    在这里因为给定的数据集都是每一个上有四个数字(有些为空格),但是所识别的最终目标——银行卡号有不定的长度。现在比较流行的解决方案是CRNN和CTC损失函数。于是...

    机器学习AI算法工程
  • 学界 | 小米加入 AI 研究大家庭!联合西工大推出基于注意力机制的普通话语音识别算法

    AI 科技评论按:小米近期发布了自己的 AI 音箱,加入了智能家居的战局。正当我们觉得小米会不会只是蹭“人工智能”热点的时候,小米的这篇论文证明了自己真的是把人...

    AI科技评论
  • 自然场景文本检测识别技术综述

    番外 青蛇: 姐, 图像文本检测和识别领域现在的研究热点是什么? 白蛇: 白纸黑字的扫描文档识别技术已经很成熟,而自然场景图像文本识别的效果还不理想。倾斜字、艺...

    SIGAI学习与实践平台
  • 实战:CNN+BLSTM+CTC的验证码识别从训练到部署 | 技术头条

    本项目适用于Python3.6,GPU>=NVIDIA GTX1050Ti,原master分支已经正式切换为CNN+LSTM+CTC的版本了,是时候写一篇新的文...

    AI科技大本营
  • CNN+BLSTM+CTC的验证码识别从训练到部署

    长话短说,开门见山,验证码是网络安全的一个重要组成部分,提高了暴力尝试破解的成本,而验证码识别是其反面,本文将带领大家看看如何使用深度学习进行验证码的识别,各厂...

    FB客服

扫码关注云+社区

领取腾讯云代金券