开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

如何制作语音识别

语音识别是一种将语音信号转化为文本的技术，它可以使计算机理解和处理人类语言的能力。以下是关于如何制作语音识别的完善且全面的答案：

概念：

语音识别是一种人机交互技术，通过将语音信号转化为文本，使计算机能够理解和处理人类语言。它是自然语言处理和人工智能领域的重要应用之一。

分类：

语音识别可以分为离线语音识别和在线语音识别两种类型。

离线语音识别：离线语音识别是在设备本地进行语音识别的过程，不需要与云服务器进行实时通信。它通常用于一些对实时性要求不高的场景，如语音助手的离线模式。

在线语音识别：在线语音识别是将语音信号发送到云服务器进行实时识别的过程。它通常用于需要实时性较高的场景，如语音转文字、语音指令识别等。

优势：

提高效率：语音识别可以将语音信号快速准确地转化为文本，节省了手动输入的时间和劳动成本。
便捷交互：语音识别可以实现人机语音交互，使用户可以通过语音指令来操作设备或应用程序。
多语种支持：语音识别技术可以支持多种语言的识别，满足不同用户的需求。
应用广泛：语音识别技术可以应用于语音助手、智能客服、语音翻译、语音搜索等领域，提供更便捷的服务和体验。

应用场景：

语音助手：通过语音识别技术，用户可以通过语音指令与智能助手进行交互，如语音搜索、语音播报等。
语音转文字：语音识别可以将会议录音、讲座录音等语音内容转化为文字，方便后续整理和查阅。
语音指令识别：语音识别可以将用户的语音指令转化为相应的操作，如语音控制家居设备、语音导航等。
语音翻译：语音识别可以将一种语言的语音转化为另一种语言的文字，实现实时语音翻译。

推荐的腾讯云相关产品：

腾讯云提供了丰富的语音识别相关产品，包括：

语音识别（Automatic Speech Recognition，ASR）：提供在线语音识别服务，支持多种语言和场景，具有高准确率和低延迟的特点。产品介绍链接：https://cloud.tencent.com/product/asr
语音合成（Text to Speech，TTS）：将文字转化为自然流畅的语音输出，支持多种语音风格和音色选择。产品介绍链接：https://cloud.tencent.com/product/tts
语音唤醒（Wake-up）：实现设备被唤醒后自动进入语音识别状态，提供快速响应和交互的能力。产品介绍链接：https://cloud.tencent.com/product/wakeup
语音评测（Automatic Speech Evaluation，ASE）：对语音进行自动评测，如语音准确度、流利度等，适用于语言学习和口语考试等场景。产品介绍链接：https://cloud.tencent.com/product/ase

通过使用腾讯云的语音识别相关产品，开发者可以快速构建稳定、高效的语音识别应用，并享受腾讯云提供的强大的技术支持和服务保障。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

python 实现一个属于自己的语音播报器

使用python制作一个专属于自己语音播报器是不是很酷，很多人都会认为只是一件很难的事情，但是需要告诉你的是，这是一件非常简单的事情。

01

Python 神工具包！翻译、文字识别、语音转文字统统搞定

常会遇到有些 PDF 是扫描版的无法复制（豆丁网上的），有些网页（极客时间）也限制了复制功能。这时候要复制，通常情况下只能手动去打，很浪费时间对吧。当然也可以使用一些 OCR 识别软件，但要么付费要体积很大，不方便。

03

AI时代，FreeSWITCH能做什么？

那么，智能时代跟FreeSWITCH什么关系呢？严格来说，其实没什么关系。你看，我今天又标题党了。

01

AI驱动智能媒体生产

本文总结了发表在IBC2018上的由日本NHK的Hiroyuki Kaneko等撰写的“AI-DRIVEN SMART PRODUCTION”，介绍了NHK在智能媒体生产方面取得的成就以及今后的发展方向。

02

倒计时 4 天 | 腾讯云语音产品有奖征文挑战赛

腾讯云语音产品，基于业界领先的语音识别（ASR）和语音合成（TTS）技术，为各行业提供从标准化到定制化全方位智能语音服务，更以卓越的性能与极具竞争力的价格赢得了市场的广泛认可。广泛应用于录音质检、会议转写、语音输入法、智能客服、有声阅读、新闻播报、数智人、电商直播、短视频制作等行业场景。

01

让度秘机器人去卖薯条，百度是咋想的？

4月25日上午，百度公司与肯德基在上海联合推出智能概念店“KFC original+”，该概念店内，将使用百度度秘机器人完成语音交互、智能点餐和全息投影展示。这是度秘机器人首次商业场景应用。度秘机器人是百度于2015年世界大会推出的人工智能机器人。主要依靠语音识别、智能搜索等技术，与用户进行交流。形式上，主要分为大机器人、桌面机器人及虚拟机器人三种。本次概念店内充当“员工”的是度秘机器人中的桌面机器人。用户在KFC进行点餐时，可以用日常语言和小度机器人对话，完成从点餐到支付的全流程。在全息投影体验区

06

腾讯云语音产品技术实践与行业应用案例分析，有两下子！

随着人工智能技术的飞速发展，语音识别（ASR）和语音合成（TTS）技术已经成为智能语音服务领域的核心技术。腾讯云语音产品，凭借其业界领先的技术优势和极具竞争力的价格，为各行业提供了从标准化到定制化的全方位智能语音服务，广泛应用于多个行业场景，极大地推动了企业服务、阅读、教育、游戏、金融、电商等行业的智能化升级。

01

Python语音交互的实现

在windows10上运行的测试内容。 Python版本：Python3.6.2。已经注册并添加了百度的'’语音识别'和'语音合成'应用。已经注册并创建了图灵机器人的'机器人'。

01

智能存储：一站式AI内容识别加速内容生产

导语数据万象内容识别基于深度学习等人工智能技术，与对象存储 COS 深度融合，底层直接调用COS的数据，实现数据存储、流动、处理、识别一体化，提供综合性的云原生 AI 智能识别服务，包含图像理解（解析视频、图像中的场景、物品、动物等）、图像处理（一键抠图、图像修复）、图像质量评估（分析图像视觉质量）、图像搜索（在指定图库中搜索出相同或相似的图片）、人脸识别、文字识别、车辆识别、语音识别、视频分析等多维度能力。用户可使用数据万象提供的自动化工作流或批量任务处理串联业务流程，大幅减少人力成本，缩短产出时间的同

03

那些天籁之音，正在消亡

你知道吗？全球每2周就会有一种语言消失。语言的消亡意味着珍贵的多样性文化信息流失，与物种的灭绝毫无二致。现实情况是，濒危语言消亡的速度比濒危动物消亡的速度还要快，据测算，到本世纪末，世界上50%-90%的语言将会消亡。保护濒危语言是保护文化多样性的重要一步，那么，人工智能又能做什么呢？语音技术发展到今天，其应用能力已经媲美甚至超越人类平均水平。从历史视角看，不管是地理位置障碍还是语言障碍，它都将是促进和增强人与人、人与机器自然对话的强大工具。在濒危语言文化保护上，我们由此也看到了新的思路

03

搜狗推出唇语识别技术，识别率90％超越去年的DeepMind团队

在刚刚过去的第四届乌镇互联网大会上，搜狗展台凭借着机器翻译、搜狗明医、搜狗大律师、智能问答、唇语识别等人工智能技术、产品受到参会者的关注，其中最吸引眼球莫过于唇语识别了。所谓唇语识别是通过机器视觉，不用听声音，仅靠识别说话人的唇部动作，就能解读说话者所说的内容。 📷 了解人类起源与未来，搜索：来自外星人的讯息搜狗语音交互中心技术总监陈伟与语音识别不同，唇语识别是一项基于机器视觉与自然语言处理于一体的技术，因此难度也比语音识别大的多。搜狗语音交互中心技术总监陈伟向我们介绍了唇语识别背后的技术逻辑。唇语

07

第四届NVIDIA Sky Hackathon开赛，让AI会“声”会“影”

第三届NVIDIA Sky Hackathon硝烟未尽，又将迎来第四届NVIDIA Sky Hackathon的比赛，这也将是NVIDIA 2021年开年的第一场线上比赛。NVIDIA作为活动的主办方，在第三届大赛结束之后，就已经开始积极地准备本届大赛的比赛内容。

01

FunASR语音识别GUI界面应用

本文将介绍一个基于FunASR开发的语音识别界面应用，这个应用可以选择本地音频，也可以录音识别。支持多种音频格式和视频格式，可以对识别的结果加上时间戳做成字幕。

04

英雄联盟S11直播延迟30秒，这次网友反应有点不太一样

像这种顶尖赛事，保证音、画质的低延迟本就应该是各大平台的“基本操作”，哪怕一点额外的延迟都是绝对不能忍的。

01

大咖面对面| 陈果果博士谈智能语音

智能语音在近年一直是个很火的话题，商业应用也在不断增加，在10月10号的深蓝&大咖面对面活动中，我们邀请到了语音界大佬陈果果博士，针对目前语音领域问题进行分享与探讨。

02

技术与人文的交汇：腾讯云语音产品在提升用户体验中的应用

语音技术作为人工智能的一个重要分支，正在改变我们与设备和系统交互的方式。语音技术不仅提升了操作的便捷性，还增强了用户体验，使得各类应用更加智能化和人性化。腾讯云语音产品，包括语音合成（TTS，Text-to-Speech）和语音识别（ASR，Automatic Speech Recognition）技术，凭借其卓越的性能和广泛的应用场景，迅速赢得了市场的认可和青睐。

02

腾讯云语音产品：从技术到应用的全方位解读

随着人工智能技术的迅猛发展，语音技术作为其中的重要分支，正在逐步改变我们的生活和工作方式。腾讯云作为国内领先的云服务提供商，其语音产品在技术能力、应用场景和业务价值等方面均表现出色。本文将从语音产品科普解读、应用实践和行业案例三个方面，深入探讨腾讯云语音产品的技术原理、应用场景、业务价值及其在各行业中的实际应用。

01

腾讯区块链-【画说梦想】小程序应用NFT数字交易应用案例分析

近日，腾讯SSV发布基于至信链的区块链公益项目平台应用-“画说梦想”，是通过AI语音和文字填写两种输入方式，采集用户的梦想数据，然后随机匹配公益画作，发布于NFT数字交易平台上，主要实现腾讯云公益平台上的45个公益项目，用户捐赠随机匹配支持，打造可持续美好的公益新模式。

03

玩转AI新声态 | 腾讯云语音产品有奖征文挑战赛

获奖名单请移步官网文档查看：https://cloud.tencent.com/document/act 届时会发站内信和短信通知获奖，请获奖的小伙伴留意并兑

05

你的耳朵真的灵敏吗？Goodfellow等人提出不可察觉的鲁棒语音对抗样本

作者：Yao Qin、Nicholas Carlini、Ian Goodfellow等

02

微软语音AI技术与微软听听文档小程序实践 | AI ProCon 2019

【导语】9 月 7 日，在CSDN主办的「AI ProCon 2019」上，微软（亚洲）互联网工程院人工智能语音团队首席研发总监赵晟、微软（亚洲）互联网工程院 Office 365资深产品经理，Office 小程序负责人张鹏共同发表《微软语音AI与微软听听小程序实践》的主题演讲，分享微软人工智能语音的技术以及微软听听小程序的落地实践。

02

解码AI多语种技术创新，跨语种沟通正成为现实

如今，语音已经成为万物互联时代人机交互的关键入口，在智能家居、智能汽车、穿戴式设备等场景不可或缺。我们看到的各类便捷的智能语音应用，背后是语音识别、语义理解、语音合成等技术的创新发展。全球化背景下，AI 多语种智能语言技术在各行各业的应用越来越广泛。科大讯飞作为智能语音行业的执牛耳者，在多语种智能语言技术上不断进行技术创新和应用落地实践，迎接市场环境变化下的新挑战。7 月 15 日，科大讯飞在武汉的“讯飞乐享 A.I. 技术沙龙”专场，面向开发者，对科大讯飞在 AI+ 多语种智能语言技术上的研发、实践、求

04

AI技术的相关知识

AI（Artificial Intelligence）就是人工智能，它是研究人的智能的，并且进行模拟和延伸的新兴科学技术。

03

干货 | 对端到端语音识别网络的两种全新探索

AI 科技评论按：语音识别技术历史悠久，早在上世纪 50 年代，贝尔研究所就研究出了可以识别十个英文数字的简单系统。从上世纪 70 年代起，传统的基于统计的 HMM 声学模型，N 元组语言模型的发明，已经使得语音识别技术可以在小规模词汇量上使用。在新世纪伊始，GMM-HMM 模型的序列鉴别性训练方法的提出又进一步提升了语音识别的准确率。最近 5-10 年间，随着深度学习的快速发展，算力的快速增长，数据量的急速扩张，深度学习开始大规模应用于语音识别领域并取得突破性进展，深度模型已经可以在干净标准的独白类音频上达到 5% 以下的错词率。此外，端到端的模型可以轻松的将各种语言揉合在一个模型中，不需要做额外的音素词典的准备，这将大大推动业界技术研究与应用落地的进度。

04

博客 | 论文解读：对端到端语音识别网络的两种全新探索

雷锋网 AI 科技评论按：语音识别技术历史悠久，早在上世纪 50 年代，贝尔研究所就研究出了可以识别十个英文数字的简单系统。从上世纪 70 年代起，传统的基于统计的 HMM 声学模型，N 元组语言模型的发明，已经使得语音识别技术可以在小规模词汇量上使用。在新世纪伊始，GMM-HMM 模型的序列鉴别性训练方法的提出又进一步提升了语音识别的准确率。最近 5-10 年间，随着深度学习的快速发展，算力的快速增长，数据量的急速扩张，深度学习开始大规模应用于语音识别领域并取得突破性进展，深度模型已经可以在干净标准的独白类音频上达到 5% 以下的错词率。此外，端到端的模型可以轻松的将各种语言揉合在一个模型中，不需要做额外的音素词典的准备，这将大大推动业界技术研究与应用落地的进度。

03

数据之战：NLP迈向实用阶段的核心所在

随着人工智能技术越来越多的应用到我们的工作和日常生活中，人们对与计算机交互提出了更高的要求。人们显然已不满足于只是简单的人机对话，而是畅想可以达到人与人交流那样的酣畅淋漓，就像科幻片像人们所展现的那样。

01

玩转腾讯云语音识别

随着互联网时代的进步，智能产品逐渐配备了更加多元化的功能应用、更加丰富的内容资源,用户在使用语音相关的功能时，越来越多的需求需要向智能产品用户提供更便捷的操作体验，语音转换成文本，语音识别是人工智能领域极为重要的前沿技术，实现快速、高效、准确的语音识别及控制，实现智能行业内全新的便捷操作模式。

03

由 ComfyUI 启发的一种 QT 应用软件架构

之前写过一篇文章《一种基于插件的QT软件开发架构》，介绍了在QT项目中采用插件架构，增加软件的可维护性和可扩展性，取得了一定的效果。然而，面对越来越多的客户定制需求，我们依然面临着许多挑战。

01

自然语言处理深度学习的7个应用

自然语言处理领域正在从统计方法转变为神经网络方法。自然语言中仍有许多具有挑战性的问题需要解决。然而，深度学习方法在一些特定的语言问题上取得了最新的成果。这不仅仅是深度学习模型在基准问题上的表现，基准问题也是最有趣的；事实上，一个单一的模型可以学习词义和执行语言任务，从而消除了对专业手工制作方法渠道的需要。在这篇文章中，你会发现7个有趣的自然语言处理任务，也会了解深度学习方法取得的一些进展。文本分类语言建模语音识别字幕生成机器翻译文档摘要问答（Q&A）我试图专注于你可能感兴趣的各种类型的终

09

边玩边入门深度学习，我们帮你找了10个简易应用demo

大数据文摘作品，转载要求见文末编译 | 江凡、刘云南、钱天培导读：想玩转深度学习，又不想从一开始就接触大量的理论和数学公式，怎么办？别怕，我们为你找了10个应用到前沿深度学习技术的简易demo。一起来试试！语音识别、图像识别、作曲作画，甚至是帮你玩游戏。这些深度学习“diao炸天”的应用相信对你来说早已经不陌生了。既然深度学习这么神通广大，就让我们一起开心地学习深度学习吧！赶紧找到一本深度学习教程，翻开。接下来，你看到的画面可能是理论、理论、理论、数学、数学、数学...... 妈妈，我再也不

03

WenetSpeech数据集的处理和使用

WenetSpeech数据集包含了10000+小时的普通话语音数据集，所有数据均来自 YouTube 和 Podcast。采用光学字符识别(OCR)和自动语音识别(ASR)技术分别标记每个YouTube和Podcast录音。为了提高语料库的质量，WenetSpeech使用了一种新颖的端到端标签错误检测方法来进一步验证和过滤数据。

01

攻破“鸡尾酒会”难题，人声分离给生活带来了哪些改变？

试想一下，在一个嘈杂的鸡尾酒会上，同时存在着许多不同的声源：多个人同时说话的声音、餐具的碰撞声、音乐声等等。如何在酒会上分辨出特定人物的声音，这对于我们人类来说十分简单。

04

使用APICloud & 科大讯飞SDK快速实现语音识别功能

语音识别功能已经是一个很普及的功能，在特定情境下，能带给人们方便的交互的体验，比如驾驶时使用语音进行唤醒手机，各类智能音响产品，语音控制智能电视等。本文主要介绍在APICloud平台使用科大讯飞的SDK快速实现语音识别功能。

04

Tensorflow官方语音识别入门教程 | 附Google新语音指令数据集

李林编译整理量子位报道 | 公众号 QbitAI Google今天推出了一个语音指令数据集，其中包含30个词的65000条语音，wav格式，每条长度为一秒钟。这30个词都是英文的，基本是yes

08

PK朱广权的手语数字人，现在要到医院银行上岗了

明敏发自凹非寺量子位 | 公众号 QbitAI 还记得冬奥会期间和朱广权battle的AI手语主播吗？现在，这样的手语数字人不仅要在小荧屏上工作，还能到火车站、银行、医院这些公共场所上岗了。喏，通过这样一台看似普通的机器，AI手语数字人就能实时将语音或文字转化为手语，让听障人士与窗口工作人员无障碍沟通，词准率在96%以上。这就是百度智能云曦灵刚刚推出的AI手语一体机，它能够直接部署在各种服务窗口，成为工作人员的实时翻译官。其背后支持平台——AI手语平台也同步发布，它能进行实时手语直播，还可

04

数据万象音视频处理 —— 打开对声音的想象，开启AI创作时代

“前方路口请直行”、“限速100”、“前方路段拥堵”等，是不是看到这些导航常用语句，脑海中已经有您常听的声音浮现了？导航播报所使用的TTS语音合成技术的商业化道路从有声听书、银行智能客服覆盖到虚拟人配音、残障人士辅助应用等，用户需求来源多样，应用场景逐步细化和专业，在这众多的行业所孕育出的应用场景中，TTS语音合成技术大幅减少文字转为语音的时间与企业用工成本的同时，也为用户带来由AI创作赋予的全新体验，语音合成模型经过长时间的发展，由最初的基于拼接合成，到参数合成，逐渐达到了感情充沛、高流畅度、个性化的现阶

01

研究发现人工智能可被“障眼法”欺骗

Facebook研究人员发现，当前的人工智能可被“障眼法”欺骗，即认为自己“看到了”一些不存在的物体。对人工智能（AI）来说，眼见不一定为实。机器学习系统有可能受到欺骗，以至于听到或看到并不存在的东西。我们已经知道，戴上一副漂亮的眼镜，有可能成功欺骗人脸识别软件，让它将你识别为其他人。但Facebook的研究表明，同样的方法也可以骗过其他算法。这种技术被称为对抗样本。它可以被黑客用于欺骗无人驾驶汽车，使其忽略停车标志，或者阻止闭路电视摄像机从人群中发现嫌犯。将一只猫的照片进行轻微改动

『GitHub项目圈选22』推荐5款深受好评的AI开源项目

OpenGlass 这个项目可以让你使用不到 25 美元的现成组件，即可将任何眼镜变成可破解的智能眼镜。

01

实现使用语音控制机械臂运动

在电影《钢铁侠》中，我们看到托尼·斯塔克在建造设备时与人工智能贾维斯交流。托尼向贾维斯描述了他需要的零件，贾维斯控制机械臂协助托尼完成任务。随着当今技术的发展，这种实现只是时间问题。因此，我决定尝试自己实现这个功能，用语音控制来操作机械臂，实现人工智能的简单应用。

00

搞多媒体开发？吴威麒：先拉个书单看看

LiveVideoStack：吴威麒你好，能否简要介绍下自己，包括目前的主要工作及关注领域？

02

【资源】用深度学习解决自然语言处理中的7大问题，文本分类、语言建模、机器翻译等

摘要：本文讲的是用深度学习解决自然语言处理中的7大问题，文本分类、语言建模、机器翻译等，自然语言处理领域正在从统计学方法转向神经网络方法。在自然语言中，仍然存在许多具有挑战性的问题。但是，深度学习方

05

独家 | 一文读懂语音识别（附学习资源）

一、前言 6月27日，美国权威科技杂志《MIT科技评论》公布2017全球最聪明50家公司榜单。科大讯飞名列中国第一、全球第六。全世界排在科大讯飞前面企业分别是：英伟达、Spacex、亚马逊、23andme、Alphabet。《MIT科技评论》认为，“科大讯飞旗下的语音助手是中国版的Siri，其可携带实时翻译器则是一款杰出的人工智能应用，克服了方言、俚语和背景杂音，可将汉语精准地翻译成十几种语言。科大讯飞在中国语音技术市场的占有率70%。”越来越多的人认为，语音识别将成为下一代交互革命的关键技术。与此

06

从音视频技术看AI的机会和挑战

我关注AI完全是被动的，直到两件事改变了我对AI的看法。第一件发生在2017年5月，AlphaGo以3比0战胜柯洁。我的一个朋友当时在乌镇现场感受了这场人机大战，她向我描述了柯洁被逼到走投无路的无奈与绝望表情。另一件事在2018年初，现场聆听了蒋涛关于AI的分享，其中介绍了在Google内部，AI已经在大部分产品上应用，包括Youtube。由于工作关系，Youtube在AI方面的应用自然引起了我的注意，比如通过AI理解视频内容，自动截取最能表现视频内容的关键帧，可用于生成视频封面。

01

开脑洞的智齿，YY的成分有多大？

原创2015-04-02罗超去年今日，一款名为“Typany”的智能输入环红遍网络，不少人都信以为真，成为互联网巨头借势愚人节营销的经典案例。最后这款能够彻底改变我们输入方式的产品并未成为事实，搜狗发布了一款名为“糖猫”的儿童手表，变相地进入了智能可穿戴设备领域。今年，搜狗又发布了一款名为“智齿”的概念产品，其功能更是让人脑洞大开。那么它究竟是不是YY呢？这款名为“智”齿的设备将被植入口腔，主要功能有4个。1、全新人体植入技术，智能矫正发音；2、方言词库，改善普通话不标准状况；3、提高说话流畅度，表达

07

从音视频技术看AI的机会和挑战

我关注AI完全是被动的，直到两件事改变了我对AI的看法。第一件发生在2017年5月，AlphaGo以3比0战胜柯洁。我的一个朋友当时在乌镇现场感受了这场人机大战，她向我描述了柯洁被逼到走投无路的无奈与绝望表情。另一件事在2018年初，现场聆听了蒋涛关于AI的分享，其中介绍了在Google内部，AI已经在大部分产品上应用，包括Youtube。由于工作关系，Youtube在AI方面的应用自然引起了我的注意，比如通过AI理解视频内容，自动截取最能表现视频内容的关键帧，可用于生成视频封面。

02

十年让70+种语言无障碍沟通？他们决心用系统性创新攻克业内公认难题

---- 新智元报道编辑：Emil、小匀【新智元导读】数据稀缺以及开发成本高，多语种识别和翻译被认为是机器翻译技术难以跨越的难题。但随着国际交流日益频繁，跨地域、跨文化间的无障碍沟通成为不断增长的刚性需求。近期科大讯飞表示，通过系统性创新，他们将在10年内让机器在70+语言之间实现互通。下一个十年，人工智能会从「黑盒」变「白盒」吗？下一个十年，人机共存时代会真正到来吗？下一个十年，哪个学科又会与人工智能深入交叉，引发颠覆式的革新呢？人工智能核心技术的逐渐成熟推动智能产品的落地，以语

01

一心二用：高性能端到端语音翻译模型同时识别声音和翻译

自动语音翻译是指让机器完成从源语言的语音信号自动翻译生成目标语言的文本的过程，其基本设想是让计算机像人类译员一样充当持不同语言说话人之间翻译的角色。

04

亚马逊宣布Transcribe支持实时音频转录功能

在新推出的Comprehend服务之后，亚马逊今天宣布其自动语音识别（ASR）服务Amazon Transcribe获得对实时转录的支持。

02

【说站】安卓滚动字幕动画v3.3.1高级版

一款可以让你给视频添加字幕的手机软件。软件拥有非常精准的语音识别功能，可以把你的语音一键转化为相应的文字。同时用户可以自定义文字的颜色、字体、动画等，满足你的文字制作需求。更有双语字幕滚动特效为你提供，还支持多种语音，快来下载体验吧！

03

《花雕学AI》33：如何用XMind制作AI思维导图、鱼骨图和组织结构图

思维导图是一种有效的思维工具，它可以帮助我们整理信息，激发创意，提高效率。思维导图是一种以中心主题为核心，以分支结构为形式，以关键词和图像为内容的图形表示法。它可以让我们一目了然地看到知识的层次和逻辑，同时也可以激发我们的联想和想象。

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭