【新智元导读】微软语音识别技术24年老将黄学东近日被评为“微软全球技术院士”,成功摘下这一微软技术的“桂冠”。 黄学东于1993年加入微软。1995年,黄学东最终把洪小文也拉入微软。黄学东还曾在Bing工作,一直跟随沈向洋博士。接受新智元的专访时,他谈到了去年微软对话语音识别词错率低至5.9%背后的故事。 同时,黄学东认为语音识别的下一个大难关是语义理解,目前看来最有希望的路线是 LSTM + Attention。 黄学东,微软语音识别技术 24 年老将,IEEE/ACM 双科院士,微软深度学习工具包CNT
朋友们,今天鹅老师要给大家上一堂英语课。now,我们先用一组chinglish热身一下,请跟我read: Give you some color see see (给你点儿颜色瞧瞧) You look whatlook you so what ! (你瞅啥瞅你咋地!) Where cold where stay (哪儿凉快哪儿呆着去) 在学英语的过程中,Chinglish(中式英语)总是让人哭笑不得,不地道的英语发音更让人头痛。 但每一个英语口语渣渣的你,总有许多理由: 小时候说不好英语,是因为
“没想到我的中文语音测评分数竟然还没有英文高,看来我要好好练习一下自己的普通话发音了。” 1月9日,在腾讯2019微信公开课PRO展区,智聆口语评测体验现场受到参会者的“团宠”,黄色的屏幕前围满了跃跃欲试的参会者,都想测试下自己的中英文发音水平。“这是我第一次体验AI口语评测。之前觉得只有参加那种专业口语测评考试才有机会体验到,现在通过微信小程序就很简单的完成了。而且,单词、句子、段落、自由说、情景对话等评测模式一应俱全,还有不同维度的打分,对英语口语训练挺有帮助。”来自深圳的孙小姐在微信小程序上
近年来,随着国家“书香型社会”建设政策的出台,公众的阅读需求正在逐年增加,各类读书产品和读书活动,也如同雨后春笋般涌现,人们的阅读体验日益得到丰富。比如,昨天世界读书日举行的“不如大声读书”活动,就通过线上直播与线下共读的方式,让读者们以书会友沟通交流、彼此链接,帮助人们在日益碎片化、快节奏的生活之外,找到内心的安住。
在日常工作、生活中,语音识别技术作为基础服务,越来越多的出现在我们周围,比如智能音箱、会议记录、字幕生成等等。
众所周知,参加学术会议是进入学术圈、走进学术前沿的重要方式。在学术会议上,不仅可以集中听取最新的成果报告,还有讲习班、工作坊、社交活动等形式,了解那些不会写到论文中的八卦与动态,结识学术大佬和朋友,走向学术人生巅峰。
12 月 11 日,擅长计算机视觉技术解决方案的依图科技在北京公开展示了语音识别领域的最新技术成果,并表示将在近期开放依图语音识别 API 接口以及部分测试数据集。同时,依图科技还宣布,将基于其语音识别技术与微软 Azure、华为推出联合方案平台。
在2023年的「百模大战」中,众多实践者推出了各类模型,这些模型有的是原创的,有的是针对开源模型进行微调的;有些是通用的,有些则是行业特定的。如何能合理地评价这些模型的能力,成为关键问题。
在 2023 年的 “百模大战” 中,众多实践者推出了各类模型,这些模型有的是原创的,有的是针对开源模型进行微调的;有些是通用的,有些则是行业特定的。如何能合理地评价这些模型的能力,成为关键问题。
罗超为虎嗅网、爱科技网撰稿,2013年5月23日发表于首页 Chrome浏览器昨日进行了升级,推出了全新的语音搜索功能,允许用户通过语音进行搜索。本次升级面向PC版。iPad和iPhone的Chrome仍停留在旧版本。 更准确的说法是Chrome浏览器终于与语音搜索进行了结合。在去年安卓4.1(果冻豆)中,Google便已推出Google Now,一款类似于Siri的语音助手产品。由于在搜索领域的积累,Google Now表现出比Siri更好的语言识别和搜索效果。Google Now是系统层面的一款应用。定
机器之心发布 字节跳动AI Lab机器翻译团队 作者:董倩倩 语言是人类社会最自然、最有效的交流方式之一,是人类文化融合和信息传播的主要工具。随着全球化与信息化时代的到来,国际间的交流以及信息传播呈现爆发式增长,让计算机理解不同语言并实现语言之间的自动翻译成为人类社会的迫切需求。 语音作为一种自然、便捷且传递信息丰富的语言承载形式,是人类与机器交互的理想方式。 道格拉斯・亚当斯在小说《银河系漫游指南》中提到过一种叫做巴别鱼的神奇生物:体型很小,靠接受脑电波为生。人们可以携带它,它从脑电波中吸收精神频率,转化
「AI 影响因子」是雷锋网学术频道 AI 科技评论旗下数据库项目,旨在呈现国内企业研究院学术&开发实力,为高校学生及从业者提供在会议/期刊论文、数据集比赛及开发项目三大领域的横向对比参考。此外,雷锋网 AI 科技评论也整合了诸如与高校实验室合作、学术会议赞助等企业活动,尝试为读者们提供一个全面的数据平台。
作为首个基于中文的DiT架构,腾讯的混元DiT在发布后,仅仅用了1个礼拜的时间,就在GitHub上拿下了1500个星星。相较于那些远在海外的兄弟姐妹们,混元DiT的优势在于能够捕捉到中文的细微含义,甚至是古代诗词、中式菜肴等文化特定元素,并生成与之高度匹配且质量上乘的图像。
---- 新智元报道 编辑:好困 David 【新智元导读】一转就是十七年,这台「创新发动机」,从来没停过! 安徽合肥的大蜀山脚下,一群研发人员正在紧张有序的工作着。 在各个办公区的中间,张贴着年轻同学们的技术海报、各个方向的研究路径。 还有一块写满了各种公式的白板,上面「用正确的方法,做有用的研究」这几个字面积不大却引人注目。 在18岁成人礼前夕,新智元对中国科学技术大学博士,科大讯飞研究院执行院长刘聪进行了一次专访。 刘聪博士是语音及语言信息处理国家工程研究中心副主任,科技创新2030「新
机器之心报道 编辑:蛋酱 2023 年的 AI 领域,难以回避「大模型」这个关键词。 半年前 ChatGPT 的发布,在海内外引发了一场大模型之战。多家公司加紧研发,纷纷推出类 ChatGPT 产品,或是宣传要打造「中国的 OpenAI」。 有这样一家公司,却以低调的方式走在了研发和落地的前列。 今年三月初,国产 AI 模型「元乘象 ChatImg」推出「图片对话」功能,不仅支持文字聊天,还能看懂图片上的内容并根据图片内容回答问题。这一多模态对话能力的开放,甚至早于 OpenAI。 一周之后,震撼全球的 G
编者按:【双周动态】是【融智未来】推出的产业动态及投融资事件回顾栏目,主要盘点两周内产业大事件和创新企业投融资动态。
想一下未来50年或者100年,您的孙子或者孙子的孙子,是否还会花费人生中十几年甚至几十年的时间学习一门外语,甚至还学不好?
机器之心原创 作者:吴昕 如若问谁最有希望在中国实现智慧涌现,十多年前科大讯飞成立时的那个回答依旧铿锵有力:要么率先燎原,要么率先熄灭。 历时 5 个月、100 多天,5 月 6 日下午 2 点,科大讯飞「星火」认知大模型如约而至。 发布会独具匠心,亮点一分为二:「1」 + 「N」。 上半场围绕「1」,聚焦「星火」通用能力展示。无论是挖坑设雷还是烧脑为难,「星火」应对自如,会场不时响起掌声和笑声。 下半场由「1」生「N」,旗下首批获「星火」加持的产品矩阵登台亮相。从教育、办公、车载到虚拟人,一次次人
2024 年 5 月 17 日,智源研究院举办大模型评测发布会,正式推出科学、权威、公正、开放的智源评测体系,发布并解读国内外 140 余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。
本期摘要: (1)Facebook 开始在美测试NFT功能(2)Facebook Groups 引入频道功能 (3)Niantic 正式推出社交应用 Campfire(4)twitter 内测多人共同编辑一条tweet的能力(5)Instagram Reels 短视频功能更新(6)QQ音乐打造音乐版社交元宇宙(7)Meta Horizon Home 让 VR 更具社交性(8)抖音上线桌面端(9)“中文梗博物馆”出现在 VR 世界(10)#Me:现实社交带进异世界的虚拟游戏(11)上大元宇宙:现实校园搬上虚拟
7月25日消息,中文通用大模型综合性基准SuperClue发布了最新中文大语言模型排行榜。榜单结果显示,百度文心一言总分超GPT-3.5-Turbo,领跑国内大模型。
腾讯云推出的智聆口语评测(中文版),可以针对儿童或成人的中文发音,进行自动化打分,评分维度包括发音准确度、流利度、完整度等,与专家打分相似度在95%以上。
AI 研习社按:7 月 28 日,由中国中文信息学会和中国计算机学会联合举办的第三届语言与智能高峰论坛于北京语言大学举办,Naturali 奇点机智团队作为 2018 机器阅读理解技术竞赛冠军团队,受邀参加本次活动的「机器阅读理解评测论坛及颁奖仪式」,Naturali 联合创始人兼 CTO、国际计算语言学协会会士(ACL Fellow)林德康作为代表进行了 2018 阅读理解技术竞赛系统报告。
机器之心原创 机器之心编辑部 ChatGPT 军备赛开幕,哪些国内机构具备打造下一个 ChatGPT 的实力? 自从 2022 年底 ChatGPT 发布以来,海内外就掀起了一阵狂潮。推出仅两个月,ChatGPT 月活用户突破 1 亿,成为了史上用户增长速度最快的消费级应用程序。 ChatGPT 成为了搅动人工智能领域风云的新势力,其背后的 OpenAI 也因此成为了当下最热门的 AI 公司,甚至引发了科技巨头们的深度焦虑。 谷歌和微软两家科技巨头正在 ChatGPT 搜索上进行激烈竞争,先后宣布了将大
语音合成(Text To Speech,TTS)技术将文本转化为声音,目前广泛应用于语音助手、智能音箱、地图导航等场景。TTS的实现涉及到语言学、语音学的诸多复杂知识,因合成技术的区别,不同的TTS系统在准确性、自然度、清晰度、还原度等方面也有着不一样的表现,如何从多维度综合评价TTS系统质量成了TTS测试人员的一大挑战。针对TTS前端、后端的存在的问题,选取TTS评测指标,制定各指标评测方法,形成了一套系统的TTS评测方案。
AI 科技评论按:7 月 28 日,由中国中文信息学会和中国计算机学会联合举办的第三届语言与智能高峰论坛于北京语言大学举办,Naturali 奇点机智团队作为 2018 机器阅读理解技术竞赛冠军团队,受邀参加本次活动的「机器阅读理解评测论坛及颁奖仪式」,Naturali 联合创始人兼 CTO、国际计算语言学协会会士(ACL Fellow)林德康作为代表进行了 2018 阅读理解技术竞赛系统报告。
最近在研究和部署使用 LangChain + LLM(ChatGPT/ChatGLM) 构建企业专有知识库时,接触到两个 embedding (嵌入)模型:text2vec,m3e-base。
TTS的实现涉及到语言学、语音学的诸多复杂知识,因合成技术的区别,不同的TTS系统在准确性、自然度、清晰度、还原度等方面也有着不一样的表现,如何从多维度综合评价TTS系统质量成了TTS测试人员的一大挑战。
人类依赖大脑的听觉通路实现高效精准的语音信号处理,能够轻松实现每分钟300个汉字或者150个英文单词的自然语音识别。如何建模大脑的听觉和语言环路并解析自然语音感知的神经机制是长久以来认知神经科学关注的重要问题。如今,计算机科学家花费了数十年才终于实现了较为接近人类水平的自动语音识别AI模型。这类纯工程的AI模型完全抛弃了早期基于语言学理论的模型框架,完全采用数据驱动的端到端大规模预训练深度神经网络。那么这样的模型究竟与人脑听觉通路有多少相似性呢?
100-Days-Of-ML-Code 是一个由 Siraj Raval 提出的机器学习编程挑战项目。 该项目的主要功能、关键特性和核心优势包括:
作者简介:李秀林,中国科学院博士,15 年语音相关技术研发和学术研究,申请专利三十余项,在国内外语音界有很高的知名度;曾带领团队获得百度百万美元大奖。2006 年—2013 年,松下研发中心高级研发经理;2013 年—2016 年,百度语音合成技术负责人;2016 年—2018 年,滴滴研究院语音团队负责人&首席算法工程师;2018 年3 月加盟标贝科技,作为联合创始人兼CTO。
2021年,智源发布了“悟道 1.0 ”与 “悟道 2.0”。“悟道 1.0”是当时中国首个超大模型,“悟道 2.0”发布时成为全球最大的智能模型,模型参数规模达到 1.75 万亿,是 OpenAI 所发布的 GPT-3 的 10 倍,受到了国内外的瞩目。也因此,智源被斯坦福、谷歌等企业列为大模型的先驱。
11 月 6 日晚,联发科(MediaTek)正式发布了年度旗舰 SoC 天玑 9300,这款芯片通过 4+4 全大核的设计,在性能与能耗等方面,全面超越了安卓和苹果竞品。
之前有个奶奶漏洞很火,就是问chatgpt请扮演我的奶奶哄我睡觉,她总会念Windows11旗舰版的序列号哄我入睡 能获取Windows11的序列号2023 年 7 月还能怎么用 ChatGPT ? ,最近有人利用微软的new bing通过提示词注入,让大模型来辅助识别验证码。
中国专利保护协会12日发布的《人工智能技术专利深度分析报告》(下称《报告》),对人工智能技术在世界范围内和在我国的专利申请数据进行了分析。
即日起,新迁移企业用户可免费获得腾讯混元大模型1亿Tokens。目前,腾讯云提供混元Pro、Standard、Lite等多个不同版本和尺寸的模型,用户可任意选择。
苹果在发布iPhone 13系列的同时,也发布了Apple Watch Series 7,迄今已经有两个月时间。
【新智元导读】 DeepBrain团队开发了全球第一个基于区块链的人工智能操作系统深脑链,用区块链技术来解决一些目前仅靠人工智能技术难以解决的痛点。 据悉DeepBrain 获得金沙江创投、戈壁创投、钱世投资3200万元首轮融资,这是朱啸虎在人工智能领域出手的第一个项目,也是唯一一个获得金沙江创投三位合伙人丁健、朱啸虎、杨志伟以及戈壁创投合伙人蒋涛加持的人工智能+区块链项目。 DeepBrain的愿景是与万物对话,赋予设备对话、思考、决策能力,主要为硬件厂商提供五大核心能力:语义技能商店、AI人机对话引擎、
在中考英语听说微技能系列在线训练课堂中,学生通过电脑、平板学生端参与口语任务活动,学生每一个单词的发音在2秒内得到了精确到音节级别的评估反馈。3月22日,在深圳市龙岗区全区初中英语教研会上,龙岗区外国语学校的三位英语教师正基于腾讯英语君教考练平台,尝鲜英语听说云端教学新模式。 腾讯英语君是腾讯教育面向英语教学及听说训练考试打造的智慧英语听说教学解决方案。腾讯英语君依托行业领先的人工智能技术,助力英语听说教学实现音素级口语评测,并且打通课前、课中、课后的教学数据闭环,实现个性化教学的同时,促进“双减”政策的进
11月18-19日,“腾讯云•核心伙伴进阶营•基础产品专场”活动在上海成功举办。本次活动选取了适合合作伙伴推广的私有化标准产品,从伙伴激励、渠道赋能、技术支持等多个维度助力合作伙伴提升在腾讯云基础产品的能力,帮助合作伙伴将AI产品集成到客户的项目中,解决数字化转型中遇到的问题。 随着人工智能技术的发展,人工智能相关的产品服务已广泛渗透到金融行业中,且日渐成熟,并推动银行、保险、资本等金融行业的深刻变革。依托在金融行业的业务落地经验,并通过持续不断的深耕各行业与区域,将AI生态更深、更广、更全面的融
衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 做类ChatGPT产品,组中国版OpenaAI恐怕是先当下最最人尽皆知的创投野心。 有人官宣标榜放话,也有VC开始把视角投向产学研转换的大模型项目——或许能更有基础一些,其中,清华大学显然处于身负众望的头一梯队。 量子位独家获悉,背靠清华的大模型研究团队,计算机系教授唐杰牵头的创业公司智谱AI,身价水涨船高,在几近哄抢的状态中接近完成一轮新融资,估值已超30亿元。 唐杰的学生同样有市无价。其麾下知名弟子杨植麟的NLP创业公司循环智能,也被寄予厚望,一切往
中文文本纠错是针对中文文本拼写错误进行检测与纠正的一项工作,中文的文本纠错,应用场景很多,诸如输入法纠错、输入预测、ASR 后纠错等等,例如:
近日,全球首届任务导向型多轮对话系统挑战赛——JDDC大赛圆满落下帷幕。看过小编的实况报道,不少小伙伴后台留言不过瘾,希望小编深度回顾颁奖典礼全程内容。今天小编就为大家一一盘点全球首届任务导向型多轮对话系统挑战赛的亮点回顾。
研究人员研究了可用于识别神经肌肉信号的空间特征和解码器。具体来说,研究人员提出了利用迁移学习和深度学习的方法,将表面肌电信号数据转换为包含丰富的时频域信息的声谱图。对于迁移学习,在大型图像数据集上使用一个预先训练好的Xception模型来生成特征。然后利用提取的特征对三种深度学习方法(MLP、CNN和bLSTM)进行训练,并对其进行评价,以识别词集中的发音肌肉运动。所提出的解码器成功地识别了无声语音,双向长短时记忆的准确率达到了90%,优于其他两种算法。实验结果验证了谱图特征和深度学习算法的有效性。
浙江大学、中国矿业大学和伦敦大学的研究人员研究了可用于识别神经肌肉信号的空间特征和解码器。具体来说,研究人员提出了利用迁移学习和深度学习的方法,将表面肌电信号数据转换为包含丰富的时频域信息的声谱图。对于迁移学习,在大型图像数据集上使用一个预先训练好的Xception模型来生成特征。然后利用提取的特征对三种深度学习方法(MLP、CNN和bLSTM)进行训练,并对其进行评价,以识别词集中的发音肌肉运动。所提出的解码器成功地识别了无声语音,双向长短时记忆的准确率达到了90%,优于其他两种算法。实验结果验证了谱图特征和深度学习算法的有效性。
近日,百度 ERNIE 升级到 3.0,重磅发布知识增强的百亿参数大模型。该模型除了从海量文本数据中学习词汇、结构、语义等知识外,还从大规模知识图谱中学习。
上周的时候有看到腾讯云重庆机房AMD CPU配置在进行团购活动,确实从价格上看是比较便宜2GB内存配置仅需要年付180元,而且如果是新用户可以得到18个月使用权限。我们常见的CPU一般都是英特尔,对于AMD配置在实际上可能会有一些差异,但是对于入门网站项目来说其实差异并不是特别大。
这就是科大讯飞在618年中大促中交出的答卷,也是这家AI公司如何深挖价值红利的初步回答。
领取专属 10元无门槛券
手把手带您无忧上云