前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >英语和汉语谁更高效?17大主流语言测试结果:没有优劣之分,带宽都是每秒39bit

英语和汉语谁更高效?17大主流语言测试结果:没有优劣之分,带宽都是每秒39bit

作者头像
量子位
发布2019-09-09 17:45:24
1.2K0
发布2019-09-09 17:45:24
举报
文章被收录于专栏:量子位量子位

哪种语言是世界上最高效的语言?这个问题一直争论不休,也难以量化。

首先,不同语种的说话速度差异很大。有研究证明,意大利人语速最快,每秒能说9个音节;而德国人语速最慢,每秒只能说5~6个音节。

那么是否较快的语言就能带来更高的沟通效率呢?

实际并非如此,因为不同语言的编码策略不同,有些语言虽然语速慢,但是每个音节中包含信息量也更大。

来自里昂大学、中国香港大学等高校的学者们,在研究了17种形态各异的语言后发现,即使语速差异巨大,各种语音的都具有相同的传输速率——每秒39比特

里昂大学的这篇论文给出了语音转文字时的带宽极限,将会给今后TTS的研究带来启发。为何人脑和计算机处理一个传输速率极慢的信息时差距如此之大,神经科学的研究或许将给未来NLP带来新的思路。

目前这项研究成果发表在《科学》杂志子刊ScienceAdvances上。

语速和信息密度成反比

研究语音的“带宽”,即信息速率,最核心的问题是计算不同语言单音节的信息量。早在1951年,信息论创始人香农就已经开始研究英语书面文字的信息熵问题。

关于不同语言发音信息量对比的研究已经持续数年,里昂大学早在2011年就发表论文,统计了世界上几种主流语言的信息密度和语速,最后将二者相乘算出传输速率。

最近,他们把研究的范围扩展到9个语系17种语言,包括越南语、英语、德语、意大利语、法语、日语、韩语、汉语普通话、粤语等等。

研究人员收集了上述17种语言的170名当地成年人的录音,每个语言都以正常速率阅读一组语义相似的标准化的文本,总共大约24万个音节。如此全面地统计研究17种主流语言的信息密度,这还是第一次。

演讲者通过在录制之前会多次阅读熟悉这些文本,来帮助他们理解内容并最大限度地减少阅读错误。

研究人员发现,日语只有643个音节,每个音节的信息密度约为5比特;英语的音节数量为6949,每个音节的密度为7比特;越南语最为复杂,平均每个音节包含8比特的信息,排在所有语言之首。

经过统计,他们得出结论:信息速率(IR)的平均值为39.15bit/s,标准差为5.10bit/s,音节速率(SR)的平均值为6.63音节/s,标准差为1.15音节/s。

但是音节信息密度越高的语言,其语速也就越慢。

然后,他们对比了17种语言每个音节的信息密度(ID)和音节速率(SR)的关系,二者呈高度的负相关关系,相关系数达-0.89。

大脑限制了语言速率

里昂大学的语言学家François Pellegrino说:“由于语言科学长期关注语法复杂性等问题,这种信息传输速率被忽略了。”

他补充说,这篇论文给出的结论就是:

尽管语言的编码策略差异很大,但在提供信息时,没有哪一种语言比另一种语言更高效。

信息密度更高的语言语速可以再提高语速加快传输吗,为何世界上那么多语言都有着相同的传输速率?

这是因为语音受到了大脑处理瓶颈的限制。最近的一篇神经科学论文提出,在美式英语中人类听觉上限是每秒9个音节。

这也解释了提高语言的速率并不能显著提高传输速率,一般人可以听录音大约只能加速到120%,这是限制语音传输速率的瓶颈所在。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-09-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 语速和信息密度成反比
  • 大脑限制了语言速率
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档