前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >重构出版:语音交互技术的冲击与机遇

重构出版:语音交互技术的冲击与机遇

作者头像
企鹅号小编
发布2018-01-25 15:04:00
1.2K0
发布2018-01-25 15:04:00
举报
文章被收录于专栏:人工智能人工智能

重构出版:语音交互技术的冲击与机遇

1

摘要:语音交互技术是人工智能技术的重要分支,包括语音识别、语音合成和语义理解三个部分。语音交互技术不仅从出版实务上重构了出版业,而且重构了出版业的核心概念。出版机构面对语音交互技术的冲击要主动培养音频编辑人才,提前布局市场,在下一次知识服务转型的风口占得先机。

关键词:人工智能;语音交互技术;重构;出版业

2

人工智能将对人类社会产生重大影响,而语音是人工智能技术重要应用领域之一。近年来语音交互技术日趋成熟,数字出版领域有声读物快速发展,市场不断扩大。“国内已经先后涌现200多个带有听书功能的移动平台,喜马拉雅FM、蜻蜓FM等有声读物平台龙头已然形成,市场竞争格局初步形成[1]”。用传统的视角看,有声读物高速发展通常被视作对传统出版的一个补充,但摆脱既定视角,语音交互技术正在重构出版业的核心观念。本文抛砖引玉,对语音交互技术的概念,其对出版业、出版学的重构,技术本身的局限以及未来的发展进行论述,希望引起更多关注。

3

一、语音交互技术的概念

工业革命以降,人类保留、传递语音的技术得到了充分发展,留声机的发明使得人类首次有了保留自己声音的手段,无线电广播的发明使得声音可以向多人传播得更远,同时减少接收的成本。电话的发明让双方之间可以进行语音互动。电影和电视的发明则使得声音可以配合图像一起传递更多的信息,信息的现场感得到充分加强。

这些技术的发明虽然让声音超越了时空的局限,扩大了传播范围,但大都是单向传播。电话虽然可以双方互动,然而只能局限于两个人之间,传播的人数不够大,能进行大众传播的互动性又不够强。另外,声音和其他媒介之间的转换性太差,电影和电视让声音和图像组合在一起,这种组合却是一种平行的组合,两者之间的互动和转化几乎没有。

以上语音技术均存在不同程度的缺陷,具体来说包括三个方面:第一互动性与大众性不可得兼,第二与其他媒介只有组合没有互动,第三语音内部不同语种无法交互。二十世纪后半叶,计算机科学取得巨大进步,让语音技术有了新的发展可能。计算机科学下的语音技术更多的是语音交互技术。语音交互的关键技术包括语音识别、语音合成、语义理解。语音识别技术将用户输入的语音转化为相应的文本或命令,语音合成技术将文本转换成机器合成的语音,语义理解技术从语音识别输出的文本中获取语义信息从而理解用户的意图[2]。

语音交互技术定义的外延包括三个部分,语音识别、语音合成和语义理解,这三个部分不是彼此孤立的,而是紧密联系在一起。按照不同的顺序和结构组织起来可以实现不同的功能。它的核心特征有二,其一是语音和文本之间的互相转换;其二是从语音到语音或者某个功能的实现,语音可以被理解为命令,当命令需要一个回答的时候就会出现声音的回应。百度搜索、讯飞输入法和搜狗输入法等可以把用户的语音转换成文本;而掌阅APP则通过语音合成技术将文本转化成声音,除了普通话版以外,还有粤语版、川语版等方言版。微软小冰、Siri等可以语音聊天或者实现用户命令,翻译机等则可以语音翻译。

可以看出,目前语音交互技术的进步在于交互性,所谓“交互”不仅仅是人与人之间的交互,而且还包括人与机器之间的人机交互,语音中不同语种的交互,以及声音与文字等不同传播形态之间的媒介交互。交互让原先处于受忽视状态的受众变成了具有充分主体性的用户,正是交互这一特质让语音交互技术改变了出版生态,它从出版实务和出版概念两方面重构了出版。

4

二、重构出版实务

语音交互技术深刻重构了出版实务。主要表现为对出版社出版流程的优化,创造出新的出版产品和新的审核管理方式。

一本纸质图书的出版,需要经过编辑的选题策划、作者的撰稿和编辑的编校后才能下厂印刷,进入营销阶段面向读者。语音交互技术在选题策划、撰写稿件和校对等方面均能起到优化作用。语音搜索可以放宽搜索限制,比如像微软的语音识别开发平台 SAPI,只需说出想检索的内容,系统就会自动识别语音,返回检索结果,显示馆藏书刊、借阅情况等信息[3],这对于编辑搜集资料、构想选题自然大有帮助。采用语音识别技术,1小时音频5分钟就可以转成文字文本,而用传统听打方式保守估计至少需要4个小时,使用语音交互技术中的语音识别提高了47倍工作效率[4]。这无疑大大提高了撰稿速度。编校中,语音交互技术可以起到重要的辅助作用。Word软件2016年版中,微软公司已经添加了朗读功能,该功能可以大声朗读文字并突出显示朗读的每个单词,这项功能是利用语音交互技术中的语音合成实现的。在实际的校对过程中,通过语音和文本的双输入,激发视觉和听觉的同步运作,可以增强大脑刺激,减少校对失误。语音交互技术可以提高出版效率,让图书可以更快地送到读者手中。

在传统出版之外,语音交互技术还创造了新的出版产品。目前发展较为成熟的出版产品不多,其中主要有3种较为典型:有声书、电子教材和翻译机。有声书是既能看,也能听的电子书,不是说由朗读者把书的文字内容读出来录成音频传播到网上,而是说能够在文字和语音之间进行自由切换的读物。同样电子教材也不是把传统纸质教材简单地进行数字化之后上传到网络上,而是满足学习者各类学习需求的出版平台,能够满足学习者听课、练习、测试和拓展学习需求的多功能平台。比如,在涉及到口语学习的方面,语音交互技术尤能发挥优势。外研讯飞的FIF云学习平台,包括8个功能,突破了传统教材和网络课堂的概念,是真正的电子教材。翻译机则是较能体现语音交互技术特色的新型出版产品,翻译机能跨越不同语种,还能跨越语音和文本的障碍,实现自由转换。图书有翻译图书,语音也有翻译语音,而且语音能实现实时翻译,翻译机是重要的出版终端产品。翻译机翻译的内容不是固定的,而是根据不同情况输出不同内容,但它的元内容即用户的语音数据是用户先行提供给翻译机开发商,开发商再利用这些数据为用户提供翻译服务。

语音交互技术创造了新的审核管理手段。随着近年来网络音频出版的不断发展,音频出版物的数量已经越来越多,而针对这部分音频的审核管理还没有较好的办法,相关法律法规还不完善。目前主要依靠人工进行编辑审核,效率较低,且容易漏审。用语音识别和语义理解技术,可以通过设定关键词、声纹识别和设计算法来对音频内容进行审查,算法监测内容没有问题直接放行,监测到内容含有关键词但没有绝对把握的发送到人工编辑进行审核,明显触及红线的则直接撤掉。语音交互技术既可以对违法违规的音频即时封禁,防止其广泛传播,也可以提高审查效率。

语音交互技术在出版管理方面,也有较大的应用。对于以出版音频为主的出版机构来说,势必要对音频进行管理,传统方式采用对音频资源进行人工标注进行管理,效率低下、成本巨大而且不利于检索。语音交互技术可以对语音进行识别,令其转化成文本,使文本和音频打包整理,进行机器标注。

通过对出版实务的考察,显然可以看出语音交互技术从多个方面重构了出版实践。其交互特性正如同润滑油,让不同媒介、不同语种的信息更紧密的融合在一起,使出版物成为一种融合的出版物,而不是单一组合的出版物。融合较于组合的不同在于融合可以转换,而组合不能。

5

三、重构出版概念

语音交互技术在它向出版业的扩展过程中,也重构了出版学的核心概念,这些新的概念还不稳定,但已经向我们显露了未来的新可能。理解这些正在更新的概念,无论对学界还是业界都有重要意义,用这些概念工具可以预测未来出版业的形态,形成新商业模式。

首先,是书的概念被重构了。语音交互技术重构了“书”的概念,传统的书只是由文字和图像所组成的,而未来一本书将会被要求不仅可以阅读而且可以收听。随着语音交互技术的不断扩张,语音和文字融合出版的图书将会越来越普遍,可能最后会完全替代只能看不能听的图书,这样传统书籍概念在未来将不再成立。麦克卢汉把这类情况称之为,旧媒介用新的方式融入了新媒介中。重构了的“书”的概念不同于现在的有声读物、有声书之类,它们只是单纯的音频,且需要人力来录制,无法做到像语音交互的书一样在文字和声音之间自由切换。这类书的好处是可以规避因转换成语音而引发的版权问题,相当于取消了播讲者的版权,因为都是由机器合成的,而不需要人的参与。

其次,语音交互技术了重构阅读的概念。传统的阅读是指个体从印刷文字、图画、图解、图表等书面材料,获取信息或意义的过程。可以看到,传统的阅读概念将声音排除在外,并且将阅读视作从作品到读者的单向传播过程。语音交互技术将声音和用户的反馈纳入新的阅读概念中。百度新闻推出的“聊新闻”功能,人工智能会通过问题找到核心定位,然后通过语义理解技术,汇编成一段文字发给用户。如此一来,通过系统的回答,读者会对新闻要素进行有条理的建构[5]。对于“语音书”而言,用户的反馈还将包含对语音的评价。

最后,语音交互技术重构了出版的概念。出版是出版学的核心概念,对出版的定义有很多,但核心是复制和传播。有学者把出版定义为“通过复制行为进行规制化知识信息生产的社会活动[6]”,类似的定义已经受到了严重的挑战。出版概念的核心由复制走向共享,由知识走向信息。复制技术从手抄到机械印刷再到电子传输的迭代升级中,复制行为本身在逐渐缺席。手抄书时代,手抄式的复制理解十分简单;印刷时代,对印刷术的理解已经有些困难了,但还算直观;到了互联网时代,除了少数了解计算机科学的人,大部分人都只是知其然,而不知其所以然。复制技术的黑箱越来越大,导致复制行为在用户的理解中逐渐消隐。互联网时代仍有许多人将博客出版理解为边复制边传播,但这显然是一种由旧的思维惯式套在新出版形式上。应当看到复制的目的是为了共享活动,复制一本书就是为了和另一个人共享它。复制说仍然成立,但现在更具启发意义的是共享的出版观。这是因为现在的出版主体未必意识到他的行为是一种复制,但他更容易觉察到这是一种共享活动。Publish的原义是公之于众,就是和众人共享,复制只是和众人共享的一种手段,将出版理解为一种共享,在这个意义上可以说是向原义的一种回归。

翻译机进一步重构了人们关于出版的概念。人们已经迈入第三媒介时代,既是所有人对所有人的传播,也是一对一的传播。[7]出版主体由专业出版商走向公众个体,个人用户成为自己语音的出版者,他的语音数据被收集起来用于优化翻译,而每一个使用翻译机的用户都从其他用户的语音出版物中收益。出版的基本单元从知识变成了信息。这些语音中不全是知识,甚至可以说大部分都不是知识,但这些语音提供了信息用于更精准的翻译。在这些语音中,还包含有一些无意识的喃喃自语、梦话等,这些语音看起来毫无价值,完全称不上是知识,但若是与心理学、精神分析学等结合,可能会为用户提供破解自己无意识的密码,助其更好的理解自己。

6

四、语音交互技术的局限

语音交互技术重构了出版实务和理论,但技术本身仍有不小的局限。主要有语音识别准确率低,无法理解语音后的情感,无法识别图像以及语音合成的音色、语速、语种不够丰富。从目前来看,语音识别技术准确率虽已高达97%,但面对大量文本时,此准确率还是太低。另外目前部分方言无法识别,多人同时说话识别有困难。语义理解技术的困难主要在于,无法做到全部理解,词语有歧义,句法有模糊;语义背后隐含的情感难以理解。语音合成技术则在音色、语速和语种等方面的合成上存在不小的缺陷。语音交互技术作为整体来看,目前的所谓交互只能在语音和文本之间进行交互,而不能在语音和图像之间进行交互,可以翻译声音和文本但难以翻译图像,图像的内容无法读出来。类似的困难还存在于对漫画的翻译,漫画中的图像内容暂且不说,即便是漫画中的文字也很难用语音读出。

除了技术的局限以外,还有一个本质的局限来自于声音媒介自身,人的思想未必都需要经过声音的转化,而可以直接转化成文字进行信息输出;同样,通过声音来接受信息并不是效率最高的方式,图像的信息量要超过声音,而且更容易被记忆。即便是像有声书之类的数字出版物,用户对它的接收效率也不一定比文字高,一个拥有较大阅读量的读者在阅读一本书时完全可以做到不用把文字翻译成声音再进行理解,而是大脑直接从文字中获取信息。除了文字和图像之外,还有行为本身也可以替代语音,在公共场合等不适合声音媒介的地方,用户可以直接使用点击等操作行为代替语音命令。声音在信息量、接收度和适用范围等方面的劣势制约了语音交互技术的进一步应用。

这些局限导致语音交互技术在出版业的应用受到限制。技术局限致使效率提高有限,例如语音识别技术虽然可以快速将语音转换成文本,正确率也高达97%,但为了纠正3%的错误仍然要花费大量时间。1小时音频可以5分钟转换成文本,不过为了纠正3%的错误,仍然需要人工听声音校对,简单校对1遍的时间至少也需要1小时,2遍就需要2小时,这样算起来,实际工作效率的提高并不如47倍那么夸张。对于图书质量审核万分之一的标准来说,3%的错误率更是无法接受的。这些技术上缺陷严重制约了语音识别技术的在出版业的广泛应用。

除了技术限制以外,声音本身的限制同样制约了语音交互技术在出版业的推广。在面对图片、影像和图表之类的出版内容时,语音交互技术难有用武之地。比如在绘本、漫画等出版物中,语音发挥的余地并不大。声音媒介的缺陷限制了语音交互技术在出版领域上的扩张,无法和一些出版物紧密结合起来。

7

五、语音交互技术的机遇

尽管语音交互技术还存在诸多局限,但可以看到它在出版业仍具有很强的潜力。语音交互为出版业的深度媒介融合提供了技术可能,为从传统出版转向知识服务指示了新的方向。目前出版业对这项技术的运用还囿于传统模式,新的产品效果不佳,相关行业人员没有充分开发其潜能,创新商业模式。

目前的出版企业向知识服务转型大都局限于数据库的形式,专注于提供行业知识服务,简单地将出版加上人工智能,表面的形式变了,而实际上仍然是传统出版的思维模式。这是“+互联网”,而不是“互联网+”。实际上,对于大多数出版企业来说,知识服务不必是大而全的数据库,相反,可以是小而散的知识碎片。这两种类型的知识服务在市场上都有所体现,在结合二者的优势上,语音交互技术的潜能就展露出来了,可以运用此技术把一本书分解成有系统的小知识语音包,保证一定的系统性同时又满足碎片化的多样需求。可以预测,未来人们绝不会只满足于碎片化的知识,而对于数据库等个人又无力负担,知识服务的市场将会发生重大变革,而出版机构加语音交互技术的深度融合会是下一轮知识服务升级的动力。

对此,出版企业应该加强与语音交互技术企业的深度合作,探索新的商业模式,创造新的产品。同时培养自己的音频编辑人才,发掘语音传播规律,建设人才梯队。市场的威胁就在于,下一个替代你的往往不是你能看见的对手,而是你预想不到的外界。出版机构在媒介融合的背景下,应警惕对大“IP”的过度追求,把目光放到未来,为未来做打算,倘若能提前布局好市场,那么在下一次知识服务的风口就能实现弯道超车,实现传统出版的华丽转型。对于语音交互技术,出版人应对它有更多想象力。

参考文献:

[1] 中国数字出版产业年度报告课题组. “十三五” 开局之年的中国数字出版——2016~2017 中国数字出版产业年度报告主报告(摘要)[J]. 出版发行研究,2017 (7):5-10.

[2] 袁彬,肖波,侯玉华,等.移动智能终端语音交互技术现状及发展趋势[J].信息通信技术,2014(2): 39-43, 51.

[3] 叶小榕,郡晴.语音识别技术在数字图书馆检索系统中的应用[J].科技导报,2008(18):75-79.

[4] 胡郁,袁春杰,王玮.人工智能技术在传媒领域的应用——以智能语音技术为例[J].新闻与写作,2016(11): 15-17.

[5] 赵鑫,赵盼超.文化人类学视野下人工智能新闻内容生产再思考[J].中国出版,2017 (9): 46-49.

[6] 王勇安,成云. 融合出版环境下对“出版”概念表述的再思考[J].出版发行研究, 2017(1): 13-17.

[7] 李沁. 沉浸传播与“第三媒介时代”[J]. 新闻与传播研究,2013(2): 34-43, 126-127.

旁人借问笑何事,笑杀山公醉似泥。

本文来自企鹅号 - 孺子安语媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文来自企鹅号 - 孺子安语媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像识别
腾讯云图像识别基于深度学习等人工智能技术,提供车辆,物体及场景等检测和识别服务, 已上线产品子功能包含车辆识别,商品识别,宠物识别,文件封识别等,更多功能接口敬请期待。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档