专访 | 先声教育CTO秦龙:有限的算法与无限的新意

机器之心原创

作者:邱陆陆

「在教育领域做好,不是说要把某一个特定算法做到极致,而是如何把相对成熟的技术与教育的结合做好。」

《连线》杂志在总结 2017 年人工智能领域学术研究现状时,提到了一个担忧,即当前大多数人工智能技术的发展都极度依赖极少数核心创新算法的支持,换句话说,算法这事,也会有「僧多粥少」的问题。的确,神经网络不是卷积神经网络就是循环神经网络,处理的对象总逃不过语音、图像、文本,而顺理成章的应用思路也就智能音箱、人脸识别这么几个。因此尚未完全成规模的浅滩市场里已经挤进了太多的重磅鲨鱼型选手,蓝海好像只是一个幻觉,海水一直是深红色。

我带着对这一观点的认同接触到了秦龙,先声教育 CTO,然后感受到了这家名字里面甚至没出现「智能」或者「科技」字样的公司带来的惊喜:工程师们堪称「鬼斧神工」地把我们如数家珍的算法变出了花样,然后给出了一个既充分利用了现阶段的技术发展水平,同时具有不错的可扩展性的发展路径。

换句话说,他们的算法既能够顺利落地,在当下解决实打实的需求,手握日均千万次的服务请求,同时一旦那些个 AI 算法今天画过的饼明天真的能充饥了,也能用同样的思路再提高一个台阶挑战更复杂的问题。

这就是「算法的新意」的重要性。

第一个新意来自对语音识别的逆向思维。

我们印象里的语音识别任务,是存在「用户就是上帝」的准则的:用户说话会带着天南地北的口音,所以开发语音输入法的团队要收集大量方言数据让模型「见多识广」;用户总是离着麦克风很远就开始发号施令,所以开发智能音箱的团队要布置麦克风阵列来解决「鸡尾酒会问题」。就算在标准数据集上,算法早就追上然后碾压了人类,我们一样会以「不会变通」,「不解决实际问题」为理由淡化它们的成就。

那么,有没有可能换一种思路,找一个不是「算法迁就善变的人类」,而是「人类模仿标准的算法」的情景,把不会出错、不搞特殊化的算法放在正确答案的位置,不知疲倦地给人类「找茬」?

先声告诉我们:有,这个答案叫做口语测评。

我带着雅思口语 8 分的自信试用了「句子跟读」功能,被算法轻松抓出了三处心服口服的错误:

  • 开头的升降调错误,来自我「词汇量不足情绪来凑」的习惯性夸张语调。
  • 中间的标红来自吞音连读,就像写惯了行书的人被强迫写正楷总是偷漏笔划。
  • 特别扎心的是结尾那个「bad」:原来我发开元音不张嘴这个当年雅思主考官指出过的坏习惯,至今也没改掉!

是的,你可以批评 AI 不能「灵活应变」,却需要承认它永远「尽职尽责」,它或许做起小工「宛如智障」,但变身为老师却「有模有样」。

口语测评背后的神经网络和机器听写、智能音箱无异,都是基于 lstm RNN 的语音识别模型。评测过程里,系统会把声音切割到音素(phoneme)级别,首先判断「有没有」,即语音片段中是否含有所有音素,给出完整度得分;然后判断「对不对」,逐个对发音、重音(stress)位置以及语音语调的正确性进行软分类,给出准确度打分;最后在句子层面,对照单词时长的分布信息、词之间的停顿、总体的语速,给出流利度得分。经过这一整个流程,因此,这个音素级别的模型能够给你详细到音素水平的修改意见,字斟句酌地和你推敲发音。

这里展示的仅仅是一个有确定性答案的客观题,再难一些的非确定性答案半开放性题目也可以类似处理。先声的业务针对 K12(Kindergarten to Grade 12,学龄前到高中)展开,其中非常典型的问题是中考的口头作文:

相比于跟读,口头作文还要在语音识别后加上自然语言处理程序,判断考生是否覆盖题目所要求的要点:除了在考生的答案里寻找标准答案关键词之外,也要用词嵌入(word embedding)寻找近义词和词组,比如标准答案是「Basketball is good for health.」,考生用了「Playing basketball is a healthy habit.」也一样应该得分。

第二个新意来自对机器翻译的另类利用。

其实「平行语料」并不一定局限于两种语言,只要是有对应关系的语句对,都可以用「编码器-解码器」的机器翻译思路来解。在学界,这个思路被扩展到了问答系统的设计,而先声选择了另一个奇妙的语言对:「有语法错误的句子」和「改掉了语法错误的正确句子」。于是,作文批改就这样变成了一个简化版的机器翻译问题。

之所以说是简化版,是因为作文批改中通常涉及的改动范围都比较小,没有机器翻译中由于不同语言的语法结构差异而产生的长句校准问题。所以,批改不需要注意力机制、甚至不需要非常消耗计算资源的深度神经网络,哪怕是传统的统计机器翻译(SMT),也能取得不错的效果。

机器翻译中的长句校准问题

类比机器翻译系统的作文批改并不是唯一一种方式,类似自然语言处理,作文批改也有基于规则的做法和基于统计的 n-gram 做法。

基于规则的做法逻辑简单:看到名词就检查冠词情况,看到动词就检查时态情况,但是需要手写定义海量的规则,既不优雅也不高效,已经渐渐被摒弃。而基于统计的 n-gram 方法,是神经网络出现之前自然语言处理领域毋庸置疑的统治者,它的一种基本逻辑和完形填空很相似:挖掉由 n 个单词组成的子句中的一个,给定周围的语境,根据语料库,此处出现概率最高的单词是哪些?在写作批改里,这个逻辑变成了看看每一个词周围的语境,如果一个词出现的概率极低,低过了一定的阈值,那么系统就判定这个词错了,并将可能出现概率较高的词作为修改意见给出。

类比机器翻译的模型在可扩展性上可以碾压基于规则的模型,在可控性上也优于 n-gram 模型:如果发现了一处没有改过来的错误,只需要把它和正确的句子一起做成数据对,在下一次迭代过程里补充进训练集即可,神经网络可解释性的弱点就这样被完美地避开了。

不过,可解释性并不会成为秦龙的困扰,他坦言,做产品就是「简单粗暴」:「只要效果提升了,我不需要解释。无论是线性模型还是 lstm,哪种方法结果漂亮,我就认同哪个结果。我们不会因为 lstm 听起来高大上就要用这个,做产品的团队没有这种考虑。」

当然,基于翻译的模型的优点还有很多,可用数据多、语料库获取难度低,批改范围从语法是否正确扩展到用词是否地道,种种不一而足。

即使汇集如此多优点,在写作批改的路上,工程师们仍然有很长的路要走。语法并不是一篇作文的全部,比语法更重要的是逻辑与表达。考生陈述的观点是否扣题,论点是否得到了充分的论据支持,论据是否有足够清晰明确的表达,都是写作批改系统应该做到,而现有自然语言处理技术尚不能支持的地方。「现在我们还没办法通过一个简单的神经网络判断一个文章是否跑题,更别说分析逻辑性了。」

但是工程师永远不会被「研究尚不支持」这种理由捆住手脚。先声的团队尝试了多种方案之后,最后做了单独的模型类比阅读理解中的「话题模型」给作文的内容性打分,加权平均得到总评分。

除了引入更多的模型,业界的常见做法自然还有引入更多的数据。

「传统机器学习方法,例如线性回归和 SVM,饱受诟病的一点是数据量达到一定程度之后,模型复杂度继续提升已经没有用了。而相比之下,深度学习虽然在短期内需要大量数据,但是最终仍然会走向收敛。」秦龙说。

对于写作批改来说,「大数据」除了「大量文章」之外,还有另一个维度的指标需要满足,就是「大量话题」。每个话题下的大量文章好满足,而大量话题非常难实现。

采访前,秦龙分享给我一篇论文,是用一层卷积层(convolutional layer)、一层 lstm 、一层全连接时序均值(mean over time)的神经网络模型做写作批改。这是当前非常常见的一类论文批改实现方法,然而文中的模型每换一个话题就要重新训练一次、改一组参数。泛化能力之低,甚至无法跨过业界「可用」的门槛。「我们做了一些实验,把卷积层替换成词嵌入(word embedding),然后取多个词而不是一个词的词嵌入,lstm 变成双向等等,效果会好一点。」秦龙如是说,然而「好一点」距离理想中的模型还很遥远。

「假如有足够的数据,我们甚至能做出好的无参数(nonparamatric)算法。可以像 K 临近算法一样,把所有的训练数据归为 1-5 分 5 个类别,每个分数段都有在高维空间里有自己的中心。推理阶段只要计算每篇论文和每个分数段中心之间的距离,加权平均,就能得到很准确的判分。然而真实世界里的作文分数也是呈钟型分布的,5 分和 1 分的样本都很少,收集数据太难了。」

但是再难似乎也没对工程师造成什么消极的影响。他们仍然在有条不紊地迭代着已经成熟的语音测评系统,升级着日渐成熟的写作批改系统,然后计划着更多:

「除了测评类,我们也关注深度知识追踪(deep knowledge tracing)在自适应学习(adaptive learning)方面的应用,以及其他自然语言处理的方法在新题库构建方面的能力。」

最后,秦龙以这样一句话总结了先声的工作,「在教育领域做好,不是说要把某一个特定算法做到极致,而是如何把相对成熟的技术与教育的结合做好。」

本文为机器之心原创,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2018-01-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

卡成PPT不开心?GAN也能生成流畅的连续表情了 |ECCV Oral · 代码

不过,从前的GAN只会生成一些互无关联的表情。这样,即便做成动图,也拥有浓厚的PPT风韵。

1120
来自专栏计算机视觉战队

2018年暑假最全的干货总结

之前很多读者反映新人和旧人得分的明细一些,那今天先总结一下本平台自创办以来一些经典的干货和实验等,希望对大家有所了解~

1152
来自专栏灯塔大数据

塔说 | 麦克阿瑟天才奖得主解码计算机视觉“原罪”:AI 如何认识人类世界

导读:麦克阿瑟“天才奖”获得者Trevor Paglen训练AI算法,他的展览项目“看不见的图像的研究”(A Study of Invisible Images...

3509
来自专栏新智元

【资源】机器学习和神经网络实践:书籍及博客推介

【新智元导读】前几天我们向大家推荐了自学成为 Data Scientist 在线课程系列,很多人纷纷收藏和分享。今天新智元再针对数学,为大家介绍几本书和相关资料...

3798
来自专栏企鹅号快讯

人工智能大数据背后的神秘公式:贝叶斯公式

转自:工业智能化 大数据、人工智能、海难搜救、生物医学、邮件过滤,这些看起来彼此不相关的领域之间有什么联系?答案是,它们都会用到同一个数学公式——贝叶斯公式。它...

6825
来自专栏企鹅号快讯

深度学习真的不需要理论指导了?图灵奖得主讲座无人问津,贝叶斯之父Judea Pearl落寞身影背后引人深思

【导读】最近NIPS 2017 "Test of Time"论文大奖获得者Ali Rahimi 在长滩现场的演讲中把机器学习称为“炼金术”(Alchemy)引起...

2269
来自专栏大数据挖掘DT机器学习

写给数据分析的初学者

在QQ群里听到一些网友在讨论数据分析的话题。有人正为自己学会了spss而高兴,有人说自己还略懂sas,还有人提到了sql查询语言。大家都在积极地学习,希望能在数...

3535
来自专栏新智元

【荐书】机器学习需要的数学知识和基础书籍推荐

【新智元导读】我们在《机器学习里,数学究竟多重要?》一文中提供了机器学习所需的数学知识和建议,对于初学者来说,并不需要先掌握大量的数学知识再开始做机器学习。学习...

40212
来自专栏新智元

周志华Deep Forrest论文参与者答网友问,或6月1日开源

【新智元导读】新智元之前发布周志华老师的Deep Forrest论文引起了广泛关注和讨论。本文作者Ji Feng正是该论文的参与者,他在知乎上对这篇论文的评论做...

35910
来自专栏大数据挖掘DT机器学习

参加数据挖掘类竞赛是一种什么样的体验?

随着天池穿衣搭配推荐比赛的结束,我也该暂且退出竞赛江湖,一心一意搞科研了。今年共参加了3场公开比赛,成绩虽不是特别好,但也还说的过去,在搞比赛上面花费了不少时间...

4038

扫码关注云+社区

领取腾讯云代金券