专栏首页arxiv.org翻译专栏OTEANN:使用人工神经网络估算拼字法的透明度 (CS CompLang)
原创

OTEANN:使用人工神经网络估算拼字法的透明度 (CS CompLang)

为了将口语翻译成书面语言,大多数字母表启用了明确的音韵到字母规则。 但是,一些书写系统已经偏离了这个简单的概念,并且在测量偏离多少方面几乎没有研究。 在这项研究中,我们使用人工神经网络(ANN)模型来评估书面单词及其发音之间的透明度,使用人工神经网络(OTEANN)来命名正交透明度估计。 基于来自Wikimedia词典的数据集,我们训练并测试了该模型,以对音素到音素和字素到音素翻译任务中的错误预测百分比进行评分。 在15个拼字法上获得的分数与其他研究的估计相符。 有趣的是,该模型还提供了对仅考虑读写规则的学习者所犯典型错误的见解。

原文题目:OTEANN: Estimating the Transparency of Orthographies with an Artificial Neural Network

原文:To transcribe spoken language to written medium, most alphabets enable an unambiguous sound-to-letter rule. However, some writing systems have distanced themselves from this simple concept and little work exists on measuring such distance. In this study, we use an Artificial Neural Network (ANN) model to evaluate the transparency between written words and their pronunciation, hence its name Orthographic Transparency Estimation with an ANN (OTEANN). Based on datasets derived from Wikimedia dictionaries, we trained and tested this model to score the percentage of false predictions in phoneme-to-grapheme and grapheme-to-phoneme translation tasks. The scores obtained on 15 orthographies were in line with the estimations of other studies. Interestingly, the model also provided insight into typical mistakes made by learners who only consider the phonemic rule in reading and writing.

原文作者:Xavier Marjou

原文地址:https://arxiv.org/abs/1912.13321

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 弹性网络物理系统及其应用驱动程序:技术路线图(CS Society)

    网络物理系统(CPS)在个人和职业生活中无处不在,它们有望显着改善微型社区(例如城市农场,医院),大型社区(例如城市和大都市),城市结构(例如智能家居和汽车)以...

    shellmik
  • 使用音高同步残留代码簿进行混合HMM /帧选择的语音合成 (CS Sound)

    本文提出了一种对统计参量语音合成器提高质量的方法。 为此,我们使用音高同步残差帧的代码本,以构造更真实的源信号。 首先,从一些训练数据库中建立常见刺激的有限代码...

    shellmik
  • Folksonomy驱动交互作用中的紧急行为(CS AI)

    为了在网络上反映不断发展的知识,本文根据一种称为“民俗驱动”的新概念结构来考虑基于民俗分类的本体论,以代表民俗分类。 本文介绍了一个研究程序,用于研究导致民俗驱...

    shellmik
  • 具有密集连接性的卷积网络(cs Machine learning)

    最近的研究表明,如果卷积网络在靠近输入的层和靠近输出的层之间包含较短的连接,则可以进行更深入,更准确和有效的训练。在本文中,我们接受了这一说法,并介绍了密集卷积...

    DANDAN用户6837186
  • 【译】(数字化)平台思维的艺术

    作者: Amit Kaul (Vice President, Emerging Technology) & Ryan Murray (Director, Dig...

    JimmyLv_吕靖
  • How to Boost Your Business Using Augmented and Virtual Reality

    Augmented reality and virtual reality encounters are changing the manner in whic...

    用户4822892
  • TadGAN:基于生成对抗网络的时间序列异常检测 (CS)

    时间序列异常可以提供与各个领域面临的关键情况相关的信息,从金融和航空航天到IT、安全和医疗领域。然而,在时间序列数据中检测异常尤其具有挑战性,因为异常的定义模糊...

  • 【论文推荐】最新七篇聊天机器人相关论文—社交媒体、远程医疗、序列理解、食物推荐、知识学习引擎、终生交互知识学习、任务管理

    【导读】专知内容组整理了最近七篇聊天机器人(Chatbot)相关文章,为大家进行介绍,欢迎查看! 1.Touch Your Heart: A Tone-awar...

    WZEARW
  • 通过引文分析看待计算机科学;索尔顿和伯格马克(Digital Libraries)

    在过去的二十年里,计算机科学经历了迅猛和多样化的发展 。为了更好地理解这门学科的结构,我们使用DBLP数据库对一组计算机科学文献进行了分析。为了深入了解该队列的...

    用户6869393
  • The Framing of the Developer

    Who framed Roger Rabbit? Talking about Software Development in companies is abou...

    仇诺伊

扫码关注云+社区

领取腾讯云代金券