首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

NeurIPS 2019 | 一种对噪音标注鲁棒的基于信息论的损失函数

来源:北京大学前沿计算研究中心 本文是第三十三届神经信息处理系统大会(NeurIPS 2019)入选论文《L_DMI:一种对噪音标注鲁棒的基于信息论的损失函数(L_DMI: A Novel Information-theoretic...许多之前处理噪音标注的工作仅仅对特定的噪音模式(noise pattern)鲁棒,或者需要额外的先验信息,比如需要事先对噪音转移矩阵(noise transition matrix)有较好的估计。...实际上,当噪音满足条件独立(conditional independence)假设时,即噪音标签和具体数据条件独立时,我们有下列等式成立: ? ? 这意味着,理论上,用 ?...作为损失函数在噪音标注上训练分类器和在正确标注(clean label)上训练分类器没有区别。 之前,人们使用的损失函数仅仅对特定的噪音模式鲁棒。...也就是说,这个信息测度在噪音标注(noisy label)上对分类器的序应该与其在正确标注(clean label)上对分类器的序相同。然而,香农的互信息不满足以上性质。

38430

NeurIPS 2019 | 一种对噪音标注鲁棒的基于信息论的损失函数

AI科技评论获授权转载自北京大学前沿计算研究中心 本文是第三十三届神经信息处理系统大会(NeurIPS 2019)入选论文《L_DMI:一种对噪音标注鲁棒的基于信息论的损失函数(L_DMI: A Novel...Arxiv link: https://arxiv.org/abs/1909.03388 Code link: https://github.com/Newbeeer/L_DMI 简介 噪音标注(noisy...许多之前处理噪音标注的工作仅仅对特定的噪音模式(noise pattern)鲁棒,或者需要额外的先验信息,比如需要事先对噪音转移矩阵(noise transition matrix)有较好的估计。...实际上,当噪音满足条件独立(conditional independence)假设时,即噪音标签和具体数据条件独立时,我们有下列等式成立: 这意味着,理论上,用 作为损失函数在噪音标注上训练分类器和在正确标注...但仅这一点是不够的,实际上我们希望的是找到一个信息测度 I,满足下列性质: 也就是说,这个信息测度在噪音标注(noisy label)上对分类器的序应该与其在正确标注(clean label)上对分类器的序相同

98320

记一次智能语音软件的开发-终于为孩子找到了个靠谱的口语老师

--phoneme 音标 --start 音标开始时间,单位是秒 --end 音标结束时间,单位是秒 --judge 判断音素是否错误,true为发音正确,false为发音错误,同时calibration.../标准答案,如果为true,说明参考答案认为该元音应该发重音,辅音时无意义 --stress_detect 在一个单词中,用户该音标发音为重音 Demo开发: 这个demo使用python3开发,包括...'stress_detect': False,//在一个单词中,用户该音标发音不为重音 'phoneme': 'ɝ', //音标名称 'start': 0.73, //音标开始时间...,秒 'end': 0.76, //音标结束时间,秒 'judge': True, //判断音标是否错误,true为发音正确,false为发音错误,同时calibration给出提示...'calibration': 'ɝ', //判断音标是否错误,true为发音正确,false为发音错误,同时calibration给出提示 'prominence': 1 //重音程度,当前音标越可能是重音

1.5K00

看我如何使用Python打造一个带娃神奇(一玩能玩一天)?

–phoneme 音标 –start 音标开始时间,单位是秒 –end 音标结束时间,单位是秒 –judge 判断音素是否错误,true为发音正确,false为发音错误,同时calibration给出提示...true,说明参考答案认为该元音应该发重音,辅音时无意义 –stress_detect 在一个单词中,用户该音标发音为重音 (一)Demo开发: 这个demo使用python3开发,包括maindow.py...'stress_detect': False,//在一个单词中,用户该音标发音不为重音 'phoneme': 'ɝ', //音标名称 'start': 0.73, //音标开始时间...,秒 'end': 0.76, //音标结束时间,秒 'judge': True, //判断音标是否错误,true为发音正确,false为发音错误,同时calibration给出提示...'calibration': 'ɝ', //判断音标是否错误,true为发音正确,false为发音错误,同时calibration给出提示 'prominence': 1 //重音程度,当前音标越可能是重音

1.4K10

基于Tacotron汉语语音合成的开源实践

比如有这么一句: 绿 是 阳春 烟 景 大块 文章 的 底色 四月 的 林 峦 更是 绿 得 鲜活 秀媚 诗意 盎然 用汉语拼音标注为: lv4 shi4 yang2 chun1 yan1 jing3...除此之外还有个train.txt文件,里面基本上就是csv的格式将拼音标注同每个文件的声谱对应起来。 再提醒一遍,我们的tacotron根目录默认是~/tacotron,更改需要改变命令行参数。...,同时将Python进程置于后台,这是由于训练过程十分漫长(一般收敛需要10个小时,得到好的效果需要2天),免得网络中断或者终端断开导致Python进程被杀死。...不过我们无法直接输入汉字文本,而是拼音标注,好在有开源项目python-pinyin帮我们搞定:https://github.com/mozillazg/python-pinyin 比如我们想合成一句...我们使用python-pinyin输出的拼音标注拷贝到eval.py里,输入命令行: > python3 eval.py --checkpoint logs-thchs30/model.ckpt-133000

1.2K20

Django框架中的英文单词

本文采用的音标均为美式音标,有部分通用或者其他国家的语言,没有进行标注或者采用了通用音标。所有的意思均为牛津词典中的原意。...因为上次文章直接使用的是学习python时,我们计算机的意思,怕把大家带跑偏。特意选取了正规的翻译,然后后面对计算机中的意思进行了注释,并且将对应的知识点进行了回忆,希望对大家有所帮助。...1、Django ['dʒæŋɡəʊ]首先就是我们的标题,也许你看见音标比较头疼,那么它读作张沟不是第张沟,哈哈,这样是不是直白多了,总感觉自己在误人子弟。大家理解就好。...我们在创建虚拟环境的时候用到了这个命令,其实是三个单词: make创建 virtual /ˈvɝtʃʊəl/虚拟的 environment /ɪn'vaɪrənmənt/环境,看到这三个单词的时候有没有发现python...36、migrations迁移这个没有音标,因为是法国的单词,全球通用,我们在迁移的时候,生成迁移文件时用到了命令:python manage.py makemigrations 37、migrate也是迁移

1.4K30

​我拿 12 年 36 套四级真题做了什么 ?

程序介绍 这是一个单词频率统计程序 ,基于python3 ,我将往年真题按照词频排序得到了四级词库 :总结出了 5000 个出现频率极高的单词 。...work.py python translate.py python db2csv.py 具体实现 数据 (docx 复杂的文档结构不好用,可以在word里面以txt方式保存) ?...name = CharField() # 解释 explanation = TextField(default='') # 词频 frequency = IntegerField(default=0) # 音标...data = info['baesInfo']['symbols'][0] assert info['baesInfo']['symbols'][0] # 去除没有音标的单词...上述完整代码和获取到的统计结果(5000个高频词)分享到公号【小詹学python】,公号后台回复关键词 “四级” 即可获取 。最后 ,小詹只想说 so 因吹斯听~

53120

​我拿 12 年 36 套四级真题做了什么 ?

程序介绍 这是一个单词频率统计程序 ,基于python3 ,我将往年真题按照词频排序得到了四级词库 :总结出了 5000 个出现频率极高的单词 。...work.py python translate.py python db2csv.py 具体实现 数据 (docx 复杂的文档结构不好用,可以在word里面以txt方式保存) ?...name = CharField() # 解释 explanation = TextField(default='') # 词频 frequency = IntegerField(default=0) # 音标...data = info['baesInfo']['symbols'][0] assert info['baesInfo']['symbols'][0] # 去除没有音标的单词...上述完整代码和获取到的统计结果(5000个高频词)分享到公号【小詹学python】,公号后台回复关键词 “四级” 即可获取 。最后 ,小詹只想说 so 因吹斯听~

67610

单音素、三音素、决策树

以前的音标现在也可以叫音素,而且现在正广泛的把音标叫音素。 每一种语言中的音素都是不一样的,即使是同种语言中,方言的音素也是不一样的。...记录语音音素的符号叫做音标音标可以分为两种,即严式音标和宽式音标。一般学习语言使用宽式音标即可,比如广泛运用的英语国际音标。...而对于语音、音韵等专业研究来说,用严式音标则最大可能地记录任意一种语言的语音。 音素是构成音节的最小单位或最小的语音片段,是从音质的角度划分出来的最小的线性的语音单位。...国际音标(这里指的是国际语音协会制定的国际音标,注意同英语国际音标区分)的音标符号与全人类语言的音素具有一一对应。 (2)单音素训练? 每个音素建立一个HMM模型。

2.8K10

Python语言特点

Python的显著特征: Python语法优雅,程序编码简单易读 Python易上手,通过简单的操作就能让你写的程序运行,非常适合用来做原型开发或其他专门的编码任务,同时又不用为了维护而烦恼 Python...同时Python其实也自带了一个叫做IDLE的集成开发环境,初学者可以利用它方便地创建、运行、测试和调试Python程序 Python通过添加新的模块可以很容易进行扩展,这些模块可以是通过类似C或C...注意,Python是解释型脚本语言哦 Python也可以被嵌入到应用中来提供一个可编程的接口 Python可以在任何环境运行,包括Mac OS X, Windows, Linux 和 Unix,...通过非官方的构建,也可以在Android和iOS上运行 Python是免费的:首先下载和使用或是在你的应用中内置Python是完全免费的;其次Python可以被自由修改和发布,因为语言是完全开源的...PS:接触了这么久Python,我一直按“拍森”的发音来喊它,但实际上python单词音标是 /'paɪθɑn/ ,发音应该是类似“拍桑”的,惭愧惭愧

67610

资源 | 你是合格的数据科学家吗?30道题测试你的NLP水平

自然语言处理简单学——通过 SpaCy ( Python):https://www.analyticsvidhya.com/blog/2017/04/natural-language-processing-made-easy-using-spacy...-%E2%80%8Bin-python/ 终极指南:自然语言处理的理解与实现(附 Python 代码):https://www.analyticsvidhya.com/blog/2017/01/ultimate-guide-to-understand-implement-natural-language-processing-codes-in-python...A) 词频计数 B) 语句的向量符号 C) 语音标签部分 D) 依赖度(Dependency)语法 E) 以上所有 答案:E 8)关于主题建模,总体语句占比多少才是正确的? 1....A = (名词作为语音标签的一部分) B = (动词作为语音标签的一部分) C = (频率计数大于 1) 下面哪个是A、B、 C 的正确值?...语音标注部分 5. 基本依赖性语法 6.

1.5K80
领券