「生信周刊讨论区(语雀)」[2] | 「生信讨论区(Gitter)」[3] 封面图 via:YouTube:Bright Side[4] 本周话题:为何动物的寿命差异那么大? 本周话题来自《测序中国:为何动物的寿命差异那么大?》,对动物寿命差异感兴趣的可以详细阅读下。 在哺乳动物体内,体细胞的突变会在健康细胞中终生积累。 @He-Kai-fly - 动物的寿命都是自然进化的结果,千百年来慢慢形成的,不同动物寿命不同,是因为养育后代所需要的时间以及自身所能承受的代谢结果对环境的适应程度的不同所导致的。 7、如何查看R中函数的源代码 介绍两种常用的查看R-package中某个函数的源代码方式,更加有效的学习优秀的R包提高对代码的理解能力。 12、see包|助力模型参数的可视化[11] EasyStats是一系列包装,在使用R编程语言中的统计模型(R Core Team,2021)时,可在协同作用下运行,以提供一致和直观的语法。
不过现有的大多数 NLP 基准仅限于英文任务,无法评价 NLP 模型在其他语言上的能力。 自然语言处理(NLP)所面临的其中一个关键性挑战是,构建的系统不仅要在英文中 work,而且要在世界范围内约 6900 种语言中也 work。 其中一些是 under-studied 的语言,如达罗毗荼语系中的泰米尔语(印度南部、斯里兰卡和新加坡)、泰卢固语和马拉雅拉姆语(主要集中在印度南部)以及尼日尔-刚果语系中的斯瓦希里语和约鲁巴语(非洲) CMU 语言技术研究所的在读博士胡俊杰,和 DeepMind 著名的研究科学家 Sebastian Ruder。 研究人员还发现模型也很难迁移到非拉丁语言中。这种情况在 POS 任务上非常明显,其中 mBERT 在西班牙语上的 zero-shot 准确率为 86.9%,在日语上仅为 49.2%。
精美礼品等你拿!
简直是现代版的罗塞塔石碑! PS,罗塞塔石碑是一块用3种语言写了同一个内容的石碑,帮助语言学家们读懂古文字。 ? 希望能先把动物和植物的语言破译了,可以发现打开新世界的大门。 冰岛语:Það var rakur, grár sumardagur í lok júní. 之后,借助神经解密算法,在具有不同语言特征的多种语言中提供强大的性能。 ? 研究团队选择了罗曼语族的数据库,包含意大利语、西班牙语和葡萄牙语三种语言的同源语音转录,需要对它们进行同源检测。 ? 因此,数据集就用到上面这些,Symbols指的是语言中的字符,Token则是语言学中类似于单词的存在。
但是,只要我们能够将如图1所示的例子投影到公共子空间中,我们实际上就不需要翻译例子。 image.png 最终,我们的目标是学习到所有语言中单词之间的共享嵌入空间。 此外,他们还注意到,不同语言之间的词语之间的几何关系是相似的,例如英语中的数字和动物表现出与图2中的西班牙语相似的几何星座。 image.png 图2:英语和西班牙语中数字和动物之间的类似几何关系(Mikolov et al。 双语跳读 Luong等人 将跳跃词扩展到跨语言环境,并使用跳跃词目标作为单语和跨语言目标。与其仅仅预测源语言中的周围词语,他们使用源语言中的词语来额外地预测其在目标语言中的对齐词语,如图13所示。 这是通过首先使用每个语料库上的段向量来学习每种语言中文档的单语表达来完成的。
为满足移动端和PC端的双重阅读体验,以及文章质量的保证,开始重构的以及新写的文章都会基于 “语雀” 平台编写,公众号会同步刚发布的文章,但随后的修改或者更新只会在语雀中维护。 在面向对象语言中,接口的多种不同的实现方式即为多态。 写入动物操作工具类 class AnimalTool { private AnimalTool() {} //调用猫的功能 public static void useCat ; } } 但是添加新的动物时,每次都需要修改工具类,为了优化代码,将工具类中 每一个动物的操作代码名字,写为动物总称,添加新动物后,只需要在Demo中创建新动物的对象 然后直接调用这个总的动物操作工具类 c.eat(); } //调用狗的功能 public static void useDog(Dog d) { d.eat(); } //把所有的可能都归为动物类
和人类一样,动物也有着各种情感,它们会快乐,会难过,会恐惧,也会愤怒。但动物没有人类所特有的语言系统,动物学家、动物行为学家通过结合他们的叫声、行为、习性来分析它们的诉求,以更好地了解它们。 他和团队都希望这个智能项圈,能够帮助主人更好地了解狗狗,加深彼此的感情。 猫言猫语也能被翻译?喵喵? 无独有偶,喵星人的「喵喵喵」,也有了翻译工具。 在猫咪进食的时候打扰它,猫咪发出「我生气了」的警告 开发者还希望未来能开发出猫的智能项圈,配合猫语翻译的手机程序,可以将猫的叫声即时翻译,然后智能项圈将翻译后的句子读出来。 另外,诸如 Petpuls、MeowTalk 之类的翻译工具,实际上也是人类按照自己所理解的意思,对不同的狗叫、猫叫声数据进行标注,然后通过机器学习技术来掌握不同声音所对应的意思。 经过长期观察,动物行为专家总结的 狗狗各种肢体语言所对应的意义 所以,归根到底,AI 能够翻译、理解动物语言的背后,依然是基于人类的解读。
,比如说在巴基斯坦,乌尔都语和英语的混合词就很常见。 但并非所有的macaronic提示都能在不同的模型间适当地转移,比如虽然farpapmaripterling按照预期产生了DALL-E 2的蝴蝶图像,但在DALL-E mini中生成的却是蘑菇图像。 macaronic提示也不一定非在多语言中组合subword,在单一语言内进行合成也能产生有效的视觉概念,不过熟悉英语的人可能会猜测到该字符串的预期效果,比如happeerful这个词很容易猜到是happy 第二种方法称为Evocative Prompting,和macaronic不同的是,evocative不需要从现有的词中组合触发视觉联想,而是由特定领域中某些字母组合的统计学意义进行「唤起」,创造出一个新词 可以生成传统上可怕的「爬行动物」的图像,如蝎子。
Xtreme评估了这些模型的零点跨语言转移性能(zero-shot cross-lingual transfer performance),也就是在其他语言中没有看到任务特定的数据。 对于在其他语言中可以使用标记数据的任务,Xtreme还比较了对语言内数据的微调,并通过获得所有任务的零概率得分最终得出一个综合分数。 在Xtreme初步实验中,谷歌的一个研究团队发现,即使是最先进的多语言模型,如BERT、XLM、XLM-r和M4,也都没有达到预期水平。 其中,BERT对西班牙语的准确率为86.9/100,日语则只有49.2/100,要转换成非拉丁文字也十分困难,而所有的模型都很难预测到在英语训练数据中没有看到的远方语言的实体,比如,在印度尼西亚语和斯瓦希里语上的准确率分别为 ,但在许多其他语言中表现尚不足预期。
「生信周刊讨论区(语雀)」[2] | 「生信讨论区(Gitter)」[3] 封面图 神经元(via[4]) 本周话题:生物信息行业的经济生态 本周话题来自@qins: 任何一个领域或行业要蓬勃发展, PI们所注意;第二类生信工作是公司与学术PI们的个性化服务或合作,由于研究的复杂性和不确定性,很难有pipeline的建立,说到底工业界盈利依赖的稳定量产与学术界的个性创新从根本上是冲突的,从业者很难提供相应的可靠服务 尽管是通过自动化程序构建的,但由此产生的哺乳动物胚胎发生轨迹(TOME)在很大程度上与我们当代对哺乳动物发育的理解一致。 最后,为了便于脊椎动物之间的比较,作者对斑马鱼和青蛙胚胎发育相关的单细胞数据集应用相同的程序,并根据共享的调节器和转录状态指定“细胞类型同源物”。 注意: 换行是换到下一行当前位置,用\n表示,回车是回到当前行的开始用\r开始,而在C语言中,\n代表换行+回到开始。
然而,了解英语对于学习印欧语系以外的语言帮助就没有那么大了——比如印地语、阿拉伯语或者日语,它们与英语、法语相比有着显著的不同。 我的编程语言学习经历就是一个很好的例子。 关于这一点人们尚未达成共识,但是我们可以肯定的是,掌握更多的语言没有什么坏处。毕竟,你的思维广度是你所了解的所有语言的交集。 编程语言不能与算法混为一谈。 但从表象上来看,它们在不同的语言中都不一样。 我对发明新的编程语言有着十分浓厚的兴趣。为什么有人会想要去发明一门新的编程语言呢?自然语言,由于其本身的定义,是自然产生的。 另一方面,计算机语言的发明是用来满足人类与计算机交流的需要。因此,编程语言的能力是由你给计算机指令的复杂程度和完备程度所决定的。 注:FarmVille(中国台湾翻译为农场乡村)是一个社交网络服务网站Facebook上的农场模拟游戏,由Zynga公司开发,在游戏中Facebook的用户有一个虚拟的农场,可以种植及收成虚拟的作物、树木及动物
奇美拉是希腊神话中类似的混合生物,由来自利基亚和小亚细亚的不同动物部分组成。凤凰和奇美拉分别代表了东方和西方文化的传说生物。 将它们放在一个动物园里,以期望东西方人民之间共同协作,来平民化 ChatGPT,共同打破 Open (close) AI 的 AI 霸权。 因此,凤凰模型不仅在英汉语言上表现卓越,还在已评测的十余种语言中,相较于其他开源模型具备显著优势。 实验结果 中文 团队成员采用与 Vicuna 一致的评测方式,即使用 GPT-4 作为评估模型,对凤凰模型在多种语言中的性能表现进行了自动评估。 多语言 除了中文,Phoenix 在多种语言上表现优异,包括但不限于西班牙语、法语、葡萄牙语、阿拉伯语、日语和韩语,涵盖了拉丁语系和非拉丁语系的多种语言。
而在连续模式中,研究者通过实验说明,适当地压缩词嵌入可以在 8 种语言中产生更精确的语法解析器。这比简单的降维方法要好。 图 1:研究者利用瓶颈变量 T 来实例化信息瓶颈。 XLM-R 在低资源语言上表现特别出色,与以前的 XLM 模型相比,斯瓦希里语(Swahili)的 XNLI 准确性提升了 11.8%,乌尔都语(Urdu)的准确性提升了 9.2%。 其中,达到 SOTA 水平的深度网络能够直接从原始像素中学习有用的表征,从而在众多视觉任务上取得了前所未有的性能。但是,「从零开始」学习这些表征通常需要大量的训练样本。 ——无论是人类、动物或者机器。 研究证明,『85% 规则』对 AI 中使用的人工神经网络和生物上可信的神经网络的效用被认为可以用来描述动物学习。
虽然英语并非所有目标语言的跨语言迁移的最佳源语言,但这是目前实践中最拥有的设置。 在基准测试方面,谷歌研究者选择几种当前最先进的多语言模型进行试验,包括多语言BERT 模型 (mBERT),多语言BERT 模型的大型版本XLM和XLM-R 以及大型多语言机器翻译模型 M4。 如上图所示,虽然在XQuAD和MLQA等具有挑战性的任务上,XLM-R等强大的模型与mBERT相比,可以显著缩小差距,但它们在句法结构化预测任务上的影响不尽相同。 与训练前数据大小的相关性:如上图模型性能与各语言中维基百科文章数量的皮尔森相关系数ρ,表明除了结构化预测任务的任务外,多数任务的相关系数都很高。 跨语言的错误:因为对于其他测试集是从英语翻译过来的XNLI和XQuAD,这部分作者分析了这些方法在源语言和目标语言中是否会犯同样类型的错误。
已有的研究已经在高资源语言(如英语)学习图像 - 文本联合表示方面取得了很大进展。这些表示模型努力将图像和文本编码为共享嵌入空间的向量,使得图像和描述它的文本在这个空间中相互接近。 要解决这一问题,我们可以试着为资源不足的语言手动收集图像 - 文本对数据,但是由于这项工作的规模,难度太大,或者我们可以设法利用现有的数据集(例如翻译对),这类数据集能够为多种语言提供必要的学习表示。 这项技术允许用户通过图像来表达那些不能直接翻译成目标语言的词语。例如,“valiha”一词是指马尔加什人所演奏的一种管状乐器,在大多数语言中不会有直接的翻译,但是可以通过图像轻松地描述出来。 甚至对于像法语这样资源丰富的语言中的图像→文本检索,MURAL 也显示出对某些单词有更好的理解。 颜色编码与上图相同 结 语 我们的研究结果表明,使用翻译对进行联合训练可以有效地克服许多资源不足的语言中图像 - 文本对的稀缺性,并提高跨模态性能。
2015 年,蒙特利尔学习算法研究所的研究人员开发出了一项新的算法模型,最终让机器给出了对应的翻译。一夜之间,像谷歌翻译这样的翻译软件质量得到了大幅度提升。 从社会学的角度讲,这将有助于我们翻译一些语言已经丢失了的文字,或者让机器去实时翻译一些稀有语言,如斯瓦西里语和白俄罗斯语。 3、反向翻译:这是神经网络学习向后翻译的另一个技巧。例如,如果想将西班牙语翻译称英语,就需要先教会神经网络从英语翻译成西班牙语,然后用它来生成合成数据,从而增加已有的数据量。 据了解,PBSMT(Facebook统计机器翻译)是 FAIR 此前的研究成果。该系统学习每种语言中短语的概率分布,并教会另一个系统旋转第二组的数据点以匹配第一组的数据点。 ? ▌写在最后 要知道,多数现有的 AI 模型是通过“监督学习”训练而成的,这也意味着必须耗费大量的人力对样本数据进行标记与分类。
Facebook使用了他们在之前发表于ICLR 2018的论文《Word Translation Without Parallel Data》中介绍的方法,让系统首先为每种语言中的每个单词学习词嵌入,也即单词的向量表示 例如,与“kitty”(小猫)这个词距离最近的是“cat”(猫),并且“kitty”这个词与“animal”(动物)之间的距离要远远小于它与“rocket”(火箭)这个词的距离。 此外,不同语言中意思相近的词汇具有相似的邻域结构,因为世界各地的人们生活在相同的物理环境中。 这个单语模型比较好获得,只要有小语种(比如乌尔都语)的大量单语数据集就可以。英语的单语模型则更好构建了。 通过使用单语模型对逐字翻译模型进行优化,就得到了一个比较原始的机器翻译系统。 接下来,Facebook研究人员再将这些机器翻译所得到的句子(从乌尔都语到英语的翻译)作为ground truth,用于训练从英语到乌尔都语的机器翻译。这种技术最先由R.
但当下主流图像描述的数据集都是基于英文标注的,只有几个小数据集用到了非英语,涵盖的语言数量非常有限,让小众语言的使用者无法享受到视觉技术发展所带来的的无障碍服务。 36种语言中,研究人员选择了30种英语以外的语言,主要是基于语言在网络内容中所占的比例。 这一策略成功地为36种语言中的大多数提供了来自适当地区的100幅图像,除了波斯语(使用了14幅大陆级图像)和印地语(所有100幅图像都是全球级别的,因为区域内的图像分配给了孟加拉语和泰卢固语) 在描述生成时 第一个屏幕显示所有的15张图片及其英文描述,描述由模型自动生成的,以一致的形式「<主要的对象>在<环境>中做<活动>」,通常带有对象的属性,如「微笑」的人、「红色」的汽车等。 在36种语言中,有26种语言的字幕被评为「差」的比例低于2% ,其余的都低于5% 对于像库斯科 · 克丘亚语和捷克语这样的黏着语来说,每个描述的单词数量可能低至5或6个;而对于像越南语这样的分析语(analytic
在DALL·E-2所生成的带有文本的图像中,DALL·E-2显然在说一种我们人类看不懂的语言。其实这一点在最初的DALL·E-2论文以及Marcus等人对该模型的初步评估中就已经发现了。 -所以它必须从带有文字的图像中获得语言知识,但由于其训练数据中只有这么多这样的图像,它在找到的文字之间做了某种不完整的插值。虽然给我们的是胡言乱语,但胡言乱语仍然是以特定数据为索引的。 不过这种情况不是发生在所有的生成图像中,所以一致性并不是十分稳健。 风格迁移 DALL·E-2 能够根据提示中指定的风格,生成一些相关概念的图像。 3 安全性和可解释性的挑战 有一种可能是,这些非人类现有语言的单词是不同语言中正常单词的拼写错误,但两位作者在搜索中没有发现任何这样的例子,所以这些词的来源仍然令人困惑。 初步研究表明,像“Contarra ccetnxni ams lurycat anni ounons”这样的提示有时会产生包含虫子和害虫的图像(约占生成图像的一半),每次还会产生不同的图像,大部分是动物
数据类型 在python这门语言中,数据类型分为两种。 内置的和自定义的。 内置的包括数字、字符串、布尔、列表、元组、字典、Bytes、集合这些常用的以及一些不太常用的数据类型。 而自定义的,一般以类的形式,根据需要组合以上内置类型成为独特的数据类型。 数据类型是Python语言非常重要的部分(哪部分不重要?) ,尤其是不同数据类型所支持的原生操作,更是重中之重,需要熟练的背在脑海里。很多时候,写大型项目时,不需要你多复杂的技巧,只需要用这些数据操作方法就可以。 原因之一,更好的分配管理内存,节省不必要的开支。如果没有数据类型的区别,那么所有的对象都必须按体积最大的对象所必须大小的房子分配空间,也就是内存空间,这样的浪费太严重了。 我们人类对事物都进行了各种分类,植物是植物、动物是动物,书是书,笔是笔。分类了之后,我们很自然的知道书可以读,笔可以写。数据类型也一样,让我们对抽象的数据有了可分辨的行为和自然的记忆。
扫码关注腾讯云开发者
领取腾讯云代金券