学习
实践
活动
专区
工具
TVP
写文章

生信爱好者周刊(第 44 期):为何动物寿命差异那么大?

「生信周刊讨论区(雀)」[2] | 「生信讨论区(Gitter)」[3] 封面图 via:YouTube:Bright Side[4] 本周话题:为何动物寿命差异那么大? 本周话题来自《测序中国:为何动物寿命差异那么大?》,对动物寿命差异感兴趣可以详细阅读下。 在哺乳动物体内,体细胞突变会在健康细胞中终生积累。 @He-Kai-fly - 动物寿命都是自然进化结果,千百年来慢慢形成,不同动物寿命不同,是因为养育后代所需要时间以及自身所能承受代谢结果对环境适应程度不同导致。 7、如何查看R中函数源代码 介绍两种常用查看R-package中某个函数源代码方式,更加有效学习优秀R包提高对代码理解能力。 12、see包|助力模型参数可视化[11] EasyStats是一系列包装,在使用R编程语言中统计模型(R Core Team,2021)时,可在协同作用下运行,以提供一致和直观语法。

21020

覆盖40种语言:谷歌发布多语言、多任务NLP新基准XTREME

不过现有的大多数 NLP 基准仅限于英文任务,无法评价 NLP 模型在其他语言上能力。 自然语言处理(NLP)面临其中一个关键性挑战是,构建系统不仅要在英文中 work,而且要在世界范围内约 6900 种语言中也 work。 其中一些是 under-studied 语言,如达罗毗荼语系中泰米尔(印度南部、斯里兰卡和新加坡)、泰卢固和马拉雅拉姆(主要集中在印度南部)以及尼日尔-刚果语系中斯瓦希里和约鲁巴(非洲) CMU 语言技术研究在读博士胡俊杰,和 DeepMind 著名研究科学家 Sebastian Ruder。 研究人员还发现模型也很难迁移到非拉丁语言中。这种情况在 POS 任务上非常明显,其中 mBERT 在西班牙 zero-shot 准确率为 86.9%,在日语上仅为 49.2%。

64830
  • 广告
    关闭

    【玩转 GPU】有奖征文

    精美礼品等你拿!

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    MIT&谷歌大脑用AI破解失传古代文字,被称“现代版罗塞塔石碑”丨ACL 2019

    简直是现代版罗塞塔石碑! PS,罗塞塔石碑是一块用3种语言写了同一个内容石碑,帮助语言学家们读懂古文字。 ? 希望能先把动物和植物语言破译了,可以发现打开新世界大门。 冰岛:Það var rakur, grár sumardagur í lok júní. 之后,借助神经解密算法,在具有不同语言特征多种语言中提供强大性能。 ? 研究团队选择了罗曼语族数据库,包含意大利、西班牙和葡萄牙三种语言同源语音转录,需要对它们进行同源检测。 ? 因此,数据集就用到上面这些,Symbols指的是语言中字符,Token则是语言学中类似于单词存在。

    45820

    跨语言嵌入模型调查

    但是,只要我们能够将如图1例子投影到公共子空间中,我们实际上就不需要翻译例子。 image.png 最终,我们目标是学习到所有语言中单词之间共享嵌入空间。 此外,他们还注意到,不同语言之间词语之间几何关系是相似的,例如英语中数字和动物表现出与图2中西班牙相似的几何星座。 image.png 图2:英语和西班牙中数字和动物之间类似几何关系(Mikolov et al。 双语跳读 Luong等人 将跳跃词扩展到跨语言环境,并使用跳跃词目标作为单和跨语言目标。与其仅仅预测源语言中周围词语,他们使用源语言中词语来额外地预测其在目标语言中对齐词语,如图13示。 这是通过首先使用每个语料库上段向量来学习每种语言中文档表达来完成

    1.6K100

    什么是多态?

    为满足移动端和PC端双重阅读体验,以及文章质量保证,开始重构以及新写文章都会基于 “雀” 平台编写,公众号会同步刚发布文章,但随后修改或者更新只会在雀中维护。 在面向对象语言中,接口多种不同实现方式即为多态。 写入动物操作工具类 class AnimalTool { private AnimalTool() {} //调用猫功能 public static void useCat ; } } 但是添加新动物时,每次都需要修改工具类,为了优化代码,将工具类中 每一个动物操作代码名字,写为动物总称,添加新动物后,只需要在Demo中创建新动物对象 然后直接调用这个总动物操作工具类 c.eat(); } //调用狗功能 public static void useDog(Dog d) { d.eat(); } //把所有的可能都归为动物

    49910

    铲屎官福音:汪星人和喵星人小情绪,AI 可以识别了

    和人类一样,动物也有着各种情感,它们会快乐,会难过,会恐惧,也会愤怒。但动物没有人类有的语言系统,动物学家、动物行为学家通过结合他们叫声、行为、习性来分析它们诉求,以更好地了解它们。 他和团队都希望这个智能项圈,能够帮助主人更好地了解狗狗,加深彼此感情。 猫言猫也能被翻译?喵喵? 无独有偶,喵星人「喵喵喵」,也有了翻译工具。 在猫咪进食时候打扰它,猫咪发出「我生气了」警告 开发者还希望未来能开发出猫智能项圈,配合猫翻译手机程序,可以将猫叫声即时翻译,然后智能项圈将翻译后句子读出来。 另外,诸如 Petpuls、MeowTalk 之类翻译工具,实际上也是人类按照自己理解意思,对不同狗叫、猫叫声数据进行标注,然后通过机器学习技术来掌握不同声音对应意思。 经过长期观察,动物行为专家总结 狗狗各种肢体语言对应意义 所以,归根到底,AI 能够翻译、理解动物语言背后,依然是基于人类解读。

    33510

    prompt攻防战!哥伦比亚大学提出BPE造词法,可绕过审核机制,DALL-E 2已中招

    ,比如说在巴基斯坦,乌尔都和英语混合词就很常见。 但并非所有的macaronic提示都能在不同模型间适当地转移,比如虽然farpapmaripterling按照预期产生了DALL-E 2蝴蝶图像,但在DALL-E mini中生成却是蘑菇图像。 macaronic提示也不一定非在多语言中组合subword,在单一语言内进行合成也能产生有效视觉概念,不过熟悉英语的人可能会猜测到该字符串预期效果,比如happeerful这个词很容易猜到是happy 第二种方法称为Evocative Prompting,和macaronic不同是,evocative不需要从现有的词中组合触发视觉联想,而是由特定领域中某些字母组合统计学意义进行「唤起」,创造出一个新词 可以生成传统上可怕「爬行动物图像,如蝎子。

    20120

    40种语言、9项推理任务,谷歌发布新NLP基准测试Xtreme

    Xtreme评估了这些模型零点跨语言转移性能(zero-shot cross-lingual transfer performance),也就是在其他语言中没有看到任务特定数据。 对于在其他语言中可以使用标记数据任务,Xtreme还比较了对语言内数据微调,并通过获得所有任务零概率得分最终得出一个综合分数。 在Xtreme初步实验中,谷歌一个研究团队发现,即使是最先进多语言模型,如BERT、XLM、XLM-r和M4,也都没有达到预期水平。 其中,BERT对西班牙准确率为86.9/100,日语则只有49.2/100,要转换成非拉丁文字也十分困难,而所有的模型都很难预测到在英语训练数据中没有看到远方语言实体,比如,在印度尼西亚和斯瓦希里准确率分别为 ,但在许多其他语言中表现尚不足预期。

    33220

    生信爱好者周刊(第 35 期):生物信息行业经济生态

    「生信周刊讨论区(雀)」[2] | 「生信讨论区(Gitter)」[3] 封面图 神经元(via[4]) 本周话题:生物信息行业经济生态 本周话题来自@qins: 任何一个领域或行业要蓬勃发展, PI们注意;第二类生信工作是公司与学术PI们个性化服务或合作,由于研究复杂性和不确定性,很难有pipeline建立,说到底工业界盈利依赖稳定量产与学术界个性创新从根本上是冲突,从业者很难提供相应可靠服务 尽管是通过自动化程序构建,但由此产生哺乳动物胚胎发生轨迹(TOME)在很大程度上与我们当代对哺乳动物发育理解一致。 最后,为了便于脊椎动物之间比较,作者对斑马鱼和青蛙胚胎发育相关单细胞数据集应用相同程序,并根据共享调节器和转录状态指定“细胞类型同源物”。 注意: 换行是换到下一行当前位置,用\n表示,回车是回到当前行开始用\r开始,而在C语言中,\n代表换行+回到开始。

    11810

    人类语言遇上编程语言

    然而,了解英语对于学习印欧语系以外语言帮助就没有那么大了——比如印地、阿拉伯或者日语,它们与英语、法语相比有着显著不同。 我编程语言学习经历就是一个很好例子。 关于这一点人们尚未达成共识,但是我们可以肯定是,掌握更多语言没有什么坏处。毕竟,你思维广度是你了解所有语言交集。 编程语言不能与算法混为一谈。 但从表象上来看,它们在不同言中都不一样。 我对发明新编程语言有着十分浓厚兴趣。为什么有人会想要去发明一门新编程语言呢?自然语言,由于其本身定义,是自然产生。 另一方面,计算机语言发明是用来满足人类与计算机交流需要。因此,编程语言能力是由你给计算机指令复杂程度和完备程度决定。 注:FarmVille(中国台湾翻译为农场乡村)是一个社交网络服务网站Facebook上农场模拟游戏,由Zynga公司开发,在游戏中Facebook用户有一个虚拟农场,可以种植及收成虚拟作物、树木及动物

    2.6K60

    GPT-4充当评测老师,效果惊艳,港中文(深圳)开源凤凰、Chimera等大模型

    奇美拉是希腊神话中类似的混合生物,由来自利基亚和小亚细亚不同动物部分组成。凤凰和奇美拉分别代表了东方和西方文化传说生物。 将它们放在一个动物园里,以期望东西方人民之间共同协作,来平民化 ChatGPT,共同打破 Open (close) AI AI 霸权。 因此,凤凰模型不仅在英汉语言上表现卓越,还在已评测十余种语言中,相较于其他开源模型具备显著优势。 实验结果 中文 团队成员采用与 Vicuna 一致评测方式,即使用 GPT-4 作为评估模型,对凤凰模型在多种语言中性能表现进行了自动评估。 多语言 除了中文,Phoenix 在多种语言上表现优异,包括但不限于西班牙、法语、葡萄牙、阿拉伯、日语和韩语,涵盖了拉丁语系和非拉丁语系多种语言。

    19510

    一文教你轻松快速使用 ChatGPT,亲测有效

    奇美拉是希腊神话中类似的混合生物,由来自利基亚和小亚细亚不同动物部分组成。凤凰和奇美拉分别代表了东方和西方文化传说生物。 将它们放在一个动物园里,以期望东西方人民之间共同协作,来平民化 ChatGPT,共同打破 Open (close) AI AI 霸权。 因此,凤凰模型不仅在英汉语言上表现卓越,还在已评测十余种语言中,相较于其他开源模型具备显著优势。 实验结果 中文 团队成员采用与 Vicuna 一致评测方式,即使用 GPT-4 作为评估模型,对凤凰模型在多种语言中性能表现进行了自动评估。 多语言 除了中文,Phoenix 在多种语言上表现优异,包括但不限于西班牙、法语、葡萄牙、阿拉伯、日语和韩语,涵盖了拉丁语系和非拉丁语系多种语言。

    42840

    7 papers|EMNLP 2019最佳论文;Facebook语言模型XLM-R取得SOTA结果;最优学习85%规则

    而在连续模式中,研究者通过实验说明,适当地压缩词嵌入可以在 8 种语言中产生更精确语法解析器。这比简单降维方法要好。 图 1:研究者利用瓶颈变量 T 来实例化信息瓶颈。 XLM-R 在低资源语言上表现特别出色,与以前 XLM 模型相比,斯瓦希里(Swahili) XNLI 准确性提升了 11.8%,乌尔都(Urdu)准确性提升了 9.2%。 其中,达到 SOTA 水平深度网络能够直接从原始像素中学习有用表征,从而在众多视觉任务上取得了前所未有的性能。但是,「从零开始」学习这些表征通常需要大量训练样本。 ——无论是人类、动物或者机器。 研究证明,『85% 规则』对 AI 中使用的人工神经网络和生物上可信神经网络效用被认为可以用来描述动物学习。

    68050

    40种语言、9项推理任务,谷歌发布新NLP基准测试XTREME

    虽然英语并非所有目标语言跨语言迁移最佳源语言,但这是目前实践中最拥有的设置。 在基准测试方面,谷歌研究者选择几种当前最先进多语言模型进行试验,包括多语言BERT 模型 (mBERT),多语言BERT 模型大型版本XLM和XLM-R 以及大型多语言机器翻译模型 M4。 如上图所示,虽然在XQuAD和MLQA等具有挑战性任务上,XLM-R等强大模型与mBERT相比,可以显著缩小差距,但它们在句法结构化预测任务上影响不尽相同。 与训练前数据大小相关性:如上图模型性能与各语言中维基百科文章数量皮尔森相关系数ρ,表明除了结构化预测任务任务外,多数任务相关系数都很高。 跨语言错误:因为对于其他测试集是从英语翻译过来XNLI和XQuAD,这部分作者分析了这些方法在源语言和目标语言中是否会犯同样类型错误。

    30410

    跨语言多模态、多任务检索模型 MURAL 解读

    有的研究已经在高资源语言(如英语)学习图像 - 文本联合表示方面取得了很大进展。这些表示模型努力将图像和文本编码为共享嵌入空间向量,使得图像和描述它文本在这个空间中相互接近。 要解决这一问题,我们可以试着为资源不足语言手动收集图像 - 文本对数据,但是由于这项工作规模,难度太大,或者我们可以设法利用现有的数据集(例如翻译对),这类数据集能够为多种语言提供必要学习表示。 这项技术允许用户通过图像来表达那些不能直接翻译成目标语言词语。例如,“valiha”一词是指马尔加什人演奏一种管状乐器,在大多数语言中不会有直接翻译,但是可以通过图像轻松地描述出来。 甚至对于像法语这样资源丰富言中图像→文本检索,MURAL 也显示出对某些单词有更好理解。 颜色编码与上图相同 结 我们研究结果表明,使用翻译对进行联合训练可以有效地克服许多资源不足言中图像 - 文本对稀缺性,并提高跨模态性能。

    44030

    翻译们又要失业?Facebook最新无监督机器翻译成果,BLEU提升10个点!

    2015 年,蒙特利尔学习算法研究研究人员开发出了一项新算法模型,最终让机器给出了对应翻译。一夜之间,像谷歌翻译这样翻译软件质量得到了大幅度提升。 从社会学角度讲,这将有助于我们翻译一些语言已经丢失了文字,或者让机器去实时翻译一些稀有语言,如斯瓦西里和白俄罗斯。 3、反向翻译:这是神经网络学习向后翻译另一个技巧。例如,如果想将西班牙翻译称英语,就需要先教会神经网络从英语翻译成西班牙,然后用它来生成合成数据,从而增加已有的数据量。 据了解,PBSMT(Facebook统计机器翻译)是 FAIR 此前研究成果。该系统学习每种语言中短语概率分布,并教会另一个系统旋转第二组数据点以匹配第一组数据点。 ? ▌写在最后 要知道,多数现有的 AI 模型是通过“监督学习”训练而成,这也意味着必须耗费大量的人力对样本数据进行标记与分类。

    68840

    Facebook全新无监督机器翻译法,BLUE测试提升超过10分!

    Facebook使用了他们在之前发表于ICLR 2018论文《Word Translation Without Parallel Data》中介绍方法,让系统首先为每种语言中每个单词学习词嵌入,也即单词向量表示 例如,与“kitty”(小猫)这个词距离最近是“cat”(猫),并且“kitty”这个词与“animal”(动物)之间距离要远远小于它与“rocket”(火箭)这个词距离。 此外,不同语言中意思相近词汇具有相似的邻域结构,因为世界各地的人们生活在相同物理环境中。 这个单模型比较好获得,只要有小语种(比如乌尔都大量单数据集就可以。英语模型则更好构建了。 通过使用单模型对逐字翻译模型进行优化,就得到了一个比较原始机器翻译系统。 接下来,Facebook研究人员再将这些机器翻译所得到句子(从乌尔都到英语翻译)作为ground truth,用于训练从英语到乌尔都机器翻译。这种技术最先由R.

    54520

    「多语言图像描述」最强评估基准XM3600来了!涵盖36种语言

    但当下主流图像描述数据集都是基于英文标注,只有几个小数据集用到了非英语,涵盖语言数量非常有限,让小众语言使用者无法享受到视觉技术发展带来无障碍服务。 36种语言中,研究人员选择了30种英语以外语言,主要是基于语言在网络内容中所占比例。 这一策略成功地为36种语言中大多数提供了来自适当地区100幅图像,除了波斯(使用了14幅大陆级图像)和印地(所有100幅图像都是全球级别的,因为区域内图像分配给了孟加拉和泰卢固) 在描述生成时 第一个屏幕显示所有的15张图片及其英文描述,描述由模型自动生成,以一致形式「<主要对象>在<环境>中做<活动>」,通常带有对象属性,如「微笑」的人、「红色」汽车等。 在36种语言中,有26种语言字幕被评为「差」比例低于2% ,其余都低于5% 对于像库斯科 · 克丘亚和捷克这样黏着来说,每个描述单词数量可能低至5或6个;而对于像越南这样分析(analytic

    14140

    DALL·E 2 居然能用自创语言来生成图像,AI模型可解释性再一次暴露短板

    在DALL·E-2生成带有文本图像中,DALL·E-2显然在说一种我们人类看不懂语言。其实这一点在最初DALL·E-2论文以及Marcus等人对该模型初步评估中就已经发现了。 -所以它必须从带有文字图像中获得语言知识,但由于其训练数据中只有这么多这样图像,它在找到文字之间做了某种不完整插值。虽然给我们是胡言乱,但胡言乱仍然是以特定数据为索引。 不过这种情况不是发生在所有的生成图像中,所以一致性并不是十分稳健。 风格迁移 DALL·E-2 能够根据提示中指定风格,生成一些相关概念图像。 3 安全性和可解释性挑战 有一种可能是,这些非人类现有语言单词是不同语言中正常单词拼写错误,但两位作者在搜索中没有发现任何这样例子,所以这些词来源仍然令人困惑。 初步研究表明,像“Contarra ccetnxni ams lurycat anni ounons”这样提示有时会产生包含虫子和害虫图像(约占生成图像一半),每次还会产生不同图像,大部分是动物

    65510

    Python数据类型

    数据类型 在python这门语言中,数据类型分为两种。 内置和自定义。 内置包括数字、字符串、布尔、列表、元组、字典、Bytes、集合这些常用以及一些不太常用数据类型。 而自定义,一般以类形式,根据需要组合以上内置类型成为独特数据类型。 数据类型是Python语言非常重要部分(哪部分不重要?) ,尤其是不同数据类型支持原生操作,更是重中之重,需要熟练背在脑海里。很多时候,写大型项目时,不需要你多复杂技巧,只需要用这些数据操作方法就可以。 原因之一,更好分配管理内存,节省不必要开支。如果没有数据类型区别,那么所有的对象都必须按体积最大对象必须大小房子分配空间,也就是内存空间,这样浪费太严重了。 我们人类对事物都进行了各种分类,植物是植物、动物动物,书是书,笔是笔。分类了之后,我们很自然知道书可以读,笔可以写。数据类型也一样,让我们对抽象数据有了可分辨行为和自然记忆。

    20910

    扫码关注腾讯云开发者

    领取腾讯云代金券