选自GoogleBlog 作者:David Ha 机器之心编译 参与:黄小天、李泽南、李亚洲 谷歌 4 月 11 日推出的 AutoDraw 是一个应用人工智能技术把你的随手涂鸦变成绘画的神奇工具。一经推出立刻获得了广泛关注,其背后的原理也引起了人们的好奇。昨天,谷歌研究博客终于发声,对 AutoDraw 背后的技术进行了解读。同时,相关论文也已发表。 论文地址:https://arxiv.org/abs/1704.03477 在线体验:https://aiexperiments.withgoogle.co
脑机接口(BCI)可以帮助失去行动或说话能力的患者恢复交流能力。迄今为止,脑机接口研究的一个主要热点是恢复身体肌肉动作技能,例如用触摸和握紧或2D电脑光标点击输入。然而,高度灵巧的行为(如手写或触摸打字)可能需要更快的通信速度。
李林 编译整理 量子位 报道 | 公众号 QbitAI 这个小游戏,你大概还有点印象。机器给出一个名词,给你20秒时间画画,同时,它会根据你画的东西一直猜猜猜。 游戏的名字,叫“Quick, Draw
当你想用机器翻译时,也许会立刻打开谷歌翻译。但是,尽管经过多年的开发和技术收购,它仍然存在诸多问题。例如,如果你在陌生国家没有互联网连接,并且未提前下载该语言,会发生什么情况?而从图像翻译文本的方法更是缓慢。
AI科技评论按:虽然简笔画与实物的逼真程度相去甚远,但即便是一个小孩也能轻易理解图案中的内容。原因其实很简单,因为人类懂得通过判断图案中的关键特征,与现实物体进行匹配。那么,如果是用 RNN 教机器学会画画,它是否能抽象出画中的概念,并用同样的方式作画呢?谷歌大脑的 David Ha 近日撰文指出了他与 Douglas Eck 在研究 sketch-rnn 时的一些想法和观点。 人们在传递思想、进行交流时有一个非常关键的要素,那就是懂得如何用抽象的视觉内容进行沟通。我们从小就培养孩子用画笔描述事物的能力,画
编者按:虽然简笔画与实物的逼真程度相去甚远,但即便是一个小孩也能轻易理解图案中的内容。原因其实很简单,因为人类懂得通过判断图案中的关键特征,与现实物体进行匹配。那么,如果是用 RNN 教机器学会画画,它是否能抽象出画中的概念,并用同样的方式作画呢?谷歌大脑的 David Ha 近日撰文指出了他与 Douglas Eck 在研究 sketch-rnn 时的一些想法和观点。 人们在传递思想、进行交流时有一个非常关键的要素,那就是懂得如何用抽象的视觉内容进行沟通。我们从小就培养孩子用画笔描述事物的能力,画出一个物
我们常用“字如其人”来形容一个人的字迹,也就是说一个人的性格和阅历会投射到文字上。而同样的,中文历史上的每一种字体也是当时经济水平、文化氛围的投射。诸如小篆、隶书、楷书、宋体,每一种字体都有着自己独特的文字结构与笔画特征,而这些特征又赋予了每种字体独一无二的视觉感受。 蔡邕的《笔论》中讲到:“若虫食木叶,若利剑长戈,若强弓硬矢,若水火,若云雾,若日月”说的便是字体的变幻无方。这种变化具体体现在字体的结构与笔画的表现上。今天笔者将通过对几种中文字体的结构借鉴与笔画借鉴,来介绍从字体历史中学习设计的方法。
FontLab mac是一款简单实用的Mac字体编辑器,你可以使用FontLab VI for Mac创建、打开、修改、绘制、空间、文字、提示和导出桌面、网页、颜色和可变字体。
CSS 锚点定位是一项强大的新功能,可用于创建各种交互元素,例如工具提示、模式和弹出窗口。它使工具提示更加动态。这是一个小示例,展示了如何锚定定位以创建工具提示:
最近Reddit上一个小哥发帖,借助深度学习技术,随着手指的移动,可以在屏幕上隔空绘制图形,可以实现了这样的一个效果。
谷歌再出黑科技 用人工智能模拟出来的声音 几乎可以和真人以假乱真 在我们的印象中,机器的声音都是冰冷的电子音,虽然人类也一直致力于研究让机器“说人话”,但搞出来的成果似乎还是跟人类真实的声音差距很大,生硬、不自然一直是通病。 在这方面,谷歌倒是一直不遗余力的在研究,所谓只要功夫深,铁杵磨成针。前段时间,他们终于宣布,让机器说人话这事儿,有进展了!!! 谷歌最近发布了一个利用神经网络合成语音的模型,它可能会让电脑发出的声音变得更有“人味儿”。 根据dailymail报道,谷歌最近展示了一种新的语音系统
作者:Caroline Chan、Shiry Ginosar、Tinghui Zhou、Alexei A. Efros
本文介绍一篇比较小众但非常有意思的手绘草图识别的新文章《Multi-Graph Transformer for Free-Hand Sketch Recognition》,其实质是提出了一种新颖的 Transformer 网络。
导语 | 在自然语言处理领域,文本表示学习技术可以帮助我们将现实世界转化为计算机可以处理的数据,以求更精准地建立学习模型。而在中文搜索场景下,同音词、易混词、错别字等文本的召回和相似度匹配一直存在着棘手的问题,本文通过图计算的角度来进行中文词向量的训练,并取得了积极的效果,希望与大家一同分享交流。
一、背景知识 目前已经存在很多的词向量模型,但是较多的词向量模型都是基于西方语言,像英语,西班牙语,德语等,这些西方语言的内部组成都是拉丁字母,然而,由于中文书写和西方语言完全不同,中文词语包含很少的中文字符,但是中文字符内部包含了很强的语义信息,因此,如何有效利用中文字符内部的语义信息来训练词向量,成为近些年研究的热点。
现有的解决方案通常需要用户提供的二进制掩码来指定目标发型。这不仅会增加用户的劳动成本,而且也无法捕捉复杂的头发边界。这些解决方案通常通过方向图编码头发结构,然而,这对编码复杂结构并不是很有效。
AI 科技评论按:第 33 届人工智能顶级国际会议 AAAI 2018 论文收录结果目前已公布,其中就收录了同济大学「智能大数据可视化实验室」开发的绘图机器人 AI-Sketcher 的相关论文。
自从退出中国的搜索引擎市场,谷歌大概无时不刻都想”卷土重来“。昨天,这家以搜索引擎著称的巨头公司用一款微信小程序“猜画小歌”占领了朋友圈“C位”,刷足存在感的同时,还顺便激发了身边一票“灵魂画手”。
---- 新智元报道 编辑:桃子 【新智元导读】问世6年来,Transformer不仅成为NLP领域的主流模型,甚至成功向其他领域跨界,一度成为风靡AI界的机器学习架构。恰在今天,Transformers库在GitHub上星标破10万大关! 2017年,谷歌团队在论文「Attention Is All You Need」提出了开创性的NLP架构Transformer,自此一路开挂。 多年来,这一架构风靡微软、谷歌、Meta等大型科技公司。就连横扫世界的ChatGPT,也是基于Transformer
SVG,即可缩放矢量图形(Scalable Vector Graphics),是一种 XML 应用,可以以一种简洁、可移植的形式表示图形信息。目前,人们对 SVG 越来越感兴趣。大多数现代浏览器都能显示 SVG 图形,并且大多数矢量绘图软件都能导出 SVG 图形。SVG 主要可以概括为以下几点:
网络上的字体本质上是基于矢量的图形。这就是为什么您可以以 12px 或 120px 显示它们并且它们保持清晰和相对锐利的原因。向量意味着它们的形状是由点和数学来描述形状的,而不是实际的像素数据。因为它们是矢量的,所以如果我们可以做其他矢量程序(例如 Adobe Illustrator)可以对矢量文本做的事情,比如在单个字符周围画一个笔划,那就有意义了。好吧,我们可以!例子:
批归一化和激活函数是深度神经网络的重要组成部分,二者的位置常常重合。以往的神经网络设计中通常对二者分别进行设计,而最近谷歌大脑和 DeepMind 研究人员合作提出了一种新方案:将二者统一为一个计算图,从低级原语开始进行结构进化。研究者利用层搜索算法发现了一组全新的归一化-激活层 EvoNorms。这些层中的一部分独立于批统计量(batch statistics)。
在自然语言处理领域,Transformer模型已经成为了主流的深度学习架构。凭借其强大的处理能力和高效的性能,Transformer在许多NLP任务中都取得了显著的成果。而在Transformer模型中,Attention机制起到了至关重要的作用。
机器之心专栏 机器之心编辑部 下图的每对 logo 中,一个是设计师设计的 logo,另一个是 AI 模型生成的,顺序不确定,你能分辨出哪些是 AI 模型生成的吗?(答案在文末揭晓) 文字标志(text logo)的设计非常依赖于设计师的创意和经验,其中,如何安排每个文字元素的布局是一个核心问题。布局设计需要考虑到很多因素,如字形、文字语义、主题等。例如,不同的文字之间通常不能有形状重叠;对于要强调语义的文字,通常使用较大的尺寸;斜切和旋转等几何变换可以分别体现力量感和欢乐感等主题。业内现有的方案大多是
来自斯坦福的研究人员提出了𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩,一个能够将草图变成画作的模型。
大数据文摘作品 作者:龙牧雪 深度学习合成图像并不是什么新鲜事。谷歌自己就做过SketchRNN,能识别8条腿的猪有异常,输出4条腿的猪(戳这里看)。 不过这些都依赖于人类输入数据的指导。人类需要告诉模型,哪些输入图片是猪,模型才能从中总结规律。 昨天,谷歌DeepMind发出了一篇博文,介绍了其最新论文Synthesizing Programs for Images using Reinforced Adversarial Learning(大数据文摘公众号后台回复“图像”即可下载)。 谷歌使用一种名叫
该项工作被CVPR 2019录取为oral paper。CVPR是计算机视觉和人工智能领域内的国际顶级会议,2019共收到投稿5160篇,录取1300篇,其中oral paper288篇,仅占全部投稿的5.6%。
汉字是一种象形文字,可以被分解为更小、更基础的音义结合体:象形(即对象的图像化表述,如「亻」、「日」、「木」)和形声(用于发音,如「晴」中的「青」)。汉朝的《说文解字》利用图形化的部首来索引汉字,这一传统一直沿用到今天。许多汉字由图像演化而来(如图 1 所示),因此汉字的语素中编码着丰富的语义信息。
自然语言理解是人工智能的核心技术,在智能客服、聊天助手、文本推荐、语义理解等领域都有非常多的应用。但自然语言理解相比图像识别、语音识别,一直没有找到很好的深度学习构型,所以进展也比较缓慢。今天推荐的 Google 论文,在 NLP 的关键任务(接续语句预测)上,能做到 20% 的提升。除此之外,在接续词语预测、语句话题预测方面也有不错的成绩。 自然语言理解(NLP)是人工智能领域使用程度最高的技术之一。受益于最近 自然语言理解技术的发展,现在已经可以应用在很多领域,例如航班预定、客服服务、任务管理、聊
2018 年,谷歌发布了基于双向 Transformer 的大规模预训练语言模型 BERT,刷新了 11 项 NLP 任务的最优性能记录,为 NLP 领域带来了极大的惊喜。很快,BERT 就在圈内普及开来,也陆续出现了很多与它相关的新工作。
---- 新智元报道 编辑:桃子 【新智元导读】这场AI大战,谷歌还有翻身的机会吗? GPT-4横空出世,让微软又双叒赢麻了! 就在同一天,谷歌向微软再开战,一口气来了个全套的: - 开放大语言模型PaLM API & MakerSuite - 生成式AI装进谷歌Workspace全家桶 - 生成式AI支持Vertex AI平台 - 新平台Generative AI App Builder 发布了这么多,足见谷歌一时的恐慌。 挑战GPT-4!PaLM API 发布 谷歌首次正式开放其PaLM
2021年4月18日,北京师范大学认知神经科学与学习国家重点实验室郭桃梅课题组在Brain Structure and Function发表题为“The cortical organization of writing sequence: evidence from observing Chinese characters in motion”的研究论文。该研究首次揭示了汉字笔顺加工的脑网络。
今天凌晨,OpenAI 发布了多模态预训练大模型 GPT-4。GPT-4 实现了以下几个方面的飞跃式提升:强大的识图能力;文字输入限制提升至 2.5 万字;回答准确性显著提高;能够生成歌词、创意文本,实现风格变化。GPT4 公告中最明显和最令人惊奇的部分是它如何在编写 HTML/CSS/JS 代码的同时重写手写网络草图中的笑话以生成功能齐全的网站。最终,无代码工具类型将消失,生成式 AI 一切皆有可能。总结要点:提升专业学术能力,各类考试超过90%的人类;真正的多模态,可以把纸笔画的原型直接写出网页代码。读论文时可以知道插图含意。英文准确度提升,70%到85.5% ;中文准确度提升,达到 GPT3.5 的英文水平。
BERT 带来的影响还未平复,CMU 与谷歌大脑提出的 XLNet 在 20 个任务上超过了 BERT 的表现,并在 18 个任务上取得了当前最佳效果。令人激动的是,目前 XLNet 已经开放了训练代码和大型预训练模型,这又可以玩一阵了~
肖像画作为人物画的一种,其简约的风格以及以形写神、迁想妙得的创作方法获得了大家的喜爱。
AI 科技评论按:该项工作被CVPR 2019录取为oral paper。CVPR是计算机视觉和人工智能领域内的国际顶级会议,2019共收到投稿5160篇,录取1300篇,其中oral paper288篇,仅占全部投稿的5.6%。
肖像画是一种独特的艺术形式,通常使用一组稀疏的连续图形元素,如线条来捕捉一个人的外表特征。肖像画通常是在人物面前或基于人物照片进行创作的,其创作依赖于细致的观察、分析和丰富的经验。一幅好的肖像画能很好地捕捉到人的个性和情感。然而,即使是受过专业训练的艺术家,完成一幅精致的肖像画也需要很长时间。
在这篇文章中,我们将介绍这几天开源的三种数据集,它们与已有的通用数据集都不太一样,且更关注精细化的任务。例如在谷歌开源的 QA 数据集中,它里面都是真实的搜索问题,答案也都是从维基百科查找的。这种大型的真实数据集更适合训练一个不那么「低智商」的 QA 对话系统,也更符合成年人实际会问的一些问题。
这不,Gabor Cselle就让Gemini 1.5去分析了那个著名的樱花雪景视频。
5、微软 Defender 再次出现大规模误杀,Edge / Chrome 等多款软件中招
不是因为这家公司要被欧盟罚款50亿美元,而是因为Google首款微信小程序“猜画小歌”:跟AI玩我画你猜的小游戏。
谷歌在2017年5月发布的文章《ANeural Representation of Sketch Drawings》中,详细介绍了如何对这类简笔画进行建模,以及如何用电脑自动生成简笔画。
给定梵高的星空,AI化身梵高大师,对这种抽象风格顶级理解后,做出无数幅类似的画作。
这是卡耐基梅隆大学的研究人员最近在预印本Arxiv.org上发布的一项研究中提出的问题。他们表示,有71%的人发现该论文提出的方法成功地捕捉了原始的艺术家风格的特征,包括手部动作,而且同一组中只有40%的人可以分辨出机器人所绘制的笔触。
截至 2023 年 11 月,人类创造的人工智能工具已经取得了长足的进步,在自然语言处理、机器翻译、问答系统等领域取得了显著成果。当前走到了大语言模型阶段。
词向量(Word Vector)或词嵌入(Word Embedding)是自然语言处理(NLP)中的一项基础技术,它允许我们将自然语言中的词汇表示为实数向量。这些向量通常存在于一个高维空间内,其中每一个维度都可能代表着某种语义属性。通过这种转换,机器学习模型可以捕捉到词语之间复杂的关系,如语义相似性、反义、上下位关系等。
领取专属 10元无门槛券
手把手带您无忧上云