【新智元导读】你永远不知道汉字的潜力。谷歌大脑东京分部的研究员hardmaru,用神经网络根据笔画生成汉字,新造了一系列“假汉字”。你别说,有些看上去还真像那么一回事。
李林 发自 学院路 量子位 出品 | 公众号 QbitAI 正所谓古有仓颉,今有神经网络。 最近,谷歌大脑研究员David Ha做了个让神经网络和你一起写“汉字”的网页版Demo。你在页面上写几笔,神
2021年4月18日,北京师范大学认知神经科学与学习国家重点实验室郭桃梅课题组在Brain Structure and Function发表题为“The cortical organization of writing sequence: evidence from observing Chinese characters in motion”的研究论文。该研究首次揭示了汉字笔顺加工的脑网络。
注意:对于中文汉字和日文汉字我根据具体情况交替使用它们。
丰色 发自 凹非寺 量子位 | 公众号 QbitAI 非计算机专业、神经网络小白,爆肝六个月—— 在《我的世界》里搭建一个卷积神经网络,这是什么神操作? 最近,来自B站up主@辰占鳌头的作品着实火了一把。 他和朋友们合作完成的这个号称“世界首个纯红石神经网络”,神经元、卷积层、全连接层、激活函数、乘法器、输入、输出……样样俱全、蔚为壮观,而且可以真的实现手写数字识别,准确率还达到了80%。 这波,妥妥就是如网友所说: 简直是实力与耐心做出来的超凡成果。 目前,这个视频的播放量已经上了一百万,在
文字是信息的重要载体之一。通过书写、印刷、电子设备等方式,文字可以被记录下来并传递给他人。文字也是语言的重要组成部分,人们可以通过文字来表达自己的思想、感情和意图。在信息化时代,文字仍然是最基本、最重要的信息传递方式之一,也有着其不可替代的优势,如:简短明了、方便快捷、易于编辑、可归纳整理等。
如果对当今人工智能的主流技术——深度学习没有了解,可能真的会有人觉得,当前的科学家们在创造无所不能、无所不知的电影AI形象。
机器之心报道 SketchX 实验室 「你画我猜」是一种广泛流传在不同文化中的人类通识游戏,其形式简单但高度体现人类的认知智慧。近日一篇被计算机图形学顶会 SIGGRAPH ASIA 2020 接收的论文提出了一种基于草图的生成优化方法。在给定一个视觉概念的前提下,相较于人类竞争者,该模型能够以相似或更快的速度实现可识别的草图渲染。 近几十年来,AI 在越来越多的游戏中逐渐达到了能够与人类同台竞技的水平。从 1997 年在国际象棋比赛中胜出的 Deep Blue 到 2011 年在电视智力竞赛项目 Jeo
注:此篇内容主要是综合整理了光学字符识别 和OCR技术系列之一】字符识别技术总览,详情见文末参考文献
本文转载自王咏刚微信:半轻人,点击左下角阅读原文,可直达原文链接。 去年开始,工作中需要做许多有关 AI 科普的事情。很长时间里一直在想,该如何给一个没有 CS 背景的人讲解什么是深度学习,以便让一个非技术的投资人、企业管理者、行业专家、媒体记者乃至普通大众明白深度学习为什么会特别有效,理解 AI 是如何帮助人们解决具体问题的。中间经由 Quora 一篇简短回答的启发,大致形成了用水流脉络来比拟神经网络的想法。曾经在面向银行界、教育界、投资界人士的演讲中,尝试过基于这个比喻的讲解方法,效果很不错。慢慢就形成
去年开始,工作中需要做许多有关 AI 科普的事情。很长时间里一直在想,该如何给一个没有 CS 背景的人讲解什么是深度学习,以便让一个非技术的投资人、企业管理者、行业专家、媒体记者乃至普通大众明白深度学习为什么会特别有效,理解 AI 是如何帮助人们解决具体问题的。中间经由 Quora 一篇简短回答的启发,大致形成了用水流脉络来比拟神经网络的想法。曾经在面向银行界、教育界、投资界人士的演讲中,尝试过基于这个比喻的讲解方法,效果很不错。慢慢就形成了这样一篇文章,最近也被收进了李开复和我合著的科普书《人工智能》中。
去年开始,工作中需要做许多有关 AI 科普的事情。很长时间里一直在想,该如何给一个没有 CS 背景的人讲解什么是深度学习,以便让一个非技术的投资人、企业管理者、行业专家、媒体记者乃至普通大众明白深度学习为什么会特别有效,理解 AI 是如何帮助人们解决具体问题的。中间经由 Quora 一篇简短回答的启发,大致形成了用水流脉络来比拟神经网络的想法。曾经在面向银行界、教育界、投资界人士的演讲中,尝试过基于这个比喻的讲解方法,效果很不错。慢慢就形成了这样一篇文章,最近也被收进了李开复和我合著的科普书《人工智能》
安妮 编译自 苹果机器学习博客 量子位 出品 | 公众号 QbitAI 在手机、平板和可穿戴设备不断普及的今天,手写识别比以往任何时候都重要。但这并非易事,拿汉字来说,让移动设备识别大量手写汉字字符还是个挑战。 今天,苹果机器学习博客发表文章《Real-Time Recognition of Handwritten Chinese Characters Spanning a Large Inventory of 30,000 Characters》,介绍了苹果如何在iPhone、iPad和Apple Wat
前言 文字识别是计算机视觉研究领域的分支之一,归属于模式识别和人工智能,是计算机科学的重要组成部分 本文将以上图为主要线索,简要阐述在文字识别领域中的各个组成部分。 一 ,文字识别简介 计算机文字识别,俗称光学字符识别,英文全称是Optical Character Recognition(简称OCR),它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来,并转换成一种计算机能够接受、人又可以理解的格式。OCR技术是实现文字高速录入的一项关键技术。 在OCR技术中,印刷体文字识别是开展最早,技术
http://www.nlpr.ia.ac.cn/databases/handwriting/Offline_database.html
机器之心报道 编辑:杜伟 神奇的红石,神奇的我的世界,不可思议的 UP 主。 在我的世界(Minecraft)中,红石是一种非常重要的物品。它是游戏中的一种独特材料,开关、红石火把和红石块等能对导线或物体提供类似电流的能量。 红石电路可以为你建造用于控制或激活其他机械的结构,其本身既可以被设计为用于响应玩家的手动激活,也可以反复输出信号或者响应非玩家引发的变化,如生物移动、物品掉落、植物生长、日夜更替等等。 因此,在我的世界中,红石能够控制的机械类别极其多,小到简单机械如自动门、光开关和频闪电源,大到占地
手写汉字的一些特点: ①基本笔画变化。印刷体汉字的笔画基本上是横平竖直,折笔(乛、乙、く)的拐角大都是尖锐的钝角、锐角或直角,因而折笔基本上可以看做是由折线段所组成。我国手写汉字的笔画大都不具备上述的特点:横不平、竖不直,直笔画变弯,折笔的拐角变为圆弧,等等,例如,“品”字的三个“口”变成三个圆圈,“阝”变成“”;有时把较短的笔画变为“点”,有时则在起笔或折笔的拐角处增加额外的“笔锋”等。 ②笔画该连的不连,不该连的相连,这种情况十分普遍。它不是由于干扰等客观原因而产生,主要是由于书写者的习惯而造成的。应,笔画的长短及部件的大小也发生变化。以图4.l(a)的钢笔字帖为例,“担、打、报、择”几个字的偏旁“扌”,其竖笔长短不一,“阳、队、陈、陶”的部首“阝”也大小不同,它们在整字中的位置就有差异。方块汉字字形是一种艺术,书写时要求笔画及部件的形态和相互关系,尽量彼此协调,使整字字形结构匀称美观,因此上述笔画与部件的大小、位置变化,客观上是不可避免的。此外,由于书写者文化水平、习惯等的不同,他们所写的字差别就更大。样本属于比较工整的字样,但字形变化仍相当明显。这说明即使是同一个人写的字也有一定的差异。笔画长短、部首大小及位置等的变化,使我们难以仿照印刷体汉字识别的办法事先确定它们的位置,按规定区域提取笔画或部首特征。 a)一种钢笔字帖的字样;
自从退出中国的搜索引擎市场,谷歌大概无时不刻都想”卷土重来“。昨天,这家以搜索引擎著称的巨头公司用一款微信小程序“猜画小歌”占领了朋友圈“C位”,刷足存在感的同时,还顺便激发了身边一票“灵魂画手”。
每天给你送来NLP技术干货! ---- 来自:机器之心 编辑:杜伟 神奇的红石,神奇的我的世界,不可思议的 UP 主。 在我的世界(Minecraft)中,红石是一种非常重要的物品。它是游戏中的一种独特材料,开关、红石火把和红石块等能对导线或物体提供类似电流的能量。 红石电路可以为你建造用于控制或激活其他机械的结构,其本身既可以被设计为用于响应玩家的手动激活,也可以反复输出信号或者响应非玩家引发的变化,如生物移动、物品掉落、植物生长、日夜更替等等。 因此,在我的世界中,红石能够控制的机械类别极其多,小到简
脑机接口(BCI)可以帮助失去行动或说话能力的患者恢复交流能力。迄今为止,脑机接口研究的一个主要热点是恢复身体肌肉动作技能,例如用触摸和握紧或2D电脑光标点击输入。然而,高度灵巧的行为(如手写或触摸打字)可能需要更快的通信速度。
总的来说,根据神经网络模型的层数、神经元个数、模型复杂度不同,大致可分为两类:Shallow Neural Networks和Deep Neural Networks。上节课介绍的神经网络模型层数较少,属于Shallow Neural Networks,而本节课将着重介绍Deep Neural Networks。首先,比较一下二者之间的优缺点有哪些:
如何让计算机自动模仿梵高油画?DeepMind给出了一个强化学习的方法。通过给强化学习算法设定报酬函数,反复调整算法参数,使得报酬最大,DeepMind的AI完全自学地学会了绘画。
卷积神经网络特别适合处理像图片、视频、音频、语言文字等,这些与相互位置有一定关系的数据。
本文介绍一篇比较小众但非常有意思的手绘草图识别的新文章《Multi-Graph Transformer for Free-Hand Sketch Recognition》,其实质是提出了一种新颖的 Transformer 网络。
我们先看看这个小程序是什么,打开微信小程序搜索页面,搜索“猜画小歌”,打开这个小程序,点击开始作画。小程序会先出题,告诉你画什么,20秒倒计时,你画完内容,然后谷歌AI去猜,如果猜的答案和题目匹配,则通过,进入下一题,否则失败。乍一看,怎么像是在考我的绘画能力呢,哈哈。
近年来,人工智能在经历过一波由深度学习带来的火爆之后,已然进入深水区;如何通向强人工智能,逐渐成为智能研究的各界人士共同关注的中心话题。
昨晚,Nature子刊 Machine Intelligence发布了八月份最新接收论文,共 4 篇。其中两篇来自国内,一篇是清华生命学院龚海鹏和澳大利亚格里菲斯大学周耀旗等人用神经网络进行蛋白质结构预测方面的工作;另一篇则是中科院自动化所余山团队对深度神经网络在连续学习方面的改进工作。
谷歌在Gboard中改进了手写识别功能,使用更快的AI系统,错误比其原来的机器学习模型少20%到40%。
神经网络是个出色的绘画家早已不是什么大新闻,它能把一副草图变成风景画,两幅不同风格的画之间进行风格迁移。
本项目通过对拍摄的车牌图像进行灰度变换、边缘检测、腐蚀及平滑等过程来进行车牌图像预处理,并由此得到一种基于车牌颜色纹理特征的车牌定位方法,最终实现了车牌区域定位。车牌字符分割是为了方便后续对车牌字符进行匹配,从而对车牌进行识别。
最近受到b站一个视频的启发,想做一套属于自己的字体,但是又不想写好几千个字,为了偷个懒,调研了一下用神经网络合成字体的算法,最终找到一篇名为W-Net的论文:
OCR(optical character recognition)文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题。衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。
基于分割的识别算法是自然场景文本识别算法的一个重要分支(Wang 等,2012;Bissacco 等,2013;Jaderberg 等,2014),通常包括3 个步骤:图像预处理、单字符分割和单字符识别。基于分割的自然场景文本识别算法通常需要定位出输入文本图像中包含的每个字符的所在位置,通过单字符识别器识别出每一个字符,然后将所有的字符组合成字符串序列,得到最终的识别结果。
但无论是工整书写的 Tensorflow 官网上的 MNIST 教程,还是上节提到“草书”数字,都是 单一的数字识别问题。 但是,在实际生活中,遇到数字、字母识别问题时,往往需要识别一组数字。这时候一个简单的深度神经网络可能就做不到了。本节内容,就是在讨论遇到这种情况时,应该如何调整深度学习模型。
笔者作为一名根正苗红的理工男,内心却常常有很多文艺青年才会有的想法,例如写首诗、做首词,甚至包括春节写副对联,空有一番愿望却胸无点墨。随着对机器学习和深度学习的了解,逐渐萌生了使用机器帮助笔者完成文艺
谷歌在2017年5月发布的文章《ANeural Representation of Sketch Drawings》中,详细介绍了如何对这类简笔画进行建模,以及如何用电脑自动生成简笔画。
本文介绍了深度学习中的pre-training和regularization技术,以及如何使用自编码器(autoencoder)进行特征学习和降维。
https://faculty.blcu.edu.cn/system/resource/tsites/download.jsp?ap=jswzfj&fl=%2F_vsl%2FC703E9E1CDC6C1935C654FD92B74EC47%2F51F589F5%2FCA161&tid=25913&fid=1334
本文简要介绍2021年5月被Pattern Recognition录用论文“Stroke constrained attention network for online handwritten mathematical expression recognition”的主要工作。该论文是2019年发表在ICDAR上的文章[1]的升级版,本文以笔画为建模单位,提出了 Stroke Constrained Attention Network (SCAN),该模型可以被用于单模态(在线/离线)和多模态公式识别上,在CROHME数据集上的实验证明,该模型取得了SOTA的效果。
直播链接 2018 新智元产业跃迁 AI 技术峰会今天隆重启幕,点击链接观看大会盛况: 爱奇艺 http://www.iqiyi.com/l_19rr3aqz3z.html 腾讯新闻 http://v.qq.com/live/p/topic/49737/preview.html 新浪科技 http://video.sina.com.cn/l/p/1722511.html 云栖社区 https://yq.aliyun.com/webinar/play/419 斗鱼直播 https://www.
漫谈神经语言模型之中文输入法 Speech Valley是原先的github项目Automatic Speech Recognition的正式库名称,之所以取名为Speech Valley,是希望这个项目不仅可以包括语音识别,也能处理Speaker Verification、Text-to-Speech等问题,近期公众号将围绕语言模型、中文语音识别、说话人身份识别、语音合成等诸多前沿领域撰写系列文章与代码实践。 构建好一个强大的语言模型以后,可以应用到非常多的领域,最基本也最常用的毫无疑问就是输入法了,
---- 新智元报道 编辑:如願 好困 桃子 【新智元导读】可能你都想不到,一位不是计算机专业的UP主竟在「我的世界」里搭建出世界首个红石人工智能,就连图灵奖得主LeCun转发称赞。 耗时半年,B站UP主终于在「我的世界」实现了首个红石人工智能。 可以说,这是世界上第一个纯红石神经网络。 不仅可以实现15×15手写数字识别,最重要的是,准确率能够达到80%! 目前,这个视频已经有106万播放量,收获无数网友好评关注。 就连图灵奖得主,LeNet架构提出者,Yann LeCun还在社交媒体上转发了
感谢阅读「美图数据技术团队」的第 20 篇原创文章,关注我们持续获取美图最新数据技术动态。
本文为3Blue1Brown之《What is a Neural Network?》学习笔记 观看地址:bilibili.com/video/av15532370 这集Grant大佬假设大家都没有神经
不是因为这家公司要被欧盟罚款50亿美元,而是因为Google首款微信小程序“猜画小歌”:跟AI玩我画你猜的小游戏。
领取专属 10元无门槛券
手把手带您无忧上云