首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

谷歌大脑研究员玩转汉字RNN:神经网络生成新华字典

谷歌大脑东京分部的研究员hardmaru,用神经网络根据笔画生成汉字,新造了一系列“假汉字”。你别说,有些看上去还真像那么一回事。...谷歌大脑东京分部的研究人员hardmaru,使用神经网络生成汉字,但他与众不同的地方在于,由于提供给神经网络的数据是“笔画”,因此生成的是所有理论上可以存在,但现实中并没有在使用的汉字。 ?...hardmaru实现的是一个生成“新造”汉字的网络sketch-rnn,与Graves手写体生成模型框架(见下)类似。 ? 用于训练的数据是真实的汉字,并且包含了笔画顺序。...因此,神经网络生成的汉字看上去也是按照一定程度上合理的笔画顺序来的。 ?...训练数据样本,不同的颜色代表了笔画顺序,来源于KanjiVG数据集 在sketch-rnn中,每一笔都用类似笔画的数据建模,其中每一步数据都包含x和y轴的偏移量,以及这一笔是落在纸上还是没有落在纸上,如果落在纸上

80300

CNN-RNN-CTC 实现手写汉字识别

手写汉字脱机识别的困难 手写汉字脱机识别跟印刷汉字识别系统同属光符阅读器OCR的范畴。它们的识别对象都是二维的方块汉字,工作原理相同,系统构成也基本相似,但手写汉字脱机识别问题更多,困难更大。...我们知道,脱机汉字识别的对象是方块汉字的图形,用于识别的特征是根据汉字图形提取的,因而字形变化对识别结果具有决定性的影响。 手写汉字的一些特点: ①基本笔画变化。...笔画长短、部首大小及位置等的变化,使我们难以仿照印刷体汉字识别的办法事先确定它们的位置,按规定区域提取笔画或部首特征。...因此,对用于计算机自动识别的手写汉字应有所要求。具体地说,对构成汉字笔画及其相互关系,应有必要的规定和限制,不能无约束地随意书写。这种字叫做“限制性手写汉字”。...通常对书写的基本要求有如下几点: ①书写工整,笔画横平竖直,粗细均匀; ②不同笔画不连笔书写,联机识别时,应按常规笔顺书写。

4.2K21
您找到你想要的搜索结果了吗?
是的
没有找到

自然语言处理算法之cw2vec理论及其实现(基于汉字笔画

Vectors with Subword Information)直通车 全国知识图谱与语义计算大会(CCKS2018)8月14日至17日在天津举行,凭借出色的专业能力,阿里健康团队在中文电子病历命名实体识别评测任务中夺冠...本文将从背景知识、模型简介、c++实现、实验结果、结论等几个方面来进行阐述。...单个英文字符(character)是不具备语义的,而中文汉字往往具有很强的语义信息。不同于前人的工作,我们提出了“n元笔画”的概念。...那么“大人”这个词的笔画信息就可以表示为: 大人: 一ノ丶 ノ丶 大人:13434 我从训练语料中获取到13354个汉字,并获取笔画信息,统计笔画种类和上图一致,只有5种笔画信息。...参考资料: word2vec提出了CBOW和Skip-Gram两个模型 cw2vec 一个c++版本的cw2vec github代码: 汉字相关 汉字字典抽取笔画 对比分析 参考文献:

1.1K30

神经网络造“汉字”新技能全开,biangbiang面自愧不如

李林 发自 学院路 量子位 出品 | 公众号 QbitAI 正所谓古有仓颉,今有神经网络。 最近,谷歌大脑研究员David Ha做了个让神经网络和你一起写“汉字”的网页版Demo。...你在页面上写几笔,神经网络会根据你写出来的部分,补完一个“汉字”。 它的名字叫Kanji-RNN,创作过程就像这样: ?...我们起码可以看出,这个模型是用循环神经网络来预测下一笔该写什么、写在哪的; 其次,David Ha在Google参与的一项大工程,就是那个让你教机器画简笔画的Sketch-RNN,他之前在GitHub上发布的旧版...总之,这应该是一个以Sketch-RNN的JavaScript实现为基础,用KanjiVG训练的卷积神经网络,与之前广受欢迎的Google神经网络画简笔画系列同宗同源。 ?...一是因为它并不会真的用你的笔画匹配真正的汉字,而是根据你的笔画“创造一个像汉字的图形”,很多时候写出来的都实在不像字;另一个原因呢,就在它的名字Kanji-RNN,和数据集KanjiVG里。

43910

北师大郭桃梅课题组在《Brain Structure and Function》发表论文揭示汉字笔顺加工的脑网络

笔画汉字书写的基本构形单位,分为基本笔画(包括,横、竖、撇、捺、点、提,六个)和复合笔画(包括,横折、竖折等)这两种,复合笔画是由基本笔画组合而成的。...在汉字书写演变中,笔划被强制规定依特定的顺序规则书写(例如,先横后竖,先撇后捺,先左后右,先上后下,先中间后两边,先外后内,先外后内最后封口)。这些约定俗成的顺序也就是我们熟知的笔顺规则。...书写顺序汉字书写中起着重要作用。但是,目前对于汉字笔顺信息处理的的整体脑激活模式和脑网络机制却知之甚少。...进一步的元分析解码结果表明,加工汉字笔顺的大脑激活模式与规则,顺序,空间注意,动作观察,动作想象,转换和抑制有相对较强的相关,与期望,执行功能和更新之间相对有较弱的相关。...为了进一步细致地描述和解析网络,使用Louvain算法将网络划分为3个模块:右侧海马旁回和右侧颞中回被识别为模块1的组成部分;模块2包括左侧中央前回,左侧壳核,右侧额下回,右侧中央后回和右侧顶下小叶;模块

32020

cw2vec:蚂蚁金服公开最新基于笔画的中文词向量算法

全国知识图谱与语义计算大会(CCKS2018)8月14日至17日在天津举行,凭借出色的专业能力,阿里健康团队在中文电子病历命名实体识别评测任务中夺冠。...本文将从背景知识、模型简介、c++实现、实验结果、结论等几个方面来进行阐述。...所谓“n元笔画”,即就是中文词语(或汉字)连续的n个笔画构成的语义结构。 问题与挑战: 自然语言处理的顶级会议ACL 2017,共提出了未来的四大研究方向,如何更好的利用“亚词”信息就是其中的一个。...那么“大人”这个词的笔画信息就可以表示为: 大人:一ノ丶 ノ丶 大人:13434 我从训练语料中获取到13354个汉字,并获取笔画信息,统计笔画种类和上图一致,只有5种笔画信息。...,可以看出cw2vec在word similarity,word analogy,以及文本分类和命名实体识别的任务中均取得了一致性的提升。

1.2K20

【光学字符识别】OCR 浅述

由于人类识字的机理及过程并不清楚,汉字识别的研究还只能停留在一般模式识别问题的研究上,汉字识别的特别困难在于汉字的类别数量极为巨大,以及汉字字形的剧烈变化,这是其它模式识别问题很少遇到的,而且汉字识别的对象来自实际的文本图像...汉字识别的算法和方案探索,研究人员用如特征点方法、汉字周边特征、脱壳透视分类法、汉字微结构特征、汉字的结构元和外形形态特征等方法为基础研究成功一批汉字识别系统;从 90 年代初期开始到 90 年代中期,...相对于OCR,ICR更加注重识别字符的笔画笔画之间的空间关系,以及字符的书写风格等因素。ICR在实际应用中有着广泛的应用场景,例如手写体文件的识别、数字签名的识别等。...通过应用卷积神经网络(CNN)、循环神经网络(RNN)和长短期记忆网络(LSTM)等深度学习技术,我们可以实现高效准确的 OCR 定位与识别。...,在《基于深度学习的场景文字检测与识别》中提出的卷积循环神经网络就较好的完成了就吐想到文字序列识别

47130

这个老外竟然开发了一个汉字笔画

今天给大家介绍一个开源的汉字库,里面提供了大量精确的汉字笔画数据,可以通过手绘模仿的方式来学习和练习书写汉字——hanzi-writer Hanzi Writer Hanzi Writer 是 javascript...免费开源库,根据汉字书写时按照笔画顺序的特征,可以播放正确笔画顺序的描边动画和练习测试。...可以让全球用户能够通过手绘模仿的方式来学习和练习书写汉字。 特点 丰富性: 包含9000+个常用汉字笔画数据,覆盖广泛。 准确性: 笔画轨迹详细且精准,模拟真实书写体验。...onComplete: function () { //动画结束的回调 console.log("动画结束"); }, }); 分布绘画 调用animateStroke方法,传入笔画...SVG 使用原始字符数据实现汉字,描边扇形可视化 function renderFanningStrokes(target, strokes) { var svg = document.createElementNS

2400

UWP 手绘视频创作工具技术分享系列 - 文字的解析和绘制

本篇作为技术分享系列的第二篇,详细讲一下文字的解析和绘制,这部分功能的研究和最终实现由团队共同完成,目前还在寻找更理想的实现方式。...而这种路径数据,虽然能准确的勾勒出文字,但是缺点也很明显,首先 ttf 路径是文字的边缘路径,换句话说它是围着文字的周边描绘的,而不是正常的笔迹;其次 ttf 中的路径是完全没有顺序可言的,完全没有正常笔迹构成的文字笔画和笔顺...虽然它们都是由固定的十几个偏旁部首组成的,也有一些途径可以拿到每个汉字笔画和笔顺,但是想得到某个汉字的每个笔画的相对位置,就没有办法了,所以想按照部首来组成汉字的路径,也就行不通了,这也是我们目前遇到的瓶颈...我们目前正在尝试的方式是:     ① 通过一些合作网站获取的一种正规字型的字体的路径数据,如微软雅黑这种没有笔画附加路径的字体,我们称为基础路径     ② 获取常见汉字的笔顺和笔画组成     ③...对于每种字体,准备十几个部首的路径数据,覆盖所有汉字,我们称为部首路径     ④ 绘制时针对每个汉字,先取得笔顺中对应的笔画,对应取得基础路径中对应笔顺的起点,在从部首路径中取得对应部首。

1.2K80

苹果推出高精度手写识别系统,可准确识别3万字符集

但这并非易事,拿汉字来说,让移动设备识别大量手写汉字字符还是个挑战。...简介 手写识别能够提高用户在移动设备上的体验,尤其适用于汉字这种相对复杂文字的使用者。由于汉字数量和书写样式多,手写识别确实是个大挑战。...字母类的语言也就涉及到100多个字母的排列顺序,但在中国国家标准GB 18030-2005《信息技术中文编码字符集》中就收录了27533个字符。 日常生活中,人们只用得到最具代表性的一小部分。...然而,早期识别算法主要依赖分析笔画的构造。后来,研究人员对研究汉字整体结构的方法产生了兴趣。由于众多汉字具有相似性,汉字识别的难度加大,研究人员通过分类降低错误识别。...在MNIST数据集的拉丁文任务中,卷积神经网络(CNN)崭露头角。因为训练数据足够大,根据需要补充合成样例,CNN无疑是最好的方法。美中不足的是,这些研究中分的类别很少。

1.9K70

基于TensorFlow的循环神经网络生成矢量格式的伪造汉字

为了训练神经网络,我们汉字笔顺数据库中的汉字的实例输入给神经网络,这样神经网络也需要写出一个有着合理笔划顺序汉字。...[教你写漂亮汉字的游戏] 对于日本文化而言,笔划顺序是非常重要的,在这个社会中,过程和结果一样重要。一些书法家对待笔划顺序很认真,如果看到有人用不正确的笔划顺序汉字,可能会很生气。...Karpathy的博客和char-rnn 的实现有一些很好的例子来说明如何使用这个框架来生成以文本表示的数据。...Karpathy的char-rnn项目实现了Graves的论文中提到的上述网络。...正如前面提到的那样,写汉字时笔划的顺序很重要,即,使用不正确的笔顺顺序汉字,到达最后一个字符的时候,它仍然是一个不正确的汉字

2.6K80

五笔结构与识别码_五笔打字识别码怎么区分

末笔字型识别码表 末笔笔画只有五种,字型信息只有三类,因此末笔字型交叉识别码只有15种如表4-1所示。...如果字根编码和末笔交叉识别码都一样,这些汉字称重码字。对重码字只有进行选择操作,才能获得需要的汉字。...应当指出的是: (1)表4-1中,如(41)一栏中表明“41 Y丶”三种形式,其实您用任何一种形式当做“识别码”都是一样的,因为打的都是同一键。只不过用笔画形式易学易用、直观方便罢了。...(2)并不是所有的汉字都需要识别码,能拆出4个字根或更多字根的汉字,字根已经足够,在其全码中,便不需要因此也就没有“识别码”了。 (3)“识别码”只对“字根以外的字”才可以追加。...(5)下含“辶”的汉字一律规定为杂合型。 (6)拆分中还应注意,一个笔画不能割断用在两个字根中。

1.3K40

【OCR技术】大批量生成文字训练集

如果是想训练一个手写体识别的模型,用一些前人收集好的手写文字集就好了,比如中科院的这些数据集。...http://www.nlpr.ia.ac.cn/databases/handwriting/Offline_database.html 但是如果我们只是想要训练一个专门用于识别印刷汉字的模型,那么我们就需要各种印刷字体的训练集...我总结了一下,我们可以做的一些图像增强工作有这些: 文字扭曲 背景噪声(椒盐) 文字位置(设置文字的中心点) 笔画粘连(膨胀来模拟) 笔画断裂(腐蚀来模拟) 文字倾斜(文字旋转) 多种字体 做完以上增强后...一、生成汉字与label的对应表 这里的汉字、label映射表的生成我使用了pickel模块,借助它生成一个id:汉字的映射文件存储下来。 这里举个小例子说明怎么生成这个“汉字:id”映射表。...至此,我们所需的印刷体汉字数据集已经成功生成完毕,下一步要做的就是利用这些数据集设计一个卷积神经网络做文字识别了!

2.3K20

【独家】一文读懂文字识别(OCR)

OCR技术是实现文字高速录入的一项关键技术。 在OCR技术中,印刷体文字识别是开展最早,技术上最为成熟的一个。...2.4 特征提取与模型训练 在深度学习广泛应用于图像识别领域之前,模板匹配是较为常见的一种识别方式,之后由于神经网络的复苏,基于反馈的神经网络给OCR领域带来了又一春。...在神经网络出现之前以及之后很长一段时间,在汉字OCR领域,一直采用的就是这种模板匹配的方法。...对于联机手写体识别的处理流程,主要是利用笔划顺序作为序列模型,加上字符结构特征、笔顺方向特征、笔画数量特征作为空间模型,的组合式模型,完成识别任务。...5.5 参考文献 [1] 魏宏喜.印刷体蒙古文字识别中关键技术的研究[D].内蒙古大学硕士学位论文,2006. [2] 刘煜星.基于MapReduce的汉字识别的研究与实现[D].华南理工大学硕士学位论文

23.3K143

人机对战又添新领域:这篇SIGGRAPH AISA 2020论文让机器在「你画我猜」中击败你

在给定一个视觉概念的前提下,相较于人类竞争者,该模型能够以相似或更快的速度实现识别的草图渲染。 近几十年来,AI 在越来越多的游戏中逐渐达到了能够与人类同台竞技的水平。...Pixelor工作的通讯作者、来自萨里大学视觉语音和信号处理中心 (CVSSP) 的教授、SketchX实验室主任宋一晢 (Yi-Zhe Song) 所言:「对于Pixelor来说,最重要的是推理出哪些是对视觉识别最重要的笔画...在第一阶段,研究人员输入一个给定的训练草图集,并将每个个体草图以随机的笔画顺序打乱,其目的是希望学习推断出能够最大化该训练集早期识别度的笔画级排序。...想要实现更优草图笔画顺序的目标,一个显而易见的策略是详尽地评估所有可能的笔画顺序,然而这会在计算上产生难以处理的巨大搜索空间。...总而言之,该框架通过学习笔划评分策略避开了笔划顺序的组合搜索,进而实现了早期识别。 在第二阶段,Pixelor 根据上述经过最佳笔画顺序更新的数据集,来训练序列到序列的草图生成模型。

26610

B站大佬用我的世界搞出卷积神经网络,LeCun转发!爆肝6个月,播放破百万

他和朋友们合作完成的这个号称“世界首个纯红石神经网络”,神经元、卷积层、全连接层、激活函数、乘法器、输入、输出……样样俱全、蔚为壮观,而且可以真的实现手写数字识别,准确率还达到了80%。...本次作者们搭建的这个神经网络的架构,基于LeCun于1998年提出的经典卷积结构LeNet-5,它就是用来实现手写数字识别的。...总的来说,他们采用的是一个压缩的LeNet-5,先使用一个带权重的窗口(卷积核)逐次扫描图像并提取笔画特征,然后将这些笔画特征馈入到深度神经网络(全连接层)进行分类识别。...因为“这要求作者对算法的底层实现或者硬件执行原理(类似cuda编程)有深刻的理解,还能使用游戏机制来优化执行过程以及完成并行计算”。 虽然最终识别速度比较慢,但“在这里探讨效率的意义不大”。...@辰占鳌头在2014年的时候就开始接触《我的世界》这款游戏了,曾做过一个编码汉字的显示器和一个8位的CPU。

24110
领券