AI说:你的书法有咖喱味丨看字识国别

郭一璞 发自 凹非寺 量子位 报道 | 公众号 QbitAI

在电影《大侦探福尔摩斯》中,福尔摩斯能够根据两个英文字母的笔迹,判断书写者的才能与性格特点,识破对手的伪装。

如此神奇的笔迹理论听起来像是玄学,恐怕只能在小说电影中出现。现实社会中,利用笔迹来破案倒不是一件稀罕事。

但是,你听说过AI也能判断笔迹了么?

一个跨国研究团队通过机器学习的算法,让机器从英文手写的字迹中判断书写者来自中国、印度、马来西亚、孟加拉国和伊朗中的哪个国家。

这个团队包含中国、印度和马来西亚研究人员,其中两名中国研究者分别来自河海大学和南京大学。

亚洲五国英文书法

这项研究的基础是来自中国、印度、马来西亚、孟加拉国、伊朗五个国家的数据集。

研究者们找了每个国家100份英文书写文本,总共500份数据。

正如上图的例子所示,每个国家的人写英文风格都有所不同。

比如,中国人写英文就像写汉字,横平竖直,尤其是在“f”、“l”、“d”这些字幕上,竖着的笔画顶天立地一般。

而印度人和孟加拉人写的英文则完全不同,就像绣花一样,笔画圆润、上下起伏明显。

于是,他们根据笔画的特征,设计了下面这样一套方法:

降噪后提取笔画线条,识别字体数据的四种特征:距离因素、主成分分析(PCA Direction)、通过Cloud of Line Distribution软件进行的线分布特征、描边特征,通过分类器判断属于五个国家的哪一种。

Cloud of Line Distribution(COLD)是一个分析笔画的软件,可以分解单个字母,测量笔画的垂直度和弯曲度,进而判断写字者的国别。

五国人书写的英文描边特征有巨大的区别。

而通过COLD分析笔迹关键点,可以变为极坐标系的展示形式,而五国笔迹的极坐标系图有巨大差别:

综合所有特征,五国笔迹就有了他们特有的矢量特征:

准确率比前人算法翻倍

在最后的测试中,这套方法的确识别出了不少各种各样的字体:

研究者们统计了一下这个方法的准确率:

上图中,下面的表格是前人研究的方法测试结果,可以看出,针对数据集中的每个国家,笔迹识别准确率都在40%左右,没有过半;

上方的表格则是这次研究者们的测试结果,每个国家的笔迹识别准确率都在60%以上,平均达到了75%。

识别笔迹的国家到底有什么用?

75%的准确率并不是一个多么好看的数字,何况这是仅仅建立在5个国家的基础上的。

毕竟,人们对这项技术的应用还有疑虑。或许它可以用在刑侦领域,以字迹结合人脸识别、生物识别等技术来判断犯罪,但字迹的识别只能作为参考,有误判的可能性。

不过,字迹作为个人的数据也可以被用来做营销。想想去银行填单子的时候留下了多少字迹,或许他们就会用字迹判断国家,进而给你推送理财产品呢。

论文传送门

A New COLD Feature based Handwriting Analysis for Ethnicity/Nationality Identification 作者:Sauradip Nag, Palaiahnakote Shivakumara, Wu Yirui, Umapada Pal, Tong Lu Comments: Accepted in ICFHR18 arXiv: https://arxiv.org/abs/1806.07072

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2018-07-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏SIGAI学习与实践平台

永远的金大侠-人工智能的江湖

金庸先生已离我们远去,笔者当天在朋友圈看到这一消息时心情非常沉痛。作为在小学时就开始读金庸小说的80后,先生给我们的,不仅仅是一个个鲜活的人物,跌宕起伏的故事情...

901
来自专栏龙行天下CSIEM

科学瞎想系列之六十一 说说噪声

上节课老师说了振动,振动和噪声是不可分割的孪生兄弟,振动在介质中传播就形成声波,声波传到宝宝们的耳朵里就形成了噪声(也有说噪音的)。今天老师就给宝宝们说说噪...

3234
来自专栏新智元

长尾有多长:人工智能先驱与分形之父的幂律之争

【新智元导读】因为在人工智能等方面的突破性研究荣获图灵奖的赫伯特·亚历山大·西蒙(Herbert Alexander Simon)曾就幂律及其产生机制的问题与被...

3536
来自专栏机器人网

为什么要将超声波感应用于无人机

无人机降落辅助是无人机所具有的一项功能,可以检测无人机底部与着陆区域的距离,判定着陆点是否安全,然后缓慢下降到着陆区域。尽管GPS监测、气压传感和其他传感技术有...

1074
来自专栏BestSDK

如何用深度学习来识别恶意软件

这是一个悲伤的故事,你可能经历过。 你又热又渴,看到桌子上有一瓶看起来像水的东西,来不及思考,揭开瓶盖喝了一大口。哦!漏!是油! 时间回到10秒前,我们重来一次...

3319
来自专栏思影科技

脑电研究:睡眠中的婴儿大脑预测发育情况

传统观点认为九个月大之后的婴儿才能建立真正词汇的语义长程记忆,之前都处在呀呀学语的原词状态。来自德国柏林洪堡大学的学者Manuela Friedrich等人探索...

2714
来自专栏新智元

CVPR2019提交论文爆炸增长!有效论文数达5165,在线编辑器一度崩溃

今天,CVPR2019程序主席微软华刚在朋友圈透露,他和另外三位程序主席一起清点完CVPR2019的送审论文,发现:

1172
来自专栏大数据文摘

生命之圈:生物数据可视化的美丽新方法

30210
来自专栏思影科技

AD与MCI患者白质纤维束的减少(基于FBA分析)

来自澳洲Florey 神经科学与心理健康研究所的Remika Mito在Brain杂志上发文,基于全新的FBA(fixel-based analysis...

3726
来自专栏深度学习之tensorflow实战篇

R语言自带的数据文件

R语言有大量的样本数据可以直接用来作为数据分析和挖掘案例,可以收藏着以后用! R:datasets >install.packages("datasets")...

79511

扫码关注云+社区

领取腾讯云代金券