AiTechYun
编辑:chux
使用机器学习算法,研究人员可以分解一个人的手写英文文本,以确定这个人来自哪个国家,可以分辨出五个国家:马来西亚,伊朗,中国,印度和孟加拉国。
研究人员创建了一个由来自这些国家的100人组成的数据集,并用英语写作,共计500行。使用这些手写线,一个名为Cloud of Line Distribution或COLD的工具可以分解单个字母,测量文本的直线度或曲率。该算法在确定作者的国籍方面表现优于现有的同一任务方法,比一些国家的正确预测多一倍。
该算法正在进行机器学习最好的模式。例如,当中国人写英文时,他们往往用直线书写字母,因为汉字通常是用直笔画组合形成的。另一方面,来自印度和孟加拉国的人习惯用曲线书写,他们的大多数剧本都是草书,形状更圆。
阅读笔迹是计算机视觉研究人员解决的首要任务之一。以前的研究试图检测情绪,对性别进行分类,并确定作家的年龄,但除此之外,没有做太多工作试图从笔迹中挑出更多信息,可能是因为没有人找到通过它获利的方法。
来自印度,中国和马来西亚的研究人员提出这种技术对犯罪调查很有用。警方越来越多地转向生物识别技术来解决犯罪问题,从手写中提取识别信息可以作为人脸识别软件等其他技术的补充。
但他们没有解决可能来自此类技术和类似技术的任何隐私问题。例如,放大训练数据中现有偏见的错误可能会将错误的人牵连到刑事调查中。或者公司可以使用手写识别软件根据某人的国籍甚至智力等特征来区分潜在客户。
然而,在执法部门甚至考虑使用它之前,研究人员必须扩展他们用来证明COLD不仅仅是一个有趣项目的小数据集。
领取专属 10元无门槛券
私享最新 技术干货