民大创业团队发布藏文手写体数字数据集,全球首套!

什么是MNIST?

MNIST数据集来自美国国家标准与技术研究所,由令人尊敬的Yann LeCun教授主导建立,训练集由来自250个不同人手写的数字构成,共包含70000张数字图像,其中训练集60000张,测试集10000张。

自MNIST数据集建立以来,被广泛地应用于检验各种机器学习算法,测试各种模型,为机器学习的发展做出了不可磨灭的贡献,其当之无愧为历史上最伟大的数据集之一。

我们用它做些什么?

大家应该都用过触屏板的手写功能,每个人都有自己的数字书写风格,那么当我们写下数字之后,如何让计算机成功地识别呢?接下来就要有请机器学习算法登场了,通过建立一个卷积神经网络模型来解决这个问题,模型的结构如下所示:

通过输入MNIST数据对模型进行训练,最终我们会获得一个可识别手写体数字的网络模型,这就为计算机识别手写体数字提供了一种很棒的方法!

MNIST数据集的生命力极其旺盛,自其建立以来,在其基础上衍生出了更多的变式,如FashionMNIST等,它们都给出了不俗的表现。

将民族文化融入机器学习

作为中央民族大学的创业团队,巨神人工智能科技积极探索民族文化与机器学习相互融合的途径,在这样的初衷驱使下,TibetanMNIST应运而生!藏文作为我国的少数民族文字之一,具有十分悠久的文化历史,而藏文文字独特的书写方式和构造,使得其极具美感。藏文主要有楷体和行体两种文字,而他们本次制作的TibetanMNIST正是行体藏文中的数字,如下图所示:

将近15人的制作团队,历时1个月,超过300次反复筛选,最终得到17768张高清藏文手写体数字图像,形成了TibetanMNIST数据集。

使用TibentanMNIST进行模型训练

光说不练假把式,现在,跟官微君一起来使用TibentanMNIST数据进行训练,基于Keras,我们建立一个4层,含有1818个神经元节点的BP网络:

对网络结构进行可视化,如下所示:

经过10个世代,近170000次的训练,模型精度稳定在94%左右。

他们是谁?

是谁将民族文化与机器学习相结合?原来,TibetanMNIST背后是中央民族大学新生的创业团队——巨神人工智能科技。他们专注人工智能研究和数据分析拥有创业实践项目一项,国家级大学生创新训练计划多项,并在2018年6月被评为“北京地区高校优秀大学生创业团队”。

他们是怀揣着人工智能梦想的有志青年

他们的日常是这样的:

他们画的画是这样的:

他们的玩具是这样的:

当民族文化遇上机器学习,

会碰撞出怎样的火花?

有着这样那样奇思妙想的你,

不妨亲自闯一闯试一试,

民大助你

将梦想照进现实!

封面|丁梦瑶

编辑|彭 瑶

责编|李 琳

主编|李红亮

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181205B1JV9W00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券