民大创业团队发布藏文手写体数字数据集，全球首套！

文章来源：企鹅号 - 中央民族大学

什么是MNIST？

MNIST数据集来自美国国家标准与技术研究所,由令人尊敬的Yann LeCun教授主导建立，训练集由来自250个不同人手写的数字构成,共包含70000张数字图像，其中训练集60000张，测试集10000张。

自MNIST数据集建立以来，被广泛地应用于检验各种机器学习算法，测试各种模型，为机器学习的发展做出了不可磨灭的贡献，其当之无愧为历史上最伟大的数据集之一。

我们用它做些什么？

大家应该都用过触屏板的手写功能，每个人都有自己的数字书写风格，那么当我们写下数字之后，如何让计算机成功地识别呢？接下来就要有请机器学习算法登场了，通过建立一个卷积神经网络模型来解决这个问题，模型的结构如下所示：

通过输入MNIST数据对模型进行训练，最终我们会获得一个可识别手写体数字的网络模型，这就为计算机识别手写体数字提供了一种很棒的方法！

MNIST数据集的生命力极其旺盛，自其建立以来，在其基础上衍生出了更多的变式，如FashionMNIST等，它们都给出了不俗的表现。

将民族文化融入机器学习

作为中央民族大学的创业团队，巨神人工智能科技积极探索民族文化与机器学习相互融合的途径，在这样的初衷驱使下，TibetanMNIST应运而生！藏文作为我国的少数民族文字之一，具有十分悠久的文化历史，而藏文文字独特的书写方式和构造，使得其极具美感。藏文主要有楷体和行体两种文字，而他们本次制作的TibetanMNIST正是行体藏文中的数字，如下图所示：

将近15人的制作团队，历时1个月，超过300次反复筛选，最终得到17768张高清藏文手写体数字图像，形成了TibetanMNIST数据集。

使用TibentanMNIST进行模型训练

光说不练假把式，现在，跟官微君一起来使用TibentanMNIST数据进行训练，基于Keras，我们建立一个4层，含有1818个神经元节点的BP网络：

对网络结构进行可视化，如下所示：

经过10个世代，近170000次的训练，模型精度稳定在94%左右。

他们是谁？

是谁将民族文化与机器学习相结合？原来，TibetanMNIST背后是中央民族大学新生的创业团队——巨神人工智能科技。他们专注人工智能研究和数据分析，拥有创业实践项目一项，国家级大学生创新训练计划多项，并在2018年6月被评为“北京地区高校优秀大学生创业团队”。

他们是怀揣着人工智能梦想的有志青年

他们的日常是这样的：

他们画的画是这样的：

他们的玩具是这样的：

当民族文化遇上机器学习，

会碰撞出怎样的火花？

有着这样那样奇思妙想的你，

不妨亲自闯一闯试一试，

民大助你

将梦想照进现实！

封面｜丁梦瑶

编辑｜彭　瑶

责编｜李　琳

主编｜李红亮

发表于: 2018-12-052018-12-05 20:36:25
原文链接：https://kuaibao.qq.com/s/20181205B1JV9W00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

民大创业团队发布藏文手写体数字数据集，全球首套！

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐