影响AI样本量的两个因素

文章来源：企鹅号 - 机械医

很久没更新“机械医”了，这里再说明下：这是一个定位于智慧医疗的行业自媒体，关注用智慧或者说人工智能的手段，去解决医疗和健康问题。这是我目前创业的方向，也是博士课题的研究方向。欢迎大家关注、交流。如果在医疗健康与人工智能两者之间，要我选出自己更关注哪个，我会选择人工智能。因为医疗健康是个永恒的命题，虽然现在也不乏精准医疗这样的亮点，但本身并不新鲜。而人工智能，却是人类一个新的法宝、新的利剑。我相信它会所向披靡，它会无所不能，它会迎来自己的时代，一个比互联网更汹涌的时代！

我们这次关注的是美国麻省总医院一个图像识别的案例。麻省总医院的研究团队，对904人约36160张头部CT扫描图像进行了数据标识后，用深度学习系统去进行辅助诊断，取得了不错的结果。在200次回归测试中，准确率与人类医生完全一致；在196次前瞻测试中，准确率还超越人类。

这个案例给我的启示是，小数据在人工智能的现实意义，以及如何提高小数据的准确率。大家都知道，人工智能算法的准确性，高度依赖数据的质和量。904人次的样本量算是比较小的，但这也是现实中普遍存在的情况，现实中搜集原始数据，特别是高质量的原始数据其实也很难，这就要求相关团队能在小数据的环境下开展工作。我曾经听过一个讲座，有团队用100个左右的脑电波样本，判断样本主体是否使用毒品的准确性达到87%左右。准备率多少并不是重点，重点是能在100个人这样极小的样本量上得出还不错的结论，这一样子大大增加了AI的可操作性。

影响样本量的因素有两个，一是需解决问题的难易程度，比如同样在图像识别领域，不同复杂程度的问题，对图像识别的精度要求是不一样的，进而会影响对样本量的要求。二是用户所需要的准确度，与人类的实际情况比，显然并不是所有问题都需要90%以上的准确性。对准备率要求不高的，样本量就可以少一些；准备率要求高的，才需要更大的样本量，没必要一步到位。

发表于: 2019-01-072019-01-07 08:00:54
原文链接：https://kuaibao.qq.com/s/20190107G05Z2E00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

影响AI样本量的两个因素

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐