你们对餐馆的吐槽,也许能挽救一场食品安全危机

如何解决老生常谈的食品安全问题?大数据时代,你的一句点评都可能派上用场。SODA大赛获奖团队“吃货俱乐部——评安食客”,就利用食药监提供的数据以及从大众点评爬取到的点评数据,开发了一款食品安全的评估预测模型。本文是团队成员刘啸在9月14日数据侠实验室17期现场的发言实录。

我们认为,做好食品安全要解决三个问题:实现政府监管,提高商家积极性,以及帮助食客了解哪些食品是安全的、去哪儿能吃到安全的食品。

去年参加SODA比赛(DT君注:评安食客参赛项目详见《他们做了这个人工智能平台,只为不辜负你对美食的热爱》)前,我们调查了市面上食品安全类的App,发现没有一款是可以同时满足这三方利益的。

除了食药监局的检测数据、Datashanghai(上海市政府数据服务网)开放的企业地址和类别信息数据、以及一些气象数据,我们主要还用了大众点评的用户评论数据。

对于点评数据,我们先做了个处理——就是先根据环境、卫生和综合,对这些评论数据分类。

接着也是我们的一个创新点:我们对每个餐馆都有个综合评分——情绪值。

这张图可以看到,中性或偏好的评价会比负面的更多点。

把非结构化的文本转化成量化的评分后,我们还融合了一些食品安全的检查结果,以及企业和天气的数据,通过一个神经网络的算法来找出那些检查结果不好的店的属性关联和分布特征。

我觉得,大数据最迷人的地方,不在于数据量大、处理不了,而是你能综合多维的数据,发现好和坏分别具有什么样的特征和关联特征,然后再去辨别什么餐馆做得好、什么做得不好。

我们采集了浦东的餐馆数据,下图可以看到不同评估类型的食品药品店的地域分布情况:

以上是我们去年的一些想法和成果。

接下来要说的,是今年我们获得了上海仪电等公司提供的一些溯源数据,包括油脂流入流出数据后所做的一些初步成果。

首先是油脂流入流出的数据。我们拿到这些油脂数据后,把它做成了OD(DT君注:起止点,即origin and destination),就是从哪里到哪里。

颜色比较深的是量比较大的,你可以看到这些油脂都去了什么地方——基本都集中在嘉定、浦东。

刚才是按照量来,然后我们又按照O点和D点来区分:红色是油脂流出,蓝色是流入,这样可以很好地分辨流出和流入的聚集地。

左图是总的数据状况,右图是把一些数据量小的的剔除后显示的一些大量的流向。

接着,我们还用到了食品的溯源数据,看看上海市内的食品从哪里来到哪里去。

我们发现了一些异常现象,我们看到有一些大量食品是在市内生产,最后反而送到了青浦。之后,我们会对这些异常现象做些分析。

我们继续分别查看食品流入和流出的情况,红色代表流出,蓝色代表流入。也可以看到一些明显的聚集特征。

接着我们来看全国的食品数据。

上海的很多食品都是从全国各地输入,也就是说上海接受着来自全国各地的食物的供养。下面这张图就很好地表达了这层意思。

下面这张图的信息和上一张是一样的。为什么要把它单列出来?你有没有发现这图其实很漂亮,就像蝴蝶一样。

我们也可以看到这些食品来自于哪些城市,有绍兴、泰安、杭州等等,说明这些地区的食品输往上海是比较多的。

我们接下来会把这些食品溯源、油脂回收、网上评论以及检查的数据关联起来,利用与去年类似的方法去判断这些食品生产企业和地域多维属性的关联关系和分布特征,看看在什么样的情况下,爆发食品安全问题的可能性更高。

比如,下面的两张图,左边图是我们食品检查结果的数据,红色代表食品不合格地区。右边图是油脂回收数据,蓝色代表油脂流入地区。

从图中我们其实已经可以看出油脂流入的地区正好也是食品检查结果不合格较多的地区,它们之间是否真的存在着某些关联呢?这个问题是非常值得去探索了。

类似这样的数据分析,一方面会为监测预警提供依据,同时也方便主管部门可以针对不同的情况制定相应的政策,从而达到精准治理的目的。

注:本文为数据侠刘啸演讲实录,已经作者审阅授权,文中图片均来自演讲PPT。

编辑 | 罗遥:luoyao@dtcj.com

数据侠门派

本文数据侠刘啸,SODA大赛获奖团队“吃货俱乐部——评安食客”成员,深圳位和科技有限公司区域经理。

原文发布于微信公众号 - DT数据侠(DTdatahero)

原文发表时间:2017-09-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人称T客

SaaS估值新模型SANE的介绍| 报告

T客汇官网:tikehui.com 撰文 | 卿云 由于Twilio(NYSE:TWLO)当时IPO,将其从此分析中将其排除。为了减轻数据中的生存偏差,早期数据...

3365
来自专栏AI科技大本营的专栏

谷歌启动机器学习初创大赛,奖金200万刀!

【AI100 导读】Google Cloud Next'17 大会刚刚宣布了对 Kaggle 的收购,就启动了总奖金额高达200万美元的谷歌云机器学习初创大赛...

2824
来自专栏AI科技评论

动态 | 最权威的比赛,看全球人脸识别技术发展格局

AI 科技评论按:在最近公布的国际权威人脸识别供应商测试 FRVT(Face Recognition Vendor Test)结果中,中国公司依图科技获得了四项...

3957
来自专栏机器之心

魔都要用最先进的神经网络预测交通?前排围观

你是否曾有过这样的经历——有时遇上一个红灯,接下来的每个路口就全是红灯;有时却是一路的绿灯?这并非个人的运气好坏,而是背后一套交通灯系统运行的系统在起作用。

1604
来自专栏AI科技大本营的专栏

CCAI 2017 | 邓小铁:金融博弈下的价值学习

上海交通大学计算机系邓小铁教授 文/CSDN焦燕 7 月 22 - 23 日,在中国科学技术协会、中国科学院的指导下,由中国人工智能学会、阿里巴巴集团 & 蚂蚁...

3696
来自专栏镁客网

第一批被AI累死的人

一眼望过去,一排排的电脑屏幕上,都是类似的画面。也许是因为窗帘的遮光效果太好,略显昏暗的办公环境加上电脑屏幕上被放大的各种物体细节,颇为惊悚。

1263
来自专栏新智元

从传统 CAD 到深度学习驱动的影像系统:智能医疗落地三大技术挑战

【新智元导读】从传统 CAD 发展到今天深度学习驱动的智能医疗影像系统,新技术的兴起和应用为医疗领域带来了哪些变化?智能医疗影像系统离常规临床应用还有多远?特...

5375
来自专栏机器学习算法与Python学习

369亿估值的AI市场下,中国AI学习者的野心与实力

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第一 【Python】:排名第三 【算法】:排名第四 最近几天,在 2018 CES科技盛...

36710
来自专栏DT数据侠

股票、基金买啥啥跌?大数据来给你支招!

说到基金股票,不仅仅是金融小白会一头雾水,就连资深股民都难逃买啥啥就跌的痛苦。近期数据侠实验室,DT君邀请到了Merkle高级数据分析师周秀丽、秦溱,自称金融小...

1030
来自专栏钱塘大数据

【AI的正面与侧面】披着光鲜的外衣的“数据民工”

像是一场明星演唱会,舞台上灯光华美,主角激情澎湃,粉丝呐喊欢呼,场面一片火爆,而幕后忙忙碌碌的那些人,who cares,人工智能行业大抵如此。繁荣光鲜的背后,...

4095

扫码关注云+社区

领取腾讯云代金券