首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

我在台湾,体验陌生的数据科学套路

噔噔噔噔!小性感们要变身了!新的栏目陆续登陆,可以小小地期待一下啦!✨

「小性感故事」第一波的访谈对象是在中国台湾交换时参加了当地D4SG(data science for social good)项目的Chon同学,他将给我们介绍自己在中国台湾所体验的数据向善项目

壹☉搭讪结缘

小性感caicai:能跟我们侃侃你是怎么知道有D4SG的存在的嘛?

Chon:这...其实就是个缘分,当时牵线的是一个开朗大方到处搭讪喜欢吃金拱门的CS码农汉子。

小性感caicai:还有这类码农的存在,快点介绍我

Chon:hhhhhhhh......我当时正在中国台湾逢甲大学的图书馆里折腾Mac的终端,这个资讯系(即计算机系)的同学看到了,过来很大方地搭话说想要交流一下。虽然我觉得自己啥都不会(),不过我们还是跑到金拱门里聊了一会,加了脸书。过了几天,他给我转发了逢甲大学资讯系在承办D4SG项目的通知。就这样机缘巧合,我参加了D4SG(Data for Social Good)的活动。

Chon:嗯嗯,那是阅读量相当高的一篇呢。他们常常做这种接地气的公益项目。除此之外,他们定期还会接受一些政府机关及各类社会机构的委托,去研究数据处理与分析的课题。参加后我才知道,他们有自己的数据科学家和工程师,同时也会和高校合作,在学校里设置工作坊,让感兴趣的在校学生参加项目,在实践过程中学习数据科学技能。

小性感caicai:那是不是凡是被那位开朗大方到处搭讪喜欢吃金拱门的CS码农汉子搭讪的都可以参加D4SG呀?

Chon:也并不是,人家还是有一定的选拔流程的。他们提供了一套国立中国台湾大学的R语言线上训练课程,要求我们在一个月内学完。那套教材是用Swirl包开发的,也就是用R学R。打开R Studio就能跟着命令行上课,上手很快。虽然我最后并没有完成所有的章节,但由于资讯系的同学大多也没看完,所以我依然通过了选拔。hhhhhh...至于看不完的原因....逢甲学生的浪漫似乎在于体育,特别是拔河,大晚上到处都在拔河......

小性感caicai:....好有画面感

贰☉沟通与技术缺一不可

小性感caicai:那你和拔河的小伙伴们在参加的这个数据向善项目时具体做的是什么呢?

Chon:先跟你说说整个项目的流程吧~(别急别急)

小性感caicai:好好好,你说你说(急死了)

Chon:前面的其实都是铺垫,正式的活动只有两天时间。之前提到的参加各个机构的项目代表们会带着他们的项目来活动现场做提案报告。坐在下面听报告的我们在那之后需要根据自己的兴趣选择要研究的项目。两天的期限内,选择了同一项目的小伙伴需要与机构研究员一起研究课题并拿出解决成果。在最后一天活动快结束时,我们会统一进行成果汇报。所以!真正用于编程的时间是比较紧的。第一天的晚上大部分的成员们都会加班,我们组也不例外(我也是见过凌晨4点的逢甲大学的人了)。

△ 介绍不同的项目中

我当时加入的是寻找违章工厂的小组课题。全台很多大城市周边都存在农地被工厂污染的问题,但这些问题常年来未能得到政府的有效治理。一些公益组织开始关注起这些问题,我参与的课题牵头机构——中国台湾环境资讯协会(TEIA)就是其中的一个。

小性感caicai:嗯嗯,的确是个问题。那除了你这个项目之外,其它的是关于什么的呀?

Chon:除了我参加的这个课题之外,还有一些比较有意思的(or 奇奇怪怪的)课题。比如中国台湾环境资讯协会的 ,台中市政府数字治理局的,家扶基金会的 , 以及 等。

小性感caicai:这些题目看起来不是两天不到的时间内能搞定的诶?

Chon:是啊是啊,哈哈哈哈哈。我当时觉得有些题目乍一听完全不知道如何下手。比如这个台中市政府的机房温度结构改善的课题,我觉得像数学建模。这样的课题要如何跟数据分析联系起来当时的我真的完全没有概念。

小性感caicai:那你们做项目的时候有人带么?

Chon:有的有的,毕竟我们对这个项目的背景完全不了解嘛。当时在我们参加黑客松寻找违章工厂这个项目一开始,来自TEIA的张教授就给我们讲解了她的研究成果,同时帮我们梳理了下整个事情的逻辑。她说,政府机关并不是一个紧密的整体,而是有很多部门独自运作,比如农业设施的建设就涉及农业部,经发局和工务局等。而这些部门在实际的协同中出现漏洞,导致当一些农业设施所有者将农用设施偷偷改造为违章工厂时,政府按照法规无法有效的识别和处罚这些违章的黑工厂。

我们项目小组那两天的任务就是按照张教授研究出的追查思路,去整合政府公开的税籍数据,登记数据整合,然后筛出这些“嫌疑违章工厂”,并且转换经纬度坐标定位到地图上,看看是不是真的在农业用地上。

△ 我所在的组在整理项目数据

小性感caicai:(不住的点头)那你觉得这和之前你参加过的Kaggle比赛(数据科学比赛)有什么不同?

Chon:我觉得区别还是蛮大的。我刚才说的很简单,但现实其实并没有想象的那么简单明了,整个过程非常曲折!我觉得一个原因是因为解决路径是不明确的。两天的工作完全不像在打数据挖掘比赛,而是不断的理解问题,和张教授交流。当组里资讯系的成员在写函数手拆json档时,其他组员一直在向研究员发问,挖掘政府部门和工厂关联的政策和法规背景知识,从而明确如何整合手上的这些数据,得到可操作的逻辑表达式。

这种工作路径是我以前没有体验过的。当我学习打一场Kaggle比赛时,我们一开始目的标便是明确的:训练一个尽可能准确的分类器。而在做数据向善项目时,目标和解决路径都只能通过我们理解问题本身的交流中逐渐变得清晰。

△ 生成的可视化图

小性感caicai:是的呢,跨领域去理解问题本身就是做数据向善项目的一大难点。

Chon:难是难,但我记得当导入数据,黄色的农业用地终于出现密密麻麻的红点时,我们都欢呼雀跃了!那时候我发现自己沉浸在一种陌生的成就感中。那感觉是一种发自内心的满足感,大概就是意识到自己做了一件好事,不是为了自己,而是为了某种高于自己的东西。作为本科专业绕着金融二字学各种数理化工具的我而言,这种感觉是新鲜而又震撼的。其实那段时间我刚考完托福,还处在准备出国各种材料的焦虑期中。但那短短的两天,我意识到自己展现出了一种全身心的投入,需求层次从解决温饱一下子拉到自我实现的高度,感觉整个人都活得真实了一些。

小性感caicai:拿小本本把你的感想记下来。那这两天的数据向善项目对解决实际问题有什么帮助吗?

Chon:项目的最后,我们成功地将违章工厂定位到了农业用地的地图上,交给了张教授带回TEIA做进一步调查。参加完数据向善项目过去了好些时日后,我看了下张教授的脸书,最新的一条依然是中国台湾各地农田的航拍,零星的污染工场散落在绿色的农田之中。TEIA保护农田,与各方进一步沟通的工作至今还在继续,并没有随着数据向善项目的结束而终止。我们得到的研究成果助力了问题的解决,把实际的工作又向前推进了一步。

小性感caicai:

为你和拔河的伙伴们点赞。

叁☉“感觉使得上劲儿”

Chon的独白:

在参与中国台湾数据向善的活动里,让我感受很深的是中国台湾各机构间的合作与联动。整个过程非常顺畅,没有什么距离感。我作为一位“路过”的交换生,也可以接触到公益组织的调查,政府机构与立法的难题。这些机构在技术实现上的困难通过D4SG这种公益组织轻松地委托给了有技能的大学生,学生也因此有机会积累有用的实务经验。真切地有一种使得上劲的感觉。

D4SG对我的三观无疑产生了一些撼动,我意识到对自己的专业从来没有展现出那样的热情,所以后来选学校时我也跨专业申请了一些DS相关的,从而认识了些同样热心公益的朋友。很羡慕遇见的那几位交大和台清华的老师,他们技术精湛,却像同学一样热情且谦和,在中国台湾各个城市中的学校与政府,公益机构间奔波,用业界前沿的知识去做公益。我想他们的生活应是充实且幸福的。

新来的你,快戳图片认识一下我们吧

如果你也对数据科学和公益的结合

能产生的巨大能量感到好奇,

就请多多关注我们现感的推文哟,

期待你加入进来一起做炫酷的事。

(喜欢的话戳一个给Chon同学啦)

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180708G1EHYR00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券