首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

李长升博士:比赛是一次宝贵经历,不要错过

专家介绍:

李长升博士毕业于中科院自动化所模式识别与智能系统专业,2017年9月加盟电子科技大学计算机科学与工程学院大数据研究中心,主要研究方向包括机器学习、深度学习、多任务学习、特征学习等。

近五年以第一作者或者通讯作者发表CCF A类论文或者中科院JCR-1区期刊14篇,包括T-PAMI, T-NNLS, T-C, CVPR, IJCAI, AAAI, MM等,授权/申请专利近10项,同时担任十多个顶级期刊或者会议的审稿人或程序委员会委员。他也是SCI期刊IEEE ACCESS的副主编。

李长升博士

优易数据研究院人工智能所负责人

电子科技大学研究员

李长升博士是本次大赛的初赛评审专家之一,在算法赛初赛的最后冲刺阶段,我们特别邀请了李长升博士给我们做了一次深度答疑,大家一起来看看吧!

您是怎样看待目前社会信用情况?

1)我国的社会信用体系建设正处于全面发展的新阶段

随着党中央、国务院高度重视社会信用体系建设工作,覆盖全社会的征信系统逐步完善,守法诚信褒奖机制和违法失信惩戒机制愈加健全,市场主体诚信档案、行业黑名单制度等措施也体现出我国在社会信用方面做出的巨大努力,使人不敢失信、不能失信,目前成效已初步显现,社会影响力越来越大。在取得成效的同时,还有一些棘手的问题函待解决,如信用信息采集范围有限,数据孤岛,中小微企业和农村信用体系建设等。

2)互联网对征信的影响巨大

随着大数据的发展,信用体系完善的空间巨大,个人信用信息已经开始收集并可从多方面获取,但数据较为分散。互联网公司开始注重个人信用情况,并利用互联网手段收集个人信息,建立信用评分制度,用以完善信用评分,供企业对个人信用做以评估。同时,企业信息更加公开化,信息获取更加方便,有利于强化信用系统的建设。

您对于社会信用大数据的理解?

在互联网大数据时代,各种各样的信息越来越多的被以“数据”形态被记录、存储下来,这些数据包括了人们的基本信息、网络浏览行为、交易行为、社交行为,人们存储的文字、语音、图片、视频等等。

基于大数据的社会信用是建立在“一切数据皆信用”的基础之上,引入各种来源的海量数据,挖掘分析各种数据与信用之间的关系,从中提炼出高价值的信息,并灵活支撑日益增多的各类信用业务应用需求。

大数据技术具有高扩展性、高性能和强大的数据采集、处理、分析挖掘能力,因此在社会信用体系建设中具有很广阔的应用空间。信息大数据时代的到来为我国社会信用体系建设提出了新的发展方向,也为进一步完善信用数据统一平台提供了机遇,运用云计算、大数据等先进技术,推动地方、行业信用信息系统建设及互联互通,通过海量数据处理,逐步消除信息孤岛,实现信息资源全社会共享,发挥奖惩联动的最大威力,推进社会信用体系建设工作向纵深发展。

这次的企业合规风险预测,官方提供的数据文件接近20个,每个文件又有很多的属性。您觉得在处理数据的时候,参赛选手需不需要提前了解一些企业合规经营的常识性问题?在这方面您有什么好的建议和我们的参赛选手分享一下?

我认为参赛选手需要提前了解一些企业合规经营的常识性问题。

建议选手了解信用相关知识,中国的信用体系,银行的信用评级准则以及互联网衍生的信用评级方法,并了解企业财报信息和公示出的各信息的意义。

如何理解这次比赛的现实价值?

1)通过对企业信用情况进行预测,同时预测出企业违约的可能性,帮助公司规避风险,规范企业运营;

2)利用大数据的方法进行企业风险的预测,可以与传统信用预测相结合,推动风控分析的发展;

3)提供给参赛选手一个平台学习了解信用建模,并对自己的理论知识加以实践,还可与其他选手交流知识,共同提高。

数据集中大部分字段都不能直接用做特征,特征提取和特征选择方面有没有一些建议呢?

除了机器学习常见的特征工程的手段,还可以使用自然语言处理技术针对文本信息提取出有效的特征,多挖掘特征之间的关系,应用组合特征、交叉特征、合成特征等可能会得到更好的结果。

您对于大数据行业未来的预测?

大数据时代开启人类社会利用数据价值的另一个时代。它是一个好的工具,帮助人们提升社会生产效率,了解事物真相,认识客观规律,同时加快进入智慧社会,全世界都会聚焦于大数据行业。

随着大数据技术的飞速发展,大数据已经融入到各行各业。我国大数据技术的应用尚处于起步阶段,各行业、企业在数据采集和处理、应用等诸多方面均需要探索。展望未来,利用数据更好的了解用户、提供更加个性化的服务是众多企业的共同愿景,因此,提供整体解决方案的大数据公司机会最大。

请您给选手一些建议吧!

1)认真分析题目,了解字段的含义,关键点还是在于对业务的深刻理解上,以便构造出强有力的特征,多分析错误。

2)在参赛过程中多与其他参赛者互动,能不断地获得启发,受益良多。

3)模型融合是数据挖掘类比赛的惯用套路。

4)比赛是不断迭代的过程,将比赛代码的流程自动化,是提高比赛效率的一个关键。

5)保持良好的心态,因为比赛会给你带来压力,也许过了一晚,你的排名就会一落千丈。认真去做,这些都是很宝贵的经历。

对于进入复赛的选手,您认为应该注意的事项有哪些?

首先,确保算法在线下和线上的结果保持基本一致;

其次,由于评测次数有限,希望大家珍惜每一次评测机会;

最后,不要作弊,不要作弊,不要作弊!

最后,温馨提醒大家,10月22日17:00是算法赛初赛作品最后的提交时间,请各位参赛选手合理安排时间,发挥出自己最佳状态,再次预祝大家取得好成绩,我们复赛见!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181116G0XDWE00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券