受清华科研工作者青睐的数据超市到底是什么?文中一探究竟

数据超市分享会议现场

8月24日,2018大数据社会科学讲习班在清华大学举办。本次讲座由清华大学社科学院计算社会科学平台、清华大学创新发展研究院、清华大学经济学研究所、清华大学政治学系共同主办。讲座聚集了科学家、企业家以及新锐的科研工作者,共同探讨在大数据的环境下如何做好科研,此次讲座数据超市的相关负责人也受邀参加进行现场分享,主要基于现在做科研的痛点,怎么使科研工作者快速高效的跳过繁琐的步骤来玩转大数据,提高科研效率,降低成本,缩短时间。

互联网发展至今,“大数据”成为信息技术发展的新热点。科研工作也不例外,随着信息化的开展,在科研过程中产生的大量基础数据和伴生数据,都将成为科研领域宝贵的数据财富。但是大数据概念从提出至今,不过寥寥数年,行业探索仍需要继续。一方面,在高校科研项目中,社科系老师常需要处理的非结构化数据(文本、视频、声音等)也没有适当的工具,作为前沿科技,NLP还在不断完善中,这让社科老师们需要进行微博、微信这样的文本挖掘时,困难重重;另一方面,海量数据的出现不仅超出了普通人的理解和认知能力,也给计算机科学本身带来了巨大的挑战,当数据超过PB(1PB=1024TB,1TB=1024GB)时,数据的存储和计算都将无法在通用的计算机上实现。因此,目前许多在具体研究中所面临的最大问题是数据的获得、存储和计算,并被可视化的得出结论而应用到科研结果中。在这样的背景下,数据超市(www.bigdata711.com)应运而生,开发出让每一位科研老师都能玩转大数据的平台,让科研工作告别繁琐的数据整理步骤,让科研更好的呈现出来。

数据超市的优势

提供丰富的各类科研数据资源

数据超市通过自身渠道资源获取了百余款拥有版权的大数据资源,是真正意义上的大数据资源,并所有数据都经过审核,保证数据的高可用性。涵盖了数十个分类,包括了科研多个方向和领域,并在不断增加中。如果科研老师需要我们数据资源中没有的数据,我们还可以评估需求,通过公司渠道向第三方进行采购或使用爬虫程序进行采集(版权公开情况下),给科研老师提供需要的数据。除此以外,如果科研老师拥有自己的数据库,也可以通过授权方式上传到我们的平台中,进行计算。平台自身设计并优化了一套适用于用户的数据权限管理机制,所有数据资源都能够得到统一的权限管理,包括平台自身数据资源以及所有外部数据资源,保证了数据的安全性和可控性。平台采用分布式文件存储系统,每个数据都会冗余的存储三个副本,增强了数据的安全性和可靠性。

提供强大的零代码交互计算平台

专业提供7大类80多种通用算法,并且根据开源平台不断增加,可以满足科研大数据的处理理需求准确。除此以外,还提供了丰富的文本挖掘模型和算法,不但可以利用行业内已有的优质NLP算法,如分词、分类、情感分析等,还可以利用老师手边自有的语料数据,训练出老师自己的模型。科研老师只需要在画布上拖拽组件就可以形成科研流程、参数配置后,就可以进行数据计算或文本挖掘了。这里所有的算法都来自开源科研平台,经过了科研与商业领域的反复验证高可用性,基于数据超市的硬件框架和数据框架等进行了二次优化和封装。大大满足了科研工作者对大数据处理准确的需求。

提供可自定义的可视化图表效果

数据超市对数据进行计算的同时还可以对一定的计算结果进行可视化的展示,支持自定义选择可视化展示的维度和指标;支持多种图标类型的展示,可根据偏好配置图表的颜⾊色、数据标签、图例例等;包括柱状图,折线图,饼状图以及地理地图等等,老师可以将这些图表直接下载放到其科研报告或论文中。

丰富多样的可视化展示

数据超市在大数据的应用中取得了很大的进展。但真正驱使这个平台能够利用这一技术,为高校提供信息化服务的根本,在于他们对科研的深度理解和经验。让科研工作者能利用技术手段,去解决他们难以解决的困难,做有态度的数据超市。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180828A1OH5T00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券