首页
学习
活动
专区
工具
TVP
发布

PPV课数据科学社区

专栏作者
2119
文章
2430228
阅读量
187
订阅数
全世界最前沿的125个科学问题
简单归纳统计这125个问题,其中涉及生命科学的问题占46%,关系宇宙和地球的问题占16%,与物质科学相关的问题占14%以上,认知科学问题占9%。其余问题分别涉及数学与计算机科学、政治与经济、能源、环境和人口等。
小莹莹
2018-07-24
1.1K0
【平台】HBase学习总结
HBase的下载与安装 (HBase是一种数据库:Hadoop数据库,它是一种NoSQL存储系统,专门设计用来快速随机读写大规模数据。本文介绍HBase的下载与安装的整个过程。) 一、HBase的下载 1.登录HBase官网http://hbase.apache.org/,可看到如图1所示的页面: 图1 登录HBase官网的页面 2.点击图1中的红色小框中的“here”,进入如图2所示的页面。 图2 下载链接 3.点击图2中的红色小框中的链接,进入如图3所示的下载页面。 图3 下载
小莹莹
2018-04-25
3.1K1
【平台】详细总结 Hive VS 传统关系型数据库
本文思路,看图说话,一张图,清晰总结二者区别 下面对图中的各条做详细总结 1 查询语言 不做赘述 2 数据存储位置 不做赘述 3 数据格式 Hive:Hive
小莹莹
2018-04-25
1.3K0
【新闻】大数据可视化的新动态
大数据可视化的新动态 Intetix Foundation(英明泰思基金会)由从事数据科学、非营利组织和公共政策研究的中国学者发起成立,致力于通过数据科学改善人类社会和自然环境。通过联络、动员中美最顶尖的数据科学家和社会科学家,以及分布在全球的志愿者,我们创造性地践行着我们的使命:为美好生活洞见数据价值。 1 引言 数据可视化是将数据以不同形式展现在不同系统中,其中包括属性和变量的单位信息[1]。基于可视化发现数据的方法允许用户使用不同的数据源,来创建自定义分析。先进的分析集成了许多方法,为了支持交互式
小莹莹
2018-04-25
1.1K0
深度 | 我国医疗大数据技术的发展趋势
目前我国的医疗行业现状是:优质医疗资源集中在大城市,地方以及偏远地区医疗条件较差,医疗资源的配置不合理,导致了大量的长尾需求,催生了广阔的互联网医疗市场。在此背景下,互联网的“连接”属性得以发挥,有效提高了长尾市场的信息流通,降低了产品扩大受众群的成本,而大数据技术的应用能够使得医疗服务更加完善和精准。 医疗大数据的应用主要指的是将各个层次的医疗信息和数据,利用互联网以及大数据技术进行挖掘和分析,为医疗服务的提升提供有价值的依据,使医疗行业运营更高效,服务更精准,最终降低患者的医疗支出。 目前,中国医疗大
小莹莹
2018-04-25
2.7K0
从0到1掌握R语言网络爬虫
引言 网上的数据和信息无穷无尽,如今人人都用百度谷歌来作为获取知识,了解新鲜事物的首要信息源。所有的这些网上的信息都是直接可得的,而为了满足日益增长的数据需求,我坚信网络数据爬取已经是每个数据科学家的必备技能了。在本文的帮助下,你将会突破网络爬虫的技术壁垒,实现从不会到会。 大部分网上呈现的信息都是以非结构化的格式存储(html)且不提供直接的下载链接,因此,我们需要学习一些知识和经验来获取这些数据。 本文我将带你领略利用R做网络数据采集的全过程,通读文章后你将掌握如何来使用因特网上各位数据的技能。 目录
小莹莹
2018-04-24
1.9K0
内存带宽与计算能力,谁才是决定深度学习执行性能的关键?
随着深度学习的不断发展,计算能力得到了深度学习社区越来越多的注意。任何深度学习模型,归根到底都是需要跑在设备上的,而模型对设备性能的要求越低,则能得到越多的运用——千万不能让硬件成为了模型普及的瓶颈!
小莹莹
2018-04-24
1.7K0
大数据时代统计学发展的若干问题
作者:马双鸽,刘蒙阕,周峙利,方匡南,朱建平,谢邦昌 本文是发表在《统计研究》的论文基础上整理的,获国家社会科学基金项目“大数据的高维变量选择方法及其应用研究”( 批准号13CTJ001) 和国家自然科学基金面上项目“广义线性模型的组变量选择及其在信用评分中的应用”(批准号71471152) 的资助。 一、引言 随着计算机技术,尤其是互联网和多媒体技术的普及与飞速发展,人类社会被呈爆炸性增长的信息所包围。据国际商业机器公司(IBM)资料显示[1],目前数据的生成每日以千万亿字节来计算,全球近90%的数据是在
小莹莹
2018-04-24
2.9K0
大规模爬虫流程总结
爬虫是一个比较容易上手的技术,也许花5分钟看一篇文档就能爬取单个网页上的数据。但对于大规模爬虫,完全就是另一回事,并不是1*n这么简单,还会衍生出许多别的问题。 系统的大规模爬虫流程如图所示: 大规模数据采集流程图 先检查是否有API API是网站官方提供的数据接口,如果通过调用API采集数据,则相当于在网站允许的范围内采集,这样既不会有道德法律风险,也没有网站故意设置的障碍;不过调用API接口的访问则处于网站的控制中,网站可以用来收费,可以用来限制访问上限等。整体来看,如果数据采集的需求并不是很独
小莹莹
2018-04-24
1.1K0
【案例】大数据分析的几个绝佳用例
时至今日互联网每天新增的数据量达2.5*10^18字节,而全球90%的数据都是在过去的两年间创造出来的。举个直观的例子来说明一下互联网的数据量:假设大西洋里每一升海水代表一个字节的数据,那么整个大西洋
小莹莹
2018-04-23
1.1K0
【推荐】郭全中:大数据时代,传统媒体的突围之策
主讲嘉宾:郭全中 现为国家行政学院社会和文化教研部高级经济师,现为国家行政学院社会和文化教研部高级经济师,曾任中国新闻出版传媒集团公司董事会秘书、南方报业传媒集团战略运营部副主任(主持工作)。主要研究领域为文化产业、文化体制、传媒经济管理、集团公司管控等。中国人民大学管理学博士、北京大学光华管理学院博士后流动站南方报业传媒集团科研工作站博士后。 ---- 各位都是大数据方面的专家,我今天主要是向大家学习的。我主要结合传媒业的实际情况来谈谈大数据在传媒业的应用和发展,个人浅见,请大家批评指正。
小莹莹
2018-04-23
6520
【学习】数据分析师面试一般问些什么问题?
罗列一些经典的问题,以飨观众O(∩_∩)O~ 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最大的IP中,找出那个频率最大的IP,即为所求。 或者如下阐述:
小莹莹
2018-04-23
6860
【聚焦】如何利用大数据进行价值兑现才是正经事
如果有一天你可以预测未来,你要做的第一件事情是什么?买彩票?第二件、第三件事情呢? 先卖个关子,我们后面再说这件事情。 大数据是个产业,广义上指的是在这个信息过载时代围绕着海量信息产生、传播、收集、处理、创造价值的整个产品链条;狭义上一般指大数据存储与处理、数据挖掘的相关产业。目前市场上利用大数据最多的一般在于分析和预测。 根据笔者10年来在这个行业的从业经验,大数据与前两年的云计算、再往前的网格计算、并行计算都是相同产业链上几个环节,它是作为概念被媒体和从业者炒作起来的。但不可否认的是,我们的社会正处于信
小莹莹
2018-04-23
6540
【数据科学】R语言连接数据库
数据是关系数据库系统中存储的统一化格式。 因此,实施我们需要非常先进和复杂的SQL查询统计计算。但是R能够轻松地连接到诸如MySql, Oracle, Sql server等多种关系数据库并且可以从它们的记录转为R中的数据帧。一旦数据是在R环境中可用,就变成了正常R数据集,并可以被操纵或使用所有强大包和函数来进行分析。 在本教程中,我们将使用 MySQL 作为参考数据库,用于连接到 R 中。 RMySQL 软件包 R有一个名为“RMySQL”它提供了与 MySQL 数据库之间的本地连接的内置软件包。可以使用
小莹莹
2018-04-23
1.4K0
大数据用于互联网金融监管 北京市打响第一枪
当前非法集资处于高发态势。据统计,2014全年,北京市新发非法集资案89件,集资人2.1万人,涉案金额172.6亿元;同比分别增长了2.56倍、5.65倍、56.9倍。其中,以私募股权投资基金、P2P网贷、第三方理财为代表的金融类案件呈爆发态势增长。如何能够让互联网金融切切实实助力社会经济发展,而不是成为非法集资的温床,是社会各方共同关心的问题。 截至2015年4月份,全国运营的P2P平台有2421家,而问题平台达到了602家,从庞大的网络理财市场中发现并打击一批非法集资的公司,对整个市场的健康发展有着重要
小莹莹
2018-04-23
1.1K0
【案例】深度解析大数据在公安领域的应用
近一两年,大数据开始在公安等行业领域得到普及应用,除了行业自身的特殊要求外,大数据也带动了相关行业的需求发展。未来,基于大数据的行业应用会变得更加深入,更多的相关厂商也会涉及其中,大数据在公安领域的商业模式架构逐渐清晰起来。 在安防的细分领域中,大数据在公安及智能交通探索应用得比较早,相关的解决方案和技术也比较成熟,在广西等地也已经有相关的项目落地,大数据应用系统已经上线运营,取得了预期的效果。 项目应用前景看好 以相关的案例来讲,在广西公安厅投入使用的大数据系统中,整个项目是以自治区的总数据为出发点,
小莹莹
2018-04-23
1.6K0
数据正在催生的新经济
相比之下,数据交易几乎无迹可寻,至少,数据与金钱的交易鲜有存在。这跟它“新兴资产类别”这一称号很不相称。在2011年发布的一份报告中,世界经济论坛(WEF;达沃斯的会议组织机构兼智囊)就给数据冠以这一称号,隐含的意思是,构成数据经济的,将是欣欣向荣的数据信息市场。但从当前的情况来看,数据经济基本上是一个个相互孤立的“谷仓”集合体。 交易市场缺失的原因,也是相应企业产生的原因。由于市场交易携带的各种“交易成本”——搜寻信息、谈判交易、执行合同等等,在公司内部进行这些活动就会更加简单、高效。同理,比起在开放市
小莹莹
2018-04-23
6500
数据可视化常用的五种方式及案例分析
因为接下来要做卖家后台数据纵横的改版,对数据可视化这块儿又进行了研究和心得的整理,跟大家分享下数据可视化常用的五种方式,希望能给大家带来思路的拓展。 概念 借助于图形化的手段,清晰、快捷有效的传达与沟通信息。从用户的角度,数据可视化可以让用户快速抓住要点信息,让关键的数据点从人类的眼睛快速通往心灵深处。 数据可视化一般会具备以下几个特点:准确性、创新性 和 简洁性。 常用五种可视化方法 下面从最常用和实用的维度总结了如下5种数据可视化方法,让我们来一一看一下: 一、面积&尺寸可视化 对同一类图形(例如柱状、
小莹莹
2018-04-23
1K0
数据仓库Hive 基础知识(Hadoop)
Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQL语句实现简单的MR统计,Hive将HQL语句转换成MR任务进行执行。 一、概述 1-1 数据仓库概念 数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反应历史变化(Time Variant)的数据集合,用于支持管理决策
小莹莹
2018-04-23
1.9K0
大数据应用案例排行榜TOP100解读
当下,“大数据”几乎是每个IT人都在谈论的一个词汇,不单单是时代发展的趋势,也是革命技术的创新。大数据对于行业的用户也越来越重要。掌握了核心数据,不单单可以进行智能化的决策,还可以在竞争激烈的行业当中脱颖而出,所以对于大数据的战略布局让越来越多的企业引起了重视,并重新定义了自己的在行业的核心竞争。当然,越来越接地气越来越实为要。 在当前的互联网领域,大数据的应用已十分广泛,尤其以企业为主,企业成为大数据应用的主体。大数据真能改变企业的运作方式吗?答案毋庸置疑是肯定的。随着企业开始利用大数据,我们每天都会
小莹莹
2018-04-23
3.9K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档