首页
学习
活动
专区
工具
TVP
发布

机器学习与统计学

专栏作者
790
文章
1086511
阅读量
96
订阅数
统计计量 | 吸烟的人更长寿?冰淇淋销量越好溺亡人数越多?——相关分析概述
所谓联,这里指的就是事物之间的相互影响、相互制约、相互印证的关系。而事物这种相互影响、相互关联的关系,在统计学上就叫做相关关系,简称相关性。
统计学家
2021-10-11
9190
统 计 学 无 用 了 ???
在谈大数据之前,我们首先来看看什么是数据。很长一段时间里,大家对数据的理解,可能只是停留在阿拉伯数字这个层面。近些年来,大家开始讲大数据。结果有人就开始好奇了:这个大数据和我们之前说的数据有什么关系呢?
统计学家
2021-07-28
4320
3段极简代码带你入门Python科学计算库SciPy
导读:SciPy是基于NumPy的,提供了更多的科学计算功能,比如线性代数、优化、积分、插值、信号处理等。
统计学家
2021-03-24
4230
超详细丨完整的【推荐系统】架构设计
本文我们将从架构设计的角度回顾和讨论推荐系统的一些核心算法模块,重点从离线层、近线层和在线层三个架构层面讨论这些算法。
统计学家
2020-09-22
1.5K0
16万高中生今年没高考,用统计模型估成绩
由于疫情的原因,全球受认可度最高的基础教育组织“国际文凭(IB)在今年5月被迫取消了期末统考。
统计学家
2020-07-22
3910
数据分析知识点速查表
Python 被称为万能胶水语言,适用性强,能轻松实现很多数据科学应用,还能使数据分析工作自动化。
统计学家
2020-06-07
6140
滴滴首席统计学家:数据产品的一些思考
导读:一个成功的数据产品有三个核心层,包含一个中心(应用层)与两个基本点(数据层和算法层)。其中应用层最重要,就是说给谁创造价值,也可以叫业务目标。判断一个数据产品的好坏在于它有没有真正给受众创造价值,创造多大价值。
统计学家
2020-05-06
6940
统计学和机器学习到底有什么区别?
例如,诺奖得主托马斯·萨金特曾经说过人工智能其实就是统计学,只不过用了一个很华丽的辞藻。
统计学家
2019-05-10
2900
《2019中国人工智能独角兽白皮书》发布
近日,新智元重磅发布《2019中国人工智能独角兽白皮书》(以下简称“白皮书”),分析国内人工智能领域的企业,并公布了中国人工智能独角兽企业(Top 50)榜单。AIoT(人工智能物联网)领域的先行者特斯联科技位列其中,获评极具潜力的AI独角兽企业。
统计学家
2019-04-23
1.1K0
【周末荐书】-信号与噪声
人类每时每刻都需要对未来进行预测并制定相应的策略,如此国家、企业乃至个体才能持续发展,因此我们对于“下一刻会发生什么”倍加关注。
统计学家
2019-04-10
4170
【数据分析 R语言实战】学习笔记 第一章 数据分析导引
(1)数据分析是为了验证假设的问题,需要提供必要的数据验证。在数据分析中,分析模型构建完成后,需要利用测试数据验证模型的正确性。
统计学家
2019-04-10
4160
将Hadoop作为基于云的托管服务的优劣势分析
 Apache Hadoop是一种开源软件框架,能够对分布式集群上的大数据集进行高吞吐量处理。Apache模块包括Hadoop Common,这是一组常见的实用工具,可以通过模块来运行。这些模块还包括:Hadoop分布式文件系统(HDFS)、用于任务调度和集群资源管理的 Hadoop YARN以及Hadoop MapReduce,后者是一种基于YARN的系统,能够并行处理庞大的数据集。   Apache还提供了另外的开源软件,可以在Hadoop上运行,比如分析引擎Spark(它也能独立运行)和编程语言Pig。   Hadoop 之所以广受欢迎,就是因为它为使用大众化硬件处理大数据提供了一种几乎没有限制的环境。添加节点是个简单的过程,对这个框架没有任何负面影响。 Hadoop具有高扩展性,能够从单单一台服务器灵活扩展到成千上万台服务器,每个集群运行自己的计算和存储资源。Hadoop在应用程序层面提供了高可用性,所以集群硬件可以是现成的。   实际的使用场合包括:在线旅游(Hadoop声称它是80%的网上旅游预订业务的可靠的大数据平台)、批量分析、社交媒体应用程序提供和分析、供应链优化、移动数据管理、医疗保健及更多场合。   它有什么缺点吗? Hadoop很复杂,需要大量的员工时间和扎实的专业知识,这就阻碍了它在缺少专业IT人员的公司企业的采用速度。由于需要专家级管理员,加上广泛分布的集群方面需要庞大的成本支出,从中获得商业价值也可能是个挑战。I   集群管理也可能颇为棘手。虽然Hadoop统一了分布式计算,但是配备和管理另外的数据中心、更不用说与远程员工打交道,增添了复杂性和成本。结果就是,Hadoop集群可能显得过于孤立。
统计学家
2019-04-10
2K0
一篇文章彻底明白Hive数据存储的各种模式
Hive是基于Hadoop分布式文件系统的,它的数据存储在Hadoop分布式文件系统中。Hive本身是没有专门的数据存储格式,也没有为数据建立索引,只需要在创建表的时候告诉Hive数据中的列分隔符和行分隔符,Hive就可以解析数据。所以往Hive表里面导入数据只是简单的将数据移动到表所在的目录中   Hive的数据分为表数据和元数据,表数据是Hive中表格(table)具有的数据;而元数据是用来存储表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。下面分别来介绍。 一、Hive的数据存储   在让你真正明白什么是hive 博文中我们提到Hive是基于Hadoop分布式文件系统的,它的数据存储在Hadoop分布式文件系统中。Hive本身是没有专门的数据存储格式,也没有为数据建立索引,只需要在创建表的时候告诉Hive数据中的列分隔符和行分隔符,Hive就可以解析数据。所以往Hive表里面导入数据只是简单的将数据移动到表所在的目录中(如果数据是在HDFS上;但如果数据是在本地文件系统中,那么是将数据复制到表所在的目录中)。   Hive中主要包含以下几种数据模型:Table(表),External Table(外部表),Partition(分区),Bucket(桶)(本博客会专门写几篇博文来介绍分区和桶)。   1、表:Hive中的表和关系型数据库中的表在概念上很类似,每个表在HDFS中都有相应的目录用来存储表的数据,这个目录可以通过${HIVE_HOME}/conf/hive-site.xml配置文件中的 hive.metastore.warehouse.dir属性来配置,这个属性默认的值是/user/hive/warehouse(这个目录在 HDFS上),我们可以根据实际的情况来修改这个配置。如果我有一个表wyp,那么在HDFS中会创建/user/hive/warehouse/wyp 目录(这里假定hive.metastore.warehouse.dir配置为/user/hive/warehouse);wyp表所有的数据都存放在这个目录中。这个例外是外部表。   2、外部表:Hive中的外部表和表很类似,但是其数据不是放在自己表所属的目录中,而是存放到别处,这样的好处是如果你要删除这个外部表,该外部表所指向的数据是不会被删除的,它只会删除外部表对应的元数据;而如果你要删除表,该表对应的所有数据包括元数据都会被删除。   3、分区:在Hive中,表的每一个分区对应表下的相应目录,所有分区的数据都是存储在对应的目录中。比如wyp 表有dt和city两个分区,则对应dt=20131218,city=BJ对应表的目录为/user/hive/warehouse /dt=20131218/city=BJ,所有属于这个分区的数据都存放在这个目录中。   4、桶:对指定的列计算其hash,根据hash值切分数据,目的是为了并行,每一个桶对应一个文件(注意和分区的区别)。比如将wyp表id列分散至16个桶中,首先对id列的值计算hash,对应hash值为0和16的数据存储的HDFS目录为:/user /hive/warehouse/wyp/part-00000;而hash值为2的数据存储的HDFS 目录为:/user/hive/warehouse/wyp/part-00002。   来看下Hive数据抽象结构图
统计学家
2019-04-10
2.2K0
[人工智能/数据科学比赛]海上风场SCADA数据缺失智能修复
2019数字中国创新大赛(Digital China Innovation Contest, DCIC 2019)由福建省数字福建建设领导小组办公室、福建省工业和信息化厅、福州市人民政府、中国电子信息产业发展研究院和数字中国研究院联合主办,第十二届全国政协副主席王钦敏担任大赛总顾问。作为第二届数字中国建设峰会的重要组成部分,本届赛事分为大数据、人工智能、工业互联网三大类算法题,旨在解决数字经济建设发展中的痛点、难点,推动新一代信息技术和传统产业的深入融合,助力数字中国建设。
统计学家
2019-04-08
1K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档