腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
机器学习与统计学
专栏作者
举报
790
文章
1086511
阅读量
96
订阅数
订阅专栏
申请加入专栏
全部文章
编程算法
机器学习
神经网络
python
深度学习
https
人工智能
网络安全
数据分析
r 语言
github
git
决策树
开源
numpy
线性回归
matlab
模型
tensorflow
数据
数据库
http
sql
大数据
云计算
pytorch
数据结构
scikit-learn
云数据库 SQL Server
监督学习
keras
windows
数据可视化
工作
NLP 服务
c++
javascript
html
api
linux
网站
数据处理
函数
数据挖掘
java
批量计算
腾讯云测试服务
论文
数学
性能
css
ide
文件存储
图像处理
缓存
爬虫
hadoop
卷积神经网络
markdown
kernel
anaconda
gpt
统计
c 语言
php
bash
node.js
unix
mapreduce
容器
游戏
强化学习
正则表达式
机器人
学习方法
工具
自动驾驶
go
bootstrap
命令行工具
yarn
shell
图像识别
scrapy
腾讯云开发者社区
chatgpt
plot
shift
测试
基础
技巧
数据科学
算法
官方文档
actionscript
xml
json
云数据库 Redis
postgresql
打包
vba
搜索引擎
中文分词
apache
访问管理
视频处理
企业
serverless
存储
自动化
无人驾驶
hive
opencv
微信
fpga
特征工程
excel
jupyter
openai
precision
spss
变量
部署
翻译
集合
教程
开发
设计
事件
优化
原理
字符串
云点播
对象存储
人脸识别
mac os
react
jquery
android
qt
单片机
oracle
nosql
flask
ubuntu
bash 指令
日志服务
TDSQL MySQL 版
数据库一体机 TData
音视频点播加速
SSL 证书
图片标签
机器翻译
大数据处理套件 TBDS
云推荐引擎
医疗
electron
分布式
运维
gui
面向对象编程
推荐系统
grep
tcp/ip
udp
无监督学习
安全
物联网
haskell
nest
sdn
聚类算法
jupyter notebook
ipv6
迁移
flink
程序人生
数据库管理
数据湖
汽车
alpha
altair
amp
app
axis
com
component
copy
correlation
csv
curve
data
difference
el
explorer
heatmap
int
kaggle
label
math
matrix
mean
meta
model
object
partial
pdf
pip
pivot
random
sample
scipy
self
solver
space
stack
subplot
subset
sum
table
title
txt
var
view
word
z3
遍历
编码
博客
产品经理
程序员
对象
行业
互联网
计算机
脚本
开发者
可视化
框架
连接
命令行
入门
实践
视频
手机
数组
搜索
索引
调试
图表
移动端
源码
语音助手
机器学习算法
玩转腾讯混元大模型
搜索文章
搜索
搜索
关闭
统计计量 | 吸烟的人更长寿?冰淇淋销量越好溺亡人数越多?——相关分析概述
编程算法
数据分析
大数据
所谓联,这里指的就是事物之间的相互影响、相互制约、相互印证的关系。而事物这种相互影响、相互关联的关系,在统计学上就叫做相关关系,简称相关性。
统计学家
2021-10-11
919
0
统 计 学 无 用 了 ???
数据分析
大数据
在谈大数据之前,我们首先来看看什么是数据。很长一段时间里,大家对数据的理解,可能只是停留在阿拉伯数字这个层面。近些年来,大家开始讲大数据。结果有人就开始好奇了:这个大数据和我们之前说的数据有什么关系呢?
统计学家
2021-07-28
432
0
3段极简代码带你入门Python科学计算库SciPy
大数据
matlab
python
编程算法
导读:SciPy是基于NumPy的,提供了更多的科学计算功能,比如线性代数、优化、积分、插值、信号处理等。
统计学家
2021-03-24
423
0
超详细丨完整的【推荐系统】架构设计
推荐系统
编程算法
大数据
机器学习
神经网络
本文我们将从架构设计的角度回顾和讨论推荐系统的一些核心算法模块,重点从离线层、近线层和在线层三个架构层面讨论这些算法。
统计学家
2020-09-22
1.5K
0
16万高中生今年没高考,用统计模型估成绩
大数据
数据分析
机器学习
神经网络
深度学习
由于疫情的原因,全球受认可度最高的基础教育组织“国际文凭(IB)在今年5月被迫取消了期末统考。
统计学家
2020-07-22
391
0
数据分析知识点速查表
数据分析
大数据
python
hive
Python 被称为万能胶水语言,适用性强,能轻松实现很多数据科学应用,还能使数据分析工作自动化。
统计学家
2020-06-07
614
0
滴滴首席统计学家:数据产品的一些思考
数据挖掘
大数据
编程算法
学习方法
强化学习
导读:一个成功的数据产品有三个核心层,包含一个中心(应用层)与两个基本点(数据层和算法层)。其中应用层最重要,就是说给谁创造价值,也可以叫业务目标。判断一个数据产品的好坏在于它有没有真正给受众创造价值,创造多大价值。
统计学家
2020-05-06
694
0
统计学和机器学习到底有什么区别?
机器学习
线性回归
大数据
腾讯云测试服务
编程算法
例如,诺奖得主托马斯·萨金特曾经说过人工智能其实就是统计学,只不过用了一个很华丽的辞藻。
统计学家
2019-05-10
290
0
《2019中国人工智能独角兽白皮书》发布
物联网
大数据
神经网络
深度学习
人工智能
近日,新智元重磅发布《2019中国人工智能独角兽白皮书》(以下简称“白皮书”),分析国内人工智能领域的企业,并公布了中国人工智能独角兽企业(Top 50)榜单。AIoT(人工智能物联网)领域的先行者特斯联科技位列其中,获评极具潜力的AI独角兽企业。
统计学家
2019-04-23
1.1K
0
【周末荐书】-信号与噪声
大数据
人类每时每刻都需要对未来进行预测并制定相应的策略,如此国家、企业乃至个体才能持续发展,因此我们对于“下一刻会发生什么”倍加关注。
统计学家
2019-04-10
417
0
【数据分析 R语言实战】学习笔记 第一章 数据分析导引
数据分析
大数据
数据库
TDSQL MySQL 版
sql
(1)数据分析是为了验证假设的问题,需要提供必要的数据验证。在数据分析中,分析模型构建完成后,需要利用测试数据验证模型的正确性。
统计学家
2019-04-10
416
0
将Hadoop作为基于云的托管服务的优劣势分析
hadoop
大数据
mapreduce
yarn
apache
Apache Hadoop是一种开源软件框架,能够对分布式集群上的大数据集进行高吞吐量处理。Apache模块包括Hadoop Common,这是一组常见的实用工具,可以通过模块来运行。这些模块还包括:Hadoop分布式文件系统(HDFS)、用于任务调度和集群资源管理的 Hadoop YARN以及Hadoop MapReduce,后者是一种基于YARN的系统,能够并行处理庞大的数据集。 Apache还提供了另外的开源软件,可以在Hadoop上运行,比如分析引擎Spark(它也能独立运行)和编程语言Pig。 Hadoop 之所以广受欢迎,就是因为它为使用大众化硬件处理大数据提供了一种几乎没有限制的环境。添加节点是个简单的过程,对这个框架没有任何负面影响。 Hadoop具有高扩展性,能够从单单一台服务器灵活扩展到成千上万台服务器,每个集群运行自己的计算和存储资源。Hadoop在应用程序层面提供了高可用性,所以集群硬件可以是现成的。 实际的使用场合包括:在线旅游(Hadoop声称它是80%的网上旅游预订业务的可靠的大数据平台)、批量分析、社交媒体应用程序提供和分析、供应链优化、移动数据管理、医疗保健及更多场合。 它有什么缺点吗? Hadoop很复杂,需要大量的员工时间和扎实的专业知识,这就阻碍了它在缺少专业IT人员的公司企业的采用速度。由于需要专家级管理员,加上广泛分布的集群方面需要庞大的成本支出,从中获得商业价值也可能是个挑战。I 集群管理也可能颇为棘手。虽然Hadoop统一了分布式计算,但是配备和管理另外的数据中心、更不用说与远程员工打交道,增添了复杂性和成本。结果就是,Hadoop集群可能显得过于孤立。
统计学家
2019-04-10
2K
0
一篇文章彻底明白Hive数据存储的各种模式
存储
hive
大数据
hadoop
数据库
Hive是基于Hadoop分布式文件系统的,它的数据存储在Hadoop分布式文件系统中。Hive本身是没有专门的数据存储格式,也没有为数据建立索引,只需要在创建表的时候告诉Hive数据中的列分隔符和行分隔符,Hive就可以解析数据。所以往Hive表里面导入数据只是简单的将数据移动到表所在的目录中 Hive的数据分为表数据和元数据,表数据是Hive中表格(table)具有的数据;而元数据是用来存储表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。下面分别来介绍。 一、Hive的数据存储 在让你真正明白什么是hive 博文中我们提到Hive是基于Hadoop分布式文件系统的,它的数据存储在Hadoop分布式文件系统中。Hive本身是没有专门的数据存储格式,也没有为数据建立索引,只需要在创建表的时候告诉Hive数据中的列分隔符和行分隔符,Hive就可以解析数据。所以往Hive表里面导入数据只是简单的将数据移动到表所在的目录中(如果数据是在HDFS上;但如果数据是在本地文件系统中,那么是将数据复制到表所在的目录中)。 Hive中主要包含以下几种数据模型:Table(表),External Table(外部表),Partition(分区),Bucket(桶)(本博客会专门写几篇博文来介绍分区和桶)。 1、表:Hive中的表和关系型数据库中的表在概念上很类似,每个表在HDFS中都有相应的目录用来存储表的数据,这个目录可以通过${HIVE_HOME}/conf/hive-site.xml配置文件中的 hive.metastore.warehouse.dir属性来配置,这个属性默认的值是/user/hive/warehouse(这个目录在 HDFS上),我们可以根据实际的情况来修改这个配置。如果我有一个表wyp,那么在HDFS中会创建/user/hive/warehouse/wyp 目录(这里假定hive.metastore.warehouse.dir配置为/user/hive/warehouse);wyp表所有的数据都存放在这个目录中。这个例外是外部表。 2、外部表:Hive中的外部表和表很类似,但是其数据不是放在自己表所属的目录中,而是存放到别处,这样的好处是如果你要删除这个外部表,该外部表所指向的数据是不会被删除的,它只会删除外部表对应的元数据;而如果你要删除表,该表对应的所有数据包括元数据都会被删除。 3、分区:在Hive中,表的每一个分区对应表下的相应目录,所有分区的数据都是存储在对应的目录中。比如wyp 表有dt和city两个分区,则对应dt=20131218,city=BJ对应表的目录为/user/hive/warehouse /dt=20131218/city=BJ,所有属于这个分区的数据都存放在这个目录中。 4、桶:对指定的列计算其hash,根据hash值切分数据,目的是为了并行,每一个桶对应一个文件(注意和分区的区别)。比如将wyp表id列分散至16个桶中,首先对id列的值计算hash,对应hash值为0和16的数据存储的HDFS目录为:/user /hive/warehouse/wyp/part-00000;而hash值为2的数据存储的HDFS 目录为:/user/hive/warehouse/wyp/part-00002。 来看下Hive数据抽象结构图
统计学家
2019-04-10
2.2K
0
[人工智能/数据科学比赛]海上风场SCADA数据缺失智能修复
大数据
数据分析
神经网络
深度学习
人工智能
2019数字中国创新大赛(Digital China Innovation Contest, DCIC 2019)由福建省数字福建建设领导小组办公室、福建省工业和信息化厅、福州市人民政府、中国电子信息产业发展研究院和数字中国研究院联合主办,第十二届全国政协副主席王钦敏担任大赛总顾问。作为第二届数字中国建设峰会的重要组成部分,本届赛事分为大数据、人工智能、工业互联网三大类算法题,旨在解决数字经济建设发展中的痛点、难点,推动新一代信息技术和传统产业的深入融合,助力数字中国建设。
统计学家
2019-04-08
1K
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档