腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
数据指象
专栏作者
举报
131
文章
55751
阅读量
23
订阅数
订阅专栏
申请加入专栏
全部文章
编程算法
数据分析
sql
python
大数据
神经网络
腾讯云开发者社区
机器学习
数据库
深度学习
人工智能
企业
r 语言
mapreduce
线性回归
data
数据
腾讯云测试服务
存储
数据处理
教育
统计
其他
NLP 服务
github
hadoop
https
数据集成
select
生命周期
官方文档
c 语言
c++
ruby
node.js
git
apache
TDSQL MySQL 版
SSL 证书
文字识别
网站
开源
缓存
爬虫
网络安全
spark
决策树
微信
小程序
数据可视化
hbase
云计算
聚类算法
分类算法
flink
Elasticsearch Service
汽车
analysis
app
attributes
csv
distribution
etl
excel
factory
ggplot2
ip
it
lm
max
min
models
object
olap
path
plot
point
scaling
series
similarity
structure
time
txt
磁盘
管理
规范化
基础
监控
配色
苹果
数学
算法
搜索文章
搜索
搜索
关闭
“数据质量”就是生命线
企业
管理
监控
生命周期
数据
随着三网融合、移动互联网、云计算、物联网的快速发展,数据的生产者、生产环节都在急速攀升,随之快速产生的数据呈指数级增长。在信息和网络技术飞速发展的今天,越来越多的企业业务和社会活动实现了数字化。全球最大的零售商沃尔玛,每天通过分布在世界各地的6000多家商店向全球客户销售超过2.67亿件商品,每小时获得2.5PB的交易数据。而物联网下的传感数据也慢慢发展成了大数据的主要来源之一。有研究估计,2015年全球数据量为8ZB,而到2020年则高达35.2ZB,是2015年数据量的44倍之多。此外,随着移动互联网、Web2.0技术和电子商务技术的飞速发展,大量的多媒体内容在指数增长的数据量中发挥着重要作用。
herain
2023-09-01
215
0
TF-IDF:数据分析岗位最看重什么?
企业
数据分析
基础
数据
统计
我们随机打开招聘网站,随机抽取13家公司招聘数据分析岗位的要求。数据分析岗位薪酬分布:8-50k,岗位要求描述:总计61行,用词 2899个。
herain
2023-09-01
139
0
抽转腾挪:python玩转csv数据
python
csv
select
数据
统计
用python处理结构化的CSV数据,我们自然而然会想到结构化查询语句(SQL),如果在python用sql语法来处理数据,肯定很丝滑。
herain
2023-09-01
128
0
谈谈大数据的核心技术
大数据
磁盘
数据
数学
算法
这些都不是大数据的核心技术:Hive、Spark、Mahout、Storm、HBase。只是大数据核心技术的衍生技术。 我们知道大数据的发展经历了或者正在经历着:搜索引擎时代、数据仓库时代、数据挖掘时代、机器学习时代。
herain
2023-09-01
96
0
揭秘:最小二乘法的重要特性
学过统计学的同学,深知最小二乘法是线性回归的基础,也是从描述统计到统计推断的必经之路。今天我们一起从线性代数的求解过程中,揭秘最小二乘法的重要特性。
herain
2022-12-12
295
0
建议:学习一门计算机语言
python
中国14亿人口,约8.54亿人使用互联网,人均使用时长高达4~5个小时。更多的人花更多的时间在互联网上,是一种生活方式的转变,也是经济新增长点的体现。顺势而为,才有可为。人与人紧密的沟通本质将体现在人与计算机的频繁交互之上。互联网的触角无处不在,拥抱互联比闭门不出的拒绝更理智。
herain
2022-12-12
445
0
妙计:布隆过滤器
存储
编程算法
在谈布隆过滤器算法的之前,我们先说一说查找,比如在1亿数据中 查找数字X是否存在。 常见的方法是: 1,遍历查找,随着数据量的增长,查询的时间复杂度O(n)也是线性增长的。 2,对数据排序之后,进行二分查找,查找的时间复杂度 O(logn) 3,使用哈希表k-v结构存储,这样通过判断X是否在K的集合,时间复杂度是O(1)。 这些方法都不可避免的需要存储所有数据,随着数据量的增加,存储空间也不断增加。 一,布隆过滤器的原理: 当然还有一种不需要存储数据,快速判断数据X是否存在的神奇方法:松下问童子。 童子具有先验的知识,能够判断师傅(X)在山中采药。 若有多个童子都判断 师傅(X)在在山中采药。 我们是不是就可以更准确的判断X存在了。
herain
2022-12-12
248
0
谈:女孩子要不要转数据岗
大数据
数据分析
回答这个问题需要解开三个关键点,一是女孩子更适合哪一个数据岗位?二是如何转行?三是数据岗位值不值转?
herain
2022-09-01
378
0
谈 “数仓与数分” 的4层级标杆能力
大数据
数据分析
公司恰如一辆汽车,不同的能力对标不同的职业等级,职业等级决定我们在什么地方做什么事?
herain
2022-06-21
592
0
手撕-基尼系数
编程算法
基尼系数是国际上最常用的分析国民收入分配格局的方法,度量分配的均衡性或差异程度。常用两种计算方法,一是:拟合曲线法、二是:直接计算。
herain
2022-06-21
542
0
谈谈ETL
数据集成
ETL绝不是三个单词直译这么简单,三个数据环节紧密连接构成体系庞大、技术复杂度的数据生态系统。
herain
2022-06-21
1.1K
0
谈谈ETL
数据集成
ETL绝不是三个单词直译这么简单,三个数据环节紧密连接构成体系庞大、技术复杂度的数据生态系统。
herain
2022-05-05
2.2K
1
经济分析中常用公式
lm
效用:指消费者在消费商品所获的感受的满足感,一个商品对某用户边际的满足感约等于某一常数。
herain
2022-04-27
787
0
网络-贝叶斯可视化
编程算法
机器学习
神经网络
深度学习
人工智能
贝叶斯网络 是对 朴素贝叶斯的一种补充。叶斯网络是贝叶斯原理和图论相结合,建立起一种基于概率推理的数学模型,对于解决复杂的不确定性和关联性问题有很强的优势。 朴素贝叶斯的假设前提有两个第一个为:各特征彼此独立;第二个为且对被解释变量的影响一致,不能进行变量筛选。但是我们知道:各特征彼此独立的假设在很多场景是很能成立或难以验证的。 叶斯网络在特征彼此不独立情况下具有更具普遍的意义,可进行建模。要求各变量都是离散型的。 贝叶斯网络基本概念有两个:引入了一个有向无环图(Directed Acyclic Graph)和一个条件概率表集合。
herain
2022-04-27
548
0
基于时间序列-分析出口对我国GDP的影响
编程算法
摘要:本文基于多元时间序列,描述我国GDP和出口额的协整关系,并通过回归模型评估出口额对我国GDP的贡献程度及我国对进口的依存度,对我国经济政策有指导意义。
herain
2022-04-27
701
0
如何学习数据运营?
企业
企业运营通常基于供给方原材料或商品进行加工或者整合为一个新的产品提供给自己的目标用户来消费进而谋取利益。
herain
2022-04-27
411
0
新年快乐,努力向前
编程算法
数据分析
sql
机器学习
神经网络
数据:承载信息符号的载体;其中信息是指“表征事物或者其属性的特定存在状态”的一种抽象物。一种事物具有具象实体和抽象虚体两部分;我们常说要透过事物的现象看清楚事物的本质。具象具有迷惑性,抽象却常常能够体现事物的本质。
herain
2022-04-27
2.4K
0
小米步枪:电商搜索优化
编程算法
多年前,在电商平台做了很多数据相关的工作,重心在数据BI,也和搜索推荐的同学搞了一些功能优化。让我记忆犹新的是搜索策略的优化。
herain
2022-04-27
291
0
清华优秀人才从哪里来?
最高学府清华大学2016~2021六年级优秀毕业生统计,从省份维度,来解读优秀人才从哪里来。
herain
2022-04-27
295
0
MapReduce与Spark 对比
spark
缓存
mapreduce
node.js
大数据
研究了一段时间,简单对比了二者不同点,也是Spark计算更有MapReduce的原因所在。
herain
2022-04-27
562
0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档