首页
学习
活动
专区
工具
TVP
发布

数据指象

专栏作者
131
文章
55751
阅读量
23
订阅数
“数据质量”就是生命线
随着三网融合、移动互联网、云计算、物联网的快速发展,数据的生产者、生产环节都在急速攀升,随之快速产生的数据呈指数级增长。在信息和网络技术飞速发展的今天,越来越多的企业业务和社会活动实现了数字化。全球最大的零售商沃尔玛,每天通过分布在世界各地的6000多家商店向全球客户销售超过2.67亿件商品,每小时获得2.5PB的交易数据。而物联网下的传感数据也慢慢发展成了大数据的主要来源之一。有研究估计,2015年全球数据量为8ZB,而到2020年则高达35.2ZB,是2015年数据量的44倍之多。此外,随着移动互联网、Web2.0技术和电子商务技术的飞速发展,大量的多媒体内容在指数增长的数据量中发挥着重要作用。
herain
2023-09-01
2150
TF-IDF:数据分析岗位最看重什么?
我们随机打开招聘网站,随机抽取13家公司招聘数据分析岗位的要求。数据分析岗位薪酬分布:8-50k,岗位要求描述:总计61行,用词 2899个。
herain
2023-09-01
1390
抽转腾挪:python玩转csv数据
用python处理结构化的CSV数据,我们自然而然会想到结构化查询语句(SQL),如果在python用sql语法来处理数据,肯定很丝滑。
herain
2023-09-01
1280
谈谈大数据的核心技术
这些都不是大数据的核心技术:Hive、Spark、Mahout、Storm、HBase。只是大数据核心技术的衍生技术。 我们知道大数据的发展经历了或者正在经历着:搜索引擎时代、数据仓库时代、数据挖掘时代、机器学习时代。
herain
2023-09-01
960
揭秘:最小二乘法的重要特性
学过统计学的同学,深知最小二乘法是线性回归的基础,也是从描述统计到统计推断的必经之路。今天我们一起从线性代数的求解过程中,揭秘最小二乘法的重要特性。
herain
2022-12-12
2950
建议:学习一门计算机语言
中国14亿人口,约8.54亿人使用互联网,人均使用时长高达4~5个小时。更多的人花更多的时间在互联网上,是一种生活方式的转变,也是经济新增长点的体现。顺势而为,才有可为。人与人紧密的沟通本质将体现在人与计算机的频繁交互之上。互联网的触角无处不在,拥抱互联比闭门不出的拒绝更理智。
herain
2022-12-12
4450
妙计:布隆过滤器
在谈布隆过滤器算法的之前,我们先说一说查找,比如在1亿数据中 查找数字X是否存在。 常见的方法是: 1,遍历查找,随着数据量的增长,查询的时间复杂度O(n)也是线性增长的。 2,对数据排序之后,进行二分查找,查找的时间复杂度 O(logn) 3,使用哈希表k-v结构存储,这样通过判断X是否在K的集合,时间复杂度是O(1)。 这些方法都不可避免的需要存储所有数据,随着数据量的增加,存储空间也不断增加。 一,布隆过滤器的原理: 当然还有一种不需要存储数据,快速判断数据X是否存在的神奇方法:松下问童子。 童子具有先验的知识,能够判断师傅(X)在山中采药。 若有多个童子都判断 师傅(X)在在山中采药。 我们是不是就可以更准确的判断X存在了。
herain
2022-12-12
2480
谈:女孩子要不要转数据岗
回答这个问题需要解开三个关键点,一是女孩子更适合哪一个数据岗位?二是如何转行?三是数据岗位值不值转?
herain
2022-09-01
3780
谈 “数仓与数分” 的4层级标杆能力
公司恰如一辆汽车,不同的能力对标不同的职业等级,职业等级决定我们在什么地方做什么事?
herain
2022-06-21
5920
手撕-基尼系数
基尼系数是国际上最常用的分析国民收入分配格局的方法,度量分配的均衡性或差异程度。常用两种计算方法,一是:拟合曲线法、二是:直接计算。
herain
2022-06-21
5420
谈谈ETL
ETL绝不是三个单词直译这么简单,三个数据环节紧密连接构成体系庞大、技术复杂度的数据生态系统。
herain
2022-06-21
1.1K0
谈谈ETL
ETL绝不是三个单词直译这么简单,三个数据环节紧密连接构成体系庞大、技术复杂度的数据生态系统。
herain
2022-05-05
2.2K1
经济分析中常用公式
效用:指消费者在消费商品所获的感受的满足感,一个商品对某用户边际的满足感约等于某一常数。
herain
2022-04-27
7870
网络-贝叶斯可视化
贝叶斯网络 是对 朴素贝叶斯的一种补充。叶斯网络是贝叶斯原理和图论相结合,建立起一种基于概率推理的数学模型,对于解决复杂的不确定性和关联性问题有很强的优势。 朴素贝叶斯的假设前提有两个第一个为:各特征彼此独立;第二个为且对被解释变量的影响一致,不能进行变量筛选。但是我们知道:各特征彼此独立的假设在很多场景是很能成立或难以验证的。 叶斯网络在特征彼此不独立情况下具有更具普遍的意义,可进行建模。要求各变量都是离散型的。 贝叶斯网络基本概念有两个:引入了一个有向无环图(Directed Acyclic Graph)和一个条件概率表集合。
herain
2022-04-27
5480
基于时间序列-分析出口对我国GDP的影响
摘要:本文基于多元时间序列,描述我国GDP和出口额的协整关系,并通过回归模型评估出口额对我国GDP的贡献程度及我国对进口的依存度,对我国经济政策有指导意义。
herain
2022-04-27
7010
如何学习数据运营?
‍企业运营通常基于供给方原材料或商品进行加工或者整合为一个新的产品提供给自己的目标用户来消费进而谋取利益。
herain
2022-04-27
4110
新年快乐,努力向前
数据:承载信息符号的载体;其中信息是指“表征事物或者其属性的特定存在状态”的一种抽象物。一种事物具有具象实体和抽象虚体两部分;我们常说要透过事物的现象看清楚事物的本质。具象具有迷惑性,抽象却常常能够体现事物的本质。
herain
2022-04-27
2.4K0
小米步枪:电商搜索优化
多年前,在电商平台做了很多数据相关的工作,重心在数据BI,也和搜索推荐的同学搞了一些功能优化。让我记忆犹新的是搜索策略的优化。
herain
2022-04-27
2910
清华优秀人才从哪里来?
最高学府清华大学2016~2021六年级优秀毕业生统计,从省份维度,来解读优秀人才从哪里来。
herain
2022-04-27
2950
MapReduce与Spark 对比
研究了一段时间,简单对比了二者不同点,也是Spark计算更有MapReduce的原因所在。
herain
2022-04-27
5620
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档