SAMshare-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

SAMshare

专栏成员

272

文章

311553

阅读量

39

订阅数

一起揭开 Hive 编程的神秘面纱

hive hadoop sql 大数据 mapreduce

Hadoop实现了一个特别的计算模型，就是MapReduce，可以将我们的计算任务分拆成多个小的计算单元，然后分配到家用或者服务器级别的硬件机器上，从而达到降低成本以及可扩展的问题，在这个MapReduce计算模型底下，有一个分布式文件系统（HDFS），在支持分布式计算上极其重要。

2021-09-29

5460

金色传说，开源教程！属于算法的大数据工具-pyspark

spark scala 大数据官方文档

spark是目前大数据领域的核心技术栈，许多从事数据相关工作的小伙伴都想驯服它，变成"驯龙高手"，以便能够驾驭成百上千台机器组成的集群之龙来驰骋于大数据之海。

2021-01-18

1.2K0

想学习Spark？先带你了解一些基础的知识

sql hadoop apache 大数据分布式

之前也学习过一阵子的Spark了，是时候先输出一些知识内容了，一来加深印象，二来也可以分享知识，一举多得，今天这篇主要是在学习实验楼的一门课程中自己记下来的笔记，简单梳理了一下，当做是需要了解得基础知识，让不熟悉Spark的同学也有一些简单的认识，里面若有写错的地方也希望大伙们指出哈。

2020-07-28

2.1K0

数据质量问题剖析与解决锦囊

数据库大数据 sql

数据质量的问题影响业务是十分常见的，比如某个数据应用（报表A）的数据出现了异常，使用方就会因为出了异常不会使用，这样子会很影响业务的开展。一个好的数据服务应该是需要对这些质量问题有一个“预知”能力，简单来说就是需要先于业务知道问题，从而提前解决。

2020-05-09

5480

73页PPT，教你从0到1构建用户画像系统（附下载）

作者：赵宏田来源：大数据DT（ID：hzdashuju）

2020-04-22

1.1K0

推荐系统特征工程的万字理论

数据库大数据数据分析数据处理数据结构

推荐系统是机器学习的一个子领域，并且是一个偏工程化、在工业界有极大商业价值的方向。大量应用于提供toC类产品的互联网企业服务中，通过推荐系统为用户提供精准的个性化服务。推荐系统通过推荐算法来为用户生成个性化推荐结果，而推荐算法依赖数据输入来构建算法模型。

2020-01-15

3K0

BDK | 数据如何进行同步才好呢？

编程算法大数据 unix 数据库日志数据

从上次文章我们知道了最上游的数据采集流程，知道日志数据是如何产生并且传输到我们服务器进行存储的。到了我们的服务器中，会存储在不同的数据库中，数据库是分布在不同系统中，所以需要不断地进行数据流转，不同集群之间、不同地域、不同数据库类型等等之间的数据同步备份，也是十分重要并且我们必须了解的环节。

2020-01-02

9810

BDK | 日志是怎么进行采集的？

日志服务大数据

2）页面交互日志采集。当页面被加载和渲染完毕后，用户在页面进行的一切操作，包括点击、停留、输入等等的操作，这往往是量化用户兴趣点或者优化体验的着手点。

2019-12-19

5530

BDK | 一起来修炼大数据/数据仓库的内功吧

大数据数据分析数据挖掘

先前有在公众号里说到了接下来自己的学习重点会放在数据仓库的设计与建设、ETL、大数据架构相关的内容了，所以今天就先开一个专栏来专门存放这类的知识，叫 BDK！聪明的你应该也猜到就是BigData Knowledge的简称了。虽然说数据仓库和大数据放在一起还是蛮牵强的，但是我个人觉得其实我们学习的数据仓库、数据湖、ETL、数据挖掘之类的知识，其实都是用来管理我们日益增多的大数据的，因此，从这个角度来看，取这个名字也是有点合理的（哈哈哈哈）。

2019-12-19

9020

终极PK：数据分析 VS 数据挖掘 VS 数据科学家

数据挖掘数据分析大数据编程算法

一直以来有人问：“ 数据分析 VS 数据挖掘 VS 数据科学家，它们到底有什么不同？入行大数据的话该怎么选？” 估计 90% 程序员，包括一些数据相关工作的⼩伙伴，都给不出准确回答。最近整理了这张对比长图，来回答这个问题！PS. 被问次数太多了，实属无奈

2019-12-04

4960

一文总结BI、数据仓库、数据湖和数据中台内涵与差异

数据挖掘数据库 sql 企业大数据

随着大数据技术的不断更新和迭代，数据管理工具得到了飞速的发展，相关概念如雨后春笋一般应运而生，如从最初决策支持系统(DSS)到商业智能(BI)、数据仓库、数据湖、数据中台等，这些概念特别容易混淆，本文对这些名词术语及内涵进行系统的解析，便于读者对数据平台相关的概念有全面的认识。

2019-10-12

1K0

推荐收藏 | 21 个必须知道的机器学习开源工具！

机器学习神经网络人工智能开源大数据

你肯定已经了解流行的开源工具，如R、Python、Jupyter笔记本等。但是，除了这些流行的工具之外还有一个世界——一个隐藏在机器学习工具下的地方。这些并不像他们的同行那样出色，但可以成为许多机器学习任务的救星。

2019-09-17

5900

BigData | Beam的基本操作（PCollection）

apache 大数据 css 数据处理文件存储

在一开始接触到PCollection的时候，也是一脸懵逼的，因为感觉这个概念有点抽象，除了PCollection，还有PValue、Transform等等，在学习完相关课程之后，也大致有些了解。

2019-08-09

1.3K0

BigData | 优秀的流处理框架 Flink

大数据 spark api windows 数据处理

Apache Flink就是其中的翘楚，它采用了基于操作符（operator）的连续流模型，可以做到微秒的延迟。Flink最核心的数据结构是Stream，它代表一个运行在多个分区上的并行流，它没有边界，随着时间的增长而不断变化，而且它是逐条进行操作的，每当有新数据进行就会被执行，这也是Flink低延迟的根本。

2019-07-08

9620

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态