腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

数据之美

专栏作者

138

文章

390212

阅读量

63

订阅数

用户画像从入门到挖坑

编程算法大数据数据挖掘数据分析聚类算法

背景用户流量从搜索引擎为入口的增量时代到移动互联网普及人口红利不再的存量时代，这个变化对每个公司的获客成本，运营思路都产生了很大的影响，在流量日益枯竭，获客成本越来越高的时代，伴随着大数据、精细化运营、人工智能、机器学习等一大波新技术和概念的崛起、普及，它们之间有何关联？如今互联网产品又该如何运营、攻城略地？本文介绍的用户画像或许能带来一点思路。 1、用户画像的作用与意义 1.1 作用用户画像承载了两个业务目标：一是如何准确的了解现有用户；二是如何在茫茫人海中通过广告营销获取类似画像特征的新用户。比如在

2018-02-24

3.8K0

MapReduce 计数器简介

mapreduce 大数据分布式

1、计数器简介在许多情况下，一个用户需要了解待分析的数据，尽管这并非所要执行的分析任务的核心内容。以统计数据集中无效记录数目的任务为例，如果发现无效记录的比例相当高，那么就需要认真思考为何存在如此多无效记录。是所采用的检测程序存在缺陷，还是数据集质量确实很低，包含大量无效记录？如果确定是数据集的质量问题，则可能需要扩大数据集的规模，以增大有效记录的比例，从而进行有意义的分析。计数器是一种收集作业统计信息的有效手段，用于质量控制或应用级统计。计数器还可辅助诊断系统故障。如果需要将日

2018-02-24

2.3K0

HBase 写优化之 BulkLoad 实现数据快速入库

hbase 大数据

1、为何要 BulkLoad 导入？传统的 HTableOutputFormat 写 HBase 有什么问题？我们先看下 HBase 的写流程：通常 MapReduce 在写HBase时使

2018-02-24

2.9K0

Hive 基础（1）：分区、桶、Sort Merge Bucket Join

hive 大数据 hadoop .net mapreduce

Hive 已是目前业界最为通用、廉价的构建大数据时代数据仓库的解决方案了，虽然也有 Impala 等后起之秀，但目前从功能、稳定性等方面来说，Hive 的地位尚不可撼动。其实这篇博文主要是想聊聊 SMB join 的，Join 是整个 MR/Hive 最为核心的部分之一，是每个 Hadoop/Hive/DW RD 必须掌握的部分，之前也有几篇文章聊到过 MR/Hive 中的 join，其实底层都是相同的，只是上层做了些封装而已，如果你还不了解究竟 Join 有哪些方式，以及底层怎么实现的，请参考如下

2018-02-24

3.2K0

转转数据平台从 0 到 1 的演进与实践

1、背景在转转开始大数据平台建设之前，整个数据从需求提出到研发流程再到数据报表、数据产品，也是经历过一段非常混沌的时期，而且效率和质量往往很难得到保障，主要表现为以下几个方面：（1）可用性差比如经常出现计算延迟、异常，数据指标也常常数据对不上，很多相似的指标不清楚具体差异在哪，即使同一个指标也可能不同的同学开发的而对不上。另外数据波动无感知，比如日志格式出错，结果第二天才发现有问题。（2）维护成本高成百上千的日志模块，不知从何维护，出了问题也不知道从哪里可以追溯到源头和负责人。（3）业务快速迭代

2018-02-24

1K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态