数据之美-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

数据之美

专栏成员

138

文章

410922

阅读量

63

订阅数

Spark 伪分布式 & 全分布式安装指南

spark 分布式

0、前言 3月31日是 Spark 五周年纪念日，从第一个公开发布的版本开始，Spark走过了不平凡的5年：从刚开始的默默无闻，到13年的鹊起，14年的大爆发。Spark核心之上有分布式的机器学习，SQL，streaming和图计算库。 4月1日 spark 官方正式宣布 Spark 2.0 对Spark重构，更好支持手机等移动终端。Databricks创始人之一hashjoin透漏了相关的重构方法：利用Scala.js项目把Spark代码编译成JavaScript，然后利用Safari / Chrom

2018-02-24

2.4K0

巧用 Hive 模拟分布式 grep

hive 分布式 grep 编程算法

grep 由于内置高效的字符串搜索算法，兼容各种风格的正则，且功能众多，有着 linux 下字符串处理三剑客之一的称号，但是到了如今的大数据/分布式时代，这种单机时代的工具显得有些廉颇老矣。。。 1、需求背景我们经常会遇到需要在 hadoop 上查找原始日志，校对 ETL 数据的情况，往往很多同学直接用的老办法： hadoop fs -cat /M_track/$yesterday/* | grep ooxx | wc -l 这种情况下是要把分布在整个集群上的日志都拉到单机上 grep 然后 wc，这是一

2018-02-24

1.2K0

MapReduce 计数器简介

mapreduce 大数据分布式

1、计数器简介在许多情况下，一个用户需要了解待分析的数据，尽管这并非所要执行的分析任务的核心内容。以统计数据集中无效记录数目的任务为例，如果发现无效记录的比例相当高，那么就需要认真思考为何存在如此多无效记录。是所采用的检测程序存在缺陷，还是数据集质量确实很低，包含大量无效记录？如果确定是数据集的质量问题，则可能需要扩大数据集的规模，以增大有效记录的比例，从而进行有意义的分析。计数器是一种收集作业统计信息的有效手段，用于质量控制或应用级统计。计数器还可辅助诊断系统故障。如果需要将日

2018-02-24

2.4K0

Yarn（MapReduce 2.0）下分布式缓存（DistributedCache）的注意事项

yarn 分布式缓存

1、问题最近公司的集群从 Apache hadoop 0.20.203 升级到了 CDH 4，迈进了 Hadoop 2.0 的新时代，虽然新一代的 hadoop 努力做了架构、API 上的各种兼容，但总有“照顾不周”的地方，下面说的这个有关分布式缓存的案例就是于此有关：一些 MR job 迁移到 Yarn 上后，发觉没数据了，而且没有报错。查了下数据源和代码，发现是分布式缓存（DistributedCache）的用法有点小变化。以前的老代码大致如下：（1）在 main 函数中添

2018-02-24

9520

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态