首页标签大数据处理套件

#大数据处理套件

可靠安全易用的大数据处理平台

解密工业物联网的安全现状与背后原因

广州接点智能

如今,移动技术的应用和增长创造了一个快节奏的社会,人们对即时信息和即时反馈已经习以为常,工业物联网涉及物联网技术在制造工艺和供应链中的应用。除了来自设备和传感器...

7910

Spark 基本概念及 jobs stages tasks 等 解释

大鹅

腾讯 · 后台开发 (已认证)

还有一个是范围的依赖,即RangeDependency,它仅仅被org.apache.spark.rdd.UnionRDD使用。UnionRDD是把多个RDD合...

8540

Spark 与 Hadoop 学习笔记 介绍及对比

大鹅

腾讯 · 后台开发 (已认证)

这篇博客将会简单记录Hadoop与Spark对比,HDFS,MapReduce的基本概念,及Spark架构设计,RDD,运行模式。整理起来一起阅读方便我们理解整...

9520

详解数据服务共享发布

yuanyi928

随着云计算、大数据、物联网等技术兴起,数据朝着多样性、高体量、高速度方向发展,如何将海量数据安全、稳定、高效地数据共享出去成为各企业关注的重点。本次微课堂通过普...

8520

腾讯专有云TBDS规划和自动化部署工具介绍

Aron 陈豪朗

腾讯 · 大数据AI产品架构师 (已认证)

TBDS Autodeploy Tool是一款针对腾讯大数据套件(即TBDS)的规划和自动化部署工具,其基本功能包括:

7.8K340

硬核吃瓜!上万条数据撕开微博热搜真相

AI科技大本营

关于新浪微博,向来都是各路吃瓜群众聚集之地,大家在微博中可以尽情吃瓜,各种类型的瓜应有尽有,只有你想不到的,没有你吃不到的。微博热搜榜更是各路明星的“必争之地”...

8850

基于OGG和Sqoop的TBDS接入方案系列-数据合并方案

Aron 陈豪朗

腾讯 · 大数据AI产品架构师 (已认证)

本文档给出一个Demo示例,旨在说明如何将一张Oracle源表,通过Sqoop工具离线抽取全量数据到TBDS,以及通过OGG工具实时同步增量数据到TBDS之后,...

239121

mysql导入hive的NULL值处理方案

袁宋

腾讯科技(深圳)有限公司 · 大数据架构师 (已认证)

目前提供两种方法解决数据库中的字段值为NULl导入到HIVE中后变成空字符串的方法,使用以下方法可以保障在mysql中存储的是NULL,导入到HIVE表后也是N...

29570

在TBDS部署sqoop组件及抽取数据至hive的使用方法

袁宋

腾讯科技(深圳)有限公司 · 大数据架构师 (已认证)

导语:本身TBDS平台不提供sqoop组件,若用户想在TBDS平台上使用sqoop抽取外部数据导入至TBDS平台,需要单独部署sqoop组件。

17350

TBDS工作流调度python脚本示例及排错方法

袁宋

腾讯科技(深圳)有限公司 · 大数据架构师 (已认证)

TBDS中的Shell任务工作流可通过shell脚本调用python,也可以直接调用python脚本,以下为两种方法介绍。

167100

基于OGG和Sqoop的TBDS接入方案系列-总体方案

Aron 陈豪朗

腾讯 · 大数据AI产品架构师 (已认证)

腾讯大数据处理套件(Tencent Big Data Suite,以下简称TBDS)是一套针对私有化场景提供的全功能型大数据处理平台。为客户提供按需部署大数据处...

43550

如何免费获得高质量标注数据?

用户2930930

自从开始了解机器学习以后,想必你已经发现,数据分析领域,标注(annotation)是很重要的。

11620

我们对比了5款数据库,告诉你NewSQL的独到之处

用户2802732

对大多数开发人员而言,SQL 以及 MySQL、PostgreSQL 等关系数据库管理系统(即 RDBMS)并不陌生。RDBMS 的基本架构原则已历经了数十年的...

31820

《Nature》最新研究:大数据预测你的偶像何时凉凉?

统计学家

最近一项发表在《Nature》子刊 Communications 中的研究引起了科学界和演艺界的广泛关注,来自伦敦玛丽皇后学院数学系的几位研究人员,发布了一篇关...

11340

基于OGG和Sqoop的TBDS接入方案系列-Sqoop与腾讯大数据套件TBDS的集成示例介绍

Aron 陈豪朗

腾讯 · 大数据AI产品架构师 (已认证)

Oracle里存储的结构化数据导出到Hadoop体系做离线计算是一种常见数据处置手段,此案例介绍了一个利用Sqoop将数据从Oracle离线导入到腾讯大数据套件...

8.5K70

小文件数过多导致distcp迁移报错

袁宋

腾讯科技(深圳)有限公司 · 大数据架构师 (已认证)

DistCp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列...

24450

storm 分布式实时计算系统介绍

用户5265382

在Storm之前,进行实时处理是非常痛苦的事情: 需要维护一堆消息队列和消费者,他们构成了非常复杂的图结构。消费者进程从队列里取消息,处理完成后,去更新数据库,...

17030

ICLR 2019八大趋势:RNN正在失去光芒,强化学习仍最受欢迎

大数据文摘

ICLR 2019过去有几天了,作为今年上半年表现最为亮眼的人工智能顶会共收到1591篇论文,录取率为31.7%。

12840

数据解读 | 压垮我的不是加班,而是通勤

CDA数据分析师

通勤是上班族每个工作日都要经历的过程。它可以影响你以怎样的心情开始一天的工作,也可以影响你带着什么感受踏入家门。

7420

Elasticsearch 7.0 Zen2 开启Elasticsearch分布式新纪元

ethanzhang

腾讯 · 高级工程师 (已认证)

Elasticsearch如此广泛流行的原因之一是因为其易于扩展,可以从仅具有几个节点的小集群扩展到有数百个节点的大型集群,并且保证不管集群规模的大小,其核心的...

7.6K51

扫码关注云+社区

领取腾讯云代金券