黑泽君的专栏-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

黑泽君的专栏

专栏成员

708

文章

1753286

阅读量

103

订阅数

大数据技术之_20_Elasticsearch学习_02_ELK 简介以及新旧版架构介绍

Elasticsearch Service apache 分布式日志数据

ELK 是 elastic(美国数据搜索软件初创公司) 公司提供的一套完整的日志收集、日志搜索分析、展示解决方案，是三个产品的首字母缩写。这三个产品分别是 ElasticSearch、Logstash 和 Kibana，同时加入 beats 来优化 Logstash。

2019-05-14

5180

大数据技术之_19_Spark学习_05_Spark GraphX 应用解析 + Spark GraphX 概述、解析 + 计算模式 + Pregel API + 图算法参考代码 + PageRank

数据结构分布式 mapreduce linux

Spark GraphX 是一个分布式图处理框架，它是基于 Spark 平台提供对图计算和图挖掘简洁易用的而丰富的接口，极大的方便了对分布式图处理的需求。那么什么是图，都计算些什么？众所周知社交网络中人与人之间有很多关系链，例如 Twitter、Facebook、微博和微信等，数据中出现网状结构关系都需要图计算。 GraphX 是一个新的 Spark API，它用于图和分布式图(graph-parallel)的计算。GraphX 通过引入弹性分布式属性图（Resilient Distributed Property Graph）：顶点和边均有属性的有向多重图，来扩展Spark RDD。为了支持图计算，GraphX 开发了一组基本的功能操作以及一个优化过的 Pregel API。另外，GraphX 也包含了一个快速增长的图算法和图 builders 的集合，用以简化图分析任务。从社交网络到语言建模，不断增长的数据规模以及图形数据的重要性已经推动了许多新的分布式图系统的发展。通过限制计算类型以及引入新的技术来切分和分配图，这些系统可以高效地执行复杂的图形算法，比一般的分布式数据计算（data-parallel，如 spark、MapReduce）快很多。

2019-05-14

1.9K0

大数据技术之_18_大数据离线平台_05_离线平台项目模块小结

hbase TDSQL MySQL 版 mapreduce 分布式大数据

1、将项目软件工具包导入 2、项目思路： 2.1、读取 HDFS 数据进行 ETL 清洗操作，并将最终结果写入到 HBase 中。 2.2、从 HBase 中读取数据，进行新增用户统计分析操作，并将结果写入到 Mysql。 3、细节实现数据清洗： 3.1、LoggerUtil.java 3.1.1、主要作用：将字符串数据解析成 HashMap 键值对集合。 3.1.2、重要细节：字符串的截取不合法数据的过滤字符串的解码（就是将%相关的字符串编码转换成可读类型的数据）错误数据的 Logger

2019-05-07

5960

SolrCloud搭建 + zookeeper集群搭建 + 搜索功能切换到集群版 + httpclient学习 + 全局异常处理器

zookeeper http 分布式数据库负载均衡

索引集合包括两个Shard（Shard1和Shard2），Shard1和Shard2分别由三个Core组成，其中一个Leader两个Replication，Leader是由ZooKeeper选举产生，zookeeper控制每个shard上三个Core的索引数据一致，解决高可用问题。用户发起索引请求分别从Shard1和Shard2上获取，解决高并发问题。

2018-12-19

1.6K0

Java语言的发展史

java go 安全分布式 jvm

　　Java的名字来自于一种咖啡的品种名称，所以Java语言的Logo是一杯热气腾腾的咖啡。

2018-10-11

3.7K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态