我是攻城师-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

我是攻城师

专栏成员

492

文章

1002041

阅读量

119

订阅数

elasticsearch的查询流程分析

es 2 分布式存储

我们都知道es是一个分布式的存储和检索系统，在存储的时候默认是根据每条记录的_id字段做路由分发的，这意味着es服务端是准确知道每个document分布在那个shard上的。相对比于CURD上操作，search一个比较复杂的执行模式，因为我们不知道那些document会被匹配到，任何一个shard上都有可能，所以一个search请求必须查询一个索引或多个索引里面的所有shard才能完整的查询到我们想要的结果。找到所有匹配的结果是查询的第一步，来自多个shard上的数据集在分页返回到客户端的之前会被合并到

我是攻城师

2018-05-15

2.7K0

关于Elasticsearch里面聚合group的坑

es 2 分布式搜索引擎

原来知道Elasticsearch在分组聚合时有一些坑但没有细究，今天又看了遍顺便做个笔记和大家分享一下。我们都知道Elasticsearch是一个分布式的搜索引擎，每个索引都可以有多个分片，用来将一份大索引的数据切分成多个小的物理索引，解决单个索引数据量过大导致的性能问题，另外每个shard还可以配置多个副本，来保证高可靠以及更好的抗并发的能力。将一个索引切分成多个shard，大多数时候是没有问题的，但是在es里面如果索引被切分成多个shard，在使用group进行聚合时，可能会出现问题，这个在官网文

我是攻城师

2018-05-14

2.6K0

Apache Kylin的入门安装

apache 开源分布式 hadoop sql

Apache Kylin™是一个开源的分布式分析引擎，提供Hadoop之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。从官网的介绍来看Kylin是一个OLAP的数据查询引擎，其特点就是快。公司最近准备引入Kylin做数据分析，原来也听说过但一直没有接触，现在正好可以验证下Kylin是否是传说中那么NB，今天我们先来看看如何安装部署Kylin。由于Kylin本身只是一个Server，所以安装部署还是比较简

我是攻城师

2018-05-14

1K0

如何收集项目日志统一发送到kafka中？

spark 分布式

上一篇（http://qindongliang.iteye.com/blog/2354381 ）写了收集sparkstreaming的日志进入kafka便于后续收集到es中快速统计分析，今天就再写一篇如何在普通应用程序实时收集日志，上一篇写的毕竟是分布式环境下的操作，有一定的特殊性，如MapReduce，Spark运行的日志和普通项目的日志是不太一样的。所谓的普通程序就是web项目的或者非web项目的的程序，大部分都是单机版本的。大多数时候，我们的log都会输出到本地的磁盘上，排查问题也是使用Linux

我是攻城师

2018-05-14

2.5K0

SolrCloud之Sharding路由介绍

lucene/solr 分布式大数据

在Solr4.4之后，Solr提供了SolrCloud分布式集群的模式，它带来的主要好处是：（1）大数据量下更高的性能（2）更好扩展性（3）更高的可靠性（4）更简单易用什么时候应该使用SolrCloud（Shard）呢？（1）更大的数据量（2）更大的索引体积（3）想并行索引和查询（4）想自定义数据分区 SolrCloud路由的分类 A：显式路由（Composite） => 创建时明确指定shard数目，后期不能添加或者删除shard，单个shar

我是攻城师

2018-05-14

1.5K0

Kakfa集群搭建

开源分布式 hadoop

先来整体熟悉下Kafka的一些概念和架构（一）什么是Kafka？ Kafka是由LinkedIn开发并开源的一个分布式消息系统，因其分布式和高吞吐率被广泛应用，现在已经在Hadoop和Spark等大数据的生态系统中成为一个必不可少的生态组件，可与各种计算模型，如离线计算，实时计算，流计算对接数据。（二）为什么要用Kafka？ 1，以时间复杂度O（1）的方式提供消息持久化和访问能力，即使应对TB级数据也能保证常数时间内的的访问和存储。 2，高吞吐率，在普通PC上也能保证每秒10万左右的消

我是攻城师

2018-05-14

8220

SolrCloud5.4.1集群实战（一）

lucene/solr 分布式 hadoop jdk

古时候，人们用一头牛拉不动一个耕地的犁时，不会去找个比这头牛更大的牛，而是会直接使用两个牛一起参与耕地。在分布式计算中，道理同样如此，Hadoop就是一个典型的例子。诸如此类的有很多，这就是典型水平切分架构。早期的solr仅仅支持主从架构模式，这种架构可以提高集群的吞吐量和可靠性，当面临越来越多的数据时，并不能提升检索性能，所以在solr4.x之后，开始支持cloud模式的集群，可以将一份超大索引水平切分到多台机器上，从而提升系统的检索性能，当然也兼具了主从模式的优点，支持容错，副本，扩容等。基础环境

我是攻城师

2018-05-14

8490

分布式日志收集之Logstash 笔记（二）

今天是2015年11月06日，早上起床，北京天气竟然下起了大雪，不错，最近几年已经很少见到雪了，想起小时候冬天的样子，回忆的影子还是历历在目。进入正题吧，上篇介绍了Logstash的基础知识和入门demo，本篇介绍几个比较常用的命令和案例通过上篇介绍，我们大体知道了整个logstash处理日志的流程： input => filter => output 除了上面几个基础命令，还有ruby，mutate，gork，codes几个命令比较常用：在线gork正则的地址：http://

我是攻城师

2018-05-14

7590

海量可视化日志分析平台之ELK搭建

es 2 分布式搜索引擎 github

ELK是什么？ E=ElasticSearch ，一款基于的Lucene的分布式搜索引擎，我们熟悉的github，就是由ElastiSearch提供的搜索，据传已经有10TB+的数据量。 L=LogStash ，一款分布式日志收集系统，支持多输入源，并内置一些过滤操作，支持多输入元 K=Kibana ，一款配合ElasticSearch的web可视化界面，内置非常各种查询，聚合操作，并拥有漂亮的图形化展示功能为什么要用ELK？在实际应用中，我们的日志是非常重要的，它通常会记录一些比较重

我是攻城师

2018-05-14

1.4K0

hadoop常见问题解答

hadoop mapreduce hbase TDSQL MySQL 版分布式

（1）Hadoop适不适用于电子政务？为什么？电子政务是利用互联网技术实现政府组织结构和工作流程的重组优化，建成一个精简、高效、廉洁、公平的政府运作信息服务平台。因此电子政务肯定会产生相关的大量数据以及相应的计算需求，而这两种需求涉及的数据和计算达到一定规模时传统的系统架构将不能满足，就需要借助海量数据处理平台，例如Hadoop技术，因此可以利用Hadoop技术来构建电子政务云平台。总结一下，任何系统没有绝对的适合和不适合，只有当需求出现时才可以决定，在一个非常小的电子政务系统上如果没有打数据处

我是攻城师

2018-05-11

1.1K0

高性能服务端漫谈

大数据分布式存储

一、背景进入多核时代已经很久了，大数据概念也吵得沸沸扬扬，不管你喜欢不喜欢，不管你遇到没遇到，big-data或bigger-data都必须正视. 处理大数据，基本都离不开分布式计算和分布式

我是攻城师

2018-05-11

6230

作为程序员，你必须了解这些关于计算机的知识

存储分布式

存储—-块设备，文件系统，集群文件系统，分布式文件系统，光纤SCSI，iSCSI，RAID等。网络—-以太网，光纤网，蜂窝网络，WIFI，VLAN等。计算机体系结构，主要就是CPU指令集。x86,ARM等。 USB协议。需要知道URB包。 PCI协议，PCI-E协议。现代计算机的外设都是PCI协议和PCI-E协议的。显卡现在全是通过 PCI-E协议连接到计算机上的。相对来说减少了很多需要学习的知识。搞虚拟化就需要深入掌握PCI协议。图像处理–图像压缩，视频实时编码等。 3D游戏关系数据库 NoSQL

我是攻城师

2018-05-11

7100

ElasticSearch命令执行漏洞：通过perl进行反弹shell

es 2 shell 分布式搜索引擎

ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是第二最流行的企业搜索引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。目前网络公开部署Elasticsearch大概有数万台服务器，内部网络部署就不计其数了。Elasticsearch用了两个危险性的脚本MVEL和Groovy。2014年5月MVEL爆出来命

我是攻城师

2018-05-11

2.8K0

5行代码怎么实现Hadoop的WordCount？

java mapreduce hadoop spark 分布式

最近散仙比较忙，只能利用下班之后，写文章了，发的时间晚了点，还请大家见谅，点击右上角的文字：我是工程师，即可关注本公众号，不多说了，赶紧回家，再晚就没地铁了。初学编程的人，都知道hello world的含义，当你第一次从控制台里打印出了hello world，就意味着，你已经开始步入了编程的大千世界，这和第一个吃螃蟹的人的意义有点类似，虽然这样比喻并不恰当。如果说学会了使用hello world就代表着你踏入了单机编程的大门，那么学会在分布式环境下使用wordcount，则意味着你踏入了分布式编程的

我是攻城师

2018-05-11

8210

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态