专栏首页Spark学习技巧终于有人把 Elasticsearch 原理讲透了!

终于有人把 Elasticsearch 原理讲透了!

搜索是现代软件必备的一项基础功能,而 Elasticsearch 就是一款功能强大的开源分布式搜索与数据分析引擎

它可以从海量数据中快速找到相关信息,在同领域内几乎没有竞争对手——近两年 DBRanking 的数据库评测中,ES 在搜索引擎领域始终位列第一

当你在 GitHub 上搜索时,Elasticsearch 可以实现代码级的搜索与高亮显示 ;当你在网上购物时,ES 可为你推荐喜欢的商品;当你下班打车回家时,ES 可以通过定位附近的乘客和司机,帮助平台优化调度。

Elasticsearch 还被广泛运用于大数据近实时分析,包括日志分析、指标监控、信息安全等多个领域。

它可以探索海量结构化、非结构化数据,按需创建可视化报表,对监控数据设置报警阈值,甚至通过使用机器学习,做到自动识别异常状况。

作为目前最流行的开源搜索引擎,ES 在全球的下载量已超过 3.5 亿次,腾讯、滴滴、今日头条、饿了么、360 安全、小米,vivo 等国内诸多知名公司都在使用 Elasticsearch。

Elasticsearch 有什么特点?

Elasticsearch 非常容易上手,具有开箱即用的特性,你可以在极短的时间内设置好开发环境,然后快速上手使用,继而在成百上千台服务器上实现 PB 级的数据处理

虽然上手快,但要做到深入理解并高效使用,可就没那么简单了,比如:

1. 为什么我的数据查不到,明明是有的啊!

2. 什么鬼?为什么这几条数据出现在搜索结果的前几位?

3. 生产环境我需要多少台机器,索引的分片数怎么样设置才是合理的?

4. 应该关注哪些指标,才能保证集群健康高效地运行?

5. 对于日志型应用,如何设置 Hot & Warm Architecture 节约成本,怎样管理和优化基于时间序列的索引数据,才能提高集群的整体性能?

4. 为什么我的集群脑裂了?数据损坏后,怎样才能恢复?

其实,想要掌握 Elasticsearch,除了要理解其分布式架构的原理外,还要了解一些信息检索领域的知识和相关技巧

分享给你一张 Elasticsearch 核心知识图谱,只有对每一个知识点仔细梳理并深入理解,才能解决工作中的实际问题。

关于阮一鸣

阮一鸣,eBay Pronto 平台技术负责人。Pronto 平台管理了 eBay 内部上百个 Elasticsearch 集群,数据规模超过了 4000 个节点。这些集群在 ebay 的生产环境中,支撑了包括订单搜索,商品推荐,日志管理,风险控制,IT 运维,安全监控等不同领域的服务。

他是如何讲解 Elasticsearch 的?

如果你对 Elasticsearch 有些了解,就会发现 ES 的产品迭代速度非常快,很多老的 API 都已经被废弃不再使用,搜索到的参数配置也大多发生了变化。

市面上的书籍和教程都是基于 5.x 甚至是 2.x 版本。而在课程中,哥们儿使用 Elasticsearch 最新的 7.1 版本进行教学。

所有 ES 最新版本的特性,在课程里都会有全面和直观地展现,比如:用机器学习进行异常检测;用 Canvas 展示数据;用索引的生命周期管理工具对索引进行优化等等。

结合目录,我总结了一下,这个课大概分为 5 个部分

1. 初识 Elasticsearch

Elasticsearch 核心概念、工作机制与应用场景;本地开发环境搭建;倒排索引的原理与 ES 中 Analysis 的具体细节;Mapping 设置和一些基本的 Search & Aggregation API。

2. 深入了解 Elasticsearch

理解 Elasticsearch 分布式架构的原理;相关性算分的原理;数据建模的最佳实践;深入搜索及聚合功能以提高搜索结果的相关度。

3. 管理 Elasticsearch 集群

集群的水平扩展、参数配置、性能优化、故障诊断。

4. 利用 ELK 做大数据分析

结合使用场景和数据,探索 Logstash、Kibana 的各项功能。

5. 应用实战工作坊

设计了电影搜索和 Stack Overflow 用户调查问卷数据分析两个实战项目,通过上手实践,你可以巩固所学的知识点,并运用到实际项目中。

本文分享自微信公众号 - Spark学习技巧(bigdatatip)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-06-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 8篇CVPR2019论文开源合集(含CNN/目标检测/GAN/超分辨率/行人检测/文本检测等)

    CVPR2019 | 12篇目标检测最新论文(FSAF/GS3D/Libra R-CNN/Stereo R-CNN和GIoU等)

    Amusi
  • 浙大学霸本科生顶会研究!只需20分钟音频,AI就能逼真模仿你的声音

    浙江大学和微软的新研究证明,从0开始学习你的声音到准确逼真,AI只需要200个音频片段和相应标注,20分钟的素材就足够了。

    量子位
  • 揭秘LinkedIn!全球最大的招聘推荐系统如何被机器学习驱动?

    LinkedIn是迄今为止市面上极受欢迎的招聘平台之一。来自世界各地的招聘者每天会从LinkedIn上网罗挑选适合他们招人岗位的候选人。

    CDA数据分析师
  • Science最新:DeepMind部署自学AI,攻陷FPS“雷神之锤”

    用AI攻占了国际象棋和围棋高地之后,DeepMind在第一人称射击游戏(FPS)上也有了新进展。

    大数据文摘
  • Python AI 教学 | 主成分分析(PCA)原理及其应用

    假如你是一家淘宝店店主,你所负责运营的淘宝店2018年全年的流量及交易情况可以看成是一组记录的集合,其中每一天的数据是一条记录,(日期,浏览量,访客数,下单数,...

    短短的路走走停停
  • 推荐系统遇上深度学习(四十七)-TEM:基于树模型构建可解释性推荐系统

    本文论文的题目为:《TEM: Tree-enhanced Embedding Model for Explainable Recommendation》

    石晓文
  • 这个AI批量作画每小时九张,与毕加索同台竞技,还真有人买

    在那次拍卖会上,一共有363件画作“同台竞技”,其中包括20多幅毕加索的名画。最终一幅“特别”的画作力压群雄,以43.25万美元(约300万人民币)成交,值得注...

    大数据文摘
  • 史上最小!纳米级无人机仅重27克,CNN自主导航,已开源!

    苏黎世联邦理工学院和博洛尼亚大学的研究人员最近发明了一个名叫PULP Dronet的纳米级无人机,仅重27g,可以说是目前重量最轻的无人机。这个微型无人机搭载顶...

    新智元
  • 谷歌出品EfficientNet:比现有卷积网络小84倍,比GPipe快6.1倍

    目前提高CNN精度的方法,主要是通过任意增加CNN深度或宽度,或使用更大的输入图像分辨率进行训练和评估。

    新智元
  • 李宏毅:1 天搞懂深度学习,我总结了 300 页 PPT(附思维导图)

    https://blog.csdn.net/u010164190/article/details/72633245

    石晓文

扫码关注云+社区

领取腾讯云代金券