前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Elasticsearch实战—全文检索架构设计心酸泪~

Elasticsearch实战—全文检索架构设计心酸泪~

原创
作者头像
Kami米雅
修改2021-11-09 10:01:10
8400
修改2021-11-09 10:01:10
举报
文章被收录于专栏:上云服务专题上云服务专题

背景简介:

1、近几年,Elasticsearch(以下简称ES)作为开源的搜索引擎已经在国内得到越来越多的应用推广,在日志分析领域应用场景尤为广泛。传统的数据库Mysql、Oracle或者非关系型数据库Mongo作为基础存储的企业要想实现业务数据的全文检索,该如何实现呢? 本文给出架构设计和实现原理。

2、理清楚使用ES的初衷

2.1 大数据背景下数据量的积累与数据应用疲软矛盾一直存在。

大数据的风已经刮了几年,西安交大徐宗本院士也强调“推动大数据产业必须解决好定位、规划、切入点、数据标准、开发共享等问题,互联互通是基础、定制化服务是中心、懂数据会分析是关键”。可见,数据分析的重要性。

传统企业的数据存储存在以下问题:

代码语言:javascript
复制
问题1:由于模型受限,传统企业的数据大多存储在关系型数据库Mysql、Oracle,非结构化数据存储在Mongo中。数据量也能积累到TB甚至PB级。
只能进行结构化的检索类似”select * from table where col like ‘%xxx%’显然不能满足纷繁复杂的业务需求。
问题2:数据是死数据,数据的BI可视化展示需要专业团队开发,但不能得到很好的分析效果。
以上问题形成了数据量累计到一定的量,但数据得不到很好的应用分析之间的矛盾。

2.2 在保持基础数据库不动的同时,新增全文检索,更好、更快的从亿万数据中获取检索服务。

不想抛弃原有的数据存储结构,想在原有数据存储的基础上新增全文检索。

3、传统存储模型上的ES全文检索架构

image.png
image.png

3.1 采集层

解决数据源头问题。

业务模型的不同,有的数据是机器设备(软件、硬件)产生的,有的则需要自己开发爬虫(如:python的scrapy)进行互联网全网爬取或者定向网站爬取。

3.2 Mysql基础存储层

基础数据的存储。

定义好库表结构、关联关系、主键、外键结构来存储结构化数据。

或者非结构化数据,采用Mongo键值对的方式存储。

3.3 ES检索层

代码语言:javascript
复制
实现基础数据的同步。这里是关键,传统的业务模型会在Mysql基础层的基础上,开展业务数据分析通常是以下步骤:
步骤1:后台数据——库表分散的建立视图,对数据做分门别类的统计(基于order by, group by等操作)。
步骤2:前端可视化——通过 Angularjs 进行数据渲染,并通过百度的Echart模型进行可视化展示。
ES检索层的准备如下:
方式1.数据同步——基础业务数据由基础库Mysql、Oracle或Mongolia同步到ES中,大多需要借助logstash实现。
同步策略参见:http://blog.csdn.net/laoyang360/article/details/72792865
方式2.数据同步——数据存成json格式文件,然后借助阿里的fastjson解析,以bulk方式批量导入ES。

3.4 对外接口及可视化层

实现ES全文检索、Tag检索等对外服务、数据的分类统计、排序等可视化展示。

java接口可以参考jest实现。

可视化可以借助kibana实现。这里就体现出elkstack的优势,logstash完成基础数据同步,es完成数据存储和检索,kibana完成数据可视化。

4.架构小结

其中,腾讯云的ES检索、kibana可视化的深入应用还有很长的路要走。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
作者已关闭评论
0 条评论
热度
最新
推荐阅读
目录
  • 1、近几年,Elasticsearch(以下简称ES)作为开源的搜索引擎已经在国内得到越来越多的应用推广,在日志分析领域应用场景尤为广泛。传统的数据库Mysql、Oracle或者非关系型数据库Mongo作为基础存储的企业要想实现业务数据的全文检索,该如何实现呢? 本文给出架构设计和实现原理。
  • 2、理清楚使用ES的初衷
  • 2.1 大数据背景下数据量的积累与数据应用疲软矛盾一直存在。
  • 大数据的风已经刮了几年,西安交大徐宗本院士也强调“推动大数据产业必须解决好定位、规划、切入点、数据标准、开发共享等问题,互联互通是基础、定制化服务是中心、懂数据会分析是关键”。可见,数据分析的重要性。
  • 传统企业的数据存储存在以下问题:
  • 2.2 在保持基础数据库不动的同时,新增全文检索,更好、更快的从亿万数据中获取检索服务。
  • 不想抛弃原有的数据存储结构,想在原有数据存储的基础上新增全文检索。
  • 3、传统存储模型上的ES全文检索架构
  • 3.1 采集层
    • 解决数据源头问题。
      • 业务模型的不同,有的数据是机器设备(软件、硬件)产生的,有的则需要自己开发爬虫(如:python的scrapy)进行互联网全网爬取或者定向网站爬取。
      • 3.2 Mysql基础存储层
        • 基础数据的存储。
          • 定义好库表结构、关联关系、主键、外键结构来存储结构化数据。
            • 或者非结构化数据,采用Mongo键值对的方式存储。
            • 3.3 ES检索层
            • 3.4 对外接口及可视化层
            • 4.架构小结
              • 其中,腾讯云的ES检索、kibana可视化的深入应用还有很长的路要走。
              相关产品与服务
              Elasticsearch Service
              腾讯云 Elasticsearch Service(ES)是云端全托管海量数据检索分析服务,拥有高性能自研内核,集成X-Pack。ES 支持通过自治索引、存算分离、集群巡检等特性轻松管理集群,也支持免运维、自动弹性、按需使用的 Serverless 模式。使用 ES 您可以高效构建信息检索、日志分析、运维监控等服务,它独特的向量检索还可助您构建基于语义、图像的AI深度应用。
              领券
              问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档