前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >动手体验 Elasticsearch 8.4.x 机器学习预测打车价格

动手体验 Elasticsearch 8.4.x 机器学习预测打车价格

作者头像
铭毅天下
发布2022-12-22 20:12:22
6860
发布2022-12-22 20:12:22
举报
文章被收录于专栏:铭毅天下铭毅天下

1、序言

传统关系型数据库有着很强的ACID特性,也决定了核心应用的首选地位,作为NOSQL数据库产品,要想与传统关系型数据库直接竞争,本质是不太可能,所以必然选择了另外一条协作辅助的路线,如Elasticsearch侧重多维度检索。

图示:数据库热度权威排名,前4位全部是关系型数据库,Elasticsearch仅仅是第7位。

Elasticsearch 产品版本一直保持着非常快的发布节奏,平均每月会发布一次,当前即将发布8.5.x;最早从全文检索特性开始切入,到现在已经成为一个功能特性非常多的数据平台,基于此,我们可以快速的构建多种应用形态,如Elasticsearch机器学习的特性。

图示:7.0.x~7.17.x 持续了近3年 ,发布的密集度非常高;

机器学习一直是一个很热门的话题领域,早先各种人工智能、深度学习的热词满天飞,从业人员也非常多,技术框架产品也非常多,但是快速落地一个机器学习类的应用并不容易,常规下来,需要算法工程师、应用工程师、数据工程师、前端工程师等配合才能完成, 这对于企业的时间与成本是一个非常大的考验,对于小型企业更像是一道高高的墙,阻挡了新技术新形态的引入。

Elasticsearch 自5.x版本开始融入机器学习特性,到目前为止已经融合了分类、回归、聚类、NLP等机器学习能力,基于自身的数据平台整合能力,应用者可以很快的完成一个机器学习应用案例,并提供对外的Restful api;对于应用工程师,机器学习不再神秘,对于算法工程师,机器学习不再担忧工程落地问题。

2、ES机器学习几步走

基于Elasticsearch 机器学习的Restful Api,加上Kibana的可视化操作性,仅仅需要几步就可以完成一个机器学习案例应用。

2.1 准备案例索引数据

可以基于Logstash,快速的导入案例数据,从数据库或者离线文件皆可。

导入数据

图示:导入nyc-tripdata 出租车数据

样本数据
代码语言:javascript
复制
{
    "VendorID": 2,
    "lpep_pickup_datetime": 1230774807000,
    "lpep_dropoff_datetime": 1230776097000,
    "store_and_fwd_flag": "N",
    "RatecodeID": 1,
    "PULocationID": 130,
    "DOLocationID": 203,
    "passenger_count": 1,
    "trip_distance": 7.25,
    "fare_amount": 23,
    "extra": 1,
    "mta_tax": 0.5,
    "tip_amount": 0,
    "tolls_amount": 0,
    "improvement_surcharge": 0.3,
    "total_amount": 24.8,
    "payment_type": 2,
    "trip_type": 1,
    "congestion_surcharge": 0,
    "pickup_year": 2008
}

2.2 创建机器学习模型

  • 基于kibana可视化能力操作
  • 选择需要的案例索引数据。
  • 选择机器学习模型,选择相关的数据向量。
  • 训练模型
选择机器学习模型

图示:选择机器学习模型

选择数据列

图示:选择机器学习模型

2.3 应用机器学习模型

基于Elasticsearch Ingest管道处理能力,创建对应的Restful api,供外部应用系统集成。

创建应用Api

创建ingest 管道数据处理接口

使用应用Api

外部应用基于restful 实时调用模型

参考文献

[1] ES机器学习回归函数参考

https://www.elastic.co/guide/en/machine-learning/current/ml-dfa-regression.html

[2] Spark 机器学习参考

https://spark.apache.org/docs/latest/ml-guide.html

[3] scikit-learn 机器学习库参考 https://scikit-learn.org/stable/

关于我们

讲师

李猛 Elastic King 数据领域专家

  • Elastic Stack 国内顶尖实战专家
  • ELastic Stack 技术社区分享嘉宾
  • 国内首批Elastic 官方认证工程师21人之一
  • 阿里云MVP(大数据领域)
  • DBAPlus MVP(原创内容贡献者)
  • GitHub:https://github.com/ynuosoft
  • 咕泡教育 《Elastic Stack 架构师P6成长路径》主讲老师。
  • 2012年接触Elasticsearch,对Elastic Stack 技术栈开发、架构、运维、源码、算法等方面都有深入实战。
  • 负责过多种 Elastic Stack 实战应用项目,大数据分析领域、机器学习预测领域、业务查询加速领域、日志平台分析领域、基础指标监控领域、全文分词检索领域等。
  • 服务过多家企业、提供Elastic Stack 咨询培训以及调优实施。
  • 多次在 Elastic Stack 技术社区分享,发表过多篇实战干货案例文章。
  • 十五年IT技术实战从业经验,涉猎行业众多、电商、物流、传统企业等,擅长大数据、系统架构等领域。
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-10-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 铭毅天下Elasticsearch 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1、序言
  • 2、ES机器学习几步走
    • 2.1 准备案例索引数据
      • 导入数据
      • 样本数据
    • 2.2 创建机器学习模型
      • 选择机器学习模型
      • 选择数据列
    • 2.3 应用机器学习模型
      • 创建应用Api
      • 使用应用Api
  • 参考文献
  • 关于我们
    • 讲师
    相关产品与服务
    Elasticsearch Service
    腾讯云 Elasticsearch Service(ES)是云端全托管海量数据检索分析服务,拥有高性能自研内核,集成X-Pack。ES 支持通过自治索引、存算分离、集群巡检等特性轻松管理集群,也支持免运维、自动弹性、按需使用的 Serverless 模式。使用 ES 您可以高效构建信息检索、日志分析、运维监控等服务,它独特的向量检索还可助您构建基于语义、图像的AI深度应用。
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档