前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Elasticsearch 批量导入数据1

Elasticsearch 批量导入数据1

作者头像
franket
发布2021-12-02 09:21:33
1.1K0
发布2021-12-02 09:21:33
举报
文章被收录于专栏:技术杂记

前言

Elasticsearch 是一款非常高效的全文检索引擎。

Elasticsearch 可以非常方便地进行数据的多维分析,所以大数据分析领域也经常会见到它的身影,生产环境中绝大部分新产生的数据可以通过应用直接导入,但是历史或初始数据可能会需要单独处理,这种情况下可能遇到需要导入大量数据的情况

这里简单分享一下批量导入数据的操作方法与相关基础,还有可能会碰到的问题,详细内容可以参考 官方文档

Tip: 当前的最新版本为 Elasticsearch 2.2.0


概要


bulk API

ES提供了一个叫 bulkAPI 来进行批量操作

它用来在一个API调用中进行大量的索引更新或删除操作,这极大的提升了操作效率


形式

API

API 可以是 /_bulk, /{index}/_bulk, 或 {index}/{type}/_bulk 这三种形式,当索引或类型已经指定后,数据文件中如不明确指定或申明的内容,就会默认使用API中的值

API 以是 /_bulk 结尾的,并且跟上如下形式的 JSON 数据

数据内容格式

代码语言:javascript
复制
action_and_meta_data\n
optional_source\n
action_and_meta_data\n
optional_source\n
....
action_and_meta_data\n
optional_source\n

Note: 最后的一行也必须以 \n 结尾

可用方法

可用的操作有 index, create, delete 和 update

  • indexcreate 得在操作与元数据(action_and_meta_data)之后另起一行然后接上内容(必须遵循这样的格式 ,后面会演示不这么做导致操作失败的示例)
  • delete 只用接上元数据就可以了,不必接上内容(原因自不用说,定位到文档就OK了)
  • update 得接上要变更的局部数据,也得另起一行

文本指定

由于是批量操作,所以不太会直接使用命令行的方式手动指定,更多的是使用文件,如果使用文本文件,则得遵循如下格式

代码语言:javascript
复制
curl -s -XPOST localhost:9200/_bulk --data-binary "@requests"

Tip: requests 是文件名 , -s 是静默模式,不产生输出,也可以使用 > /dev/null 替代


导入数据

尝试不按要求索引数据

代码语言:javascript
复制
[root@es-bulk tmp]# curl localhost:9200/stuff_orders/order_list/903713?pretty
{
  "_index" : "stuff_orders",
  "_type" : "order_list",
  "_id" : "903713",
  "found" : false
}
[root@es-bulk tmp]# cat test.json 
{"index":{"_index":"stuff_orders","_type":"order_list","_id":903713}}{"real_name":"刘备","user_id":48430,"address_province":"上海","address_city":"浦东新区","address_district":null,"address_street":"上海市浦东新区广兰路1弄2号345室","price":30.0,"carriage":6.0,"state":"canceled","created_at":"2013-10-24T09:09:28.000Z","payed_at":null,"goods":["营养早餐:火腿麦满分"],"position":[121.53,31.22],"weight":70.0,"height":172.0,"sex_type":"female","birthday":"1988-01-01"}
[root@es-bulk tmp]# curl -XPOST 'localhost:9200/stuff_orders/_bulk?pretty' --data-binary @test.json
{
  "error" : {
    "root_cause" : [ {
      "type" : "action_request_validation_exception",
      "reason" : "Validation Failed: 1: no requests added;"
    } ],
    "type" : "action_request_validation_exception",
    "reason" : "Validation Failed: 1: no requests added;"
  },
  "status" : 400
}
[root@es-bulk tmp]# curl localhost:9200/stuff_orders/order_list/903713?pretty
{
  "_index" : "stuff_orders",
  "_type" : "order_list",
  "_id" : "903713",
  "found" : false
}
[root@es-bulk tmp]#

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 前言
  • 概要
    • bulk API
      • 形式
        • API
        • 数据内容格式
        • 可用方法
        • 文本指定
      • 导入数据
        • 尝试不按要求索引数据
    相关产品与服务
    Elasticsearch Service
    腾讯云 Elasticsearch Service(ES)是云端全托管海量数据检索分析服务,拥有高性能自研内核,集成X-Pack。ES 支持通过自治索引、存算分离、集群巡检等特性轻松管理集群,也支持免运维、自动弹性、按需使用的 Serverless 模式。使用 ES 您可以高效构建信息检索、日志分析、运维监控等服务,它独特的向量检索还可助您构建基于语义、图像的AI深度应用。
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档