这一节来介绍File Ingestion,中文叫数据摄取。
从上图中可以知道,实现数据导入有两种方式,File Ingestion就是其中之一,可以理解File Ingestion是主要是通过API实现数据的导入,注意这里是主要,因为File Ingestion也支持UI操作的。
File Ingestion还可以进一步分为流式摄取和批量摄取,两者之间的区别在于,流式摄取的实时性比较强的数据,你可以理解为是实时数据,批量摄取是非实时数据,已经存在某个文件类型里的数据。
流式摄取是数据从客户端和服务器端设备实时发送到CDP,重点在于实时,为此,CDP提供了一个Apache Kafka Connect连接器,它需要布署到数据传出的位置,可以将JSON事件从数据中心的Kafka主题直接实时流化到CDP。
但还是有一定延迟的,流式导入的延迟如下:
批量摄取就是上传的各种类型的数据文件,然后批量倒入或插入到CDP中。
批量摄取有如下限制:
批量摄取分为两种方式,普通批量处理和批量处理API。
部分批量处理只指可以导入包含错误的数据,就是对导入数据的错误是有一定容忍度,阈值的,超过阈值,才处理失败,部分批量处理有两种实现方式:
通过批量处理API的方式,还可以将特定系统的文件倒入到CDP中,如CRM系统中的平面文件Parke。
批处理API存在一些限制:
批量处理的API流程如下:
如果需要实时同步导入数据,那么用流式摄取,如果对时间要求不高的,用批量摄取,批量里面,如数据已经在数据湖里面,可以直接设置,如果是在外部的,格式是csv格式,可以用Workflow,其他格式的,那就只能用API。