我对“远大前程”还是个新手--我有一个问题。实际上,我有一个PostgreSQL数据库,每次运行数据管道时,我都想根据某个键来验证PostgreSQL表的一个特定子集。例如:如果数据管道每天都在运行,那么应该是一个名为current_batch的字段。并且将对以下查询进行验证:
从current_batch = 的作业中选择*。
我不确定完成这项任务的最佳方式。我是一个被寄予厚望的使用v3-api的人,对于是使用检查点还是验证器,我有点困惑。我假设我想要使用一个检查点,但是我似乎不知道如何创建一个检查点,然后只验证PostgreSQL数据源的一个特定子集。
任何帮助或指导都将不胜感激。
谢谢
发布于 2021-11-08 08:40:02
我完全理解你的困惑,因为我也在和GE合作,文档并不是很清楚。
首先,“验证器”现在被称为“检查点”,因此它们不是一个不同的实体,因为您可以使用read here。
我正在处理一个Oracle数据库,在使用inside测试我的数据之前,我发现应用查询的唯一方法是将查询放在检查点内。
要创建检查点,您应该从终端运行great_expectations checkpoint new命令。在创建它之后,您应该在作为检查点的.yml文件中添加"query“字段。
下面您可以看到我正在使用的检查点的一个片段。当我想要验证我的数据时,我运行命令great_expectations checkpoint run check1
name: check1
module_name: great_expectations.checkpoint
class_name: LegacyCheckpoint
batches:
- batch_kwargs:
table: pso
schema: test
query: SELECT p AS c,
[ ... ]
AND lsr = c)
datasource: my_database
data_asset_name: test.pso
expectation_suite_names:
- exp_suite1希望这能有所帮助!如果您有任何疑问,请随时询问:)
https://stackoverflow.com/questions/68800235
复制相似问题