由Decimal操作计算引发的Spark数据丢失问题
一、症状
一天,金融分析团队的同事报告了一个问题,他们发现在两个生产环境中(为了区分,命名为环境A和B), Spark大版本均为2.3。但是,当运行同样的SQL语句,对结果进行对比后,却发现两个环境中有一列数据并不一致。此处对数据进行脱敏,仅显示发生数据丢失那一列的数据,如下:
由此可见,在环境A中可以查询到该列数据,但是在环境B中却出现了部分数据缺失。
二、排查
上述两个查询中用的Spark大版本是一致的,团队的同事通过对比两个环境中的配置,发现有一个参数在最近进行了变更。该参数为:spa...