全,
我正在尝试读取spark中具有多个记录类型的文件,但不知道如何操作。有人能指出,有没有办法做到这一点?或者一些现有的包?或一些用户git包
下面的示例-其中我们有一个文本文件,其中包含2个单独的(可能超过2个)记录类型: 00X - record_ind | First_name| Last_name
0-3 record_ind
4-10 firstname
11-16 lastname
============================
00Y - record_ind | Account_#| STATE | country
0-3 record_ind
4-8 Account #
9-10 STATE
11-15 country
input.txt
------------
00XAtun Varma
00Y00235ILUSA
00XDivya Reddy
00Y00234FLCANDA
sample output/data frame
output.txt
record_ind | x_First_name | x_Last_name | y_Account | y_STATE | y_country
---------------------------------------------------------------------------
00x | Atun | Varma | null | null | null
00y | null | null | 00235 | IL | USA
00x | Divya | Reddy | null | null | null
00y | null | null | 00234 | FL | CANDA 发布于 2020-10-17 08:19:26
实现这一点的一种方法是将数据加载为“文本”。完整的行将被加载到一个名为“value”的列中。现在调用一个UDF,它根据条件修改每一行,并以所有行都遵循相同模式的方式转换数据。最后,使用schema创建所需的数据帧并保存到数据库中。
https://stackoverflow.com/questions/64325888
复制相似问题