问一种多记录格式的定长文件阅读火花
EN

Stack Overflow用户

提问于 2020-10-13 06:00:56

回答 1查看 111关注 0票数 0

全,

我正在尝试读取spark中具有多个记录类型的文件，但不知道如何操作。有人能指出，有没有办法做到这一点？或者一些现有的包？或一些用户git包

下面的示例-其中我们有一个文本文件，其中包含2个单独的(可能超过2个)记录类型: 00X - record_ind | First_name| Last_name

0-3 record_ind
4-10 firstname
11-16 lastname
============================
00Y - record_ind | Account_#| STATE | country
0-3 record_ind
4-8 Account #
9-10 STATE
11-15 country

input.txt
------------

    00XAtun   Varma 
    00Y00235ILUSA   
    00XDivya  Reddy  
    00Y00234FLCANDA  
    
    sample output/data frame
    output.txt
    
    record_ind | x_First_name | x_Last_name | y_Account | y_STATE | y_country
    ---------------------------------------------------------------------------
      00x      | Atun         | Varma       | null      | null    | null
      00y      | null         | null        | 00235     | IL      | USA       
      00x      | Divya        | Reddy       | null      | null    | null
      00y      | null         | null        | 00234     | FL      | CANDA

apache-spark

apache-spark-sql

fixed-width

回答 1

Stack Overflow用户

发布于 2020-10-17 08:19:26

实现这一点的一种方法是将数据加载为“文本”。完整的行将被加载到一个名为“value”的列中。现在调用一个UDF，它根据条件修改每一行，并以所有行都遵循相同模式的方式转换数据。最后，使用schema创建所需的数据帧并保存到数据库中。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/64325888

复制

相似问题

问一种多记录格式的定长文件阅读火花
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问一种多记录格式的定长文件阅读火花EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问一种多记录格式的定长文件阅读火花
EN