我有一些非常大的表,我试图将sqoop从源系统数据仓库()转换为HDFS,但带宽有限。我只想拉出我需要的列,并尽量减少使表站起来的运行时间。
sqoop当前提取的内容如下:
SELECT
ColumnA,
ColumnB,
....
ColumnN
FROM
TABLE_A
LEFT JOIN
TABLE_B
ON
...
LEFT JOIN
TABLE_N
....
如果数据以星型模式格式存储,并且维度可以独立于事实进行更新,那么是否可以执行增量的sqoop?
或者,对于我需要的列来说,是sqoop整个表的唯一解决方案,并在H
我试图通过从hadoop集群中获取.csv数据并将其放入Pandas DataFrame来创建火花工作流。我能够从HDFS中提取数据并将其放入RDD中,但无法将其处理到Pandas Dataframe中。以下是我的代码:
import pandas as pd
import numpy as nm
A=sc.textFile("hdfs://localhost:9000/sales_ord_univ.csv") # this creates the RDD
B=pd.DataFrame(A) # this gives me the following error:pandas