来自类似于PySpark SQL数据文件的
name age city
abc 20 A
def 30 B
如何获得最后一行。(就像df.limit(1)一样,我可以将第一行数据last转换为新的数据格式)。
以及如何通过第12或200号index.like行访问数据行。
在熊猫里我能做到
df.tail(1) # for last row
df.ix[rowno or index] # by index
df.loc[] or by df.iloc[]
我只是好奇如何以这样的方式或替代的方式访问pyspark。
谢谢
我正在编写一个在palantir中使用pyspark的代码,我有这个错误,我无法弄清楚。
错误是:
A TransformInput object does not have an attribute withColumn.
Please check the spelling and/or the datatype of the object.
我的代码供您参考
import pyspark.sql.functions as F
import pyspark.sql.types as T
from pyspark.sql.functions import when
from transfor
我有一个很大的pyspark.sql.dataframe.DataFrame,名为df。我需要某种方法来枚举记录--因此,能够使用特定的索引访问记录。(或选择一组具有索引范围的记录)
在熊猫里,我可以
indexes=[2,3,6,7]
df[indexes]
在这里,我想要类似的东西(而且不把数据转换成熊猫)。
我能找到的最接近的是:
通过以下方法枚举原始数据中的所有对象:
indexes=np.arange(df.count()) df_indexed=df.withColumn(索引,索引)
- Searching for values I need using wher
在pyspark中,我创建了三个数据帧: B1、P1和C1。
Dataframe: B1 has five columns (B_Num, B_Tin, B_Light, B_Dark, and
B_White)
Dataframe: P1 has three columns(P_Prov, P_Tip, and P_Bye)
Datafram: C1 has three columns(C_Cust, C_Addr1, and C_Addr2)
我试着把三个数据帧联合起来。它工作得很好我不想这么做。
B1 = B1.withColumn("i
重复运行以下代码会产生不一致的结果。到目前为止,我只看到了两个输出。在切换到其他结果之前,结果会重复任意随机次数,然后在再次切换回之前,这些结果也会重复任意随机次数。
为什么会发生这种情况?
在这个示例中,我可以使用索引窗口函数并在使用%修改单个列之前包含一个orderBy(),但我的实际示例中,我没有这个选项,所以这不是一个适合我的解决方案。
import pyspark
spark = pyspark.sql.SparkSession.builder.getOrCreate()
import pyspark.sql.functions as F
from pyspark.sql.wind
我尝试了这里显示的另一种方法:,它不适用于我的数据帧。
我有一个数据文件,如下所示:
Attribute Values ID Brand Model
--------------------------------------------
Colour Red 1 Sony xyz
Energy F 2 Samsung abc
Year 2020 1 Sony xyz
Energy C 1 Sony xyz
Colou
我想使用PySpark应用程序在远程Postgres服务器上使用执行以下查询
SELECT id, postgres_function(some_column) FROM my_database GROUP BY id
问题是,我不能使用spark.sql(QUERY)对Pyspark执行这种查询,很明显,因为postgres_function不是ANSI函数。
我用的是星火2.0.1和Postgres 9.4。