我列出我的数据帧以丢弃未使用的数据帧。首先,我使用下面的函数列出了我在其中一篇文章中找到的数据帧
from pyspark.sql import DataFrame
def list_dataframes():
return [k for (k, v) in globals().items() if isinstance(v, DataFrame)]
然后我试着从列表中删除未使用的。我在下面使用的代码
df2.unpersist()
当我再次列出时,df2仍然在那里。如何在pyspark上删除数据帧以获得一些内存?或者你还有其他的建议吗?谢谢。
from pyspark.sql.functions import *
from pyspark.sql.types import *
我试图将数据帧转换为df.column.cast(ShortType()),但当我尝试插入数据99999时,它正在转换为null而不会抛出任何错误,所以您能否建议在转换时抛出错误的任何方法。
我正在寻找等同于pandas数据帧的pyspark。特别是,我想对pyspark dataframe执行以下操作
# in pandas dataframe, I can do the following operation
# assuming df = pandas dataframe
index = df['column_A'] > 0.0
amount = sum(df.loc[index, 'column_B'] * df.loc[index, 'column_C'])
/ sum(df.loc[index, &
我有两个数据帧df1和df2,我只想在结果中不匹配的列。我试着使用SQL来做,但是SQL返回所有列,而不是一列。
df1
col1|col2|col3
a b c
1 2 3
df2
col1|col2|col3
a b e
1 2 3
我想要的是如果它能返回
df3
col3
是否可以在pyspark中做do,或者我必须通过从两个数据帧中选择每一列然后进行比较来进行比较?
我有一个包含数据的Sql数据库。我被要求用所有必需的主数据填充一个新的相同数据库,以便应用程序能够为新客户启动和运行。
First approach
删除数据库中的所有数据,运行应用程序,确保我甚至无法登录。观察错误,识别需要主数据的表(至少是User表),插入数据。然后假设我要访问一个模块。但是如果没有一些主数据,它会给我错误。观察错误,识别需要主数据的表,插入数据。但这似乎不切实际。
Second approach
在将数据保留在数据库中的同时,使用查询或sql server management studio工具一次获取一个表,查找所有相关表。保留父表数据,删除子表数据。对所有表执行此操
我希望在我的数据帧tfIdfFr中插入一个名为"ref"的列,其中包含一个类型为pyspark.ml.linalg.SparseVector的常量。 当我尝试这个的时候 ref = tfidfTest.select("features").collect()[0].features # the reference
tfIdfFr.withColumn("ref", ref).select("ref", "features").show() 我得到这个错误AssertionError: col should be
我正在观察工作中“插入到”命令中的奇怪情况。我将尝试从我的观点来解释这种情况,在我的数据库中有一个TEMP_LINKS表,并且应用程序向其中插入数据。假设查询位于in t1.sql中 insert into TEMP_LINK (ID, SIDE)
select ID, SIDE
from //inner query//
group by ID, SIDE;
commit; 并且有执行它的java1类 ...
executeSqlScript(getResource("path-to-query1"));
... 在此之后,另一个java2类在同一个TEMP_LINK表
它可以在没有聚合或计数的情况下遍历Pyspark groupBy数据帧吗? 例如Pandas中的代码: for i, d in df2:
mycode ....
^^ if using pandas ^^
Is there a difference in how to iterate groupby in Pyspark or have to use aggregation and count?
我正在尝试使用RDKit生成分子描述符,然后使用Spark对它们执行机器学习。我已经设法生成了描述符,并且我找到了。这段代码从以svmlight格式存储的文件中加载数据帧,我可以使用dump_svmlight_file创建这样的文件,但写入文件感觉并不是很“闪亮”。
我已经走了这么远:
from rdkit import Chem
from rdkit.Chem import AllChem
from rdkit.Chem import DataStructs
import numpy as np
from sklearn.datasets import dump_svmlight_file