我有一个很大的数据帧(大约500万行),其中包含一些错误的数据。我已经识别了具有错误数据的行的索引,现在我正在尝试从数据帧中删除“错误”的行。 由于数据帧的大小,我在读取csv时使用了chunksize功能。为了跳过“错误”的行,我使用了skiprows和error_bad_lines features。我还使用low_memory特性来防止警告(出于示例的目的,我只读取了前20000行)。然后,我将新数据帧保存在新的csv中。 问题是,只有前9个“错误”行被跳过,然后“错误行”仍然被读取(并保存到输出csv)。 下面是我的代码: for df in pd.read_csv('dat
我将一个数据集从CSV文件导入到Python中的dataframe。我想从这个dataframe中删除一些特定的行,并将它们附加到一个空的dataframe。到目前为止,我已经尝试从名为df的“大”数据帧中删除第1行和第0行,并使用以下代码将它们放入dff中:
dff = pd.DataFrame() #Create empty dataframe
for x in range(0, 2):
dff = dff.append(df.iloc[x]) #Append the first 2 rows from df to dff
#How to remove appended
我已经从csv文件创建了rdd,第一行是该csv文件的标题行。现在,我希望从该rdd创建数据帧,并保留rdd的第一个元素中的列。
问题是我可以从rdd.first()中创建数据帧和列,但是创建的数据帧的第一行本身就是头。如何去除它?
lines = sc.textFile('/path/data.csv')
rdd = lines.map(lambda x: x.split('#####')) ###multiple char sep can be there #### or #@# , so can't directly read csv to a
假设我有2个Pandas数据帧,df维度为297232 x 122维度,df_raw维度为840380x122维度。df已经是df_raw的一个子集。两个数据帧的索引都是DateTime。我想从df中取值的70%,从df_raw中取值的30% (如果需要,可以随机采样),同时确保采样的数据帧子集在索引方面没有重叠。
更准确地说,df_subset将从df中随机选择70%个值,df_raw_subset将从df_raw中随机选择30%个值,但df_subset和df_raw_subset不应该包含采样行方面的重叠,即它们应该具有唯一的DateTime索引。
我有一个数据帧"moment_f“。我必须从moment_f中删除一些包含名称"AH“的行。但是,我不会删除每个"AH“行,所以我创建了一个包含要删除的"AH”的新数据帧。
ah1 = moment_f[moment_f["TextGridLabel"] == "AH"]
ah_d = ah1.iloc[::2]
# got the odd rows of "AH" which is what I need to get rid of from the original dataframe "moment
我有两个数据帧。其中一个被认为是一个引用并具有每个值,另一个可能是缺失的值,也可能不是缺失的值。我想比较这两个数据帧,然后从另一个具有NA的参考数据帧中删除值。但是,数据帧中可能有缺失值的每一行都需要作为单个比较来处理,因此您正在为每一行开发一个唯一的引用。例如,引用dataframe(1):
var1 var2 var3
1 a b c
2 q w e
3 z x n
其他数据框架(2):
var1 var2 var3
1 p o i
2 u
我正在尝试使用Pandas来clean一个非常大的数据帧。
数据集包含身高、体重、性别和年龄等指标的重复列。有些行具有列名currentAge的数据,而另一些行具有列名currentAge2的数据。
因此,我想删除NaN在currentAge和currentAge2中都有的行--例如,因为它们是无用的数据点。我想对所有其他指标也做同样的事情。
我的数据帧的索引从0开始。下面是我尝试过的代码。
for index, row in csv.iterrows():
if ((math.isnan(row['currentAge']) and math.isnan(row[
我遵循了这个示例Remove last N rows in data frame with the arbitrary number of rows,但它只删除了数据帧的最后50行,而不是数据帧中每个研究站点的最后50行。我有一个非常大的数据集,它有多个研究地点,每个研究地点都有多个深度,每个深度都有营养物质的浓度。 我只想删除每个桩号的最后50行深度。 例如,站点1有250个深度,站点2有1000个深度,站点3有150个深度 但要保持所有其他数据的一致性。 这似乎只是从数据帧中删除了最后50个,而不是每个站点中的最后50个…… df<- df[-seq(nrow(df),nrow(
问题语句:从子数据帧中删除行
代码:
x=[rand(3) for i in 1:3]
dfx=DataFrame(x,:auto)
dfy=@view dfx[2:3,:]
问:我想从dfy中删除第一行,这样它也会从dfx中删除。我做了原始dfx的子集,以进一步检查子集的行是否满足条件。最后,我想决定是将行保留在dfx中还是将其删除。我对dfx的子集dfy进行操作。
在清理时间序列的Pandas Dataframe之前,我想删除顶部某些列中包含NaN的行。
我想遍历数据帧的开头,删除满足条件where column为NaN的行。我下面的数据框叫做“列车”,包含两列-“日期”和“最高温度(摄氏度)”。我将日期设置为索引。最初的20个奇数行包含‘最高温度(摄氏度)’中的NaN。
#Drop NaN values at start of dataframe
for date,row in train.iterrows():
print(date)
if train.loc[date,'Maximum temperature (Degree C)
我有一个R数据帧,我使用下面的代码运行了一个R数据帧:
knit('reportTemplate.Rnw', 'file.tex') # creates a .tex file from the .Rnw one
texi2pdf('file.tex') # creates a .pdf file from the .tex one
在我的R脚本中,我想之后从我的计算机文件夹中删除'file.tex‘。我该如何实现这一点?在.R文件中执行此操作非常重要,因为这些行实际上位于从该模板生成1000个不同