我有两个大的csv文件。一个是另一个的子集(但顺序不同),但在末尾添加了两个新字段。例如:
第一档案:
a, b, c
b, a, c
a, c, d
c, a ,a
第二档案:
c, a, a, g, i
b, a, c, f, g
我想做一个新版本的第一个文件,其中有这些新的字段,它们存在于文件2中。例如。
修改后的第一个文件:
a, b, c,,
b, a, c, f, g
a, c, d,,
c, a ,a, g, i
在熊猫里,我可以把它们都读出来,虽然它们很大,但是
df1 = pandas.read_csv("file1.csv")
df2 = pandas.r
我在一个文件里有数据。类似CSV,但每个字段可以有多个值。我使用get_dummies()生成我的专栏的概述。里面有什么,有多频繁。就像包含名义数据的直方图一样。我想查看缺少的(nan)值。但我的代码隐藏了它们。
我正在使用:
我不能使用: dummy_na可以解决这个问题
原因:我需要sep参数。
来说明不同之处。
import pandas
data = pandas.read_csv("testdata.csv",sep=";")
Bla["a"].str.get_dummies(",").sum() #no nan val
更新
Problem 1:我有一个数据集,其中很多值都是NaN。使用main.loc[main.isna().sum(axis=1) >= 2]输出来:
ID: GNDR COUNTRY ... BIKE CAR PBLC
1 0 NaN ... NaN NaN NaN
1 0 NaN ... NaN NaN NaN
16 1
我想用我的label表示的线条创建一个图形
因此,在这个例子图片中,每一行代表一个不同的标签。
数据看起来是这样的,x轴是日期时间,y轴是计数。
datetime, count, label
1656140642, 12, A
1656140643, 20, B
1656140645, 11, A
1656140676, 1, B
因为我有大量的数据,所以我想用1小时甚至1天的数据进行汇总。
我能够生成上面的图片
# df is dataframe here, result from pandas.read_csv
df.set_index("datetime").g
我有一个名为'blah‘的数据文件,它是这样创建的:
blah = pandas.read_csv(address, index_col='Date', parse_dates=True)
blah.head()
TransactionName Withdrawal Deposit Total
Date
2016-12-01 PTS TO: ####### 10.00 NaN
我正在尝试将.csv中的NULL值转换为NaN,然后使用这些编辑保存一个文件。下面代码中的f在数据中的正确位置具有NaN值。但是,我无法将其另存为.csv。错误显示在代码下方。
#take .csv with NULL and replaces with NaN - write numerical and NaN values to .csv
import csv
import numpy as np
import pandas
f = pandas.read_csv('C:\Users\mmso2\Google Drive\MABL Wind\_Semester 2 2016\W