我有csv文件,我必须用来制作和panda。通常这些文件的格式如下:
Days Page Impressions Visits Bounces
2012-12-15 692041 87973 31500
2012-12-16 602356 78663 29298
2012-12-17 730902 99356 37436
2012-12-18 730071 97844 37199
2012-12-19 774964 110446 43858
2012-12-20 419256 44592 13961
2012-12-21 320966 33692 10076
2012-12-22 200992 18840 5170我面临的问题是,有时候CSV文件是这样的:
SomeName ABCD
Account: AccountHolder Name
Report Author: Analysis
Description: Some variable length description
Pivot
Pivot
Days Page Impressions Visits Bounces
2012-12-15 367143 69147 30222
2012-12-16 334675 63702 28040
2012-12-17 409260 77171 33642
2012-12-18 427765 78221 33575
2012-12-19 434781 79850 34300
2012-12-20 463448 81361 34501
2012-12-21 447964 81897 35242
2012-12-22 368477 70352 31014
2012-12-23 321891 61973 27521
Time of Calculation: 2013-03-15 02:14:58 我如何才能只得到与天的列相关的数据,页面注解,访问,反弹
我知道我可以使用list(my_dataframe.columns.values)来获取头名,但是它不适用于CSV文件类型2。
他们在熊猫身上有什么毕达通的方法吗?
谢谢
发布于 2014-09-17 21:04:29
两次读取文件。首先,枚举文件中的行,以获得标题所在的行。将该行号传递给csv解析器。
with open('file.csv', 'rb') as infile:
for lineno, line in enumerate(infile):
if line[:4] = 'Days':
break
df = pd.read_csv('file.csv', skiprows=lineno)发布于 2014-09-17 07:56:22
使用csv。它有一个选项“跳过”。如果您的文件头中始终有相同的6行,则可以使用skiprows=6
跳过:在文件开始时跳过(0-索引)或跳过(int)的行数:
import pandas as pd
df = pd.read_cs("path/to/file.csv", sep=";", skiprows=6)发布于 2018-07-19 08:00:21
你也可以在熊猫read_csv中使用这个变量。
在你的例子中,看起来是这样的:
import pandas as pd
df = pd.read_csv(file,header = 6 )所以您的脚本将使用第6行作为标题,然后开始读取数据.
https://stackoverflow.com/questions/25884570
复制相似问题