文章/答案/技术大牛

发布

社区首页 >问答首页 >由于额外的列值，尝试使用pandas Python读取csv时出现错误

问由于额外的列值，尝试使用pandas Python读取csv时出现错误
EN

Stack Overflow用户

提问于 2019-05-20 19:45:38

回答 2查看 1K关注 0票数 5

以下是我试图摆脱的场景：

我正在尝试读取以下类型的csv：

para1,para2,para3,para4
1,2,3,4,
1,2,3,4,5,
1,2,3,4,
2,3,4,5,6,7,8,9,0,

我使用以下命令，得到以下错误：

>>> import pandas as pd
>>> df =pd.read_csv("test.csv")
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "C:\Python35\lib\site-packages\pandas\io\parsers.py", line 702, in parser_f
    return _read(filepath_or_buffer, kwds)
  File "C:\Python35\lib\site-packages\pandas\io\parsers.py", line 435, in _read
    data = parser.read(nrows)
  File "C:\Python35\lib\site-packages\pandas\io\parsers.py", line 1139, in read
    ret = self._engine.read(nrows)
  File "C:\Python35\lib\site-packages\pandas\io\parsers.py", line 1995, in read
    data = self._reader.read(nrows)
  File "pandas\_libs\parsers.pyx", line 899, in pandas._libs.parsers.TextReader.read
  File "pandas\_libs\parsers.pyx", line 914, in pandas._libs.parsers.TextReader._read_low_memory
  File "pandas\_libs\parsers.pyx", line 968, in pandas._libs.parsers.TextReader._read_rows
  File "pandas\_libs\parsers.pyx", line 955, in pandas._libs.parsers.TextReader._tokenize_rows
  File "pandas\_libs\parsers.pyx", line 2172, in pandas._libs.parsers.raise_parser_error
pandas.errors.ParserError: Error tokenizing data. C error: Expected 4 fields in line 3, saw 5

我试着搜索这个问题，得到了这个帖子，所以：

Python Pandas Error tokenizing data

所以我试过了。这不是我所期望的。它正在截断值。

>>> df =pd.read_csv("test.csv",error_bad_lines=False)
b'Skipping line 3: expected 4 fields, saw 5\nSkipping line 5: expected 4 fields, saw 9\n'
>>> df


para1  para2  para3  para4
0      1      2      3      4
1      1      2      3      4

我想要的是这样的东西：

如果有额外的值，那么将这些列作为整数值，在extra中找到最高的列。然后使其余的值为零(0)，直到最后一列，并读取csv。

我期望的输出是这样的：

>>> df =pd.read_csv("test.csv")
>>> df
   para1  para2  para3  para4    0    1    2    3    4
0      1      2      3      4  NaN  NaN  NaN  NaN  NaN
1      1      2      3      4  5.0  NaN  NaN  NaN  NaN
2      1      2      3      4  NaN  NaN  NaN  NaN  NaN
3      2      3      4      5  6.0  7.0  8.0  9.0  0.0
>>> df = df.fillna(0)
>>> df
   para1  para2  para3  para4    0    1    2    3    4
0      1      2      3      4  0.0  0.0  0.0  0.0  0.0
1      1      2      3      4  5.0  0.0  0.0  0.0  0.0
2      1      2      3      4  0.0  0.0  0.0  0.0  0.0
3      2      3      4      5  6.0  7.0  8.0  9.0  0.0

但是请注意，我不想照看这个专栏。相反，程序必须自动理解并生成上面给出的列标题。

其次，请尽量避免建议我写标题。因为可能有许多列我可能无法写入标题，但只要让它保持原样即可。因此，缺少的列标题将是如上所述的数字整数。有没有人对这个问题有什么解决办法，请告诉我？

python

pandas

Stack Overflow用户

发布于 2019-05-20 20:21:34

我不确定是否有更干净的方法来做到这一点，但我测试了它，它只使用熊猫：

df = pd.read_csv('test.csv', header=None, sep='\n')
df= df[0].str.split(',', expand=True)
new_header = df.iloc[0].fillna(df.columns.to_series())
df = df[1:]
df.columns = new_header

票数 3

查看全部 2 条回答

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/56220380

复制

相似问题

问由于额外的列值，尝试使用pandas Python读取csv时出现错误
EN

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问由于额外的列值，尝试使用pandas Python读取csv时出现错误EN

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问由于额外的列值，尝试使用pandas Python读取csv时出现错误
EN