我正在读取一个基本的csv文件,其中的列用逗号分隔,并使用以下列名:
userid, username, body
但是,body列是一个可以包含逗号的字符串。显然,这会导致一个问题,pandas会抛出一个错误:
CParserError: Error tokenizing data. C error: Expected 3 fields in line 3, saw 8
有没有办法告诉熊猫忽略特定列中的逗号,或者绕过这个问题?
我正在使用PySpark并加载一个csv文件。我有一个带有欧洲格式数字的列,这意味着逗号代替了点,反之亦然。
例如:我使用2.416,67而不是2,416.67。
My data in .csv file looks like this -
ID; Revenue
21; 2.645,45
23; 31.147,05
.
.
55; 1.009,11
在熊猫中,通过在decimal=','和thousands='.'选项中指定pd.read_csv()来读取欧洲格式,可以轻松地读取这样的文件。
Pandas代码:
import pa
来自R,我试着让我的头为熊猫数据切片整数。令我困惑的是,使用相同的整数/切片表达式对行和列进行不同的切片行为。
import pandas as pd
x = pd.DataFrame({'a': range(0,6),
'b': range(7,13),
'c': range(14, 20)})
x.ix[0:2, 0:2] # Why 3 x 2 and not 3 x 3 or 2 x 2?
a b
0 0 7
1 1 8
2 2 9
我
我试图编写一个Python代码来训练一个数据集,以识别一个新闻条目是假的还是真的。我需要能够将数据放入列中,即属性和目标。“是讽刺的”列,其值为1或0,是目标。"article_link"列和“标题”是属性。数据集很大,由数千行组成。下面我只展示了其中的三行。我的问题是:给定一个原始的JSON文件,我将它转换成一个CSV文件,可以在Excel中读取。但是,当我在Python中显示数据时,属性并没有分开,它们集中在一列中,我不知道如何将它们分开。下面是我代码的一部分(我没有列出我所有的导入或学习):
import pandas as pd
from pandas import
我有下面的代码来解析一些csv数据。关键是最后几行,其余的只是为了显示上下文。基本上,我的数据中最后有三列,ID变量LopNr和case应该有整数“无论如何”,但为了以防万一,我将整个DataFrame转换成整数。为什么我要为结果csv文件中的LopNr列和年份列获取".0“,而第三列包含聚合数据的列实际上被转换为整数,并且输出时没有".0"?我认为,在.astype(int)之后,所有列都有整数,并且我们的输出到csv,而不将它们转换回浮动。
import iopro
from pandas import *
neuro = DataFrame()
for ye
下面是使用pandas.io.sql将输出存储到csv文件中所需执行的sqlite查询:
sql2 = "select raw_contact_id as ID, group_concat(data1) as DETAILS from data group by raw_contact_id"
table2 = sql.read_frame(sql2, conn2)
table2.to_csv(cont_output, headers=True, index=False, encoding="utf8")
但我得到的输出如下:
ID | DETAILS |
我对分情节概念的理解有些困难。据我所知,子图是有组织的(行数、列数、图号或地块的位置)。
我有这样的代码:
from pandas import util
import pandas.util.testing as testing
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import matplotlib as mpl
df = util.testing.makeDataFrame()
with mpl.rc_context(rc={'font.family': '
尝试制作一个相对简单的脚本,以帮助自动编写一些我必须做的注释。我正在讨论如何构造数据并与其交互,并决定尝试使用Pandas,因为它看起来非常健壮和直接。我希望将csv文件的每一列提取为一个列表,然后将其中一些列附加到不同的列表列表中。但是,每当我试图对文件做任何事情时,我都会得到以下错误:IndexError: index 1 is out of bounds for axis 0 with size 1。我一直在寻找如何解决这个问题,但我并不确定问题出在哪里。我对代码和数据进行了一系列不同的调整(除了语句,在执行之前检查零长度索引,再次检查数据集,以确保它正确对齐)。尽管如此,没有一个更接近
我想要一种简单的方法来访问相对于Pandas DataFrame中给定索引的索引。请参见下面的代码,其中绘制了与numpy数组的类比:
import numpy as np
import pandas as pd
# let's make a simple 2d matrix like array
na_a = np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12],[13,14,15,16]])
print na_a
print na_a[1][2]
print na_a[1+1][2] # here I want to print the next
按顺序编号,请参考选择列表中的列序号位置。因此,以下查询相当于按'C.custid,C.C.region‘排序:
SELECT
C.custid, C.region
FROM SALES.Customers AS C
ORDER BY 1, c.region
现在,如果我使用一个CASE语句,希望对region列中的NULL值进行最后排序,那么我将执行如下操作:
SELECT
C.custid, C.region
FROM SALES.Customers AS C
ORDER BY CASE WHEN C.region IS NULL THEN 1 ELSE 0 END, C.re
我正在阅读“Python for Data Analysis”这本书,但在“Example: 2012联邦选举委员会数据库”部分将数据读取到DataFrame时遇到了问题。问题是其中一列数据总是被设置为索引列,即使index_col参数设置为None也是如此。
下面是指向数据的链接:。
下面是加载代码(为了节省检查时间,我设置了nrows=10):
import pandas as pd
fec = pd.read_csv('P00000001-ALL.csv',nrows=10,index_col=None)
为了保持简短,我排除了数据列输出,但以下是我的输出(请不要使用索引
我正在尝试从excel中的列中提取数据到Python中的列表。我有以下代码:
#Extracting Labels
read = pd.read_excel('Test-data-results.xlsx', sheetname=0) # can also index sheet by name or fetch all sheets
labels = read['Labels'].tolist()
print(labels)
当我运行这段代码时,我得到一个关键错误:....
File "pandas/_libs/index.pyx", lin
我知道这是一个常见的问题,但我仍然感到困惑,尽管有许多这样的帖子。这是我的问题:
我的职能是:
def query_text_by_keyword(df, word_list):
for word in word_list:
if word in df.words:
match = True
else:
match = False
return match
master_df['neg_query_match'] = master_df.apply(query_text_b
我正在处理一些csv文件,并使用pandas将它们转换为数据帧。之后,我使用一个输入来查找要删除的值 我遇到了一个小问题:对于某些列,它会将".o“添加到列中的值中。它只在包含数字的列中执行此操作,所以我猜它将该列读取为一个浮点数。如何防止这种情况发生? 真正让我困惑的是,它只发生在几个列中,所以我不能完全弄清楚模式。我需要去掉".0“,这样我才能重新导入它,而且我觉得从一开始就防止它发生是最容易的。 谢谢! 下面是我的代码示例: clientid = int(input('What client ID needs to be deleted?'))
df1
我刚开始学习Python和Pandas,在许多教程中我看到了iloc函数的使用。人们总是说,您可以使用这个函数来引用dataframe中的列和行。但是,您也可以不使用iloc函数直接这样做。下面是一个输出相同的例子:
# features is just a dataframe with several rows and columns
features = pd.DataFrame(features_standardized)
y_train = features.iloc[start:end] [[1]]
y_train_noIloc = features [start:end] [[1