通过读取与python熊猫一起的csv文件,并试图更改编码,因为一些德国字母,seams Azure始终保持相同的编码(假设默认)。
无论我做了什么,总是在Azure门户上得到相同的错误:'utf-8'编解码器无法解码0位置的字节0xc4 :无效的连续字节堆栈
即使我设置、uft-16、latin1、cp1252等,也会出现相同的错误.
with pysftp.Connection(host, username=username, password=password, cnopts=cnopts) as sftp:
for i in sftp.listdir_attr():
我的文件包含Company,RecordID,Sale etc..When列。加载文件到pandas dataframe后,我首先尝试找到它的数据类型,它列出了一些列的浮点型/整型。所以我将它们改为字符串,如下所示; data = pd.read_csv(filepath)
print(data.dtypes)
Company Code object
SiteCode int64
Product Name object
RECORD ID int64
Tank ID
尝试制作一个相对简单的脚本,以帮助自动编写一些我必须做的注释。我正在讨论如何构造数据并与其交互,并决定尝试使用Pandas,因为它看起来非常健壮和直接。我希望将csv文件的每一列提取为一个列表,然后将其中一些列附加到不同的列表列表中。但是,每当我试图对文件做任何事情时,我都会得到以下错误:IndexError: index 1 is out of bounds for axis 0 with size 1。我一直在寻找如何解决这个问题,但我并不确定问题出在哪里。我对代码和数据进行了一系列不同的调整(除了语句,在执行之前检查零长度索引,再次检查数据集,以确保它正确对齐)。尽管如此,没有一个更接近
我刚刚开始使用Dask,我正在尝试将不同的csvs组合在一起,其中包含了dtypes中提到的列。我包括了dtypes字典来强制csvs中的数据到它们的类型。但是,尽管如此,当我试图将Dataframe保存为一个拼花文件时,我会遇到这个错误。奇怪的是,当我执行Dst Port时,int64字段仍然是"int64“,所以我不知道如何以其他方式强制数据类型。
独立的csvs对熊猫和达斯克没有这个问题。在我把它们组合起来之前,它只会抛出这个bug。为什么这真的会发生,我该如何解决呢?
import dask.dataframe as dd
import pandas as pd
from nu
在python3.4.3和Pandas0.16中,如何将索引的dtype指定为str?下面的代码是我尝试过的:
In [1]: from io import StringIO
In [2]: import pandas as pd
In [3]: import numpy as np
In [4]: fra = pd.read_csv(StringIO('date,close\n20140101,10.2\n20140102,10.5'), index_col=0, dtype={'date': np.str_, 'close': np.f
在将read_csv与Pandas结合使用时,如果我希望将给定的列转换为类型,格式错误的值将中断整个操作,而不会指示违规的值。
例如,运行类似于:
import pandas as pd
import numpy as np
df = pd.read_csv('my.csv', dtype={ 'my_column': np.int64 })
将导致以错误结尾的堆栈跟踪:
ValueError: cannot safely convert passed user dtype of <i8 for object dtyped data in column
我有一个数据帧,如下所示 open Start show Einde show
5 NaN 11:30 NaN
6 16:00 18:00 19:45
7 14:30 16:30 18:15
8 NaN NaN NaN
9 18:45 20:45 22:30 这些小时是字符串格式的,我想将它们转换为日期时间格式。每当我尝试使用pd.to_datetime(evs['open'], errors='coerce') (更改其中一列)时,它会将小时更改为完整的日期时间格式,如下所示:
我正在尝试读取一个CSV作为一个光束数据,并将它转换成一个收集。
管道代码:
with beam.Pipeline(options=pipeline_options) as p:
df = p | read_csv(input_file)
pcol = to_pcollection(df)
引发以下错误:
ValueError: Attempted to encode null for non-nullable field "last_review". [while running 'Unbatch 'placeholder_DataFram
我试图编写一个程序,允许用户输入该列并对该列进行排序,并将单元格替换为其他输入的信息,但我可能会遇到一些总结错误。
I tried to search but I could not find any solution
import pandas as pd
data = pd.read_csv('List')
df = pd.DataFrame(data, columns = ['A','B','C','D','E','F','G','H',&
我正试着读一本潘达斯的。这个文件似乎是我从LinkedIN竞选经理处下载的一种奇怪格式。你能帮我正常阅读这份文件吗?以下是代码:
path = r'C:\Users\FilePath' # use your path
all_files = glob.glob(os.path.join(path, "*.csv"))
dfAllDataLI = pd.concat((pd.read_csv(f) for f in all_files), ignore_index=True)
以下是错误:
UnicodeDecodeError