跟着我的一个老。我终于知道发生了什么。
我有一个csv文件,其中包含精子\t,并使用以下命令读取它:
df = pd.read_csv(r'C:\..\file.csv', sep='\t', encoding='unicode_escape')
例如,长度是: 800.000
问题是原始文件大约有1.400.000行,而且我也知道问题发生在哪里,有一列(假设是columnA)有以下条目:
"HILFE FüR DIE Alten
你知道发生了什么事吗?当我删除该行时,我得到了正确的行数(长度),python在这里做什么?
下面是读取csv文件的代码段。我对不太标准的读行有意见。例如,像这样的一行
105,"XXX Bank Azerbaijan" CJSC,1078 ,AZ,Baku,"xxx street",Nasimi district
进入捕捉字段后,第二个字段"XXX银行阿塞拜疆“CJSC的引号不在逗号旁边。但是,当我在Excel中打开此文件时,它没有任何问题,并正确地将字段分隔为:
105|XXX Bank Azerbaijan CJSC|1078|AZ|Baku|xxx street|Nasimi district
其中我使用|作为列分隔符。是否有一
我试图用sed删除csv文件数字的整个十进制部分。我所能做的就是从文件的整个列中截断所有的小数(即.0),而且我不知道如何只在第六列中这样做。
输入:
PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
343,No,2,"Collander, Mr. Erik Gustaf",male,28.0,0,0,248740,13.0,,S
76,No,3,"Moen, Mr. Sigurd Hansen",male,25.0,0,0,348123,7.65,F
伙计们,我需要创建一个带有一些产品细节的非常简单的csv文件,以便将它们导入到一个在线购物网站。每个产品都有3个属性:名称、描述和价格。
csv文件将如下所示:
产品1,产品说明,100产品2,产品说明,100产品3,产品说明,100
我有两个问题:
1)每个产品描述都有多行,例如
This the product's description.
This is a cool feature.
This is another feature.
Product made in the US.
如何在csv文件中保留/添加此格式?
如何在不破坏csv格式的情况下将这些逗号添