在比较数据帧之后，输出CSV不会返回所有行

可能是由于以下原因之一：

数据帧中存在空值或缺失值：如果数据帧中存在空值或缺失值，输出CSV时可能会忽略这些行。可以通过使用数据清洗技术，如填充空值或删除包含空值的行，来解决这个问题。
数据帧中的行被过滤或筛选：在比较数据帧之后，可能会对数据帧进行过滤或筛选操作，导致输出CSV时只返回符合条件的行。可以检查比较数据帧的代码，确认是否对数据帧进行了过滤或筛选操作。
输出CSV时的参数设置不正确：在输出CSV时，可能会使用了不正确的参数设置，导致只返回部分行。可以检查输出CSV的代码，确认是否正确设置了参数，如是否指定了正确的行范围。

无论是哪种情况，都可以通过检查数据帧的内容、比较数据帧的代码以及输出CSV的代码来解决问题。如果需要更具体的帮助，可以提供相关代码或更详细的问题描述。

比较Pandas数据与csv文件的最佳方法

、、、、

我有许多测试，在这些测试中，需要将Pandas数据帧输出与静态基线文件进行比较。基线文件格式的首选选项是csv格式，因为它在Git中具有可读性和易于维护。但是如果我要将csv文件加载到一个dataframe中，并使用 A.equals(B) 如果A是输出数据，B是从CSV文件加载的数据，那么不可避免地会出现错误，因为csv文件不记录数据类型和什么-nots。因此，我设计的解决方案是将数据A写入CSV文件，并以与B相同的方式加载它，然后询问它们是否相等。有没有人有一个更好的解决方案，他们已经使用了一段时间，没有任何问题？

浏览 1提问于2017-07-19得票数 3

回答已采纳

1回答

连接pandas数据帧时的意外行为

、、、

我有一个相对简单的任务:我有N个pandas数据帧，每个数据帧有3行数据。大多数列名与所有N个数据帧匹配(有些数据帧可能缺少1到2列)。我想创建3个包含N行的新数据帧，以便通过连接这些行来形成它，使得第i个新数据帧将包含来自所有N个数据帧的行索引i中的所有行。下面是我的尝试。 listOfRows1 = listOfRows2 = listOfRows3 = [] for i in range(N): dfN = pd.read_csv("filename"+str(i)+".csv") dfN["Index"] = range(1,

浏览 14提问于2021-03-14得票数 0

回答已采纳

1回答

Dask:合并后写入csv非常慢(python)

、、

我有一个小的Pandas数据帧(2000行，35列)，我将它与一个大的Dask数据帧(600万行，550列)合并在一起。我将小Pandas数据帧转换为Dask数据帧，并使用以下代码进行合并： final_df=dd.merge(left=small_df,right=big_df,how='inner',on=('var1','var2','var3')) 合并操作非常快，但运行这些代码需要一段时间： final_df.head() 或者： final_ddf.to_csv('file.csv',header=T

浏览 28提问于2020-07-16得票数 0

回答已采纳

1回答

将Pandas数据帧写入具有前导空间的文件

、

我有一张Pandas的表格 YYYYMMDD HHMMSS JJJJJ.JJJJ 20050414 120000 53474.5 20050415 120000 53475.5 我想将这些行连接到现有文件中，输出如下所示 PREVIOUS DATA HERE YYYYMMDD HHMMSS JJJJJ.JJJJ 20050414 120000 53474.5 20050415 120000 53475.5 也就是说，在每个数据帧的数据行中都有一个前导空间，而不是列标题行。下面的输出格式是正确的，但没有空格。 df[['YYYYMMDD','

浏览 3提问于2017-09-11得票数 1

1回答

如何编写进行字符串比较的pyspark groupby agg函数

、、

我试图逐条记录地比较两个非常大的CSV，并且我需要生成一个汇总矩阵，以显示对于相同的记录id，是否每个字段都发生了变化。我的数据如下： record_id, colA, colB ....file 10086 , 'haha', 'ok' ....'csv1' 10086 , 'haha', 'oh no' ....'csv2' 10087, 'ok', 'good' ........'csv1' 10087

浏览 29提问于2018-12-20得票数 0

1回答

R:我如何将数据帧附加到列表中？

、、、、

我有一个for循环，它读取.csv文件的列表，清理它们，并将输出导出为一个新的.csv文件。在输出.csv文件之前，我希望将干净的数据帧添加到某种类型的列表中，以便在进程结束时(在for循环中我正在清理的大约36个.csv文件)，我可以将所有清理过的数据帧合并到一个大数据帧中，然后作为一个.csv导出。下面是我在代码开头(在循环之前)初始化的空列表的一个示例： csv_list <- vector(mode = "list", length = 36) 当我运行循环时，数据帧不会按预期的方式追加。列表不是添加到现有的列(数据具有相同的行名和列名，只是不同的值)，而是简单

浏览 4提问于2020-06-10得票数 2

回答已采纳

1回答

R函数用于比较csv文件，并列出具有相同列名的行之间发生的更改

、

我正在尝试用r编写一个函数，该函数接受两个具有相同列数和列名的相当大的csv文件，并比较这两个文件的行。但是我很难比较这些行，因为我想让函数返回数据正在更改的列。例如，我的数据帧/csv可能是： csv1： qty name description price 2 alpha number of alpha to order 20 3 beta number of beta to order 30 1 gamma number of gamma to order 10 2 del

浏览 9提问于2020-02-14得票数 0

2回答

切片/重置索引后对Pandas DF使用iterrows()时出现的问题

、、

我从CSV文件中读取了数千行数据，其中包含用于计算不同输出的数据。我读入此CSV文件并将输入存储在Pandas数据帧中。然后，我使用itterrows()遍历数据帧。有时我的代码会失败，这时我希望读入原始文件，但在失败后从一行开始处理。因此，当这种情况发生时，设置我的代码，以便在进入itterrows() for循环之前取消注释两行，并将原始数据帧分割成一定大小： # slicing it and re-indexing when a restart is needed df_slice = df.iloc[1292:,] for index,row in df_slice.iterrows(

浏览 0提问于2015-12-22得票数 1

1回答

Python ` should e```循环，用于比较未正常工作的字符串

、、、、

我尝试获取名为df1的数据帧中1,3的值，并将其与另一个字符串进行比较；如果两个值相同，则将该数据帧写入csv文件。df1.iat1,3，即var c的原始值是"Alayamon“。但它仍然将数据帧写入csv，即使我故意将字符串更改为"Alayaon“以检查它是否正常工作。我想让代码打印“正在等待...”如果值不相同，则继续尝试读取数据帧，直到到达df1.iat1,3处具有正确值的数据帧。我应该如何修改代码，使其仅在两个变量完全相似时才写入数据帧，有什么建议吗？ df1 = pd.read_csv(io.StringIO(dfs[4].to_csv(index=False)),

浏览 10提问于2021-03-04得票数 0

回答已采纳

1回答

如何读取多个csv文件并将其转换为3d数据帧

、、

我有多个.csv文件。它们具有相同的列大小，但行数不同。我想做一个数据帧，它的第三个维度显示每个文件。我尝试读取每个文件并将其保存到数据帧中，然后将它们附加到列表中，但当将列表转换为数据帧时，输出的是二维数据帧(如果我们有5个文件，则输出puth is (5，1) dataframe)。 path = "Something" filelist = os.listdir(Path) print(filelist) all_csv_files = [] for x in filelist: df = pd.read_csv(Path + "\\" + x)

浏览 0提问于2020-08-07得票数 0

1回答

处理从不同行开始的Pandas的多个csv

、、

我目前正在使用如下的for循环处理PD数据帧中的多个CSV文件： for csvfile in all_filenames: with open(csvfile, 'r') as csvopen: content = csvopen.read() csvopen.seek(0) dialect = csv.Sniffer().sniff(csvopen.readline(), [',',';','\t']) combined_csv = pd.read_csv(cs

浏览 8提问于2021-06-03得票数 2

回答已采纳

1回答

使用Pandas更新行中已存在的新信息的列

、、、、

最终目标是学习如何在任何列中的项发生更改时更新现有的行数据。为此，更新行而不是删除/删除行非常重要，因为在自动从excel中提取信息之后，我必须向每个CSV行输入手动数据。例如，idKey的摘要更改，因此必须用新的摘要更新现有idKey的摘要，而不删除我手动为该idKey输入的事件。另一个例子是，idKey的状态在两天前正在进行分析，而缺陷正在被观察。这个jira现在被关闭为一个副本，idKey的状态现在需要从分析改为复制，而没有我手动输入的ECG构建被删除。我使用Pandas作为我的主库，为传入的行建立数据帧，并操作CSV文件。我已经尝试过一些我见过的东西，但是我发现最有希望的是用于Pa

浏览 8提问于2022-03-10得票数 0

2回答

在CSV文件列中搜索关键字

、、

我需要在CSV文件中搜索一个特定的关键字，如果找到它-从整个行获取数据。我正在工作的是我们学校的时间表，所以它很大。 import csv with open('plan.csv', 'rt', encoding='windows 1250') as fileinput: # In the code below I first create a list of groups, skipping # duplicates, so that user can later select a group to show it'

浏览 6提问于2017-01-05得票数 0

回答已采纳

1回答

从pandas数据帧中随机抽样行并保持索引

、

我正在处理一个非常大的csv文件(4 4GB)，有2500万行。为了执行分析，我希望随机抽取大约100,000行的样本。我在数据帧上使用了df1 = df.sample(n)函数。我发现df1的索引值与原始df中的索引不同。有没有办法克服这个问题？df.sample是否重置它返回的数据帧中的索引？保留索引对我来说很重要，因为我计划在将来使用它来引用行。我已经在df1中对数据帧进行了采样。当我尝试查看原始df中某个元素的索引时，它有一个与之关联的不同行 ?

浏览 8提问于2019-03-10得票数 0

1回答

如果超过或等于3个NaN (null)，则删除行

、、

如果数据帧中的任何一行具有大于或等于3个空值，我将删除这些行： import pandas as pd import numpy as np df = pd.read_csv (r'C:\Users\GANGA\Desktop\titanicmodupd.csv') new_data = df.dropna(axis = 0, how ='any',thresh=3) print(new_data) 输入：实际输出：预期输出：

浏览 0提问于2019-11-10得票数 2

3回答

皮尔逊相关性及其意义

我有一个6行14列的数据帧。我通过以下方法计算皮尔逊相关性： #read data data1 <- read.csv("test.csv") #calculate correlation pearson_coef <- cor(data1[sapply(data1, is.numeric)]) 我得到了正确的相关系数。现在我想要得到相关性的显着性水平。所以我使用了： significance <- cor.test(data1) 但是我得到了这个错误： Error in cor.test.default(data1) : argument "

浏览 3提问于2016-01-19得票数 0

1回答

如何使用itertuples()获取找到值的第一行

我使用下面的代码获取找到"value“的第一行，但获取文件的最后一行。我做错了什么？有没有办法获得第一行？假设我的数据帧是这样的： Summary no This is an analysis of some data Phone: 452-354-4456 col1 Value col2 col3 bac15 job $16.00 $0.00 khs bank $19.25 $0.00 jsg foot

浏览 0提问于2018-11-19得票数 0

2回答

以自定义格式将Pandas Dataframe导出为CSV

、

我有一个csv，我需要导入到熊猫数据帧中。然后，我需要将该pandas数据帧导出回与我导入的csv完全相同的csv (输入文件和输出文件必须完全匹配)。我遇到的问题是csv的格式非常奇怪，我无法更改这种格式(这是挑战的一部分)。csv的一些行具有不同数量的元素，并且一些行以2个分号、一个分号或没有分号结束。 input.csv scene;1 date;08.04.2019;; sky;AM;45; sky;PM;45; weight;upper;-5 到目前为止，我已经完成了最简单的部分-我已经使用以下代码将csv导入到pandas数据帧中： def csv_read(path):

浏览 49提问于2019-02-20得票数 0

回答已采纳

1回答

如何从pandas数据帧中的文本字符串中提取所有形容词？

、

我正在将CSV加载到pandas数据框中。数据框中的一列是“评论”，它包含文本字符串。我需要在数据帧的所有行中标识此列中的所有形容词，然后创建一个新列“形容词”，其中包含该评论中所有形容词的列表。我已经尝试使用TextBlobs，并且能够使用发布的代码标记每个案例的词性。 import pandas as pd from textblob import TextBlob df=pd.read_csv('./data.csv') def pos_tag(text): try: return TextBlob(text).tags except

浏览 26提问于2019-07-11得票数 2

回答已采纳

1回答

Python pandas在列等于值的特定行中将数据帧写入CSV

、、

我有我的算法和代码。它可以工作，但会将数据帧写入我的输出CSV文件中的整个列。我只想将数据帧写入列等于某个值的行。这是在第6行。其余的逻辑，语法看起来很好。我研究了相当多的选项，包括sort_values()，apply()，map()，lambda，编写if语句。这似乎是一个简单的解决方案，但我无法将数据帧写入特定的行和列组合。如果之前有人问过这个问题，请向我推荐解决方案。谢谢。输出文件-第1行 df_Working_File = pd.read_csv('Working\WF.csv') 输入文件-第2行 df_GSTRemoved = pd.read_csv('

浏览 1提问于2017-05-18得票数 0

1回答

计算不包含“`NA`”的数据帧的行数

、、

可能重复：我有一个从以下函数派生的数据框架： complete <- function(directory,id = 1:332) { csvfiles <- sprintf("/Users/myname/Desktop/%s/%03d.csv", directory, id) nrows <- sapply( csvfiles, function(f) nrow(read.csv(f))) rowlabels <- nrow(nrows) data.frame(id=sprintf(

浏览 2提问于2013-01-16得票数 4

回答已采纳

1回答

将dataframe元素与list的公共列名连接起来

、

我有一个包含不同数据帧的列表，我需要将具有相同列名的数据帧合并为一个，并将其写入CSV输出或单个数据帧。我已经设法获得了列名，但是想不出好的逻辑来执行上述操作。我的案例：有9个数据帧的MERGED_LIST elements.The列名如下 array(['A','B','C']) - 10 rows array(['A','B','C']) - 15 rows array(['W','X','Y','Z']) - 10 rows

浏览 2提问于2016-01-19得票数 2

1回答

如何加载*.csv文件作为具有顺序编号的列的数据帧？

、、、

我正在尝试将csv文件加载为数据帧 import pandas as pd import numpy as np # loading csv files map1 = pd.read_csv('data001.csv') print(map1) 但是，数据帧的列名是从第一个数据帧的行*.csv文件值提供的。我怎么才能得到一个列名按顺序编号的dataframe呢？谢谢!

浏览 1提问于2018-04-20得票数 0

1回答

使新数据帧与单个数据帧匹配到多个数据帧

我有一个Pincode值的数据帧(file1.csv)。在另一个集合中，我有多个相同记录集的文件(fileset1.csv、fileset2.csv、fileset3.csv(. 我想根据file1拉取与多个文件中的行集匹配的PIN码。例如：我想要所有文件的所有行的PIN码和交付百分比，一个单独的数据帧，用file1.csv的PIN码文件索引。提前谢谢。 file1.csv Pincode Name value 110011 sia N 110012 dia S 110013

浏览 2提问于2015-08-14得票数 0

2回答

迭代期间的循环中断: Python，Pandas

、

这是我的代码，它搜索数据帧的一列，并在满足要求时返回值： import pandas as pd df=pd.read_csv("cl.csv") count=0 print(len(df.sl_no)) print(len(df.sn_compare)) for i in range(len(df.sn_compare)): if df.sn_compare[i] in df.sl_no: print(df.margin[i]) count=count+1 print(count) 输出： 8258 8258 0.036621541

浏览 3提问于2017-06-23得票数 1

回答已采纳

1回答

Pandas合并函数，将剩余值保存在数据帧中

、

正在对两个数据帧的列使用合并函数...如何保存来自DataFrame1( df_csv_deduped)的剩余值，并将其存储在框架底部的某些行中 df_merged = pd.merge(df_csv_deduped, df_excel_deduped_values, how='inner', on=['Incident ID'])

浏览 14提问于2020-10-31得票数 0

1回答

Geopandas包含一个点，但不是很多点

、

我需要在多面体中过滤数据帧的行。我的多多边形存储在gdf_polygon中，我的点存储在gdf中。下面是他们看起来是什么样子的简历。 gdf_polygon id geometry 0 MULTIPOLYGON (((39.81239 21.43429, 39.81445 21... gdf id geometry 0 POINT (50.05832 26.43992) ... ... 问题是，当我试图检查其中是否有任何点时，返回False，但我知道多边形中有一些点。基本上，如果我运行这个命令，我会将False作为输出。

浏览 16提问于2019-12-24得票数 1

回答已采纳

2回答

将频带矩阵转换为帧并省略某些行？

、

我之前得到了很多帮助，但我刚刚遇到了另一个问题，我想知道是否有人会有任何见解。在中，我写了一个数据集(它实际上大约有50行)，让我们称它为“Times”： > Times <- read.csv(“Times.csv”, stringsAsFactors=FALSE, header=TRUE) > Times Num Start End 1 00:09:41 00:25:025 2 00:11:21 00:41:32 3 00:34:39 00:58:01 然后，为了找到重叠的时间间隔，有人建议我创建一个带

浏览 2提问于2013-07-18得票数 1

1回答

使用str.startswith访问数据帧片

、、、、

我有一个数据帧，它包含多年来的温度值，我想要做的是将2015年的所有行放入一个新的数据帧中。目前，Date列是一种对象类型，其str格式如下: YYYY-MM-DD import pandas as pd import numpy as np import matplotlib.pyplot as plt %matplotlib inline df = pd.read_csv("C:\\whatever\weather.csv") weather_2015 = df.loc[df.Date == df.Date.str.startswith("2015"),

浏览 7提问于2017-08-28得票数 0

回答已采纳

1回答

Pandas:过滤的dataframe不返回任何行，但未过滤的返回任何行

、

我正在从CSV文件创建一个Pandas数据帧： import pandas as pd filename = 'mike.csv' main_df = pd.read_csv(filename) print(main_df.shape)的输出是(280, 23)，所以这个数据帧中有280行。但是，当我下一次尝试按列值过滤此数据帧时： filtered_df = main_df.query('Status == "Active"') print(filtered_df.shape) ，print(filtered_df.shape)的输出是(0

浏览 10提问于2018-06-11得票数 2

回答已采纳

1回答

从R中的data.frame创建新类

我正在玩R.中的函数、类和方法，以便有一个也可能有用的“手”练习，我决定创建我的“套餐”来照顾我的家庭预算。简单地说，我想要一系列的函数，类和方法来计算东西，绘制不同类型的图表等等。我想要做的第一件事是创建一个“预算”类:这应该使用带有特定列的csv，并返回一个对象“预算”，该对象继承了数据框架的相同方法，但我可以向其应用一组“预算”方法。这是我的想法 prepareData = function (csv, type=1) { if (type == 1) { Data = read.csv(csv,dec = ".")} else if (type == 2) { Dat

浏览 3提问于2016-11-14得票数 4

回答已采纳

1回答

当从文件加载时，Spark会在内存中保留DataFrame吗？

、、

如果我像这样创建一个数据帧： val usersDF = spark.read.csv("examples/src/main/resources/users.csv") spark实际上是将数据(从csv文件)加载(/copy)到内存中，还是作为分布式数据集加载到底层文件系统中？我之所以这样问，是因为在加载df之后，底层文件数据中的任何更改都不会反映在对dataframe的查询中。(当然，除非通过调用上述代码行再次重新加载数据帧。我在Databricks notebooks上使用交互式查询。

浏览 1提问于2019-10-25得票数 2

1回答

在Python中循环多个panda数据帧以获得多个数据帧输出

、、、、

我有1000个数据帧，这些数据帧是通过循环目录中的1000个csv文件读取的，我的代码如下： for csv in csvs: df = pd.read_csv(csvs) dfs.append(df) 所以基本上我从dfs[0]到dfs[999]。然后，我创建了一个名为fun的函数来应用于所有这些数据帧。如果只有几个数据帧要处理，我会做output = fun(dfs[0])、output2 = fun(dfs[1])等等，但由于我有这么多数据帧，我想以某种方式循环它们，这样我就可以获得1000个不同的数据帧的1000个不同的输出。这可行吗？另外，有没有办法一

浏览 4提问于2021-06-09得票数 0

1回答

读取文件夹中的647个CSV，对每个CSV中的列求和，并将和添加到R中的新数据框中

我有一个包含647个CSV的文件夹。在CSV中有一个名为“mxpx”的列。我想对每个CSV的这一列求和，并将总和放入一个新的数据框中。最终结果将是具有标记为"mxpx“的列的647x1数据帧，每个条目是来自每个CSV的mxpx的总和。我已经尝试读取这些文件并将它们绑定在一起，以使用以下命令创建一个数据帧： files <- list.files(path = x, pattern = "*.csv", full.names = T) tbl <- sapply(files, read_csv, simplify = FALSE) %>% bind_

浏览 15提问于2020-10-24得票数 1

回答已采纳

2回答

Python pandas dataframe sort_values不起作用

、

我有下面的pandas数据帧，我想按'test_type‘排序 test_type tps mtt mem cpu 90th 0 sso_1000 205.263559 4139.031090 24.175933 34.817701 4897.4766 1 sso_1500 201.127133 5740.741266 24.599400 34.634209 6864.9820 2 sso_2000 203.204082 6610.437558 24.466267 34.83

浏览 1提问于2016-09-20得票数 0

回答已采纳

3回答

将python迭代器输出转换为pandas数据帧的最快方法

、

我有一个生成器，它返回未知数量的数据行，我希望将这些数据转换为索引的pandas数据帧。据我所知，最快的方法是将CSV写入磁盘，然后通过'read_csv‘解析回来。我知道创建一个空的dataframe，然后不断地追加新的行是没有效率的。我不能创建预置大小的dataframe，因为我不知道将返回多少行。有没有一种方法可以将迭代器输出转换为pandas数据帧而不写入磁盘？

浏览 1提问于2017-03-24得票数 12

1回答

与熊猫一起读取csv时“skiprows”的问题

我有一个很大的数据帧(大约500万行)，其中包含一些错误的数据。我已经识别了具有错误数据的行的索引，现在我正在尝试从数据帧中删除“错误”的行。由于数据帧的大小，我在读取csv时使用了chunksize功能。为了跳过“错误”的行，我使用了skiprows和error_bad_lines features。我还使用low_memory特性来防止警告(出于示例的目的，我只读取了前20000行)。然后，我将新数据帧保存在新的csv中。问题是，只有前9个“错误”行被跳过，然后“错误行”仍然被读取(并保存到输出csv)。下面是我的代码： for df in pd.read_csv('dat

浏览 14提问于2020-09-25得票数 0

回答已采纳

1回答

如何在pandas中使用基于DataFrame布尔值的条件语句

、

现在，我知道了如何跨多列检查数据框中的特定值。但是，我似乎不知道如何执行基于布尔响应的if语句。例如：使用os.walk遍历目录并将特定文件读入到数据帧中。 for root, dirs, files in os.walk(main): filters = '*specificfile.csv' for filename in fnmatch.filter(files, filters): df = pd.read_csv(os.path.join(root, filename),error_bad_lines=False)

浏览 1提问于2015-09-22得票数 11

回答已采纳

3回答

将文件名添加到数据帧csv

、、

我需要读取一个目录中的多个csv文件，将它们组合成一个数据帧，并为读取的每个行项目在数据帧中添加一个列文件名。 import glob import os import pandas as pd path = r'\OUTPUT' all_files = glob.glob(os.path.join(path, "*.csv")) df_from_each_file = (pd.read_csv(f, delimiter='|') for f in all_files) concatenated_df = pd.concat(d

浏览 0提问于2021-05-29得票数 0

1回答

使用python中的用户输入值按列过滤数据

、、

我想根据来自SN列的值过滤CSV文件中的数据。列值由用户本身提供。我正在使用下面的代码，但是相同的代码不返回值。有人能纠正一下吗？问题在is_data =(数据的n‘== SN)行中，当我用表中的值替换SN时，代码运行良好下面是数据和代码预期输出:如果值为1024314，则输出应为 import pandas as pd SN = input("insert SN number") print(SN) data = pd.read_csv("sample.csv") is_data = (data['SN'] == SN) prin

浏览 1提问于2021-03-12得票数 0

回答已采纳

1回答

提高非常大的数据帧上的迭代性能

、、、、

我有一个pandas数据帧，它由300万行和50列组成，所有列都包含整数(正数或负数)。我想创建一个名为'feature‘的新列，它从现有的50列中提取最大的负数。例如，如果对于给定行，50列包含以下值 -25,-24,-23,...,-1,1,...,23,24,25 “feature”列应返回-1。因为我的数据帧太大了，所以我尝试的解决方案花费的时间太长了。例如，我尝试过使用列表理解，但是因为我求助于iterrows()，所以它太慢了(itertuples()的性能并没有明显的提高)： import numpy as np import pandas as pd from tq

浏览 3提问于2019-07-17得票数 1

回答已采纳

2回答

使用重新分区和合并将数据帧输出到CSV文件

、、、、

目前，我在一个单节点Hadoop上工作，我编写了一个作业，将只有一个分区的排序数据帧输出到一个csv文件。我发现，当使用不同的重新分区时，会产生几种结果。首先，我使用orderBy对数据进行排序，然后使用repartition输出CSV文件，但输出是分块排序的，而不是以整体的方式排序。然后，我尝试丢弃repartition函数，但输出只是记录的一部分。我意识到在不使用repartition的情况下，spark将输出200个CSV文件而不是1个，即使我正在处理一个分区的数据帧。因此，我接下来要做的是将repartition(1)、repartition(1, "column of

浏览 3提问于2021-09-28得票数 1

1回答

使用rvest提取一个页面中的多个表

、

如何将所有列表转换为数据帧、追加所有数据帧并导出为csv？ library(rvest) webpage <- read_html("https://www.sec.gov/Archives/edgar/data/21665/000144530512000409/exhibit21.htm") tbls <- html_nodes(webpage, "table") tbls_ls <- html_table(tbls,fill = TRUE) colnames(tbls_ls[[1]]) <- c("Name",

浏览 13提问于2019-04-14得票数 2

回答已采纳

2回答

将多个pandas数据帧附加到单个csv，但仅在第一次附加时包含报头

、、、、

我需要创建一个.csv文件，并将多个数据帧的子集附加到其中。所有数据帧的结构都是相同的，但是我需要创建带有头部的输出数据集，然后追加所有没有头部的后续数据帧。我知道我可以只使用第一个数据帧的头创建输出文件，然后执行一个不带头的append循环，但我真的想学习如何以更有效的方式完成这项工作。 path ='/Desktop/NYC TAXI/Green/*.csv' allFiles = glob.glob(path) for file in allFiles: df = pd.read_csv(file, skiprows=[1,2], usecols=np.a

浏览 0提问于2015-11-18得票数 1

1回答

根据索引列表创建不同的数据帧并将其输出到不同的csv

、

我有一个基于N值的索引列表，如下所示。下面是我用来创建索引列表的代码 df = pd.DataFrame(np.arange(100).reshape((-1, 5))) N = 4 ix = [[i, i+N] for i in range(0,len(df),N)] ix # [[0, 4], [4, 8], [8, 12], [12, 16], [16, 20]] 我想创建一个函数，它创建： 1) N个数据帧(df_1、df_2、df_3、df_4、df_5)。每个数据帧中的行基于每个索引列表。例如，"df_1“将具有来自主数据帧df的索引0和4之间的所有行，类似地，df_2将具

浏览 14提问于2019-11-16得票数 0

回答已采纳

1回答

清理数据帧-将一个单元格中的值分配给列

、、

我正在将多个CSV文件从一个文件夹读取到一个数据帧中。我对文件夹中的所有文件进行循环，然后连接数据帧以获得最终的数据帧。但是，CSV文件有一个摘要行，我希望从中提取日期，然后添加为该csv/dataframe中所有行的新列。 “”“ df=pd.read_csv(f,header=None,names=['Inverter',"Day Yield",'month Yield','Year Yield','SpecificYieldDay','SYMth','SYYear','

浏览 6提问于2019-07-29得票数 0

2回答

加入两个巨大的文件而不与pandas分块

、、、

我有带有"id，name“的File1和带有"id，address”的File2。我不能加载第一个文件(小于2 2Gb)：它崩溃后76k行(块合并)和只有2列...我不能在第二个文件上使用read_csv，因为它在加载一些行后使内核崩溃。我需要用"id“连接File1和File2，但是如果我不能把文件放在一个数据帧变量中，我不知道该怎么做…… 这个文件只有5 5Gb，30M行，但是它在加载几秒钟后就会使内核崩溃。请告诉我如何在没有数据帧的情况下连接文件？我尝试了卡盘，但它崩溃了。 chunks = [] cols = [...] for chunk in pd.

浏览 21提问于2019-06-11得票数 1

2回答

基于唯一值将数据帧子集成小数据帧子集并同时写入csv文件的有效方法

、、、、

根据唯一/过滤条件将大型数据帧df子集划分为较小子集的最有效方法是什么？例如，我有一个维度为22050行、5列的数据集，如下所示 id, nationality, age, gender, income 10001, France, 20, M, 45007 13328, UK, 52, F, 72308 11654, USA, 57, F, 95645 11765, UK, 39, M, 77343 10081, UAE, 41,M, 83117 10503, France, 22, F, 25665 在整个数据集中有15个独特的国家，我想根据这15个独特的国家将数据集子集为15个数据帧

浏览 38提问于2020-09-28得票数 4

回答已采纳

2回答

在写入CSV时操作Pandas输出

、、、

我正在试着写一些能做以下事情的东西：读取超过1m行、100列数据的CSV；按照从最大行到最少行的顺序列出重复行的出现情况来总结每列到目前为止，我所拥有的： import pandas as pd df = pd.read_csv (r'infile.csv') outfile = ('outfile.csv') for i in df: df.pivot_table(index=i, aggfunc='size').to_csv(outfile, mode='a') 下面的代码输出如下： ColumnA,0 as

浏览 31提问于2020-08-24得票数 0

回答已采纳

1回答

这个对象的类型是什么?如何处理它？

、、

我迷失了R中的以下对象： # create a list of filenames files <- list.files("directory", full.names = TRUE) # read all files as csv data <- lapply(files, function(x) (data.frame(read.csv(x)))) 这很好，但我不知道数据的类型，也不知道如何掌握它。让我们看看： data[1] [[1]] Date value1 value2 ID 1 2003-01-01 NA NA

浏览 1提问于2015-04-19得票数 0