我正在尝试用r编写一个函数,该函数接受两个具有相同列数和列名的相当大的csv文件,并比较这两个文件的行。但是我很难比较这些行,因为我想让函数返回数据正在更改的列。例如,我的数据帧/csv可能是:
csv1:
qty name description price
2 alpha number of alpha to order 20
3 beta number of beta to order 30
1 gamma number of gamma to order 10
2 del
我从CSV文件中读取了数千行数据,其中包含用于计算不同输出的数据。我读入此CSV文件并将输入存储在Pandas数据帧中。然后,我使用itterrows()遍历数据帧。有时我的代码会失败,这时我希望读入原始文件,但在失败后从一行开始处理。因此,当这种情况发生时,设置我的代码,以便在进入itterrows() for循环之前取消注释两行,并将原始数据帧分割成一定大小:
# slicing it and re-indexing when a restart is needed
df_slice = df.iloc[1292:,]
for index,row in df_slice.iterrows(
我需要在CSV文件中搜索一个特定的关键字,如果找到它-从整个行获取数据。我正在工作的是我们学校的时间表,所以它很大。
import csv
with open('plan.csv', 'rt', encoding='windows 1250') as fileinput:
# In the code below I first create a list of groups, skipping
# duplicates, so that user can later select a group to show it'
我使用下面的代码获取找到"value“的第一行,但获取文件的最后一行。我做错了什么?有没有办法获得第一行?
假设我的数据帧是这样的:
Summary no
This is an analysis
of some data
Phone: 452-354-4456
col1 Value col2 col3
bac15 job $16.00 $0.00
khs bank $19.25 $0.00
jsg foot
我有一个Pincode值的数据帧(file1.csv)。
在另一个集合中,我有多个相同记录集的文件(fileset1.csv、fileset2.csv、fileset3.csv(.
我想根据file1拉取与多个文件中的行集匹配的PIN码。
例如:
我想要所有文件的所有行的PIN码和交付百分比,一个单独的数据帧,用file1.csv的PIN码文件索引。
提前谢谢。
file1.csv
Pincode Name value
110011 sia N
110012 dia S
110013
这是我的代码,它搜索数据帧的一列,并在满足要求时返回值:
import pandas as pd
df=pd.read_csv("cl.csv")
count=0
print(len(df.sl_no))
print(len(df.sn_compare))
for i in range(len(df.sn_compare)):
if df.sn_compare[i] in df.sl_no:
print(df.margin[i])
count=count+1
print(count)
输出:
8258
8258
0.036621541
我正在玩R.中的函数、类和方法,以便有一个也可能有用的“手”练习,我决定创建我的“套餐”来照顾我的家庭预算。简单地说,我想要一系列的函数,类和方法来计算东西,绘制不同类型的图表等等。我想要做的第一件事是创建一个“预算”类:这应该使用带有特定列的csv,并返回一个对象“预算”,该对象继承了数据框架的相同方法,但我可以向其应用一组“预算”方法。这是我的想法
prepareData = function (csv, type=1) {
if (type == 1) {
Data = read.csv(csv,dec = ".")}
else if (type == 2) {
Dat
我有一个很大的数据帧(大约500万行),其中包含一些错误的数据。我已经识别了具有错误数据的行的索引,现在我正在尝试从数据帧中删除“错误”的行。 由于数据帧的大小,我在读取csv时使用了chunksize功能。为了跳过“错误”的行,我使用了skiprows和error_bad_lines features。我还使用low_memory特性来防止警告(出于示例的目的,我只读取了前20000行)。然后,我将新数据帧保存在新的csv中。 问题是,只有前9个“错误”行被跳过,然后“错误行”仍然被读取(并保存到输出csv)。 下面是我的代码: for df in pd.read_csv('dat
我想根据来自SN列的值过滤CSV文件中的数据。列值由用户本身提供。我正在使用下面的代码,但是相同的代码不返回值。有人能纠正一下吗?问题在is_data =(数据的n‘== SN)行中,当我用表中的值替换SN时,代码运行良好
下面是数据和代码
预期输出:如果值为1024314,则输出应为
import pandas as pd
SN = input("insert SN number")
print(SN)
data = pd.read_csv("sample.csv")
is_data = (data['SN'] == SN)
prin
我有一个pandas数据帧,它由300万行和50列组成,所有列都包含整数(正数或负数)。我想创建一个名为'feature‘的新列,它从现有的50列中提取最大的负数。
例如,如果对于给定行,50列包含以下值
-25,-24,-23,...,-1,1,...,23,24,25
“feature”列应返回-1。
因为我的数据帧太大了,所以我尝试的解决方案花费的时间太长了。例如,我尝试过使用列表理解,但是因为我求助于iterrows(),所以它太慢了(itertuples()的性能并没有明显的提高):
import numpy as np
import pandas as pd
from tq
我正在试着写一些能做以下事情的东西: 读取超过1m行、100列数据的CSV;按照从最大行到最少行的顺序列出重复行的出现情况来总结每列 到目前为止,我所拥有的: import pandas as pd
df = pd.read_csv (r'infile.csv')
outfile = ('outfile.csv')
for i in df:
df.pivot_table(index=i, aggfunc='size').to_csv(outfile, mode='a') 下面的代码输出如下: ColumnA,0
as
我迷失了R中的以下对象:
# create a list of filenames
files <- list.files("directory", full.names = TRUE)
# read all files as csv
data <- lapply(files, function(x) (data.frame(read.csv(x))))
这很好,但我不知道数据的类型,也不知道如何掌握它。让我们看看:
data[1]
[[1]]
Date value1 value2 ID
1 2003-01-01 NA NA