我有一个主数据帧df_PROD,对于特定的年份范围,我想从主df中过滤这些记录,如果记录的数量超过0,就会将它们推入一个单独的df (即df_PROD_year),并将该年份附加到一个列表中,供以后使用。
我尝试在for循环中为数据帧创建动态名称,如下所示,如果记录大于0,我将添加到一个单独的df_year中,并尝试将该年份附加到另一个列表中,如下所示。
PROD_years_list = []
year=int(datetime.datetime.today().year)
for i in range (year, 2016, -1 ):
print(i)
df_PROD_{i}
我有以下代码,用于使用csv文件创建数据框字典:
l = ['employees','positions']
d = {}
for x in l:
d[x] = pd.read_csv("P:\\python_work\\data_sets\\" + x + ".csv")
如何使用内存中已有的数据帧列表执行相同的操作?
这不起作用,但也许它有助于弄清楚我想要做什么:
l = ['df1','df2']
d = {}
for x in l:
d[x] = x
然后,我可以像这样访问单
我有一个列表和一个数据帧df: test_list=[[A,B,C],[A,B,D],[A,B,E],[F,G]] 数据帧是 ID
B
C
D
E List of list的元素代表层次结构.I想要在数据帧中创建一个新的列"type“,其值代表其父级。 我的最终数据帧应该是这样的: value parent
B A
C B
D B
E B 我有一个非常大的数据集,test_list也非常大
我正在尝试创建基于pandas数据帧的列表字典,我需要一个列表字典来传递给我的Plotly仪表板 In:
df.head()
Model Make
Ford F-150
Ford Escape
Ford Mustang
Jeep Grand Cherokee
Jeep Wrangler 我发现df.to_dict()是通过列标题来定向的,但是我需要根据相邻的行值来定向。要做到这一点,唯一的方法是将我的数据帧重塑为列by Model,它们各自的制造商在它们下面? Out:
makes_by_model= {
'Ford':
我想在循环中创建数据帧,但使用关键字命名每个数据帧,以避免覆盖循环中的每个数据帧。
这是我的数据框的简化版本:
ID Field Value
1 A 1.1
2 A 1.2
3 A 2.4
4 B 1.7
5 B 4.3
6 C 2.2
因此,在这种情况下,我想以名为A、B和C的3个数据帧结束,所以这是我所疲惫的:
df2= df.groupby(['Field'])
for key, group in df2:
key = group.reset_index()
当然,每
当前,下面的代码读取路径中的所有csv文件,然后保存在一个列表中。 我想用文件名的名称保存每个数据帧,例如echo.csv path = r'M:\Work\Experimental_datasets\device_ID\IoT_device_captures\packet_header_features' # use your path
all_files = glob.glob(os.path.join(path, "*.csv"))
li = []
for filename in all_files:
df = pd.read_csv(file
想知道如何在Python的Pandas中使用两个不同的数据帧来计算集合差值。
其中一个数据帧(df1)的格式为:
State City Population
NY Albany 856654
WV Wheeling 23434
SC Charleston 35323
OH Columbus 343534
WV Charleston 34523
并且第二数据帧(df2)是
State City
WV Wheeling
OH Columns
并且我需要一个返回以下数据帧的操作
数据帧(Df)结构
col1 col2
x 3131
y 9647
y 9648
z 9217
y 9652
x 23
分组:
grouped = df.groupby(col1)
我想选择前两大组,即,
y 9647
y 9648
y 9652
和
x 3131
x 23
我怎么能用熊猫做这件事。我使用list实现了它,但这使它再次变得笨拙,因为它变成了一个元组列表,我必须将它们转换回数据帧类型。
在R中,有一个名为assign的函数,它为环境中的名称赋值。
例:
assign("Hello", 2)
> Hello
[1] 2
在python中,我似乎不能这样做。我最初尝试过:
import numpy as np
import pandas as pd
import os
for file in os.listdir('C:\\Users\\Olivia\\Documents'):
if file.endswith(".csv"):
os.path.splitext(file)[0] = pd.read_
我有一个元组列表,其中包含数据帧名称和指向该数据帧的路径。我想遍历列表,读取每个数据帧,并将其分配给它的名称。
paths = [('table1', 's3://my_bucket/data/table1/'), ('table2', 's3://my_bucket/data/table2/')]
我如何遍历它并用相应的表名创建每个df?下面的代码不起作用,因为它将数据帧创建为“name”。
for x in paths:
name = x[0]
name = spark.read.parquet(x[1])
我有12个包含环境数据的数据帧-每个数据帧中有9934行和38列的不同月份的数据。
为了使我的代码尽可能流畅,我想创建一个for循环,它循环遍历内存中的所有数据帧,并对它们执行一个任务,例如设置每个数据帧的索引。
我尝试通过以下方法创建内存中所有数据帧的列表:
alldfs = [var for var in dir() if isinstance(eval(var), pd.core.frame.DataFrame)]
然而,当我尝试的时候:
for df in alldfs:
df.set_index(['LABEL'], inplace = True)
我得到了
我有这个: partial = {}
for d in devs["d"]:
for k in a1km:
total = len(cp[(cp["r"]==d) & (cp["s"]==k)])
partial.update({str(d)+str(k): total}) 变量cp和devs是pandas数据帧,a1km是一个字典,其中包含一个站点及其1 1km以外的所有站点(预计算)。我想要的输出是,对于每个d和每个站点k,cp数据帧中与查询匹配的所有记录,即存储的total,因此: d, k
我觉得这是一个非常简单的问题,我只是没有足够的词汇在谷歌中表达出来。如下所示:
我有一个数据帧,我想将其切片并拆分成几个数据帧。所以我为此创建了一个函数和一个for循环。
示例表
col1 col2 col3 col4 col5
row1 A Hi my name is
row2 A Bye see you later
row3 B Bike on side walk
row4 B Car on str drive
row5 C Dog on grs poop
我的代码是这样的
list_ = list(df['
我迷失了R中的以下对象:
# create a list of filenames
files <- list.files("directory", full.names = TRUE)
# read all files as csv
data <- lapply(files, function(x) (data.frame(read.csv(x))))
这很好,但我不知道数据的类型,也不知道如何掌握它。让我们看看:
data[1]
[[1]]
Date value1 value2 ID
1 2003-01-01 NA NA
如果这是一个重复的问题,很抱歉。我有100个单词的文件,我需要从中提取表格数据。 我使用下面的代码来实现这个功能: import zipfile
from lxml import etree
import pandas as pd
def read_docx(docx_file, **kwargs):
"""Read tables as DataFrames from a Word document
"""
ns = {'w': 'http://schemas.openxmlformats.or