到目前为止,我的代码如下: import pandas as pd
with open("input.txt") as f:
data = f.readlines()
for line in data:
data = {'col1': [line[':']], 'col2': [line[':']], 'col3': [line[':']], 'col4': [line[':']]}
df = pd.
我是python的新手,我将csv中的大数据加载到了pandas数据帧中。但是,我找不到一种方法来为dataframe的每一行创建一个2d数组,其中新np数组的每一行对应于X范围的值。例如,在我的代码中:
import pandas as pd
import numpy as np
data = pd.read_csv("categorization/dataAll10Overfit.csv",header=None)
#print(data)
rec = data.iloc[:,0:3968] # outputs i rows x 3969 columns
在数据帧的每一行
我有一个目录,每个客户都有一个文件夹。在每个客户文件夹中都有一个名为surveys.csv的csv文件。我想打开每个客户文件夹,然后从csv中提取数据并进行连接。我还想创建一个包含该客户id的列,该id是文件夹的名称。
import os
rootdir = '../data/customer_data/'
for subdir, dirs, files in os.walk(rootdir):
for file in files:
csvfiles = glob.glob(os.path.join(mycsvdir, 'surveys.csv
我有一个有n列的dataframe,我正在尝试创建一个递归遍历这些列的函数。 例如,假设我有以下数据帧: | left | center | right |
|:---- |:------:| -----:|
| One | Two | Three | 我想运行一个函数,它使用左列,然后是左列和中列,然后是左列、中列和右列。所以基本上,在每一步,我使用前面的列+ 1。在pandas中有一个有效的方法来做到这一点吗?
我有一个数据帧列表,我希望将该列表中每个数据帧的摘要统计信息返回到一个新的数据帧中-能够选择每个初始数据帧中的列(值)来返回摘要统计信息。输出数据帧中的每一行对应于初始列表中的每个数据帧。 我可以使用for循环获得汇总统计信息输出,但它只会给我列表中最后一个数据帧的汇总统计信息,而不是列表中的所有数据帧。下面是一个for循环示例,它为我提供了列表中最后一个数据帧的输出统计信息。 for i in step2:
step3=i.describe() #gives me a single df of the last item (dataframe) in my list 下面是我的列表
我正在处理一个pandas数据帧,我希望在每一行中找到最远的非空值,然后颠倒这些值的顺序,并输出一个行值颠倒的数据帧,而不会在第一列中留下空值。本质上颠倒了列的顺序并将非空值向左移位。 在: 1 2 3 4 5
1 a b c d e
2 a b c
3 a b c d
4 a b c 输出: 1 2 3 4 5
1 e d c b a
2 c b a
3 d c b a
4 c b a
我的python代码生成了一个pandas数据帧,如下所示: enter image description here 我需要将其转换为另一种格式以实现以下目的:循环遍历数据帧中的每一行,并输出与表中的行一样多的数据帧。每个dataframe都应该有一个额外的列: timestamp,并且命名为"Type“列中的值。举个例子,我会有 enter image description here 我正在为从哪里开始而苦苦挣扎-我希望这里有人能给我一些建议?
我有一个非常大的数据帧另存为gzip文件。在保存数据之前,还需要对其进行大量操作。
您可以尝试将整个gzip数据帧转换为文本格式,将其保存到变量中,解析/清理数据,然后通过pandas.read_csv()保存为.csv文件。然而,这是非常耗费内存的。
我想逐行读取/解压缩这个文件(我认为这将是最节省内存的解决方案),解析它(例如,使用正则表达式re或pandas解决方案),然后将每一行保存到pandas数据帧中。
Python有一个gzip库来实现这一点:
with gzip.open('filename.gzip', 'rb') as input_file:
有没有办法在不遍历每一行的情况下从数据帧中执行SQL update-where?我有一个postgresql数据库,要从数据帧更新数据库中的表,我将使用psycopg2并执行以下操作:
con = psycopg2.connect(database='mydb', user='abc', password='xyz')
cur = con.cursor()
for index, row in df.iterrows():
sql = 'update table set column = %s where column = %s&
我正在尝试用python将一堆xlsx文件合并成一个单一的pandas数据帧。此外,我还想包含一个列,它列出了每一行的源文件。我的代码如下:
import pandas as pd
from pandas import ExcelWriter
from pandas import ExcelFile
import glob
import os
# get the path for where the xlsx files are
path = os.getcwd()
files = os.listdir(path)
files_xlsx = [f for f in files if f[-4
我从下面的excel表格创建了一个数据帧:
每一行都是一个单独的"mon“,有它自己的特定统计信息。我为mons创建了一个类,但现在我不确定如何将它们分开,并按名称分别调用它们。
最终,我希望能够调用Mon1和Mon2,并创建一个新的类,它将包含它们基于其统计数据进行战斗的逻辑。
import pandas as pd
df = pd.read_excel(r'C:\Users\ericb\Desktop\Simulator.xlsx')
for row in df.itertuples(index=False):
print(row)
我正在尝试从一个pandas数据帧中的多个列在一个循环中进行计算。我希望输出只是一个数字,但它的格式是index number dtype: int64。看起来应该很容易就能得到这个数字,但我想不出来。以下是一些数据和基本计算的简单示例
import pandas as pd
# create a little dataframe
df = pd.DataFrame({
'A': [1,2],
'B': [3,4]
})
# create a list to hold results
l1 = []
# run a loop to do a si
请帮我变得更有攻击性: 我正在用Pandas对所有分类特征进行编码。我知道使用Sklearn也可以做到这一点,但我想单独使用Pandas或Python。 我首先选择了“obj”类型的所有列,这些列恰好是cat (我正在处理一个小的数据帧,所以我可以肯定地知道这一点)。然后,我使用for循环来转换每一列。 我知道通过避免for循环,我绝对可以做到这一点。蟒蛇越多越好: cat_cols = df.select_dtypes(include='object').columns
for col in cat_cols:
df[col] = df[col].astype(&
我在excel文件中有一个大约27列的小型数据帧。实际上,我对编码非常陌生,需要帮助才能根据数据帧的列号将一个数据帧分成不同的excel文件。我尝试了一个小代码,它给出了同样的错误:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import openpyxl
from pandas import ExcelWriter
data = pd.read_excel('/Users/jorge/Desktop/Data/Book1.xlsx')
counts, bins, patche
我首先垂直生成一些数据,但希望将它们转置为行数据,然后将它们堆叠到一个类似Pandas数据帧的数组中。如何获得包含4列('fr','en','ir','ab')和3行的熊猫数据帧的最终结果?
# coding=utf-8
import pandas as pd
from pandas import DataFrame, Series
import numpy as np
import nltk
import re
import random
from random import randint
import csv
import
我试图通过一次添加几行来填充pandas中的现有数据帧,行数取决于一个理解列表,因此它是可变的。初始数据帧按如下方式填充: import pandas as pd
import portion as P
columns = ['chr', 'Start', 'End', 'type']
x = pd.DataFrame(columns=columns)
RANGE = [(212, 222),(866, 888),(152, 158)]
INTERVAL= P.Interval(*[P.closed(x, y) for x
我已经编写了以下Python/Pandas代码,将M行x N列数据帧(A)的每一列乘以M x 1数据帧(b),得到M x N数据帧C:
def multiply_columns(A, b):
C = pd.DataFrame(A.values * b.values, columns=A.columns, index=b.index)
return C
换句话说,它将矩阵的每一列乘以长度相等的列向量。
代码运行良好,但是我想不起这个操作的正式名称了。有什么想法?