如何高效地遍历此数据帧并使用内置的numpy或pandas执行函数？

python、pandas、numpy、dataframe

我需要将数据帧转换为可以插入到sql表中的格式。 data_tuples = [tuple(row) for row in df.values] 如何从pandas数据帧中删除所有非python数据类型(包括np int、nans和NaTs)？

浏览 2提问于2016-08-08得票数 1

回答已采纳

1回答

如何使用pandas和numpy高效地编写这段代码？

python-3.x、pandas、numpy

我已经在我的数据帧上使用pandas和numpy编写了一段代码。它可以工作，但我想知道如何定义一个函数来做同样的事情，并将其应用于我的数据帧。 import pandas def f(row): if row['time_download'] == 0: val = 0 else: val = (row['volume_download'] - row['volume_last_second'])/(row['time_download']/1000) return val

浏览 9提问于2019-08-14得票数 0

回答已采纳

2回答

如何将每一行与该行上的特定列值相除？

python、pandas

假设我有一张表； A B C 2 1 4 1 8 2 ... 我尝试用C列的值来划分每一行，然后我得到； A B C 0.5 0.25 4 0.5 4 2 我如何在pandas数据帧中实现它？

浏览 3提问于2014-10-24得票数 1

2回答

使用Pandas进行条件切片(优雅的方式)

python、pandas

我需要根据一些标准拆分整个数据帧(Pandas)。例如： import pandas as pd import numpy as np a = np.random.random(size=(1,10)) b = np.random.randint(100,size=a.shape) df = pd.DataFrame(array((a,b)).T,columns=['a','b']) 现在，如果我想将数据帧分成两部分，其中df'a‘>= 30和df'a’< 30 df_two = [df[df['a'] < 3

浏览 4提问于2017-02-28得票数 2

回答已采纳

1回答

在Pandas数据帧上使用apply()时出现Numpy解包错误

python、pandas、numpy

我有一个Pandas DataFrame，它有两列，其中包含范围[-pi，pi)中的一些角度。我需要计算每一行的瞬时角速度，这可以使用diff()来完成，但是当我的数据跨越从pi到-pi的不连续时，这种简单的方法就失败了，例如我正在尝试对我的列使用numpy.unwrap()，但是当我尝试下面的代码时，我得到了一个ValueError。 angle_data["theta"].apply(np.unwrap) <Traceback message> ValueError: diff requires input that is at least one dim

浏览 74提问于2020-12-08得票数 1

回答已采纳

1回答

如何将python生成器转换为pandas dataframe

pandas、generator、python-3.7

我是python和pandas数据帧的新手，我正在努力地思考如何将python生成器转换为pandas数据帧。我想要做的是用这个函数将一个大表分成块，生成一个生成器： def fetch_data_into_chunks(cursor, arraysize=10**5): while True: results = cursor.fetchmany(arraysize) if not results: break for result in results: yield result 然后

浏览 35提问于2018-07-19得票数 0

回答已采纳

3回答

如何从pandas数据帧中提取值并将其放入numpy数组中？

python、pandas

我有多个pandas数据帧，我想写一个函数，它将取出数据帧每列中的值，并将它们放入自己的numpy数组中。示例数据帧 In [1]: df = pd.DataFrame([[1, 2], [1, 3], [4, 6]], columns=['A', 'B']) In [2]: df Out[2]: A B 0 1 2 1 1 3 2 4 6 如何从A列和B列的值中生成两个不同的numpy数组

浏览 1提问于2019-04-10得票数 0

4回答

如何查找具有一个或多个负值的pandas列

python、pandas

如果我想找出一个至少有一个零值的pandas数据帧中的所有特性，那么我可以使用以下命令。 df.isin([0]).sum() 这是简单而优雅的。找到具有负值的特征的等价物是什么？似乎没有简单的方法来找出pandas数据帧中至少有一个负值的所有列。你能帮帮忙吗？在此之前，非常感谢您。

浏览 0提问于2020-10-01得票数 0

2回答

如何动态地实现添加python代码部分

python

我想要创建一个python文件，它使用存储在数据库中的代码。我有一个名为CodeTable的表，它具有以下数据 ID Code ----------- 1 import pymssql import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np df = pd.read_csv(r'C:\Projects\G.csv') plt.figure(figsize=(12, 9)) 2 X = 1 + MasterKey 在我的

浏览 1提问于2019-07-17得票数 0

回答已采纳

1回答

Tensorflow TypeError:无法将1e-12转换为数据类型为int32的EagerTensor

python、pandas、numpy、tensorflow、tensor

我有一个多类分类机器学习应用程序，我想使用tensorflow计算它的f1分数。预测值和实际值分别存储在pandas数据帧y_pred和y_act中。两者都填充了1和0。所以我这样做： # convert dataframes to numpy pred_numpy = numpy.asarray([y_pred], numpy.int32) act_numpy = numpy.asarray([y_act], numpy.int32) # compute multiclass f1 metric = tfa.metrics.F1Score(num_classes=num_classes,

浏览 254提问于2021-10-13得票数 1

回答已采纳

2回答

Numpy h堆栈爆炸内存

python、numpy、pandas

我是Python新手，我不知道为什么当我使用Numpy hstack将两个pandas数据框架连接在一起时，内存使用量会急剧上升。pandas.concat的性能甚至更差--如果它能完成的话--所以我使用了NumPy。这两个数据帧比较大，但是我有20 gb的空闲RAM (使用11 gb，包括我想要复制的两个数据帧)。数据帧a和b具有形状： a.shape (66377, 30) b.shape (66377, 11100) 当我使用np.hstack((a,b))时，免费的20 up的had已经完全用光了。

浏览 1提问于2014-05-23得票数 3

回答已采纳

2回答

调用pandas plot函数进行路径输入

python、pandas、matplotlib、plot

我有一个pandas数据帧，它保存.wav数据的文件路径。我可以使用pandas DataFrame.plot()函数来绘制引用的数据吗？示例：典型用法：df.plot() 我想要做的是：df.plot(df.path_to_data)？我怀疑apply和lambda的某种组合可以做到这一点，但我对这些工具不是很熟悉。

浏览 2提问于2017-12-17得票数 0

2回答

用scipy.io打开arff文件

python、pandas、arff

我正在尝试加载一个arff文件，并将数据转换为pandas数据帧。然而，当我这样做时，数据可以在上获得： import numpy as np import pandas as pd from scipy.io import arff dataframe, meta = arff.loadarff('chronic_kidney_disease.arff') dataframe = pd.DataFrame(dataframe) dataframe.head() 我得到以下错误： ValueError: yes value not in ('yes',

浏览 6提问于2020-06-30得票数 0

1回答

如何加快在数据框列中查找重复项的速度

python、pandas、numpy

我希望找到在dataframe列中出现重复值序列的索引。我希望结果是一个列表列表，其中每个子列表都是重复值索引的单个序列。我当前的代码可以工作，但相当慢(10000行数据帧中10%重复的apx 15毫秒)： import pandas as pd import numpy as np import time # Given a dataframe and column, return a list of lists where each sublist # contains indexes of the sequential duplicates def duplicate_ranges(

浏览 0提问于2017-03-03得票数 0

2回答

如何修复```pandas.read_json(...)`过程中的` ```ValueError:拖尾数据`？

json、python-3.x、pandas

我正在尝试将JSON文件读取到Pandas数据帧中，如下所示： def read_JSON_into_dataframe( file_name ): with sys.stdin if file_name is None else open( file_name, "r", encoding='utf8', errors='ignore' ) as reader: df = pd.read_json( reader ) print( df.describe(), file = sys.stderr )

浏览 0提问于2019-10-12得票数 6

1回答

Pandas优化

python、numpy、pandas

我写了一个函数来处理pandas的数据。使用我的函数的%prun的分析日志张贴在底部(只有几行)。我想优化我的代码，因为我需要调用这个我写了超过4000次的函数。运行此函数一次需要37.7s。似乎最耗时的部分是numpy.ndarray的nonzero。因为我几乎所有的操作都是基于pandas的，所以我想知道pandas中的哪个函数严重依赖于这种方法？我的操作主要包括使用df.ix[]的基于datetimeindex的数据帧切片和使用pandas.merge()的数据帧合并。我知道不发布实际的脚本很难判断，但是脚本太长了，没有意义，而且大多数操作都是临时的，所以我不能把它重写成小脚本在这

浏览 2提问于2014-06-24得票数 0

1回答

从不同大小的numpy数组创建pandas数据帧

python、arrays、python-3.x、pandas、numpy

我有下面的numpy数组，它们的形状不同。我想使用pandas创建一个数据帧，这样我就可以整洁地显示它，如下所示： numpy数组： et_arr: [ 8.94668401e+01 1.66449935e+01 -4.44089210e-14] ea_arr: [ 100. 21.84087363 1.04031209] it: [[ 0.1728 1.0688 1.4848 1.6008 ] [ 1.36746667 1.62346667 1.63946667 0. ] [ 1.640533

浏览 10提问于2017-12-24得票数 1

回答已采纳

1回答

数据替换防止在提供int32值时替换不正确的int64字段

python、pandas、numpy

问题:如何替换数据帧中的所有特定int64值，但避免错误地替换不相等的int32值。当提供大的int32值时，Dataframe错误地替换了int64值。下面我创建了minimal示例，其中我希望将所有字段替换为-1。假设所有数据为零，则不应更新任何数据。但是，“a”列在替换后变为-1。 import pandas import numpy dtype = [('a','int32'), ('b','int64'), ('c','float32')] index = ['x', &

浏览 1提问于2016-12-02得票数 2

回答已采纳

1回答

在星火中RDD和Dataframe有什么区别？

pandas、apache-spark

我去了的链接是否必须创建RDD来执行操作，我们可以开始使用数据帧。与Dataframe相比，RDD有什么优势吗？我们能不能运行Pandas，numpy数据帧功能上的火花。对于numpy the np.where和像df.groupby‘’..agg()这样的熊猫

浏览 5提问于2020-01-21得票数 0

回答已采纳

7回答

用pandas DataFrame制作热图

python、pandas、dataframe、heatmap

我有一个从Python的Pandas包生成的数据帧。如何从pandas包中使用DataFrame生成热图。 import numpy as np from pandas import * Index= ['aaa','bbb','ccc','ddd','eee'] Cols = ['A', 'B', 'C','D'] df = DataFrame(abs(np.random.randn(5, 4)), index= Index, columns=C

浏览 1提问于2012-09-06得票数 142

回答已采纳

1回答

如何在Python/Pandas中将循环的垂直列转换为行，然后将它们堆叠在一起？

python-2.7、pandas、dataframe、transpose、data-manipulation

我首先垂直生成一些数据，但希望将它们转置为行数据，然后将它们堆叠到一个类似Pandas数据帧的数组中。如何获得包含4列('fr'，'en'，'ir'，'ab')和3行的熊猫数据帧的最终结果？ # coding=utf-8 import pandas as pd from pandas import DataFrame, Series import numpy as np import nltk import re import random from random import randint import csv import

浏览 1提问于2015-10-20得票数 2

1回答

如何导入大型csv文件并执行操作

python、bigdata

我在打开一个大的csv文件(>5 5GB)并对其执行一些简单的操作时遇到了问题。我写了这段代码： import pandas as pd import numpy as np import os import glob os.chdir('C:\\Users\\data')

浏览 0提问于2019-04-15得票数 0

1回答

python、pandas、numpy、machine-learning、sentiment-analysis

我之前读过this的文章，注意到pandas应用函数，iterrows和for循环是非常慢和高效的处理pandas数据帧的方式。我正在对一些文本数据进行情感分析，但使用apply会导致高内存使用率和低速度，类似于this answer中所示。 %%time data.merge(data.essay.apply(lambda s: pd.Series({'neg':sid.polarity_scores(s)['neg'], 'neu':sid.

浏览 9提问于2020-01-07得票数 0

1回答

从多索引Pandas DataFrame中导出/writing到Excel标签

python、excel、list-comprehension、pandas-groupby

我想通过第一个索引'0‘将多索引数据帧拆分/切片为第一个索引的每个级别的数据帧(例如，下面将有4个数据帧)。然后，我想将每个数据框导出到EXCEL中的单独选项卡中。我希望得到帮助的最重要的问题是如何编写循环或列表理解，将多索引数据帧拆分成单独的数据帧。示例Dataframe： import pandas as pd import numpy as np arrays = [ np.array(['bar', 'bar', 'baz', 'baz', 'foo', 'foo',

浏览 17提问于2019-01-27得票数 0

回答已采纳

1回答

如何加快从pandas数据帧到另一个数据帧的列值传输速度

python、pandas

我有一个熊猫数据框架，例如： ? 在一个复杂的过程之后，我需要一个数据帧，如下所示： ? 所以，我这样做： import pandas as pd def complex_process(value): values=value.split(',') return ['results for '+x for x in values] df=pd.DataFrame([['id1','a,b,c'],['id2','d'],['id3','

浏览 22提问于2021-04-15得票数 1

回答已采纳

4回答

如何将数据从Scikit-learn Bunch对象转换为Pandas DataFrame？

python、pandas

我已经使用以下代码将sk学习乳腺癌数据集转换为数据帧:我没有得到输出？我是python的新手，不知道哪里出了问题。 def answer_one(): import numpy as np import pandas as pd from sklearn.datasets import load_breast_cancer cancer = load_breast_cancer() data = numpy.c_[cancer.data, cancer.target] columns = numpy.append(cancer.f

浏览 0提问于2018-02-13得票数 6

2回答

如何在迭代pandas数据框时创建新列和插入行值

python、pandas、iteration、dataframe

我正在尝试创建一个逐行迭代pandas数据帧的函数。我想基于其他列的行值创建一个新列。我的原始数据帧可能如下所示： df: A B 0 1 2 1 3 4 2 2 2 现在，我想在每个索引位置创建一个用列A-列B的行值填充的新列，结果如下所示： df: A B A-B 0 1 2 -1 1 3 4 -1 2 2 2 0 我的解决方案有效，但仅当我不在函数中使用它时： for index, row in df.iterrows(): print index

浏览 0提问于2015-12-07得票数 19

回答已采纳

2回答

基于Pandas级数的差分矩阵高效计算

python、pandas、performance、numpy

我有一个数据帧，我试图找出一列(序列)内不同行之间的数值差异，从而得到一个两个维度都等于数据帧长度的方阵。 import pandas as pd import numpy as np df = pd.DataFrame([[200, 2],[100,2], [1000,10], [600,5], [50,1]], columns=['Sales','Total prods']) print(df['Sales']) 0 200 1 100 2 1000 3 600 4

浏览 0提问于2020-12-25得票数 2

1回答

pandas:使用分隔符展平df

python、numpy、pandas

我的目标是使用指向在命令行执行的load语句的标准输入管道将数据帧加载到DB中(例如，cat {file_loc} | /path/ to /sql --命令"COPY table FROM STDIN WITH DELIMITER '，';")。我知道这种方法不是最优的；由于pyodbc问题，这是一种变通方法;) 压缩数据帧的最有效方法是什么，使每一行都是一个字符串，其中包含以分隔符分隔的值，并在末尾换行？我的解决方案，如下所示，似乎效率低下。 from pandas import * import numpy as np df = DataFrame(np.

浏览 0提问于2012-10-29得票数 1

回答已采纳

1回答

Python :在PCA转换后合并/连接Dataframe生成NAN

python、pandas、scikit-learn、pca

import pickle import numpy as np import pandas as pd from sklearn.externals import joblib from sklearn.decomposition import PCA PCA = joblib.load('pcawithstandard.pkl') with open('collist.pickle', 'rb') as handle: collist = pickle.load(handle) for chunk in pd.read_csv

浏览 17提问于2019-02-19得票数 0

回答已采纳

1回答

Use lmfit Model - function将dataframe作为参数

python-3.x、curve-fitting、lmfit

我想使用lmfit来拟合我的数据。我使用的函数只有一个参数features。features的内容会不同(列和值都不一样)，所以我不能初始化参数。我试图创建一个数据帧作为here，但我不能使用guess方法，因为这是针对LorentzianModel的，而我只想使用Model。 import pandas as pd import numpy as np import matplotlib.pyplot as plt import lmfit from sklearn.linear_model import LinearRegression df = {'a': [0

浏览 7提问于2020-07-10得票数 0

回答已采纳

1回答

为什么在简单的数学运算中，熊猫比numpy快？

python、pandas、performance、numpy

最近，我观察到熊猫的乘法速度更快。我在下面的示例中向您展示了这一点。在如此简单的操作上，这怎么可能呢？这怎么可能呢？pandas数据帧中的底层数据容器是numpy数组。测量我使用带形状(10k，10k)的数组/数据帧。 import numpy as np import pandas as pd a = np.random.randn(10000, 10000) d = pd.DataFrame(a.copy()) a.shape (10000, 10000) d.shape (10000, 10000) %%timeit d * d 53.2 ms ± 333 µs per loop

浏览 1提问于2020-06-17得票数 2

2回答

如何在Pandas中将带有数字列表的列转换为np.array格式

python、pandas、numpy

如何在pandas数据帧中将一列的所有行转换为numpy数组格式？示例数据帧： df=pd.DataFrame({ "actual":["1,0,0,1","0,0,1,0"], "predicted":["[1,0,0,0]","[0,1,1,1]"] }) 理想数据帧：我尝试使用下面的代码将actual列转换为数组格式，但失败了。 df['actual']=df.actual(lambda x: np.array([int

浏览 17提问于2021-05-16得票数 0

回答已采纳

2回答

在pandas dataframe列中使用字典键

python、pandas

我编写了以下代码，在其中创建了pandas数据帧字典： import pandas as pd import numpy as np classification = pd.read_csv('classification.csv') thresholdRange = np.arange(0, 70, 0.5).tolist() classificationDict = {} for t in thresholdRange: classificationDict[t] = classification for k, v in classificationDic

浏览 1提问于2017-03-19得票数 0

1回答

使用python更改和运行SQL查询

python、sql、dataframe、automation

我有以下基于用户输入创建数据帧的代码： import pandas as pd from pandas import DataFrame publications = pd.read_csv("C:/Users/nkambhal/data/pubmed_search_results_180730.csv", sep= "|") publications['title'] = publications['title'].fillna('') search_term = input('E

浏览 10提问于2018-08-15得票数 2

回答已采纳

2回答

python中的蒙特卡罗模拟-带循环的问题

python、pandas、montecarlo

我正在为MC运行一个简单的python脚本。基本上，它读取数据帧中的每一行，并选择两个变量的最大值和最小值。然后，模拟if运行1000次，在最小值和最大值之间选择一个随机值，并计算乘积并将P50值写回数据表。不知何故，所有行的P50输出都是相同的。我哪里出问题了，有什么帮助吗？ import pandas as pd import random import numpy as np data = [[0.075,0.085, 120, 150], [0.055, 0.075, 150, 350],[0.045,0.055,175,400]] df = pd.DataFrame(data,

浏览 0提问于2019-08-24得票数 0

4回答

为什么numpy/熊猫解析长行csv文件的速度这么慢？

python、parsing、csv、numpy、pandas

我正试图有效地将csv文件解析为numpy数组(或数组列表，或任何类似的内容)，每行大约有20,000条条目(和几千行)。我发现了许多其他的问题，还有的博客文章，这表明熊猫的csv解析器非常快。然而，我已经对熊猫、numpy和一些纯python方法进行了基准测试，看起来简单的纯python字符串拆分+列表理解大大超过了其他所有东西。这里发生了什么事？是否有任何csv解析器会更有效？如果我改变输入数据的格式，会有帮助吗？下面是我正在对其进行基准测试的源代码( sum()只是为了确保任何懒散的迭代器都被迫对所有内容进行评估)： #! /usr/bin/env pytho

浏览 5提问于2015-04-16得票数 11

回答已采纳

1回答

Dask数据流分析

pandas、dask、dask-distributed

我有一个数据集存储在一个标签分隔的文本文件中。该文件如下所示： date time temperature 2010-01-01 12:00:00 10.0000 ... 其中temperature列包含以摄氏度(°C)为单位的值。我用达斯克计算日平均温度。这是我的代码： from dask.distributed import Client import dask.dataframe as dd client = Client("<scheduler URL") inputDataFrame = dd.read_table("<in

浏览 1提问于2018-10-12得票数 0

2回答

使用Python对DataFrame中的标头进行排序

python、header、dataframe、pandas

如何对数据帧的头部进行排序。 from pandas import * import pandas import numpy as np df2 = DataFrame({'ISO':['DE','CH','AT','FR','US'],'Country': ['Germany','Switzerland','Austria','France','United States']}) print df2

浏览 0提问于2013-05-27得票数 1

回答已采纳

1回答

使用Hive表迭代Spark数据帧

apache-spark、hive、pyspark、apache-spark-sql、hiveql

我有一个非常大的csv文件，所以我使用spark并将其加载到spark数据帧中。我需要从csv上的每一行提取纬度和经度，以便创建folium地图。使用pandas，我可以用一个循环解决我的问题： for index, row in locations.iterrows(): folium.CircleMarker(location=(row["Pickup_latitude"], row["Pickup_longitude"]), radiu

浏览 27提问于2018-05-30得票数 0

2回答

向现有数据框添加SpaCy输出时，列不对齐

python、pandas、spacy

我有一个包含一列文章标题的csv，我使用SpaCy从其中提取出现在标题中的任何人的姓名。当尝试使用由SpaCy提取的名称向csv添加新列时，它们不会与从中提取它们的行对齐。我相信这是因为SpaCy结果有自己的索引，独立于原始数据的索引。我尝试将索引添加到新的列行中，但得到"ValueError:传递的值的长度是2，索引意味着10“。如何将SpaCy输出与它们所在的行对齐？下面是我的代码： import pandas as pd from pandas import DataFrame df = (pd.read_csv(r"C:\Users\Admin\Downloa

浏览 11提问于2021-03-24得票数 0

回答已采纳

2回答

在Pandas中迭代数据帧中的行:使用df.index和df.iterrows()作为迭代器有什么区别吗？

python、pandas、dataframe

在Pandas中迭代数据帧中的行时，使用以下方法是否存在性能上的差异： for index in df.index: .... 和： for index, row in df.iterrows(): .... ？哪一种是最好的？

浏览 9提问于2021-12-04得票数 1

回答已采纳

1回答

Pandas插值移位时间序列数据的NaN

python、pandas、dataframe、interpolation

当我移动我的时间序列数据时，我在数据帧中得到一些NaNs。唯一可以用数字替换这些can的插值方法是'linear'。NaN被替换为相同的数字，这并不可取。有没有什么方法可以使用不同的方法，如'cubic'或'quadratic' import numpy as np import pandas as pd # original data df = pd.DataFrame() np.random.seed(0) days = pd.date_range(start='2015-01-01', end='2015-01

浏览 2提问于2021-07-14得票数 0

2回答

从Pandas数据帧的MultiIndex中获取特定索引作为列表

python、pandas、numpy、dataframe、multi-index

我想要一个MultiIndex作为列表的Pandas数据帧的特定索引。给出例子 import pandas as pd; import numpy as np np.random.seed(42) df = pd.DataFrame(np.random.randint(5, size=(5, 4)), columns=list('ABCD')) df.set_index(['A', 'B'], inplace=True) ，其中df被定义为 C D A B 3 4 2 4 4 1 2 2 2 4 3 2 4 1 3

浏览 2提问于2018-10-22得票数 0

回答已采纳

1回答

Python(Numpy)- df应用错误- IndexError:超出范围的元组索引

python、pandas、numpy、data-science

from pandas import DataFrame,Series import numpy def avg_bronze_medal(): countries=['Russian Fed','Norway','Canada'] gold=[13,11,10] silver=[11,5,10] bronze=[9,10,5] medal_counts={'country_name':Series(countries),'gold':Series(gold),'s

浏览 2提问于2016-08-09得票数 0

1回答

当第3行的数据长度大于标题长度时，Python pandas.readexcel(文件路径，header=[0,1])会失败。欢迎任何解决方案的建议

python、excel、pandas、numpy、dataframe

我已经定义了我的excel(xlsx)的前两行，即0,1作为头文件。为简单起见，excel文件只有一张工作表。在最初的两行之后，文件中的数据行很少。由于有两个头文件，pandas给了我一个多索引的数据帧，这很好。 dataframe = pandas.readexcel(filepath, header=[0,1]) 当一个文件的所有行都达到头的宽度时，上面这行代码就会给我一个有效的数据帧。这是问题所在。在我的一个excel文件中，标题行有65个excel列，有些数据行有66列。熊猫无法执行 dataframe = pandas.readexcel(filepath, header=[0,

浏览 0提问于2018-11-29得票数 0

1回答

Numpy CSV fromfile()

python、pandas、csv、numpy

我可能试图在这里重新发明轮子，但是numpy有一个fromfile()函数，可以读取--我想-- CSV文件。它看起来非常快，甚至与Pandas read_csv()相比，但我不清楚它是如何工作的。下面是一些测试代码： import pandas as pd import numpy as np # Create the file here, two columns, one million rows of random numbers. filename = 'my_file.csv' df = pd.DataFrame({'a':np.random.

浏览 1提问于2019-03-06得票数 1

回答已采纳

1回答

将Pandas Dataframe以及numpy数组写入通用Excel文件

python、excel、pandas、numpy、xlsxwriter

使用Python3.6和Pandas0.22，我创建了一个Pandas dataframe IRdaily，其中包含各种利率每日变化的时间序列。我可以使用以下命令轻松地将Pandas数据帧写入Excel： writer = pd.ExcelWriter(outFileName) IRdaily.to_excel(writer, 'Daily Changes') 但是，如果我现在计算特征值分解(特征值的向量和特征向量的矩阵都是numpy ndarray)，并尝试将它们写入同一工作表，我会得到一个错误： covD = deltaIRdaily.cov() eigValD, eig

浏览 0提问于2018-06-11得票数 1

1回答

如何在spark中使用pandas split-apply-combine风格策略和scala api？

pandas、scala、apache-spark、split-apply-combine

我有一个scala函数，它接受一个spark dataframe并返回一个单值，也就是说两个值。这个函数很复杂，使用在DataFrame类中定义的聚合，调用其他java库，并且不能用SQL表达。它需要整个数据帧的内容来进行计算，它不能一次添加一行并建立一个结果。我有一个大的dataframe，其中包含一个列，我想用它将dataframe分成小块，并对每个小块执行上述计算。然后，我想返回一个新的数据帧，其中包含每个组的一行和两列，一列包含groupby值，另一列包含结果。使用PandasUDF这将是一个相对简单的任务，但是我不知道如何在Scala中做到这一点。我尝试使用group by列对

浏览 28提问于2020-04-22得票数 0

4回答

在Python中循环遍历数据帧的更优雅的方法

python、pandas

对于一个可迭代的对象，我们可以使用 for item in items: 但是，如果我有两个并排的可迭代程序，比如有两列的pandas数据帧，会怎么样呢？我可以使用上面的方法遍历一列，但是有没有一种更优雅的方法同时遍历两列呢？ import pandas as pd df = pd.DataFrame({'col 1': [1,2,3,4,5], 'col 2': [6,7,8,9,10]}) i = 0 for j in df['col 1']: print(j) print(df['col 2'][i])

浏览 15提问于2019-02-15得票数 1