优化python中的dataframe代码

文章/答案/技术大牛

发布

1回答

、

下面是对两列进行检查的代码。我知道这不是在两列数据帧上做这件事的正确方法，但我希望能得到更好的方法的帮助 for i in range(len(df)): if df['Current_Value'][

浏览 15提问于2020-07-06得票数 0

1回答

spark dataframe到rdd的转换需要很长时间

、、

我正在将一个社交网络的json文件读入spark。我从这些数据中得到一个数据帧，我将其分解以获得对。这个过程运行得很完美。稍后，我想将其转换为RDD (用于GraphX)，但RDD的创建需要很长时间。"relationship")val E2 = E1.rdd scala&g

浏览 1提问于2017-03-20得票数 3

1回答

如何优化df.assign？

、、

我正在处理一个形状为(55025，12)的数据帧(data)上的python，并且我正在尝试分配一个新列，我的代码是： data_cat=data.assign( type1= lambda dataframe: dataframe['value'

浏览 37提问于2020-10-19得票数 0

2回答

DataSet javaRDD()性能

、、、、

我正在使用Spark SQL从Spark应用程序的Cassandra中检索数据。数据以DataSet的形式检索。但是，我需要使用javaRDD()函数将此dataset转换为JavaRDD。是否有一些参数需要调整以增强这次的性能？

浏览 1提问于2017-08-19得票数 0

1回答

火花df、拼花物体和熊猫df之间的转换

、、

在创建火花会话之后，我运行了以下代码 spark_df.select('*').toPandas(我需要火花df和熊猫df的原因是，对于一些较小的DataFrame，我想很容易地使用各种熊猫EDA函数，但对于一些较大的，我需要使用火花sql。首先，把地板转向熊猫，然后再点燃df，这似乎有点迂回。

浏览 3提问于2019-10-20得票数 0

1回答

Spark2.0中的全阶段代码生成

、

我听说了Whole-Stage Code Generation for sql来优化查询。通过和很想知道使用Spark2.0这个特性的场景是什么。但在谷歌搜索后并没有得到正确的用例。每当我们使用sql时，我们可以使用这个特性吗？如果是这样的话，是否有适当的用例来看到这个工作呢？

浏览 2提问于2016-11-11得票数 10

回答已采纳

2回答

用gekko在python中的MLE应用

、、、、

我在“继续”中解释了更多，请继续读)这样你就能看得很清楚。公式的两个主要要素是“Kasi”和“Betaa”。我想为他们找到最好的价值，最大的总和的My_DataFrame[‘Target’]。所以你有了这个想法和将要发生的事情！现在让我向您展示我是如何为此目的编写代码的。输出： B= 500.0 注意到，python中</e

浏览 6提问于2021-08-06得票数 2

回答已采纳

7回答

使用哪种查询来获得更好的性能，是在SQL中联接还是使用Dataset API？

、、

在使用spark、*Spark sql join*和*spark dataframe join*从HBASE获取和操作数据时，哪个更快？

浏览 2提问于2016-06-01得票数 2

1回答

我有一个1,500,000行的DataFrame。这是我从QuantQuote.com那里买来的一分钟的股市数据。(打开，高，低，关闭，音量)。我正试图对股市交易策略进行一些自制的回溯测试。直接的python代码处理事务太慢了，我想尝试使用numba来加快速度。问题是。谷歌搜索发现，有关熊猫使用numba的信息少得令人吃惊。这让我想知道我是不是在考虑这个错误。Windows 7，MS VS2013 with PTVS，Pyt

浏览 1提问于2014-05-13得票数 16

3回答

python中的代码优化

、、

我正在用python编写字典。s = {'k1':['aa', 'bb', 'cc', 'dd', 'ee', 'ff', 'gg']}d = {} d[values[1]] = 'True' d[values[1]] = &#

浏览 4提问于2012-04-03得票数 0

回答已采纳

1回答

如何将非优化参数传递给GA包中的适应度函数

我在R中使用GA包(使用遗传算法进行优化的R包)，需要优化适应度函数F( x1，x2，A_dataframe，b_const)，其中x1-用于优化的变量，min=0，max=1。x2 -用于优化的变量，min=2，max=3。A_dataframe -一个数据帧，它不是优化变量，而是适应度函数计算所需的已知数据帧。b_const -一个常量变量，它也不是用于优化的

浏览 13提问于2017-08-28得票数 4

回答已采纳

1回答

优化python代码以从非常大的dataframe中删除单词

、

我的目标是从300万大小的数据中删除罕见的单词。下面的代码花费了很长时间。我有办法优化它吗？

浏览 3提问于2022-06-25得票数 -1

回答已采纳

4回答

将Python转换为R

、

我知道有一个模块(rpy和rpy2)可以将R代码转换成Python。有什么简单的方法可以反其道而行之吗？

浏览 2提问于2011-10-29得票数 12

回答已采纳

4回答

在Python中优化dataframe子集操作

、、、

总结问题我正在寻找一种加速下面描述的代码的方法。详细说明问题在这个名为master的数据框架中，有3,936,192行。位置列表示基因组窗口。在这个数据帧中出现了76次。这样，master[master['Position'] == 300]返回76行的

浏览 3提问于2019-12-16得票数 2

回答已采纳

2回答

哪一个是最好的HBase连接器用于批量加载数据到HBase从火花？

、

正如在中也提到的，主要有两个选项：该项目使用Scala2.11、Spark2、HBase 1.2 DataFrame库是否为大容量加载提供了与RDD库相比的性能改进

浏览 2提问于2017-11-08得票数 1

1回答

Azure Databricks python命令显示当前集群配置

、、、

我目前正在优化我们的ETL进程，并且希望能够看到处理数据时使用的现有集群配置。这样，我可以根据时间跟踪我应该使用的工作节点大小。是否有命令返回python中的集群工作人员#和大小，这样我就可以作为dataframe编写？

浏览 5提问于2021-09-14得票数 2

回答已采纳

2回答

Dateutil和Pytz缺少依赖关系- Python

、

我正在尝试运行投资组合优化的代码，我得到了以下错误的导入熊猫的权利。Users/***/Desktop/Markowitz-master/MarkowitzOpt.py", line 2, in <module> from pandas import Series, DataFrameFile "/Library/Frameworks/Python.framew

浏览 0提问于2017-02-13得票数 4

2回答

Python代码优化

、

我将预览创建功能封装在一个独立的.py文件中，并在Django视图中对其进行系统调用，以便在多核CPU系统上并行和最大限度地运行它们。= ttf_file.replace('.ttf', '.png') subprocess.Popen(['python', 'preview.py', text, ttf_file, image_file, 30) return

浏览 1提问于2009-12-29得票数 0

回答已采纳

4回答

Python代码的优化

、、、、

我有一个小函数(见下文)，它返回一个从整数列表(例如1,2,3,4)映射而来的名称列表，该列表的长度可以达到1000。这个函数可能会一次被调用数万次，我想知道我是否可以做些什么来让它运行得更快。graph_hash是一个大散列，它将键映射到长度为1000或更小的集合。我正在迭代一个集合，并将值映射到名称并返回一个列表。u.get_name_from_id()查询sqlite数据库。有什么想法来优化这个函数的任何部分吗？

浏览 0提问于2016-10-31得票数 0

2回答

Python代码优化

、、

最近，我发现了一个难题，要求我列出所有循环素数以下的数字。在这个上下文中，循环意味着如果我们旋转数字，它仍然是素数:例如。1193是素数1931是素数9311是素数3119是素数。这是我最初写的代码：upto=1000000 a.append([x,0]) a[(大约12s)我知道，第一代不是十全十美的，但最后一点是最慢的。我知道upto=10e6的这个过程可以在一秒

浏览 1提问于2014-01-07得票数 1

回答已采纳

点击加载更多