在pandas中应用函数_在pandas中应用shift函数行组_在pandas中应用函数的替代方案 - 腾讯云开发者社区

pandas、azure、azure-functions、azure-functions-core-tools、azure-function-app

我向Azure function部署了一个使用pandas的应用程序，它给出了错误代码500。似乎不支持pandas库。它曾与Azure function的旧版本一起使用，我可以在门户中编辑代码，但它不受支持。我现在如何使用pandas库？函数应用程序RUNTIME_VERSION = ~2。我尝试将RUNTIME_VERSION更改为~1，但应用程序无法使用~1，因此我必须使用~2。

浏览 17提问于2019-09-17得票数 1

1回答

传递什么Pandas数据类型来在一个组中转换或应用

python、pandas

在尝试调试groupby函数应用程序时，我使用一个虚拟函数来为每个组“查看传递给函数的内容”的。当然，我在玩游戏： import numpy as np import pandas as pd np.random.seed(0) # so we can all play along at home categories = list('abc') categories = categories * 4 data_1 = np.random.randn(len(categories)) data_2 = np.random.randn(len(categories)) df

浏览 5提问于2013-12-19得票数 6

回答已采纳

2回答

利用熊猫功能与火花放电

python、pandas、pyspark、bigdata、user-defined-functions

我正在尝试用Pyspark重写Python脚本( Pandas )，但我找不到一种更高效地应用Pandas函数的方法：我的职能如下： def decompose_id(id_flight): my_id=id_flight.split("_") Esn=my_id[0] Year=my_id[3][0:4] Month=my_id[3][4:6] return Esn, Year, Month def reverse_string(string): stringlength=len(string) # calculate le

浏览 3提问于2021-06-30得票数 1

回答已采纳

1回答

pandas应用函数在Dataframe上不起作用

python、pandas、dataframe、apply

我想使用正则表达式从Pnadas dataframe中检索名称，但pandas应用函数在DataFrame对象上不起作用。它在pandas系列对象上运行良好。请给我解释一下。 import pandas as pd import re doc = pd.DataFrame(['William Hartnell (1963-66)', 'Patrick Troughton (1966-69)', 'Jon Pertwee (1970 74)', 'Tom Baker (1974-81)', 'Peter Davison (1

浏览 12提问于2020-05-18得票数 1

1回答

Pandas和Pandas被证明可以一起工作吗？

python、pandas、apache-spark、pyspark、apache-spark-sql

我面临许多问题，集成/添加Pandas现有代码的Pandas代码。 1)如果我将Pandas dataframes转换为，那么多个操作就无法很好地转换，因为Pandas dataframes似乎没有Pandas dataframes那么丰富。 2)如果我选择使用Pandas和pandas在同一代码中处理不同的数据集，当通过map调用的函数包含任何熊猫数据时，Pyspark转换(如map)似乎根本不起作用。我在Python中已有使用熊猫和numpy的代码，并且在一台机器上工作得很好。我最初试图将整个代码转换为的尝试失败了，因为不支持Pandas所做的许多操作。现在，我正在尝试将pyspark

浏览 2提问于2017-12-26得票数 6

1回答

为什么我的应用程序不从pandas_udf和PySpark+Flask开始呢？

pandas、flask、pyspark

当我的Flask+PySpark应用程序有一个带有@udf或@pandas_udf注释的函数时，它将不会启动。如果我简单地删除注释，它就会启动。如果我尝试用烧瓶启动我的应用程序，就会执行脚本的第一次词法解释。例如，调试器在导入行(如从pyspark.sql.functions导入pandas_udf、udf、PandasUDFType )处停止。但是，根本没有执行任何语句，包括最初的app = Flask(name)语句。(这会是某种隐藏的例外吗？)如果我在没有烧瓶的情况下启动我的应用程序，具有相同的精确功能和相同的导入，它就会工作。这些是进口品： from pyspark.sql impo

浏览 5提问于2018-11-14得票数 3

2回答

对pandas数据帧中的每个值进行哈希处理

python、hash、pandas

在python中，我正在尝试找到最快的方法来散列pandas数据帧中的每个值。我知道任何字符串都可以使用以下命令进行散列： hash('a string') 但是如何在pandas数据框的每个元素上应用这个函数呢？这可能是一件非常简单的事情，但我刚刚开始使用python。

浏览 0提问于2015-05-10得票数 13

回答已采纳

1回答

KeyError:当尝试选择dask数据框上的列时：“没有[索引([‘’，'']，dtype='object')]在[列]中”

pandas、dask

我正在使用from_pandas()函数从熊猫数据帧创建一个dask数据帧。当我尝试使用方括号[ ]从dask dataframe中选择两列时，我得到了一个KeyError。根据dask文档，dask dataframe支持像pandas dataframe一样的方括号列选择。 # data is a pandas dataframe dask_df = ddf.from_pandas(data, 30) data = data[dask_df[['length', 'country']].apply( lambda x: myfun

浏览 67提问于2019-10-04得票数 1

2回答

使用另一个数组应用函数pandas.Series中的参数

python、python-3.x、pandas、dataframe、series

有什么方法可以使用另一个pandas.Series的不同值在pandas.Series中应用函数吗？我知道有pandas.Series.apply()，但我需要这样的东西： array1 = pandas.Series([1, 2, 3, 4]) array2 = pandas.Series([5, 5, 6, 0]) def func(x, y): return x+y print(array1.apply(func, args = array2)) Out: 0 6 1 7 2 9 3 4 换句话说，我需要在一个pandas.DataFra

浏览 23提问于2021-04-07得票数 0

1回答

在spark数据帧上实现pythonic统计函数

pandas、apache-spark、pyspark、statistical-test

我在spark数据帧中有非常大的数据集，它们分布在节点上。我可以使用spark库pyspark.sql.functions进行简单的统计，如mean、stdev、skewness、kurtosis等。如果我想使用像Jarque-Bera (JB)或Shapiro Wilk(SW)等高级统计测试，我会使用像scipy这样的python库，因为标准的apache pyspark库没有它们。但为了做到这一点，我必须将spark数据帧转换为pandas，这意味着将数据强制到主节点中，如下所示： import scipy.stats as stats pandas_df=spark_df.toPan

浏览 30提问于2020-09-13得票数 0

2回答

modin可以用来做什么？

python、pandas、parallel-processing、modin

我一直在寻找并行化的选项，并找到了ray和modin。经过一些测试后，我对使用modin的好处有点迷惑了。两个例子：适用于180 MB文件的df = pd.read_csv() pandas 5.2s与modin.pandas 2.7s 但是df.groupby() pandas的0.59对modin.pandas的5.46 哪些类型的应用程序将从使用modin中受益？这里是否有一个通用的规则，或者所有的东西都必须单独测试？

浏览 11提问于2021-01-08得票数 0

1回答

根据其他单元格的内容向列添加数据(Python/Excel)

python、excel、pandas、numpy

各位，我在努力实现库存分配的自动化。由于我不是一个经验丰富的程序员，我在创建逻辑上有困难。目标是合并两个Excel文件，并添加包含负责人/部门的列。到目前为止，我管理的是合并Excel文件并添加列"Reviser“。现在，这一栏必须由合适的人员/部门填补。这背后的逻辑并不困难，但我不知道如何用Python/Pandas等来解决这个问题。我已经尝试过用np.where来解决这个问题，但这并不能完全解决这个问题。在这里，您可以看到revisor分配背后的逻辑：分配背后的逻辑谢谢你的帮忙! 我现在的代码是： import pandas as pd import numpy as

浏览 2提问于2020-05-18得票数 0

1回答

令人难以理解的类型:在熊猫身上应用功能时使用“dict”？

python、python-3.x、pandas、python-requests

我使用请求库将api包装到函数中： import pandas as pd import requests, json def foo(text): payload = {'key': '00ac1ef82687c7533d54be2e9', 'of': 'json', \ 'nko': text, \ 'woei': 'm', \ 'nvn': 'es'

浏览 2提问于2017-01-02得票数 5

回答已采纳

1回答

如何有效地将pandas.Timestamp函数应用于完整的数据/列？

python、pandas、dataframe、datetime

熊猫是完成许多数据任务的一个很好的工具。许多功能已经简化，以便有效地应用于列，而不是单个单元格/行。其中一个函数是to_datetime()函数，我在后面的问题中使用它作为示例。然而，在熊猫中有许多命令，据我所知，这些命令与数据格式没有直接关系。我感兴趣的特定函数是函数，但在pandas.Timestamp类(可能还有其他熊猫类)中有大量符合这种描述的函数，而且文档很少。是否有一种有效地将这些函数广播到一整列数据中的方法?如果是的话，我将如何做到？注意:我知道我可以使用apply()函数，但这显然比我所想的要慢得多(在我的测试中是5倍)。apply()函数也不限于熊猫函数，因此我认为必须有一

浏览 3提问于2020-12-17得票数 2

回答已采纳

3回答

python熊猫群/应用:到底传递给应用函数的是什么？

python、pandas、dataframe、pandas-groupby、pandas-apply

这里是Python新手。我正在努力了解熊猫群是如何工作的，并应用这些方法。我找到了的简单示例，我将其粘贴在下面： import pandas as pd ipl_data = {'Team': ['Riders', 'Riders', 'Devils', 'Devils', 'Kings', 'kings', 'Kings', 'Kings', 'Riders', 'Royals', 'Royals

浏览 2提问于2019-09-01得票数 4

回答已采纳

1回答

为什么达斯克的"to_sql“比熊猫花了更多的时间？

python、pandas、amazon-web-services、amazon-redshift、dask

我在ETL中使用dask而不是pandas，即从S3存储桶中读取CSV，然后进行一些所需的转换。Until here - dask读取和应用转换的速度比pandas快！最后，我使用to_sql将转换后的数据转储到Redshift。在dask中这个to_sql转储比在pandas中花费更多的时间。有没有可能缩短这段时间？如果不是，为什么在这种情况下dask比熊猫慢？

浏览 2提问于2021-09-27得票数 1

1回答

访问传递给apply()的自定义函数中先前计算的结果

python、python-3.x、pandas

我正在使用Python中的Pandas，在将自定义函数应用于一个系列时，我希望访问前面的计算结果。大致如下： import pandas # How can I obtain previous_result? def foo(value, previous_result = None): # On the first iteration there is no previous result if previous_result is None: previous_result = value return value + previous_re

浏览 4提问于2017-01-21得票数 3

回答已采纳

2回答

对Pandas DataFrame中的列应用一种方法

python、pandas、dataframe

我有一个通过Pandas导入的数据集，该数据集中有一个包含字符串的列，即： 'Entry' 0 ['test', 'test1', test2'] . . . [n] ['test', 'test1n', 'test2n'] 我想做的是应用一个函数来确保数组中没有类似的元素。我的方法如下： def remove_duplicates ( test_id_list ): new_test_ids = [] for tags in test_id_list:

浏览 0提问于2017-05-18得票数 0

回答已采纳

5回答

Apply function to pandas groupby

python、pandas

我有一个pandas数据帧，它有一个名为my_labels的列，其中包含字符串：'A', 'B', 'C', 'D', 'E'。我想计算每个字符串出现的次数，然后将计数的数量除以所有计数的总和。我试着在Pandas中这样做： func = lambda x: x.size() / x.sum() data = frame.groupby('my_labels').apply(func) 这段代码抛出一个错误，'DataFrame对象没有'size‘属性。我如何在Pandas中应用函数

浏览 5提问于2013-03-13得票数 53

回答已采纳

1回答

Pyspark中的Pandas Udf在yarn客户端或集群模式下仅在一个执行器中运行

python、pandas、apache-spark、pyspark

我有一个从Hive Table读取数据并应用pandas udf的代码，当它从表中读取数据时，它在11个执行器中运行，但是当它执行一个pandas udf时，它只使用一个执行器。有没有办法指派10个执行者来执行pandas udf？ spark-submit --master yarn --deploy-mode client --conf spark.dynamicAllocation.enabled=false --conf spark.executor.instances=20 code_test.py Code Snippet: from pyspark.sql.fun

浏览 12提问于2020-10-01得票数 0

1回答

如何对组进行迭代

python、pandas、matplotlib

我正在尝试迭代组(由group.by在Pandas中生成)，以便应用一个函数(在MatPlotLib中创建一个图表)，并在DataFrame中获得每个组的结果。我想做这样的事情，但我知道有一个更好的/功能更好的方法： import pandas as pd DF = pd.DataFrame({'COL1': ['A', 'A','B','B'], 'COL2' : [1,1,2,2], 'COL3' :

浏览 0提问于2015-11-23得票数 0

1回答

将自定义numba njit函数应用于熊猫滚动对象

python、pandas、numba

有了pandas 1.0.0发行版，.apply现在有了使用numba jit函数的。在使用.apply时，有什么方法可以利用这个.rolling功能吗？例如，我有一个pandas.DataFrame，我想应用一个numba_mean函数来获得3个周期的滚动平均值。 import pandas as pd import numpy as np import numba as nb df = pd.DataFrame({"A" : np.random.rand(10)}) @nb.jit def numba_mean(x): return np.sum(x) /

浏览 3提问于2020-02-16得票数 4

回答已采纳

1回答

有人能解释一下这些功能吗?因为我在官方文档中找不到任何描述

pandas、date

我正在尝试学习如何在pandas中使用dateoffset函数。但是有几个属性我是不理解的，因为官方文档中没有描述。这些属性包括： pandas.tseries.offsets.DateOffset.name pandas.tseries.offsets.DateOffset.nanos pandas.tseries.offsets.DateOffset.rule_code 如果任何人也能给出它的应用示例，那将是很有帮助的。

浏览 5提问于2019-04-14得票数 1

回答已采纳

2回答

有没有一种方法可以在没有openpyxl工作簿的情况下读取Excel文件？

python、excel、pandas、openpyxl、xlsx

我正在使用Python 2.7 & openpyxl==2.5.11。对于具有有效工作簿的文件，我将使用以下代码读取内容： wb = openpyxl.load_workbook('my_file.xlsx', read_only=True) ws = wb.worksheets[1] rows = ws.rows 现在，测试人员向我提供了一个旧文件，该文件没有有效的工作簿部分，并引发此错误： IOError: File contains no valid workbook part 在这行中ws = wb.worksheets[1] 在openpyxl文档中，我找不

浏览 1提问于2018-11-25得票数 1

回答已采纳

2回答

python dask DataFrame，支持(微不足道的并行)行应用？

python、pandas、parallel-processing、dask

我最近发现了一个旨在成为易于使用的并行处理模块的python模块。对我来说，最大的卖点是它可以和熊猫一起工作。在阅读了它的手册页面后，我找不到一种方法来完成这个微不足道的并行化任务： ts.apply(func) # for pandas series df.apply(func, axis = 1) # for pandas DF row apply 目前，为了在dask，AFAIK中实现这一点， ddf.assign(A=lambda df: df.apply(func, axis=1)).compute() # dask DataFrame ，这是丑陋的语法，实际上比直接的慢。 df.

浏览 1提问于2015-07-12得票数 48

回答已采纳

1回答

将函数应用于极性中的2列

python-polars

我想应用一个自定义函数，它接受2列，并根据这些列输出一个值(基于行) 在Pandas中，有一种语法可以根据多列中的值应用函数。 df['col_3'] = df.apply(lambda x: func(x.col_1, x.col_2), axis=1) 极地的语法是什么？

浏览 13提问于2022-11-14得票数 0

回答已采纳

1回答

在Pandas to_string上发出用float_format调用float_format的命令

python、pandas

当使用pandas DataFrame时，我可以在DataFrame上执行to_string(float_format='%.1f')。但是，当将相同的方法应用于df.describe()时，它失败了。下面的代码说明了这个问题。 >>> df = pd.DataFrame([[1, 2, 'March'],[5, 6, 'Dec'],[3, 4, 'April'], [0, 1, 'March']], columns=['a','b','m'])

浏览 4提问于2015-12-04得票数 4

回答已采纳

2回答

根据字典中单词的值检索句子分数

r、dplyr、lapply、sapply、stringi

编辑的 df和dict 我有一个包含句子的数据框架： df <- data_frame(text = c("I love pandas", "I hate monkeys", "pandas pandas pandas", "monkeys monkeys")) 还有一本字典，里面有单词及其相应的分数： dict <- data_frame(word = c("love", "hate", "pandas", "monkeys"),

浏览 3提问于2015-01-21得票数 5

回答已采纳

3回答

应用具有多个参数的函数来创建新的pandas列

python、pandas

我想通过将函数应用于两个现有列来在pandas数据框中创建一个新列。有了这个，当我只需要一个列作为参数时，我就能够创建一个新列： import pandas as pd df = pd.DataFrame({"A": [10,20,30], "B": [20, 30, 10]}) def fx(x): return x * x print(df) df['newcolumn'] = df.A.apply(fx) print(df) 但是，当函数需要多个参数时，我不知道如何做同样的事情。例如，如何通过将列A和列B传递给下面的函数来创建新

浏览 15提问于2013-11-12得票数 215

回答已采纳

1回答

在Dask DataFrame中修改列(例如，执行数学函数)的最佳方法是什么？

python、pandas、dataframe、dask

我是Pandas DataFrame对象的老手，但我很难找到一种干净、方便的方法来更改Dask DataFrame列中的值。对于一个特定的例子，我试图将numpy.float列中的正值乘以-1，从而使它们为负值。下面是我当前的方法(我正在尝试更改DataFrame中的最后一列)： cols = df.columns df[[cols[-1]]] = df[[cols[-1]]]*-1 这似乎只有在列有字符串标题时才有效，否则它会使用索引号作为新列的字符串类型列名添加另一列。是否有类似于df.iloc[-1,:] = df.iloc[-1,:]*-1的Pandas方法，我可以在dataframe

浏览 1提问于2018-03-14得票数 1

回答已采纳

1回答

删除groupby并优化pandas代码

python、pandas

我正在尝试替换for循环，以便在pandas中获得更好的性能。在pandas中使用for循环是性能杀手，请在许多博客中阅读它。现在，我必须应用一些逻辑来设置项目和按emp_id分组。代码块如下所示。现在，下面的代码可以工作，但是抱怨与性能有关。我不能确定删除groupby，有没有其他技术可以让我获得更高的性能？ emp_groups = self.df.groupby("emp_id") for key, item in emp_groups: for _ridx in range(0, len(self.rules), 2):

浏览 4提问于2020-11-16得票数 0

1回答

TA-LIB Python金融库-在新的数据方法上的应用

ta-lib

我在日线图上对5000只股票应用了塔里布，并将结果集保存到文件/数据库中。现在，一天结束时的新数据-每只股票一行新数据到达。我们如何处理新的数据。 GIven每个指标都有自己的回看功能--目前使用默认值--我是否需要将过去X天的数据回调到pandas框架中，然后重新应用该指标，然后只保存具有TA值的最新行？或者让程序循环无限地将pandas帧保存在缓存中，然后应用TA并保存最后一行？人们可以评论一下这是如何使用的吗-每天-4小时-1小时和1分钟的间隔数据将被应用。请分享想法和代码，如果有的话，如何最好地处理这个问题。

浏览 16提问于2020-08-11得票数 0

4回答

使用apply()从两列创建新列

python、pandas、dataframe、apply

我想使用apply()创建一个带有Pandas DataFrame的列s['C']。我的数据集与此类似：在……里面 s=pd.DataFrame({'A':['hello', 'good', 'my', 'pandas','wrong'], 'B':[['all', 'say', 'hello'], ['good', '

浏览 1提问于2020-05-11得票数 10

1回答

将函数应用于的所有列。

python、pandas、dataframe、apply、python-polars

我知道如何将函数应用于Pandas-DataFrame.中的所有列然而，我还没有弄清楚如何在使用Polars-DataFrame.时实现这一点。我查看了专门讨论这个主题的，但是我没有找到答案。在这里，我附上了一个代码片段与我的失败尝试。 import numpy as np import polars as pl import seaborn as sns # Loading toy dataset as Pandas DataFrame using Seaborn df_pd = sns.load_dataset('iris') # Converting Pandas

浏览 3提问于2021-06-04得票数 4

回答已采纳

1回答

Pandas:根据应用函数删除行

python、pandas

我有一个Pandas DataFrame，df，它有一个名为_text的列。我想删除对_text列中的值应用sentence_count不为0的所有行。我该怎么做呢？通常，对于Pandas，我会这样做： result_df = result_df[result_df['_text'] != ''] 但现在我不仅仅使用result_df['_text中的值，我还根据函数计算出的值进行过滤…… 有什么想法？谢谢!

浏览 11提问于2017-07-26得票数 8

1回答

为什么我可以在Pandas DataFrames上使用numpy函数？

python、pandas、numpy

我偶然发现NumPy函数可以直接应用于Pandas DataFrames。例如： np.log(my_pandas_df) 很管用。这不是我所期望的，因为NumPy对熊猫一无所知。幕后发生了什么？

浏览 1提问于2020-05-13得票数 0

1回答

将lambda函数应用于pandas数据帧时出现Keyerror

python、pandas、lambda、k-means、index-error

我正在一个熊猫数据框架上应用K-means聚类。集群分配函数如下： def assign_to_cluster(row): lowest_distance = -1 closest_cluster = -1 for cluster_id, centroid in centroids_dict.items(): df_row = [row['PPG'],row['ATR']] euclidean_distance = calculate_distance(centroids, df_row)

浏览 20提问于2017-02-21得票数 0

1回答

TypeError:在使用apply后跟groupby时，<lambda>()获得了意外的关键字参数'axis‘

python、pandas、pandas-groupby

我试图从按ID拆分的pandas Dataframe中提取值。但是，当我提供apply groupby时，它不允许我提供轴参数来按行应用函数 raw_data = {"id":{"0":"mergedshape_route_0009","1":"mergedshape_route_0009","2":"mergedshape_route_0009","3":"mergedshape_route_0009","4":"merge

浏览 726提问于2019-04-05得票数 2

回答已采纳

1回答

访问字符串中的python列表或字典

python、pandas

使用Python，我试图访问CSV文件中具有字典列表的字符串格式的字段。一行train['list_of_production_companies'] "[{'name': 'Lions Gate Films', 'id': 35}, {'name': 'Vertigo Entertainment', 'id': 829}, {'name': 'Gotham Group', 'id': 3672}, {'name

浏览 1提问于2019-06-05得票数 0

1回答

如何使用juypter notebook调用def函数

python、function、jupyter-notebook、anaconda、typeerror

我想使用juypter notebook应用情感分析，这是我的代码 pos_list = positive_words'Positive'.values.tolist() def pos_sentiment(tweet)：pos_list中word的count=0 : if word in tweet: count+=1返回计数 clean_data‘’pos_count‘=clean_data’‘tweetText’.apply(λx: pos_sentiment(x)) 出现此错误应用回溯(最近一次调用)->1 clean_data‘’pos_ TypeError

浏览 0提问于2020-11-26得票数 0

1回答

在Dask中使用尚未实现的Pandas函数

python、pandas、dask、dask-distributed、dask-delayed

我相信在使用Dask数据帧时，我在Dask教程中看到了一个关于如何使用Dask框架中尚未实现的Pandas函数的建议，但我似乎看错了地方。例如，我想使用Pandas函数'ewm‘。作为一种变通方法，我将Dask数据帧转换为Pandas数据帧，在Pandas数据帧上运行ewm，然后将它们转换回Dask，以便以后进行更多内存密集型操作。效率不是最高的。有没有更好的策略呢？

浏览 10提问于2019-06-02得票数 1

回答已采纳

3回答

将pandas.TimeSeries转换为R.ts

python、r、pandas、time-series、rpy2

我有一些带日期索引的熊猫TimeSeries： import pandas as pd import numpy as np pandas_ts = pd.TimeSeries(np.random.randn(100),pd.date_range(start='2000-01-01', periods=100)) 我需要将它转换为R TS (如太阳黑子数据集)，以便使用我的TS调用一些R函数(slt)，它只适用于时间序列。但是我发现在pandas.rpy和rpy2的应用程序接口中只有DataFrame支持。有没有其他方法可以做到这一点？如果没有这样的，我可以将TS转换为Dat

浏览 2提问于2013-12-13得票数 5

1回答

如何正确覆盖(或创建自己的) Pandas read_csv方法？

python、pandas、overriding

我正试图在pandas.read_csv之上编写我自己的read_csv方法。 # pandas_custom.py module import pandas as pd def read_csv(**kwargs): df = pd.read_csv(**kwargs) df = df.apply(my_function) return df # main_module.py module import pandas_custom as pdF df = pdF.read_csv(filepath_or_buffer='train.csv') #

浏览 32提问于2020-01-14得票数 0

回答已采纳

1回答

无法将字符串转换为木星中的数字

jupyter-notebook

这里是我的代码： def str2number(amount): if type(amount) == int: return amount if amount[-1] == 'M': d = float(amount[:-1]) return d*1000000 elif amount[-1] == 'K': d = float(amount[:-1]) return d*1000 else: d = float(amount[:]) return d FIFA18['Valu

浏览 0提问于2021-05-17得票数 0

1回答

Pyspark:在运行时为when()子句动态生成条件

apache-spark、pyspark、apache-spark-sql

我已将csv文件读入pyspark dataframe。现在，如果我在when()子句中应用条件，那么当条件在runtime之前给出时，它会很好地工作。 import pandas as pd from pyspark import SparkContext from pyspark.sql import SQLContext from pyspark.sql import functions from pyspark.sql.functions import col sc = SparkContext('local', 'example') sql_sc =

浏览 0提问于2019-11-08得票数 0

回答已采纳

1回答

熊猫:为什么DataFrame.apply(f，axis=1)叫f当DataFrame是空的？

python、pandas

为什么Pandas的DataFrame.apply方法在DataFrame为空时调用要应用的函数？例如： >>> import pandas as pd >>> df = pd.DataFrame({"foo": []}) >>> df Empty DataFrame Columns: [foo] Index: [] >>> x = [] >>> df.apply(x.append, axis=1) Series([], dtype: float64) >>> x [S

浏览 3提问于2014-01-20得票数 7

回答已采纳

1回答

在Pandas中实现MSSQL的按窗口划分子句

python、sql-server、pandas

我正在将一个MSSQL数据库移动到MYSQL，并且决定将一些存储过程移到Python，而不是用MYSQL重写。我在Python3.5.4上使用Pandas 0.23。旧的MSSQL基使用了许多窗口函数。到目前为止，我已经成功地使用pandas.Dataframe.rolling转换了Pandas，如下所示： MSSQL AVG([Close]) OVER (ORDER BY DateValue ROWS 13 PRECEDING) AS MA14 Python df['MA14'] = df.Close.rolling(14).mean() 在python中，我被MSSQL函

浏览 2提问于2018-06-23得票数 0

1回答

groupby.filter工作在系列上，而不是数据格式？(熊猫)

python、pandas

在IPython中，我在常规数据框架上执行groupby： grouped Out[356]: <pandas.core.groupby.DataFrameGroupBy object at 0x7f0e78578750> 但是它上的filter似乎是获得了Series而不是数据帧： ...: def print_obj(x): ...: print type(x) ...: return True ...: e=grouped.filter(print_obj) <class 'pandas.core.s

浏览 3提问于2014-01-02得票数 2

回答已采纳

1回答

Python火花作业优化

python、pandas、apache-spark、pyspark、google-cloud-dataproc

我在Dataproc集群上运行PySpark (2.3) 3个节点(4个CPU) 每个内存8GB。数据有近130万行，列有4列，即： Date,unique_id (Alphanumeric) , category(10 distinct values) and Prediction (0 or 1) P.S -这是时间序列数据我们正在使用Facebook预言家模型进行预测建模，因为先知只接受Pandas数据格式作为输入，下面是我正在做的工作，以便将Spark数据格式转换为Pandas数据格式。 def prediction_func(spark_df): im

浏览 3提问于2018-09-02得票数 1

2回答

如何在两个Pandas DataFrame对象上执行SQL样式不相交或设置差异？

python、pandas

我正在尝试使用Pandas来解决一个问题，因为一个愚蠢的DBA不对现在崩溃的数据集进行备份，所以我试图找出两列之间的差异。由于我不想深入讨论的原因，我使用的是Pandas而不是数据库。我想做的是，考虑到： Dataset A = [A, B, C, D, E] Dataset B = [C, D, E, F] 我想找出不相交的值。 Dataset A!=B = [A, B, F] 在SQL中，这是标准的集合逻辑，根据方言的不同实现方式不同，但这是一个标准函数。如何在Pandas中优雅地应用这一点？我很想输入一些代码，但我的代码一点也不正确。这是一种我不知道我不知道的情况……Pandas为

浏览 1提问于2013-01-19得票数 7

回答已采纳