如何使用python将现有列中的变量用作列来创建数据帧？_在R中，如何使用现有列作为变量来创建新列？_如何使用列中的值组合创建数据帧 - 腾讯云开发者社区

scala、dataframe、apache-spark

我想创建一个函数来处理我在处理文本数据时遇到的问题。我熟悉Python和pandas数据帧，我通常认为解决问题的过程是使用一个函数，然后使用pandas apply方法将该函数应用于列中的所有元素。然而，我不知道从哪里开始实现这一点。因此，我创建了两个函数来处理替换。问题是我不知道如何在这个方法中放入多个替换。我需要对三个独立的数据帧进行大约20次替换，所以用这种方法解决这个问题需要60行代码。有没有一种方法可以在一个函数中进行所有替换，然后将其应用于scala中数据帧列中的所有元素？ def removeSpecials: String => String = _.replaceA

浏览 9提问于2019-12-26得票数 0

回答已采纳

2回答

如何将dataframe中的值转换为对象

r、dataframe

对于我正在编写的函数，输出是一个数据帧。但是，如何将数据帧中某一列中的值赋给对象呢？例如，如果我有两个向量，它们被cbind到一个数据帧中 >numbers<-c(33, 44, 55, 66) >names<-c("A", "B", "C", "D") >MYdataframe<-data.frame(cbind(names, numbers)) 我会得到这个： >MYdataframe names numbers 1 A 33 2 B 44

浏览 0提问于2012-02-03得票数 0

1回答

在pyspark的现有dataframe中添加新列的方法是什么？

python、apache-spark、pyspark、pyspark-dataframes

我已经在现有的数据框中添加了一个新列，但它没有反映在数据帧中。 customerDf.withColumn("fullname",expr("concat(firstname,'|',lastname)")) customerDf.show() # it's showing existing old df records without new columns. 如果我们可以将数据帧分配给另一个数据帧，我们就可以看到结果 test = customerDf.withColumn("fullname",expr("

浏览 4提问于2021-01-26得票数 0

3回答

按列名为数据帧的每一列创建数组

python、arrays、numpy

我正在尝试创建许多数组，这些数组对应于大数据帧中每个列的数据值，并且我希望每个数组与其相应的列共享相同的名称。下面是我如何尝试处理这个问题的一个例子： x = [a b c] <- column names [1 2 3] [1 2 3] names = [a b c] For i in names: i = numpy.array(x[i]) 我想创建三个数组(a、b和c)： a = [1, 1] b = [2, 2] c = [3, 3] 但我得到的只是一个数组： i = [3, 3] 我该如何解决这个问题？

浏览 8提问于2014-07-25得票数 1

回答已采纳

2回答

Spark Dataframes:如何更改Java/Scala中列的顺序？

java、scala、dataframe、spark-dataframe

在连接两个数据帧之后，我发现列的顺序改变了我的预期。例如:在b上连接具有列[b,c,d,e]和[a,b]的两个数据帧将产生[b,a,c,d,e]的列顺序。如何更改列的顺序(例如，[a,b,c,d,e])？我已经找到了在Python/R中做到这一点的方法，但没有找到Scala或Java。是否有任何方法允许交换或重新排序数据帧列？

浏览 1提问于2016-06-29得票数 4

1回答

在Python语言中从Spark DataFrame创建labeledPoints

python、pandas、apache-spark、apache-spark-mllib、apache-spark-ml

我应该使用python中的哪个.map()函数从spark数据帧创建一组labeledPoints？如果标签/结果不是第一列，但我可以引用它的列名'status‘，那么表示法是什么？我使用这个.map()函数创建Python dataframe： def parsePoint(line): listmp = list(line.split('\t')) dataframe = pd.DataFrame(pd.get_dummies(listmp[1:]).sum()).transpose() dataframe.insert(0, 's

浏览 3提问于2015-09-14得票数 14

回答已采纳

1回答

捕获连续行中的列值的变化

python、pandas、dataframe

我目前有以下数据帧并且需要创建应用以下逻辑的新的二进制数据帧：任何列中的-If值都为>=1.5，且前一列的值小于1.5，则显示1。如果值不显示<=0，则-Continue显示1，然后将0放入。因此，将这一点应用到上面应该会产生以下结果：你知道怎么做才是最有效的吗？

浏览 4提问于2017-11-10得票数 0

1回答

如何导入文件名与数据帧中的列值对应的镜像？

python、pandas、dataframe、opencv、image-processing

我是一名医生，正在尝试学习一些工作代码，希望您能帮助我解决有关将多个图像导入到python中的问题。我在Jupyter Notebook中工作，在那里我使用pandas创建了一个数据帧(名为df_1)。在此数据框中，每行表示一个患者，第一列显示每个患者的病例编号(例如85)。现在，我想要做的是从一个给定的文件夹(与.ipynb文件相同的位置)导入多个图像(.bmp)。这个文件夹中有许多镜像，我不想要所有的镜像--只想要那些在我的数据帧中具有与"case_number“列对应的文件名的镜像(例如85.bmp)。我已经读过这个post了，但我必须承认它对我来说理解起来太复杂了。我

浏览 22提问于2021-06-24得票数 0

回答已采纳

1回答

迭代行以创建一个变量，然后按其自身命名

python、pandas、dataframe、variables、filter

好了，伙计们，我打算做一个基于表数据框中的行的变量。它专门根据索引+列数据帧来指定变量的名称，并包含左列中的值。从技术上讲，对于我的示例： In] : df [Out]: column1 2019 0 candy 800.0 1 choco 900.0 2 book 809.0 3 bread 521.0 4 sugar 290.0 5 vegetables 88.0 通常，我使用df过滤器，将column1改为索引来选择特定的单元格，使它们“逐个”管理

浏览 0提问于2020-11-13得票数 0

1回答

根据Spark数据帧中的列数创建变量数

apache-spark、pyspark

我在Spark数据框的一列中有4个值- colA Read Join Sort Write 输出是基于列值创建4个python变量，如下所示- v1=Read v2=Join v3=Sort v4=Write 如果列中有3个值，则需要输出的是创建3个变量。谢谢

浏览 0提问于2020-06-19得票数 0

1回答

根据输入向帧中添加日期

我为R中的数据集提供了一个输入变量，用于评估工具列表。它看起来如下： type <- as.integer(readline(prompt="Enter a Barcode: ")) 我有两列，一列包含输入语句中找到的信息(一组条形码)，另一列包含将某一特定内容输入“tool”变量的日期。我理解如何使用函数Sys.Date，它对我来说很好，我只是很难让它在扫描某些内容时更新数据帧中的列，而不是将当前的日期输出到控制台中。这方面的理想输出将只是对条形码扫描的行中的数据帧列进行更新。例如： Barcode_Number, Date_Used 5698, 2018-07-07

浏览 1提问于2018-07-11得票数 0

回答已采纳

2回答

在熊猫数据帧上链接方法时似乎不一致的列引用语法

python、r、pandas、dplyr

我有点困惑，为什么引用熊猫数据框架中的列的语法会因调用哪种方法而有所不同。取下面的示例方法链 import pandas as pd iris = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv') iris.columns = ['SepalLength', 'SepalWidth', 'PetalLength', 'PetalWidth', 'Species'] (iris

浏览 4提问于2017-05-19得票数 5

回答已采纳

3回答

Pandas循环遍历数据帧列表和更改索引

python、pandas

这是一个基本的查询，但我想遍历数据帧列表，并为每个数据帧设置索引作为数据帧中的一列。下面代码的问题是它没有用新的索引保存数据帧。如何格式化此For循环，以便在for循环之外永久更改数据帧？谢谢。 dflist = [df_1, df_2, df_3] for i in dflist: i = i.set_index('column_2')

浏览 18提问于2017-06-19得票数 3

回答已采纳

1回答

如何在R中创建Python子进程来进行潜在类分析？

python、r、subprocess

我正在尝试对来自另一个团队的调查数据进行潜在类分析。我是Python的主要用户，但其中一个更合适的工具是R中的poLCA。因此，我正在尝试创建一个Python子进程，它创建在R中运行的脚本，创建一个结果数据帧，然后在Python中运行其余的分析。我现在遇到的问题是，我很难从数据帧中的所有列创建要在poLCA中使用的公式，这些列可能接近数千列。在Python中，我可以执行以下操作： formula = '+'.join(dataframe.columns.tolist)+'~1' 但在Python语法中，我将执行: cbind(col1，col2，...，c

浏览 5提问于2019-04-18得票数 0

1回答

将字符串传递给Python函数，并将该字符串用作dataframe中的列名

python、pandas、function、arguments、parameter-passing

我正在尝试使用作为python函数属性传递的字符串来创建数据帧。该字符串用于提供参数，以便将某些数据收集到数据帧中。我想使用字符串重命名数据帧，并使用字符串重命名其中一个列名。我附上了下面的代码，以防它不清楚我想要什么。 def stock(tick): tick=tick.upper() tick, metadata=ts.get_daily(symbol=tick, outputsize='full') tick['date']=tick.index tick.index.name='index' t

浏览 11提问于2020-01-27得票数 0

1回答

如何在dataframe中创建基于列名的变量？

python、pandas、dataframe、variables、jupyter

我想在python中根据我的dataframe的列名创建变量。我不确定这是否可能，因为我是Python的新手。假设我的df是这样的： ID Date Name Counts 1 04/04/2018 JUOM 150 2 05/04/2018 1XMK 22 3 05/04/2018 N2IS 130 如何创建一个变量来引用此数据帧中的Date和Name列？

浏览 18提问于2019-04-04得票数 0

1回答

将数据帧的每一列提取为对象。

我有一个包含许多列的数据框架，名为foo、bar等。我希望提取数据帧的每一列，以分离名为foo**，** bar、等的对象。在R中有自动化的方法吗？工作实例： mock <- structure(list( x = structure(1:3, .Label = c("1", "2", "3"), class = "factor"), y = structure(1:3, .Label = c("A", "B", "C"), class = "factor"

浏览 0提问于2013-01-19得票数 2

回答已采纳

1回答

根据列表中定义的变量命名Pandas Dataframe

python、pandas

我在python中有两个列表： <code>A0</code> 我正在运行一个循环来获取每个<code>D1</code>位置中的所有.csv文件，并将它们传递到单独的数据帧中。在我的循环中，我想创建一个以来自<code>D2</code>的相应迭代命名的数据帧。到目前为止我的代码是： <code>A3</code> 我收到一个错误。有没有什么方法可以将数据帧命名为来自<code>D4</code>的结果字符串？实际上，我希望将<code>D5</co

浏览 28提问于2021-03-13得票数 0

回答已采纳

2回答

在Python中将2列的数据帧转换为一系列2列

python、pandas

我正在尝试处理一些时间序列数据，并且对pandas dataframe还是个新手。我有一个包含两列的数据帧，如下所示： +---+-----------------------+-------+--+ | | 0 | 1 | | +---+-----------------------+-------+--+ | 1 | 2018-08-02 23:00:00 | 456.8 | | | 2 | 2018-08-02 23:01:00 | 457.9 | | +---+-----------------------+------

浏览 0提问于2018-08-16得票数 0

1回答

当我从Python中的数据帧创建csv时，将在我的csv中的表的开头添加一个新列。如何删除该列？

python、pandas、dataframe、csv

如何删除下表中的第一列( Python )，它是在从Python的数据帧生成csv时创建的。或者是否有一种方法可以防止第一列首先被创建。

浏览 4提问于2022-11-04得票数 0

回答已采纳

1回答

在spark dataframe中使用forloop添加新列

apache-spark、apache-spark-sql

我有一个spark数据帧，它是创建的，dynamically.There也是一个列的列表，需要从数据帧中选择。我需要遍历所需的列的列表，并检查dataframe中是否存在这些列。如果找到，则需要重命名dataframe列，否则，如果找不到，则创建新列并将其放入“null”值。我已经尝试使用forloop和if条件，如下所示：我的数据帧包含以下列: a.col1、a.col2、a.col3、a.col4、b.col2 val cols_needed = "a.col1,a.col2,a.col3,a.col4,b.col1,b.col2".split(","

浏览 26提问于2019-05-19得票数 0

回答已采纳

2回答

pandas中有多少列，python？

python、pandas

有没有人知道pandas，python中的所有列？我刚刚为pandas创建了一个包含超过20,000列的数据帧，但我得到了内存错误。非常感谢

浏览 5提问于2013-10-07得票数 1

5回答

将整个列表放在一个数据框列中

python、pandas、dataframe、dictionary

我正在尝试从字典创建一个数据帧： dict = {'foo': [1, 2, 3, 4], 'bar': [5, 6, 7, 8]} 我使用下面的命令来创建数据帧： df = pd.DataFrame.from_dict(dict, orient='index') 但是输出是这样的： df: 0 1 2 3 foo 1 2 3 4 bar 4 5 6 7 但我希望输出结果如下所示，只有一列： df: 'column_name'

浏览 0提问于2019-06-20得票数 1

1回答

如何在给定相异矩阵的情况下在Python中执行PAM聚类？

python、pandas、cluster-analysis

我有一个dataframe df，它有id、text、lang、stemmed和tfidfresult列。df有24行。我根据tfidf结果找到了相异矩阵(距离矩阵)，它给出了数据帧中两行的不同程度。下面是数据帧外观的一个示例： id text lang stemmed tf_idfresult 0 234 Hi this en [hi, this] [0.0, 0.2] 1 232 elephants

浏览 0提问于2020-12-06得票数 0

3回答

如何将一行的两个值相加，然后将结果放入新的单元格？

python、pandas、sum

在Python中，我有一个包含2个值的数据集/帧，列A的值为10、20、30，列B的值为5、10、15等。如何将每列的每一行的值相加，并将结果放在它旁边的列中？因此，本质上是列C具有求和结果，因此第一行将在列C中添加A和B作为结果，以此类推。谢谢。

浏览 1提问于2017-05-04得票数 2

2回答

如何使数据帧成为全局的并在函数中使用它？

python、pandas、dataframe

我想在函数中打印一列数据帧。它说没有定义名称'data‘。如何使其全球化？我的功能是： def min_function(): print("Choose action to be performed on the data using the specified metric. Options are list, correlation") action = input() if action == "list": print("Ranked list of countries' happine

浏览 0提问于2019-04-09得票数 1

1回答

为Pandas中的datetime列赋值/将datetime列重命名为date列

python-3.x、pandas

我在Pandas中创建了以下数据帧'user_char‘： ## Create a new workbook User Char with empty datetime columns to import data from the ledger user_char = all_users[['createdAt', 'uuid','gasType','role']] ## filter on consumers in the user_char table user_char = user_char[user_char

浏览 14提问于2018-02-28得票数 0

回答已采纳

2回答

通过添加新列向csv添加数据

python、pandas、dataframe、export-to-csv

我想使用python中的pandas模块，将一些来自红移表的数据附加到csv文件中。通过python，我可以使用psycopg2模块成功地连接和检索红移表中的行。现在，我在csv上存储按日期划分的数据。因此，我需要首先在csv中创建一个新的date列，然后追加在该新列中检索到的数据。我使用以下命令从红移表中读取： conn=psycopg2.connect( host='my_db_hostname', port=`portnumber`, user='username', password='password', dbname='db

浏览 8提问于2021-07-30得票数 0

回答已采纳

1回答

在python中循环遍历内存中的所有数据帧

python、pandas、for-loop

我有12个包含环境数据的数据帧-每个数据帧中有9934行和38列的不同月份的数据。为了使我的代码尽可能流畅，我想创建一个for循环，它循环遍历内存中的所有数据帧，并对它们执行一个任务，例如设置每个数据帧的索引。我尝试通过以下方法创建内存中所有数据帧的列表： alldfs = [var for var in dir() if isinstance(eval(var), pd.core.frame.DataFrame)] 然而，当我尝试的时候： for df in alldfs: df.set_index(['LABEL'], inplace = True) 我得到了

浏览 0提问于2017-10-04得票数 1

1回答

如何使用索引调用其他数据帧数据

python、pandas、dataframe、finance

我已经创建了以下数据框架，并希望使用指数股票代码来调用其他数据，并添加新列和“价格”。 RSI Stock HOYA 61.940859 HKSE 61.657187 BABA 54.881989 HSI 53.664616 Galaxy 52.561760 而另一个拥有20只股票最新收盘价的数据帧则称为“收盘”。如何将列添加到我的第一个数据帧？当我的输入 df['Stock'] #this return an error ?? 另外，如何向df中添加具有最新收盘价的新列(忽略NaN)?？请看我的其他数据框上的附加屏幕截图

浏览 1提问于2018-11-19得票数 0

1回答

pandas apply min函数中数据帧中的选择列

pandas、keras、genetic-algorithm、variable-selection

我在列表中有n-dataframe df=[df_1, df_2, df_3, ...., df_n] 其中df_n是pandas (python)中的数据帧。df_n是我的keras模型的一个变量。 X_train=[df_1_1,df_2_1,...,df_n_1] 其中： df_1_1是列表的第一个数据帧(第一个变量)，也是这个数据帧的第一列，他的数据帧有m列。如果此变量应用不同类型的平滑或过滤器，则此数据帧的每一列。我在每个数据帧中有100列，我想选择(不同数据帧的)列的组合，我的模型的得分中的X_train比最小值。 score = model.evaluate(X_test,

浏览 11提问于2018-08-17得票数 0

1回答

删除并释放单个pandas数据帧的内存

python、pandas、memory

我在pandas中运行了一个很长的ETL管道。我必须创建不同的pandas数据帧，并且我想为一些数据帧释放内存。我一直在阅读如何释放内存，我发现运行此命令不会释放内存： del dataframe 下面是这个链接：How to delete multiple pandas (python) dataframes from memory to save RAM?，其中一个答案说del语句并不删除实例，它只是删除了一个名称。在答案中，他们说将数据帧放在列表中，然后删除列表： lst = [pd.DataFrame(), pd.DataFrame(), pd.DataFrame()] del

浏览 171提问于2020-10-15得票数 2

回答已采纳

1回答

如何修改我在同一类的另一种方法中在类的一种方法中创建的熊猫数据？

python、pandas、dataframe、data-science、data-analysis

我创建了一个名为“loan”的python类，它有一种方法，用于生成本金和利息支付以及当前余额的熊猫数据框架。现在，我想要创建另一个方法，它生成相同的数据帧，在同一类中添加额外的列，而不从其他方法复制和粘贴相同的代码。我怎么能这么做？

浏览 7提问于2022-08-30得票数 -1

3回答

从csv文件向现有apache spark数据帧添加数据

python、apache-spark、pyspark、spark-dataframe

我有一个spark dataframe，它有两列: name，age，如下： [Row(name=u'Alice', age=2), Row(name=u'Bob', age=5)] 数据帧是使用以下命令创建的 sqlContext.createDataFrame() 接下来我需要做的是从外部的'csv‘文件中添加第三列'UserId’。外部文件有几列，但我只需要包括第一列，即'UserId'：两个数据源中的记录数相同。我在windows操作系统上使用的是独立的pyspark版本。最终结果应该是一个包含三列的新数据帧:

浏览 9提问于2016-09-16得票数 0

回答已采纳

2回答

将写入MSSQL表

python、sql-server、connection

我目前有一个Python数据have，它是23列和20,000行。使用Python代码，我希望将我的数据框架写入我有凭据的MSSQL服务器中。作为一个测试，我能够使用下面的代码成功地将一些值写入表中： connection = pypyodbc.connect('Driver={SQL Server};' 'Server=XXX;' 'Database=XXX;'

浏览 1提问于2018-01-08得票数 0

1回答

R Data Wrangling:将数百个列标题和结构经常不同的数据帧合并到一个主表中的有效方法是什么？

r、dataframe、join、merge、pattern-matching

我有几百个数据帧，每个数据帧包含员工信息，如年龄、性别、职位、道布等。问题是，大多数文件都有不同的列标题和数据结构。我试图从每个文件中捕获尽可能多的信息，即不是所有的信息，可能只有70-80%的信息可以通过简单的列匹配或算法高效地捕获。这些数据将被合并到一个“主人口普查表”中，其中包含一些常见的列，如上面列出的列，然后将这些列上载到SQL Server。我的第一个想法是创建一个主列关键字，它将一个列的几个变体映射到一个标准化的标题。例如，当输入文件的匹配列标题包含(“性别”、“性别”、“男性/女性”、“男性/女性”)时，将匹配"sex“列。任何匹配的列都将添加到主表中，在未找到

浏览 0提问于2018-07-09得票数 0

4回答

是否有使用列中的定性需求对数据进行子集的功能？

r、subset

我在为大型数据帧创建子集时遇到了问题。我需要提取与其中一列中两个正确城市之一匹配的所有行，但是我创建的任何子集最终都是空的。给定主要数据帧，我尝试： New = data[data$Home.port %in% c("ARDGLASS","NEWLYN")] 但是，R返回“选定的未定义列”

浏览 0提问于2020-03-11得票数 0

2回答

从引号中解开.csv行

python、pandas、csv

.csv文件如下所示 col1, col2, col3 "a, b, c" "d, e, f" 我想解开引号中的行以正确读取pandas/Python中的文件。如R中的重复问题所述，可以读取.csv数据两次: 1)展开辅助数据帧的第一列中的数据，以及2)调用辅助数据帧的第一列上的读取函数。对熊猫来说，最优雅的方式是什么？

浏览 0提问于2018-12-15得票数 1

3回答

根据另一列中的值将PySpark数据框列转换为Python列表

python、pandas、apache-spark、pyspark

我有一个包含2列的数据帧"dfClean“： +---+-----+ |som| ano | +---+-----+ | 1 | 1 | | 2 | 0 | | 3 | 1 | | 4 | 1 | 我需要创建一个Python列表，在同一行的列"ano“中有1的值在"som”中。所以期望的输出是：pyLst = [1,3,4] 在Pandas中我使用过：pyLst = dfClean.som[dfClean.ano == 1].tolist() 我如何在PySpark或Scala中做到这一点，我需要导入哪些额外的库？

浏览 0提问于2021-03-03得票数 0

3回答

循环遍历df列表并在R中返回df

r、loops、dataframe

我有一个数据帧列表，对于每个数据帧，我想将特定的列乘以10倍。我通常使用python，在R中很难实现这一点。在python中，结果如下所示： files.list = list(zt2, zt6, zt10, zt14, zt18, zt22) for (f in files): for (i in 3:ncol(f)){ f[i] = f[i]*10 } } 然而，在R中，这只是创建一个df 'f‘并将我上次迭代的df的值存储在其中。在R中做这件事的正确方法是什么？

浏览 1提问于2016-11-08得票数 0

2回答

从列表创建数据帧并保留重复项目

python、pandas

我有一份数据帧列表。列表中的每个数据帧都是唯一的-这意味着有一些共享但不同的列。我想创建一个dataframe，它包含来自dataframe列表的所有列，如果元素不存在，将填充NaN。我尝试过以下几种方法 import pandas as pd df_new = pd.concat(list_of_dfs) #I get the following: InvalidIndexError: Reindexing only valid with uniquely valued Index objects 问题似乎是由于列表中的数据帧造成的。每个数据帧只有一行，所以它的索引是零，因此重新索引不会起到

浏览 7提问于2021-07-12得票数 0

2回答

熊猫将两个数据帧相乘以获得产品。

python、pandas、merge

我有两个不同变量名的数据帧。 df1 = pd.DataFrame({'A':[2,2,3],'B':[5,5,6]}) >>> df1 A B 0 2 5 1 2 5 2 3 6 df2 = pd.DataFrame({'C':[3,3,3],'D':[5,5,6]}) >>> df2 C D 0 3 5 1 3 5 2 3 6 我想要创建第三个数据框架，其中第n列是前两个数据帧中n列的乘积。在上面的示例中，df3将有两个列X和Y，其中df.X = df

浏览 0提问于2018-10-29得票数 1

回答已采纳

2回答

如何访问一个数据帧的(多)索引？

indexing、group-by、pandas

我有一个数据框，并使用其中的一些列执行group by grouped = df.groupby(['col1', 'col2']) 现在我使用mean函数从上面创建的groupby对象中获得一个新的data frame对象： df_new = grouped.mean() 现在我有两个数据帧(df和df2)，我想使用col1和col2合并它们。我现在遇到的问题是df2没有这些列。在groupby操作之后，col1和col2被“移位”到索引。因此，为了解决这个问题，我尝试创建以下列： df2['col1'] = df2['index

浏览 0提问于2013-05-23得票数 2

回答已采纳

1回答

如果有些列是相同的，而有些列是不同的，那么我们可以在具有某些数据的雪花表中添加数据吗？

python、python-3.x、pandas、snowflake-cloud-data-platform、snowflake-connector

我有一个dataframe，它包含一些列，雪花表有一些列。有些列是相同的，有些列在它们之间是不同的。到目前为止，我正在将雪花表提取到python代码中，并将两者连接起来，并再次替换该表。但是桌子上有大量的数据，太忙了。当某些列不同而有些列相同时，可以直接将数据添加到雪花表中吗？如果是，请告诉我如何做this.No解决方案正在为我工作。我怎样才能用更少的时间有效地做到这一点呢？

浏览 5提问于2022-04-19得票数 0

3回答

跨多个数据帧的元素平均和标准偏差

python、python-3.x、pandas

数据:相同格式的多个数据帧(相同的列，相等的行数，并且没有丢失任何点)。如何创建一个包含每个元素的元素均值的“摘要”数据帧？那么包含元素标准差的数据帧如何呢？ A B C 0 -1.624722 -1.160731 0.016726 1 -1.565694 0.989333 1.040820 2 -0.484945 0.718596 -0.180779 3 0.388798 -0.997036 1.211787 4 -0.249211 1.604280 -1.100980 5 0.062425 0.925813 -1.81

浏览 0提问于2015-04-04得票数 5

2回答

如何从已有的相关数据创建关联数据帧

python、pandas、dataframe

我有一个语言相似度的数据框架。以下是为简单起见而编辑的一小段代码： 0 1 2 0 English Spanish 0.50 1 English Russian 0.15 我想创建一个关联数据帧，例如： English Spanish Russian English 1 0.5 0.15 Spanish 0.5 1 - Russian 0.15 - 1 为了创建第一个数据帧，我运行： pairing_list = [["English","Spanish&

浏览 25提问于2021-06-24得票数 2

回答已采纳

1回答

如何在spark sql dataframe中映射一列以创建新列？

python、pandas、dataframe、apache-spark

在python和pandas中，我可以创建一个新的专栏，如下所示：使用pandas dataframe中的两列来创建字典。 dict1 = dict(zip(data["id"], data["duration"])) 然后，我可以应用这个字典在第二个dataframe中创建一个新列。 df['id_duration'] = df['id'].map(lambda x: dict1[x] if x in dict1.keys() else -1) 如果我有一个数据帧id_duration (有两列：id和duration)和

浏览 38提问于2021-01-22得票数 0

回答已采纳

5回答

火花复制数据栏- Python/PySpark中的最佳实践？

python、apache-spark、pyspark

这是用于使用Spark2.3.2的Python/PySpark。我正在寻找最佳实践方法，将一个数据框架的列复制到另一个数据框架，使用PySpark对一个非常大的10+十亿行数据集(按年/月/日平均划分)。每一行都有120列要转换/复制。输出数据帧将被写入另一组文件中，日期分区。示例模式是：input DFinput (colA，colB，colC)和输出DFoutput (X，Y，Z) 我想将DFInput复制到DFOutput，如下所示(colA => Z，colB => X，colC => Y)。在Python 2.3+中这样做的最佳实践是什么？是否应该对每个列使用D

浏览 1提问于2018-12-19得票数 5

1回答

Ipywidgets interact不会将日期选择器应用于DataFrame ("TypeError：'DataFrame‘object is not callable")

python、pandas、dataframe、datepicker、ipywidgets

我正在构建一个jupyter笔记本，它使用一些交互式小部件来帮助在一些数据帧中移动。我的jupyter和python经验有限，到目前为止，我笔记本上的大部分内容都是重新创建我之前在一系列Excel PivotTables中创建的合并和计算。第一次尝试交互式窗口小部件的效果很好。它调用dataframe，使用一个滑动小部件根据列的结果限制返回的行数(一个任务打开了多少天)： from ipywidgets import interact, interactive, fixed, interact_manual import ipywidgets as widgets @interact def

浏览 97提问于2020-02-17得票数 0

回答已采纳

2回答

统计模型多元线性回归误差- Python

python、linear-regression、statsmodels

我正在运行(我认为是)相当简单的多元线性回归模型，使用Stats模型拟合。我的代码如下： y = 'EXITS|20:00:00' all_columns = "+".join(y_2015piv.columns - ['EXITS|20:00:00']) reg_formula = "y~" + all_columns lm= smf.ols(formula=reg_formula, data=y_2015piv).fit() 因为我有大约30个因子变量，所以我使用Python字符串操作创建公式。"y“如上所示。al

浏览 0提问于2016-05-21得票数 3