我正在尝试重命名基于另一个数据帧的数据框的列。如何使用Scala实现这一点?
基本上,我的数据看起来像这样
DataFrame1
A B C D
1 2 3 4
我还有另一个表,它看起来像这个DataFrame2
Col1 Col2
A E
B Q
C R
D Z
我想相对于其他数据帧重命名我的第一个数据帧的列。因此,预期输出应如下所示:
E Q R Z
1 2 3 4
我尝试使用PySpark (由从复制的)编写代码,运行良好:
name_dict = datafram
这里是python noob。
我有一个dataframe people,其中name和text作为两列。
name text
0 Obama Obama was the 44th president of the...
1 Trump Donald J. Trump ran as a republican...
我只需要对Obama进行一些探索性分析。
obama= people[people['name'] == 'Obama'].copy()
obama.text
35817 Obama was the 44th
我有一个列表(我们称之为list_1),它来自一个高度基于数组/索引的电子表格,我正在尝试将它与另一个来自API响应的对象列表(list_2)进行比较。
值得注意的是,由于工作表是多维矩阵,每一行都包含一个列数组(例如,6列工作表的row[0]到row[5] )。
为了确保所有数据都匹配,当我在list_1中迭代时(执行一些其他函数),我需要在list_2中搜索匹配的对象,并使用电子表格的范围更新它。
我已经在迭代电子表格行(list_1),唯一能够做到这一点的方法就是迭代每个循环的list_2。太贵了:
for row in list_1:
# Do some things wit
我有不同的熊猫资料,我把它们列在一张清单上。我想用json (或任何其他格式)保存这个列表,这些列表可以被R.
import pandas as pd
def create_df_predictions(extra_periods):
"""
make a empty df for predictions
params: extra_periods = how many prediction in the future the user wants
"""
df = pd.DataFrame({
我有一个简单的spark作业,它从文件中拆分单词并加载到hive中的表中。
public static void wordCountJava7() {
// Define a configuration to use to interact with Spark
SparkConf conf = new SparkConf().setMaster("local[4]").setAppName("Work Count App");
SparkContext sc = new SparkContext(conf);
// Crea