腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
python
参数
验证
-
pyspark
数据
帧
过滤器
字符串
、
、
、
、
我需要将where子句
字符串
直接传递给输入
数据
帧
以过滤输入记录。clm1') == '201')" # In the correct format现在,我想要编写
python
语法,以便在
过滤器
字符串
不是上述格式的情况下引发一个异常。
浏览 5
提问于2020-05-29
得票数 0
1
回答
Pandas版本0.22.0 - drop_duplicates()获得意外的关键字
参数
'keep‘
、
、
、
我正在尝试使用子集(drop_duplicates=‘’,keep=False)在我的
数据
帧
中删除重复项。Notebook中工作正常,但当我试图通过终端以.py文件的形式执行时,我得到了以下错误: Traceback (most recent call last): File "/home/source/fork/
PySpark
_Analyticsdffsameflname.drop_duplicates(subset=['INDIVIDUAL_LASTNAME'],
浏览 110
提问于2019-06-20
得票数 1
1
回答
Pandas dataframe to Spark dataframe“无法合并类型错误”
、
、
、
、
我有csv
数据
,并使用read_csv创建了Pandas dataframe,并强制所有列为
字符串
。然后,当我尝试从Pandas
数据
帧
创建Spark
数据
帧
时,我得到了下面的错误消息。_createFromLocal(data, schema) File "/usr/hdp/2.4.2.0-258/spark/
python
/
pyspark
/sql/context.
浏览 6
提问于2016-08-06
得票数 33
回答已采纳
1
回答
将不带返回值的
Python
Lambda函数转换为
Pyspark
、
、
、
、
我在
Python
语言中有一个有效的lambda函数,它可以计算dataset1中的每个
字符串
与dataset2中的
字符串
之间的最高相似度。在迭代期间,它将
字符串
、最佳匹配和相似度以及其他一些信息写入bigquery。没有返回值,因为该函数的目的是向bigquery
数据
集中插入一行。这个过程需要相当长的时间,这就是为什么我想使用
Pyspark
和Dataproc来加速这个过程。 将熊猫
数据
帧
转换为spark很容易。我在注册udf时遇到了问题,因为它没有返回
浏览 16
提问于2019-07-19
得票数 2
回答已采纳
2
回答
优化
PySpark
与pandas DataFrames之间的转换
、
、
、
、
我有一个13M行的
pyspark
数据
帧
,我想把它转换成pandas
数据
帧
。然后,将根据其他
参数
以不同的频率(例如1秒、1分钟、10分钟)对
数据
帧
进行重新采样以进行进一步分析。从文献[,]中,我发现使用以下任何一行都可以加快
pyspark
到pandas
数据
帧
之间的转换: spark.conf.set("spark.sql.execution.arrow.
pyspark
.en
浏览 11
提问于2021-11-19
得票数 0
1
回答
如何将spark dataframe中的String类型列转换为Pandas dataframe中的String类型列
、
、
我有一个从熊猫
数据
帧
创建的样本spark
数据
帧
-from\ .appName("
Python
Spark SQL basic example") \
浏览 3
提问于2020-09-09
得票数 0
2
回答
Apache toree -
pySpark
未加载包
、
但是,我无法通过在内核文件中的以下位置使用PYTHONPATH变量在
pySpark
内核中导入包: /usr/local/share/jupyter/kernels/apache_toree_
pyspark
浏览 9
提问于2017-07-06
得票数 1
回答已采纳
1
回答
在
PySpark
(本地)上编程与在Jupyter Notebook上使用
Python
编程
、
、
最近我一直在使用
pySpark
,所以我已经习惯了它的语法、不同的API和HiveContext函数。很多时候,当我开始处理一个项目时,我并不完全知道它的范围是什么,或者输入
数据
的大小,所以有时我最终需要分布式计算的全部功能,而在另一些情况下,我最终得到了一些在我的本地计算机上运行良好的脚本。我的问题是,与常规的
Python
/Pandas相比,将
pySpark
作为我的主要语言进行编码是否存在劣势,即使只是进行一些探索性分析?我这么问主要是因为在不同语言之间切换的认知工作,以及如果我需要分发工作,将代码从
Py
浏览 0
提问于2016-07-27
得票数 1
1
回答
将pandas
数据
帧
转换为spark
数据
帧
时收到错误
、
、
由于在spark中没有对读取excel文件的开箱即用的支持,所以我首先将excel文件读取到pandas
数据
帧
中,然后尝试将pandas
数据
帧
转换为spark
数据
帧
,但我得到了以下错误(我使用spark1.5.1)from pandas import ExcelFilefrom
pyspark
.sql_createFromLocal(data,
浏览 0
提问于2016-01-15
得票数 2
1
回答
Pyspark
使用窗口函数和我自己的函数
、
、
、
我希望用
pyspark
和spark dataframe做同样的事情。我知道我必须使用窗口函数,但它比熊猫更难理解,所以我迷路了…… 我有这个,但我不知道如何让它工作。
浏览 29
提问于2020-06-26
得票数 0
回答已采纳
1
回答
如何模拟对
pyspark
sql函数的内部调用
、
、
、
、
获得了以下
pyspark
代码:).count()from unittest import mock fr
浏览 11
提问于2019-11-02
得票数 12
回答已采纳
1
回答
无法从spark dataframe导出
数据
、
数据
帧
看起来没问题。我将数组转换为
字符串
。使用from
pyspark
.sql.types import StringType def array_to_stringarray_to_string_udf(result["ner_chunk"])).withColumn('document', array_to_string_udf(result["document"
浏览 7
提问于2021-07-29
得票数 1
3
回答
如何创建动态
数据
帧
、
、
、
、
我试图创建一个
数据
框,我之所以以下面的方式指定创建
数据
框,是为了使其成为动态的,但表达式是作为
字符串
传递的,并且exec命令无法创建
数据
框并将其赋值给变量。
浏览 18
提问于2020-02-08
得票数 0
3
回答
在zeppelin中将pandas
数据
帧
转换为spark
数据
帧
、
、
、
我有一个用例,其中我有一个熊猫
数据
帧
。我需要使用齐柏林飞艇的内置图表来可视化集合。我在这里没有明确的方法。我的理解是,如果
数据
是RDD格式,我们可以使用zeppelin可视化
数据
。首先,我尝试将pandas的
数据
帧
转换为spark的
数据
帧
,但失败了import pandas as pdprintcompiledCode) Fi
浏览 0
提问于2015-10-06
得票数 17
2
回答
使用
pyspark
进行加权采样
、
、
、
我在使用
PySpark
的spark上有一个不平衡的
数据
帧
。我想对其进行重新采样,使其达到平衡。我只在
PySpark
中找到了示例函数但是我想在
Python
中用单位体积的权重来采样
数据
帧
,我可以这样做有没有什么方法可以用
PySpark
做同样的事情呢?
浏览 2
提问于2018-02-01
得票数 5
2
回答
如何使用
pyspark
将blob
字符串
转换为文件
、
、
、
、
我有一个
pyspark
笔记本,我正在阅读azure event-hub消息,其中一个字段是一个
字符串
,它是oracle
数据
库中的blob字段和文件。我正在尝试将
字符串
转换为文件、二进制文件,然后写入azure中的blob存储,但我不能这样做。如何将
字符串
转换为文件?
浏览 0
提问于2019-08-26
得票数 0
1
回答
如何从
数据
筛选器的输出中创建
PySpark
数据
文件?
、
、
我必须基于一个
过滤器
函数从一个
数据
文件创建2个
数据
文件。#df is an existing dataframedf.filter(df['Date'] == max_date ).display()df.filter= max_date ).display()# <class '
pyspark
.sql.datafra
浏览 0
提问于2022-03-24
得票数 0
回答已采纳
2
回答
从
PySpark
连接到Sharepoint的代码
、
、
、
、
我想使用
PySpark
提取SharePoint列表
数据
。我不确定Sharepoint列表
数据
和存储。我想以
PySpark
数据
帧
的形式读取SharePoint列表
数据
。我尝试过
Python
Libraies: Sharepy Slum和许多其他库
浏览 2
提问于2019-05-24
得票数 2
1
回答
Spark SQL更新/删除
、
、
、
、
目前,我正在做一个使用
pySpark
的项目,它读取一些Hive表,将它们存储为
数据
帧
,并且我必须对它们执行一些更新/过滤。我正在不惜一切代价避免使用Spark语法来创建一个框架,该框架只接受
参数
文件中的SQL,该
参数
文件将使用我的
pySpark
框架运行。现在的问题是,我必须在我的最终
数据
帧
上执行更新/删除查询,是否有任何可能的工作来在我的
数据
帧
上执行这些操作? 非常感谢!
浏览 7
提问于2019-11-15
得票数 1
1
回答
使用
Pyspark
进行交叉
验证
、
我尝试在使用spark时使用交叉
验证
,但它抛出了一个错误: gbtClassifier = GBTClassifier(featuresCol= "features", labelCol="is_goal
浏览 24
提问于2021-01-19
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
一个Python大数据处理利器:PySpark入门指南
如何在CDH集群上部署Python3运行环境及运行Python作业
pyspark 一个大数据处理神器的Python库!
PHP 过滤器全解
Flask学习笔记
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券