腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
如
何在
pyspark
中
处理
SAFE_CAST
sql
函数
、
、
、
我们有下面的查询,它在大查询环境
中
工作。AS FLOAT64) > 0 我需要使用python在spark环境
中
运行该查询。from
pyspark
.
sql
import SparkSessiondf.createOrReplaceTempView("people") df2=spark.
sql
("""SELECT id,name,
SAFE_CAST
(value AS
浏览 105
提问于2019-12-18
得票数 0
回答已采纳
3
回答
我们可以在BigQuery中使用这种类型吗?
datasetName.tableName选择SQRT((D_o_latitude - T_s_lat)^2+(D_o_longitude - T_s_long)^2)/0.00001 所以请告诉我,我们能不能将字符串类型转换为在查询
中
浮动,比如转换数据类型,我不能更改数据类型。
浏览 3
提问于2014-04-05
得票数 43
2
回答
无法导入模块'lambda_function':没有名为'
pyspark
‘的模块
、
、
我正在尝试使用AWS Lambda
函数
运行我的
PySpark
作业代码。下面是错误:无法导入模块'lambda_function':没有名为'
pyspark
‘的模块from
浏览 0
提问于2018-12-11
得票数 0
2
回答
PySpark
SQL
中
的用户定义聚合
函数
、
、
、
、
如
何在
PySpark
SQL
中
实现用户定义的聚合
函数
?
pyspark
version = 3.0.2作为一个最小的例子,我想用一个UDAF替换AVG聚合
函数
:
sql
将位于的位置:Out[2]:0 1 1.5在查询
中
,如何使用U
浏览 24
提问于2021-03-09
得票数 4
回答已采纳
1
回答
在使用
PySpark
时,如
何在
Spark
中
实现Python数据结构?
、
、
、
我目前正在自学Spark programming,并试图用
PySpark
重新编写一个现有的Python应用程序。然而,我仍然对如
何在
PySpark
中使用常规Python对象感到困惑。我了解Spark
中
的分布式数据结构,
如
RDD、DataFrame、Datasets、vector等。Spark有自己的转换操作和动作操作,
如
.map()、.reduceByKey()来操作这些对象。但是,如果我在
PySpark
中
创建传统的Python数据对象,比如数组、列表
浏览 34
提问于2017-03-01
得票数 1
回答已采纳
1
回答
使用套接字的火花结构化流,设置模式,在控制台中显示DATAFRAME
、
、
、
如
何在
DataFrame
中
为流
PySpark
设置架构。from
pyspark
.
sql
import SparkSessionfrom
pyspark
.
sql
.functionsimport splitfrom
pyspark
.
sql
.types import * spa
浏览 3
提问于2016-12-29
得票数 3
回答已采纳
1
回答
用火花放电写自定义的联非新议程
、
、
、
我需要编写一个自定义的
pySpark
,我遇到了这个例子。在类似的行
中
,
如
线程的最后一部分所示,我提出了以下
函数
StructField("keybloomfilter
浏览 1
提问于2019-04-04
得票数 1
4
回答
Python导入语法:我不认识这个(“它错了.”)
、
PySpark
的文档在示例
中
包括以下内容:from
pyspark
.
sql
.functions import *from datetime import date, timedelta, datetime 我不认识或理解最后两行的语法。我知道导入路径
中
的.和.. (“相对导入路径”),但是这个语法对我来说是
浏览 5
提问于2022-06-15
得票数 0
回答已采纳
3
回答
无法删除或更新Google BigQuery
中
的行,因为字段的时间戳超出了标准
SQL
时间戳的范围
、
在Google BigQuery
中
,我有一个时间戳字段,它的年份为20195。这当然会导致错误,因为它超出了标准
SQL
时间戳范围。但是,即使使用
SAFE_CAST
,我也不能更新这些记录或删除此记录作为错误。例如,我试过: UPDATE [table] SET DateField =
SAFE_CAST
('2019-01-01 00:00:00 UTC' AS TIMESTAMP)...问题是:如
何在
没有任何错误的情况下成功地删除或更新?
浏览 1
提问于2019-03-02
得票数 0
2
回答
如何使用
pyspark
python从文本文件
中
删除重复的数字
、
、
我正在尝试使用python从文本文件
中
删除重复的数字,但该操作仅适用于行。例如,我的文本文件是:66 9 23 import
pyspark
from
pyspark
import SparkContext, SparkConf
浏览 2
提问于2022-02-14
得票数 0
回答已采纳
2
回答
Spark zeppelin:如
何在
%
pyspark
解释器
中
获取%
sql
结果?
、
、
、
我知道我可以用 %
pyspark
df = sqlContext.
sql
('select * from train_table') 我可以使用df.registerTempTable('xxx')使df在%
sql
中
可访问。但是有时候我想用%
sql
来画图。移到df = sqlContext.
sql
(
sql
)
中
,重新计算。我想知道有什么方法可以在%
pyspark
中
访问%
sq
浏览 30
提问于2019-02-15
得票数 0
2
回答
对dataframe的列应用map
函数
、
、
、
为此,我打算使用此
函数
: def sum_col(data, col): return data.select(f.sum(col)).collect()[0][0] 我现在正在考虑做这样的事情
浏览 13
提问于2020-07-01
得票数 3
回答已采纳
1
回答
如何设置MEMORY_AND_DISK标志以防止
PySpark
在木星中出现内存错误?
、
、
我正在
处理
大量的数据,这些数据无法通过
PySpark
中
的可用内存进行
处理
,这会导致内存不足。为此,我需要使用MEMORY_AND_DISK选项。我的问题是:如
何在
PySpark
朱庇特笔记本
中
启用这个标志?我在找这样的东西: .master('local[*]'是否有类似的
浏览 3
提问于2020-06-09
得票数 0
回答已采纳
7
回答
在火花放电
中
找不到合适的
函数
、
、
、
在pyscam1.6.2
中
,我可以通过以下方式导入col
函数
但是当我试图在
中
查找它时,我发现functions.py文件
中
没有col
函数
,python怎么能导入一个不存在的
函数
呢?
浏览 9
提问于2016-10-20
得票数 91
回答已采纳
2
回答
如
何在
dataframe spark的一列
中
获取列表的长度?
以及如
何在
给定产品长度的条件下过滤df以获得指定的行?谢谢。
浏览 3
提问于2017-06-14
得票数 25
2
回答
PySpark
将列从TimeStampType列添加到DataFrame
、
、
、
df = df.withColumn("day", df.date_time.getField("day")) org.apache.spark.
sql
.AnalysisException: GetField
浏览 0
提问于2015-06-17
得票数 18
回答已采纳
2
回答
AssertionError: col应该是列
、
、
、
如
何在
PySpark
中
创建一个新列并用今天的日期填充该列?
浏览 4
提问于2017-12-20
得票数 30
回答已采纳
1
回答
Pyspark
结构化流
处理
、
、
我正在尝试用spark做一个结构化的流媒体应用程序,主要思想是从kafka源读取,
处理
输入,写回另一个主题。我已经成功地让spark读写了kafka,但是我的问题出在
处理
部分。我尝试过foreach
函数
来捕获每一行并在写回kafka之前对其进行
处理
,但是它总是只做foreach部分,而不会写回kafka。但是,如果我从writestream
中
删除foreach部分,它将继续写入,但现在我丢失了
处理
。 如果有人能给我举一个例子,告诉我如何做到这一点,我将非常感激。
浏览 37
提问于2019-07-17
得票数 0
回答已采纳
5
回答
删除星火中数据帧列值
中
的空白
、
、
、
- hours: struct (nullable = true)我希望创建一个新的数据框架(new_df),以便'name'列
中
的值不包含任何空格我的代码是:from
pyspark
.
sql
import SQLContext from
pyspark
.
sql
import HiveContextfrom
pyspark
浏览 10
提问于2016-02-21
得票数 9
回答已采纳
1
回答
在
pyspark
中
的列上具有某些条件的多个列上的Dataframe连接
、
、
、
df = sqlContext.
sql
("select d1.a, d1.b, d1.c as aaa, d2.d, d2.e, d2.f, d2.g, d2.h, d2.i, d2.j as lengthd2.j and length(upper(trim(d1.a))) = (d1.j+3)".format(dataBase, month_end)) File "/opt/cloudera
浏览 1
提问于2018-05-25
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何在Spark中处理结构化流式数据,如日志文件或传感器数据?
PySpark,大数据处理的Python加速器!
一个Python大数据处理利器:PySpark入门指南
Jupyter在美团民宿的应用实践
开发近两年,流、Python、SQL重大更新全面解读
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券