腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
3
回答
在
spark
中
使用
regexp
连接
两个
数据
帧
regex
、
scala
、
apache-spark
我想加入
两个
数据
帧
,其中d1
中
的颜色出现在d2
中
的短语
中
。我不能
使用
d1.join(d2, d2("phrases").contains(d1("color")),因为它会
连接
短语中出现单词的任何位置。我只想当颜色作为一个单独的单词出现在短语
中
时加入。 我可以
使用
正则表达式来解决这个问题吗?当我需要引用表达式
中
的列时,我可以
使用
什么函数,语法
浏览 37
提问于2020-09-24
得票数 5
1
回答
如何合并或
连接
spark
中
列号不相等的
数据
帧
python
、
apache-spark
、
pyspark
、
apache-spark-sql
、
spark-dataframe
我正在做一个
使用
spark
的项目。
在
某些阶段,我需要在单个
数据
帧
中
合并或
连接
3个
数据
帧
。这些
数据
帧
来自
spark
sql表,我
使用
了联合函数,它已经合并了
两个
表
中
具有相同编号的列,但我也需要合并不相等的列值。我现在很困惑,有没有办法
在
pyspark
中
合并或
连接
不相等的基于列的
浏览 13
提问于2016-09-22
得票数 0
1
回答
Spark
作业
在
显示所有作业已完成然后失败后重新启动(TimeoutException: Futures
在
[300秒]后超时)
scala
、
apache-spark
、
apache-spark-sql
、
spark-dataframe
它显示所有作业都已完成: 然而,
在
几分钟后整个作业重新启动,这一次它将显示所有作业和任务也已完成,但几分钟后它将失败。我
在
日志中发现了以下异常:因此,当我试图
连接
两个
很大的表时就会发生这种情况:其中一个是3B行,第二个是200M行,当我
在
结果
数据
帧
上运行show(100)时,所有的
数据
都会被评
浏览 4
提问于2016-03-30
得票数 6
回答已采纳
2
回答
Spark
最佳方法查找Dataframe以提高性能
scala
、
apache-spark
、
cassandra
、
datastax-enterprise
数据
帧
A(百万条记录)其中一列是create_date,modified_date当前方法: Select a.
浏览 16
提问于2016-08-27
得票数 1
1
回答
两个
数据
帧
火花
连接
操作
pyspark
、
pyspark-dataframes
我的问题是取O(n^2) 是否有可能对
两个
数据
帧
进行排序并使其具有更好的性能?如果不是这样的话,怎样才能让join更快呢?
浏览 0
提问于2019-09-20
得票数 0
2
回答
Pyspark:通过ID和最近日期向后加入2个
数据
帧
python
、
sql
、
join
、
pyspark
在
pyspark (和一般的python )
中
执行
两个
数据
帧
的滚动
连接
时,我遇到了很多问题。我希望将
两个
pyspark
数据
帧
通过它们的ID和最近日期反向
连接
在一起(这意味着第二个
数据
帧
中
的日期不能晚于第一个
数据
帧
中
的日期) Table_2:期望的结果:从本质上讲,
浏览 1
提问于2020-08-08
得票数 2
1
回答
适用于大型
数据
集的sparklyr
中
copy_to的替代方案
r
、
hive
、
apache-spark-sql
、
sparklyr
我有下面的代码,它
使用
包装器函数对
数据
集进行SQL转换,并
使用
Sparklyr调用
spark
SQL API。然后,我
使用
"invoke("createOrReplaceTempView","name")“将
Spark
环境
中
的表保存为
spark
数据
帧
,以便在将来的函数调用
中
调用。然而,要做到这一点,我似乎必须
使用
sparklyr<e
浏览 0
提问于2017-06-07
得票数 3
1
回答
如何在
Spark
中加速大
数据
帧
连接
python
、
scala
、
apache-spark
我
在
Spark
2.4
中
有
两个
数据
帧
,它们的大小几乎相同。每个都有大约4000万条记录。一种是通过简单地从S3加载
数据
帧
生成的,另一种是加载一堆
数据
帧
并
使用
sparkSQL生成大型
数据
帧
。然后我将这
两个
数据
帧
多次
连接
到多个
数据
帧
中
,并尝试将
浏览 12
提问于2020-05-14
得票数 0
回答已采纳
1
回答
Spark
Join:分析异常引用不明确
scala
、
join
、
apache-spark
、
dataframe
您好,我正在尝试
连接
spark
中
的
两个
数据
帧
,并收到以下错误:could be: Adapazari#100064, Adapazari#100065.; 根据几个消息来源的说法,当您尝试将
两个
不同的
数据
帧
连接
在一起时,可能会
浏览 8
提问于2017-02-14
得票数 1
回答已采纳
2
回答
Spark
-如何在列的基础上以最小的混洗重新划分
数据
帧
?
apache-spark
、
apache-spark-sql
我们有多个
数据
帧
。 其中一个
数据
帧
是主
数据
帧
,它
使用
左-外
连接
与其他
数据
帧
连接
。所有这些
数据
帧
都
连接
在4列上(比如col1、col2、col3、col4)。为了减少
数据
混洗,目前我们正在对4个
连接
列上的所有
数据
帧
进行重新分区,然后
连接
这些
数据</em
浏览 2
提问于2019-02-08
得票数 2
1
回答
连接
两个
h2o
数据
帧
h2o
我有
两个
h2o
帧
,我想基于这
两个
列
中
存在的一个相同的列来
连接
它们,我
使用
Java API并从
spark
dataframes
中
获取h2o
帧
。h2oContext.asH2OFrame(train_validation);我可以
使用
spark
datafr
浏览 8
提问于2017-06-22
得票数 2
2
回答
如何在
spark
中
使用
Regexp
_replace
scala
、
apache-spark
、
apache-spark-sql
、
regexp-replace
我是
spark
的新手,我想在
数据
帧
的列上执行一个操作,以便用.替换列
中
的所有,x41,6566我希望输出结果为1.3435我
使用
的代码是def replace =
regexp
_replace((x.x4,1,6566:String,1.6566:String
浏览 1
提问于2016-10-17
得票数 17
3
回答
在
写入dataframe - pyspark之前从表
中
删除记录
sql-server
、
pyspark
、
apache-spark-sql
、
pyspark-dataframes
、
aws-glue-spark
在从dataframe向表
中
写入
数据
之前,我正在尝试从表
中
删除记录。这对我不起作用。我做错了什么?query = "(delete from xx_files_tbl)" .option("url", "jdbc:sqlserver
浏览 172
提问于2020-10-14
得票数 1
回答已采纳
1
回答
Spark
: Catalyst
在
Dataframe上添加策略
apache-spark
、
join
、
catalyst
我需要将
使用
Spark
SQL的
连接
操作转换为自定义
连接
。(逻辑计划到自定义物理计划)。我已经编写了一个将
spark
join操作转换为自定义
连接
的策略 def apply(plan: LogicalPlancondition)) case _ =&
浏览 2
提问于2017-05-04
得票数 2
1
回答
Spark
CSV读取忽略字符
scala
、
apache-spark
、
apache-zeppelin
我通过齐柏林飞艇
使用
Spark
2.2.1。现在我的
spark
读取代码如下: val data =
spark
.read.option("header", "true").option("delimiter", ",").option("treatEmptyValuesAsNulls","true").csv("listings.csv") 我注意到,当我
使用
.sho
浏览 14
提问于2020-04-23
得票数 0
1
回答
在
pyspark
中
连接
同名的Dataframe
python
、
apache-spark
、
pyspark
、
apache-spark-sql
、
apache-spark-2.0
我有
两个
数据
帧
,它们是从
两个
csv文件
中
读取的。pyspark代码dfFinal = dfFinal.join(df2, on=['NUMBER'], how='inner')
连接
这
两个
使用
NUMBER coumn的
数据
,生成的新
数据
帧
如下。,因为
连接
后的
数据
帧
具有重复的列。)
在
加入<em
浏览 1
提问于2018-10-03
得票数 1
1
回答
无法获得
中
regex表达式的结果
sql
、
apache-spark
、
pyspark
、
apache-spark-sql
我
在
Spark
3.1的Databricks中
使用
了Pyspark。email_df11 =
spark
.sql("select New_id,
regexp
_extract_all(subject,'(?<!^DT!但是,当我
使用
相同
数据
帧
的视图并运行下面的查询时。我能看到输出。方法2s
浏览 5
提问于2022-01-27
得票数 0
1
回答
是否有解决"org.apache.
spark
.SparkException: Kryo序列化失败:缓冲区溢出。可用: 0,必需: n“错误的解决方法?
apache-spark
、
pyspark
、
apache-spark-sql
、
pyspark-sql
我正在通过
spark
-submit运行一个pyspark作业,在这个作业
中
,
在
应用一些额外的逻辑之前,首先将
两个
大型镶嵌板桌子
连接
在一起。To avoid this, increase
spark
.kryoserializer.buffer.max value *n只是一个变量,表示需要多少内存。该值取决于我将
spark
.kryoserializer.buffer.max设置为多少。我已经将这个参数的值增加到2047MB,并且我不再命中错误,作业
在
Ap
浏览 87
提问于2020-01-18
得票数 0
2
回答
Apache
Spark
当调用repartition($" key ")时,当每个键的所有记录的大小大于单个分区的大小时会发生什么?
scala
、
apache-spark
、
apache-spark-sql
、
apache-spark-sql-repartition
假设我有一个10 c1的
数据
帧
,其中一个列的"c1“对于每条记录都有相同的值。每个单独的分区最大为128 MB(默认值)。
浏览 34
提问于2021-09-23
得票数 2
回答已采纳
1
回答
如何比较
两个
pyspark
数据
帧
?
python
、
pyspark
我试图比较
两个
spark
数据
帧
,以从
两个
数据
帧
中
找出不匹配的值,但我只能得到不匹配的df1值。我需要
连接
不匹配的df1和df2的值。df1 =
spark
.read.load("df1.csv", format = "csv", header = "True") df2 =
spark
.read.load("df2.csv&quo
浏览 1
提问于2021-10-29
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何从Pandas迁移到Spark?这8个问答解决你所有疑问
pandas系列学习(五):数据连接
JavaScript 正则一篇入门,不入魂
2018年数据科学前15名的Scala库
Spark 2.3重磅发布:欲与Flink争高下,引入持续流处理
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券