腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
Spark
DataFrame
列
中
获取
不同
的
单词
scala
、
apache-spark
我有一个这样
的
df val df2 =
spark
.createDataFrame( (0, "this is a sentence"), ) ).toDF("num", "words") 我想在这篇专栏
中
获得
不同
的
单词
,比如 val vocab = List("this", "is&qu
浏览 8
提问于2021-04-13
得票数 0
1
回答
根据CSV记录过滤
Spark
数据帧
中
的
部分数据
scala
、
apache-spark
、
apache-spark-sql
、
user-defined-functions
我有一个包含一些
单词
的
CSV文件。总共没有。csv文件
中
的
字数不会超过50k条记录。 我有一个从具有keywords
列
的
JSON文件创建
的
Spark
Dataframe
。我需要做
的
是从
dataframe
中
过滤出其keywords
列
值与CSV文件
中
的
值匹配
的
记录。这里,匹配表示csv文件
中
<em
浏览 2
提问于2019-05-31
得票数 0
2
回答
在
与列表匹配
的
列
中保持
单词
的
火花
string
、
list
、
apache-spark
、
pyspark
、
apache-spark-sql
我现在有一个列表和一个
Spark
数据文件: 我很难找到
在
dataframe
浏览 11
提问于2022-05-29
得票数 0
回答已采纳
1
回答
PySpark错误: TypeError:无效参数,不是字符串或
列
apache-spark
、
pyspark
、
user-defined-functions
我正在尝试计算
Spark
数据帧
中
某
列
中
的
所有两个可能
的
单词
对之间
的
相似度。Data Frame df =
spark
.createDataFrame(["GERMAN", "GERMANIA", "GERMANY", "LENOVO"], "string").toDF("Name") 我期望有16行
的</em
浏览 33
提问于2021-04-06
得票数 0
回答已采纳
1
回答
在
星火数据
中
遍历
列
并计算最小最大值。
scala
、
apache-spark
、
apache-spark-sql
、
spark-streaming
、
spark-dataframe
我想在我
的
星火程序
中
遍历
dataframe
列
,并计算min和max值。我对
Spark
和scala很陌生,一旦我
在
dataframe
中
获取
它,我就无法遍历这些
列
。我尝试过运行以下代码,但它需要将
列
号传递给它,问题是如何从
dataframe
中
获取
它并动态传递它,并将结果存储
在
一个集合
中
。val parquetRDD
浏览 3
提问于2017-07-18
得票数 0
回答已采纳
1
回答
左联接错误: org.apache.
spark
.sql.AnalysisException:检测到逻辑计划之间
的
左外部联接
的
隐式笛卡尔乘积
apache-spark
、
pyspark
、
apache-spark-sql
*编辑 df_joint = df_raw.join(df_items,on='x',how='left') Apache
Spark
2.4.5
中
出现标题异常 df_raw有2
列
"x“、"y”
的
数据,而df_items是模式
的
空数据框,还有其他一些
列
左连接发生在null
的
值上,它应该从第一个
dataframe
中
获取
整个数据,并从第二个
dataf
浏览 31
提问于2020-12-20
得票数 0
3
回答
字符串列包含通过
spark
scala进行精确匹配
的
单词
scala
、
apache-spark
、
apache-spark-sql
我有两个数据帧,第一个数据帧包含实际数据(从CSV文件读取),第二个数据帧包含一个具有多个关键字
的
列
。即下面的
Dataframe
-1外观相似(我们必须搜索
的
地方):数据帧-2:我想要
的
输出:我在这里使用
spark
scala。我想要一个与
dataframe
-1
中
的
dataframe
-2完全匹配
的
单词
。我使用了like、rlike、contains
浏览 1
提问于2021-02-12
得票数 0
2
回答
如何将值传递给表
中
的
pyspark变量?
python
、
pyspark
、
apache-spark-sql
这可能是一个愚蠢
的
问题,但我有一个表,其中
的
每一
列
都包含要传递给变量
的
值: select sfObject from db.tblwhere Id = {} 我看到
的
是一个名为sfObject
的
列
,它
的
预期值为'ValueA
浏览 1
提问于2020-06-10
得票数 1
回答已采纳
0
回答
提取
列
值并将其作为
Spark
dataframe
中
的
数组分配给另一
列
scala
、
apache-spark
、
apache-spark-sql
、
scala-collections
我有一个包含以下列
的
Spark
Dataframe
。C1 | C2 | C3| C42 | 3 | 3 | S2我想通过从
列
C5
中
获取
不同
的
值来生成另一个
列
C4,比如C5[S1,S2]谁能帮我
在
Spark
data frame中使用Scala实现这一点?
浏览 6
提问于2016-12-23
得票数 0
回答已采纳
1
回答
如何在Pandas
中
的
列
中
显示多于2个值
的
行?
python
、
pandas
、
dataframe
我
在
Pandas中有
DataFrame
,如下所示:-------John Kole OleMichael
Spark
如何才能从上面的
DataFrame
中
的
列
中
只显示这些值,该列有两个以上
的
值,所以或示例只显示John和Mike,因为这些值有两个以上
的
单词
?如何在Python Pandas
中
做到这一点?
浏览 3
提问于2021-06-25
得票数 0
回答已采纳
1
回答
如何使用同一个case类创建多个数据帧
scala
、
apache-spark
、
hadoop
假设我想创建多个数据帧,一个有5
列
,另一个有3
列
,我如何使用一个case类来实现这个目标?
浏览 2
提问于2019-05-14
得票数 1
7
回答
如何在
spark
的
数据
中
“负选择”
列
scala
、
apache-spark
、
dataframe
、
apache-spark-sql
这个df有"A“、"B”和"C“
列
。现在假设我有一个Array,它包含这个df
列
的
名称:我想以这样
的
方式来做一个df.select(),这样我就可以指定哪些
列
不能选择。例如:假设我不想选择
列
"B“。我试过了但这不起作用,因
浏览 21
提问于2015-07-15
得票数 22
回答已采纳
1
回答
如何在
Spark
中将时间戳
列
转换为毫秒长列
apache-spark
、
apache-spark-sql
在
Spark
中
,将Timestamp
列
转换为毫秒时间戳Long
列
的
最短和最有效
的
方法是什么?下面是一个从时间戳到毫秒
的
转换示例ts: org.apache.
spark
.sql.
DataFrame
seconds_ts", | "BIGINT(ts) *
浏览 1
提问于2019-06-18
得票数 2
1
回答
字符串索引器,单行上
的
CountVectorizer Pyspark
machine-learning
、
pyspark
、
nlp
、
keyword-extraction
嗨,我遇到了一个问题,我有行,其中有两
列
的
单词
数组。column1, column2基本上,我想计算每个
单词
在
列
之间出现
的
次数,最后得到两个数组:[1, 1, 0, 1, 1] 因此,&quo
浏览 17
提问于2020-02-08
得票数 0
回答已采纳
2
回答
星火MLlib K-均值聚类
scala
、
apache-spark
、
cluster-analysis
、
k-means
、
apache-spark-mllib
如果可用,我如何将参数或特性传递给算法.据我所知,它读取一个双数据类型
的
文本文件,并在此基础上生成集群。
浏览 2
提问于2016-08-10
得票数 1
回答已采纳
2
回答
在
spark
结构化流
中
写入来自kafka / json数据源
的
损坏数据
apache-spark
、
apache-spark-sql
、
spark-structured-streaming
在
spark
批处理作业
中
,我通常会将JSON数据源写入到一个文件
中
,并且可以使用
DataFrame
阅读器
的
损坏
列
功能将损坏
的
数据写出到
不同
的
位置,并使用另一个阅读器从同一作业
中
写入有效数据。(数据写为拼接) 但在
Spark
Structred Streaming
中
,我首先通过kafka将流作为字符串读取,然后使用from_json
获取
我
的
浏览 34
提问于2018-12-27
得票数 1
回答已采纳
1
回答
使用PySpark创建一个包含唯一
单词
的
列
python
、
apache-spark
、
pyspark
我有一个
Spark
dataframe
,其中包含一个
列
,其中包含部分行
的
重复
单词
: id source_value2 NULL4 John 我需要创建一个
列
,其中将排除每行
中
重复
的
单词
: id result_value2NULL 3 Michael, Sara
浏览 17
提问于2021-08-22
得票数 0
回答已采纳
1
回答
N
列
m行
的
动态数据帧
scala
、
apache-spark
从json(动态模式)读取数据,并将其加载到
dataframe
。示例数据帧:import
spark
.implicits._ (1, "ABC"), (3, "GHIJ")someDF: org.apache.<em
浏览 6
提问于2020-06-04
得票数 0
回答已采纳
1
回答
星星之火:为MergeSchema字段选择默认值
scala
、
apache-spark
我有一个有这样一个旧模式
的
地板:| Tom | Male | 30 || name | gender | age |office |val mergedDF =
spark
.read.option("mergeSchema", "true").parquet("datatest_table") 但是,在读取这些旧地板文件时,我得到
浏览 3
提问于2020-10-22
得票数 0
回答已采纳
1
回答
HashingTF未提供唯一索引
java
、
apache-spark
、
svd
、
lsa
我正在实现潜在语义分析LSA,使用eclipse Mars、java 8和
spark
-assembly-1.6.1-hadoop2.4.0.jar我将文档作为令牌传递,然后获得SVD等每件事都运行得很好,除了一件事,那就是当我试图从hashingTF
中
获取
术语
的
索引时int index = hf.indexO
浏览 5
提问于2016-09-07
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark之SparkSQL
年薪50万+的大数据工程师需要具备哪些技能?
我用Rust徒手重写了一个Spark,并把它开源了
遇见YI算法之初识Pyspark(二)
PySaprk之DataFrame
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券