腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如何
使用
scala
创建
包含
随机
内容
的
大型
spark
数据
帧
?
scala
、
apache-spark
、
apache-spark-sql
我需要
创建
与1000+列,10M+行,1000个
随机
数据
的
随机
数据
大火花
数据
帧
。我知道我需要
创建
一个
大型
的
rdd并
使用
spark
.sqlContext.createDataFrame(rdd, schema)在其上应用模式,到目前为止,我已经
使用
val schema = StructType((0 to 1000).map(n => Str
浏览 10
提问于2019-03-05
得票数 3
1
回答
如何
使用
hive外部hive表
创建
空
的
数据
帧
?
scala
、
apache-spark
我正在
使用
下面的
内容
创建
一个
使用
hive外部表
的
dataframe (
spark
scala
)。但
数据
帧
也在其中加载了
数据
。我需要一个
使用
配置单元外部表
的
模式
创建
的
空DF。我
使用
spark
scala
来解决这个问题。 val table1 = sqlContext.table("db
浏览 20
提问于2019-10-16
得票数 1
3
回答
字符串列
包含
通过
spark
scala
进行精确匹配
的
单词
scala
、
apache-spark
、
apache-spark-sql
我有两个
数据
帧
,第一个
数据
帧
包含
实际
数据
(从CSV文件读取),第二个
数据
帧
包含
一个具有多个关键字
的
列。即下面的Dataframe-1外观相似(我们必须搜索
的
地方):
数据
帧
-2:我想要
的
输出:我在这里
使用
spark
scala
。我想要一个与dataframe-
浏览 1
提问于2021-02-12
得票数 0
1
回答
如何
解决pyspark Databricks中
的
GC开销
java
、
apache-spark
、
pyspark
、
garbage-collection
、
azure-databricks
我正尝试在
spark
dataframe中加载一个100 gb
的
json文件,并在其上
创建
一个临时视图。然后我用query查询这个视图中
的
数据
。以下是我
的
集群详细信息:Databricks runtime Version : 6.1(Apache
Spark
2.4.4) Worker Type
spark
.conf.set("
spark
.executor.memory&quo
浏览 0
提问于2020-03-31
得票数 1
2
回答
使用
dataframe
scala
创建
文件名为时间戳
的
csv文件
scala
、
dataframe
、
csv
、
apache-spark
我有一个
数据
帧
,
数据
如下。|1.0 ||football |2.0 |我想将上面的
数据
帧
写入一个csv文件,其中
的
文件名将
使用
当前时间戳
创建
。给出了以下错误有没有更好
的
方式来
使用
浏览 29
提问于2021-03-02
得票数 2
回答已采纳
1
回答
包含
空格
的
列
的
saveAsTable失败
pyspark
、
apache-spark-sql
、
spark-dataframe
、
emr
、
amazon-emr
我有一段pyspark代码,用于将
数据
帧
转换为物理表:如果
数据
帧
df
包含
名称中
包含
空格
的
列$.checkConversionRequirement(ParquetSchemaConverter.
scala
:581) at org.apache.
spark
.sql.executio
浏览 4
提问于2018-03-08
得票数 1
1
回答
如何
在
spark
中
使用
pandas split-apply-combine风格策略和
scala
api?
pandas
、
scala
、
apache-spark
、
split-apply-combine
我有一个
scala
函数,它接受一个
spark
dataframe并返回一个单值,也就是说两个值。这个函数很复杂,
使用
在DataFrame类中定义
的
聚合,调用其他java库,并且不能用SQL表达。它需要整个
数据
帧
的
内容
来进行计算,它不能一次添加一行并建立一个结果。 我有一个大
的
dataframe,其中
包含
一个列,我想用它将dataframe分成小块,并对每个小块执行上述计算。然后,我想返回一个新
的
<e
浏览 28
提问于2020-04-22
得票数 0
1
回答
有没有一个与
Scala
的
Seq.fill()等同
的
高效
的
PySpark/Python?
apache-spark
、
pyspark
、
functional-programming
我正在尝试
使用
PySpark
创建
随机
生成
的
大型
数据
。下面的
Scala
代码基本上就是我想要
的
,但是我找不到一种在PySpark中复制seq.fill()
的
有效方法。def randomStringGen(length: Int) =
scala
.util.Random.alphanumeric.take(length).mkString val df = sparkContext.parallelizerandomS
浏览 0
提问于2021-08-06
得票数 1
2
回答
使用
scala
统计
spark
数据
帧
中列组合
的
实例
scala
、
apache-spark
、
dataframe
我在
scala
中有一个名为df
的
spark
数据
帧
,它有两列,即a和b,a列
包含
字母,b列
包含
数字,如下所示。a b g 0 g 0我可以
使用
以下命令获取不同
的
行它提供了以下
内容
:------
浏览 2
提问于2015-10-28
得票数 9
回答已采纳
1
回答
如何
在
Scala
中将
Spark
DataFrames逐个添加到Seq()中
apache-spark
我
使用
以下命令
创建
了一个空
的
Seq()
scala
> var x = Seq[DataFrame]()<console>:59: error: type mismatch; found : org.apache.
spark
.sql.DataFrame(which ex
浏览 57
提问于2019-07-02
得票数 0
回答已采纳
2
回答
将火花DataFrame分割成两半,没有重叠
的
数据
dataframe
、
apache-spark
我有一个关于38313行数
的
Dataframe,对于一些AB测试用例,我需要将这个DataFrame分成一半并分别存储。出于这个目的,我
使用
的
是org.apache.
spark
.sql.randomSplit,这个函数在一个小
数据
集上似乎很好,但是当您有一个大
的
DataFrame时,它就会引起一些问题。我注意到,每次我把DataFrame分成两半,我就会得到一个重叠
的
结果。//可能底层
的
dataframe不保证每次出现拆分时其
浏览 0
提问于2019-08-29
得票数 1
回答已采纳
3
回答
如何
使用
createDataFrame
创建
pyspark
数据
帧
?
pyspark
我知道这可能是一个愚蠢
的
问题。
浏览 1
提问于2018-03-12
得票数 2
回答已采纳
1
回答
如何
在
Spark
中
创建
一组ngram?
scala
、
apache-spark
我
使用
Scala
从
Spark
2.2 dataframe列中提取Ngrams,因此(本例中为trigram):
如何
创建
包含
所有1到5克
的
输出列?所以它可能是这样
的
: val ngram = new NGram().setN(1:5).setInputCol(&q
浏览 14
提问于2018-01-26
得票数 3
回答已采纳
3
回答
删除
spark
数据
帧
中重复
的
所有记录
scala
、
apache-spark
、
duplicates
、
apache-spark-sql
、
spark-dataframe
我有一个
包含
多个列
的
spark
数据
帧
。我想找出并删除列中有重复值
的
行(其他列可以是不同
的
)。我尝试
使用
dropDuplicates(col_name),但它只删除重复
的
条目,但仍然在
数据
帧
中保留一条记录。我需要
的
是删除所有最初
包含
重复条目的条目。我
使用
的
是
Spark
1.6和
Scala
2.1
浏览 4
提问于2018-04-10
得票数 5
回答已采纳
3
回答
如何
比较SQL语句中两种
数据
的
模式?
scala
、
apache-spark
、
apache-spark-sql
在
spark
(如 )中,有许多方法来验证两个
数据
帧
的
架构。但是我只想在SQL中验证两个
数据
帧
的
模式,我指的是SparkSQL。中没有
数据
库(模式)
的
概念,但是我读到了
包含
模式信息等
的
亚稳态。我们可以在SparkSQL中编写像上面这样
的
SQL查询吗?我只是在检查为什么显示create没有
使用
spark
,是因为它是一个临时表吗?
s
浏览 6
提问于2018-09-04
得票数 1
2
回答
如何
在Apache
Spark
中根据分隔符将单字符串列转换为多列
apache-spark
、
pyspark
、
apache-spark-sql
我有一个
包含
字符串列
的
数据
框,我想在其中
创建
多个列。 我想从它
创建
多个列。字符串
的
格式是相同
的
- col1:value1 col2:value2 col3:value3 ... colN:valueN。在输出中,我需要多个列- col1 to colN,值作为每列
的
行。以下是输出-我
如何
在
spark</
浏览 23
提问于2021-06-02
得票数 0
回答已采纳
3
回答
创建
使用
BigInteger
的
数据
帧
会抛出
scala
.MatchError: java.math.BigInteger类(属于java.lang.Class类)
scala
、
apache-spark
、
apache-spark-sql
Spark
版本: 1.3 at org.apache
浏览 3
提问于2015-11-19
得票数 1
2
回答
通过内部数组
的
索引高效地连接数组
的
数组RDD
scala
、
apache-spark
、
rdd
我正在
使用
Databricks运行一个
使用
Scala
(v2.12)
的
Spark
集群(v3.0.1)。我将
Scala
文件编译为JAR,并
使用
Databricks UI中
的
spark
-submit运行作业。该程序
的
逻辑首先
创建
一个
随机
种子列表,并
使用
下面的代码行将其并行化: val myListRdd = sc.parallelize(myList, partiti
浏览 23
提问于2021-02-12
得票数 1
回答已采纳
1
回答
无法写入和应用groupBy
spark
DataFrame
apache-spark
、
apache-spark-sql
我用下面的代码得到了我
的
spark
数据
帧
scala
> import sqlContext.implicits> val df = data.toDF()
scala
> df.write.parquet("df.parquet") 或
使用
聚合<
浏览 1
提问于2015-10-15
得票数 0
1
回答
如何
使用
SHA-2和
随机
盐加密
spark
sql
数据
帧
列
scala
、
encryption
、
apache-spark-sql
、
salt
、
sha2
我
使用
的
是
Scala
编程语言。我想
使用
SHA-2算法和
随机
盐加密整个列
的
spark
sql
数据
帧
到目前为止,我得到
的
是这个,它工作得很好。
浏览 26
提问于2020-02-21
得票数 0
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
腾讯会议
活动推荐
运营活动
广告
关闭
领券