腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
Java
中
创建
具有
单列
递
增值
的
Spark
数据
集
java
、
apache-spark
、
java-8
、
apache-spark-dataset
Java
和
Spark
新手在这里寻找一些帮助: 有没有一种方法可以
创建
一个
数据
集
,其中包含从1到n递增
的
值
的
单个列?Dataset<Row> ds = ss.createDataSet("column-name", 1, 1000); 上面有点粗糙,因为没有createDataSet这样
的
方法,但我正在寻找可以懒惰地
创建
ds内容
的
东西。
浏览 12
提问于2020-10-14
得票数 1
1
回答
动态构建
Spark
filter查询
apache-spark
、
apache-spark-dataset
我
在
一个映射中有多个条目(列名,值)。现在我想过滤一个有列名
的
数据
集
,这个列名是作为键
的
映射,这个值定义了
数据
集
的
特定列名应该
具有
的值。例如,
数据
集
具有
列(a,b,c),而map
具有
条目{(a,1),(b,2)}使用
java
<e
浏览 1
提问于2017-03-27
得票数 0
1
回答
如何在
Java
中
创建
对象集合
Spark
Dataset?
java
、
apache-spark
、
data-structures
、
apache-spark-dataset
我
在
研究前几个月
的
spark
。其中Dataset用作对象
的
分布式集合。 我担心
的
不是它是如何分布
的
,而是一个基本
的
数据
结构。如果我
创建
了自己
的
数据
集
,我很想知道它是如何放在
java
中
的
。这就是
创建
Dataset<Row>工作方式 List<Row> rows = new ArrayLis
浏览 48
提问于2020-06-10
得票数 1
3
回答
通过
在
两列之间添加空列来使用现有
数据
集
创建
新
数据
集
java
、
apache-spark
、
apache-spark-sql
我通过读取csv文件
在
Spark
中使用
Java
创建
了一个
数据
集
。以下是我
的
初始
数据
集
:|_c0| _c1| _c2|_c3|| 1|9090999999dataframe (一个列
具有
空值):|_c0| _c1| _c2| +---+----
浏览 3
提问于2019-01-04
得票数 1
回答已采纳
1
回答
Spark
java
:
创建
具有
给定模式
的
新
数据
集
java
、
scala
、
apache-spark
、
apache-spark-dataset
我有一段
在
scala
中
运行良好
的
代码: StructField("field1", StringType, true),// some options .load(myEndpoint)final StructType schema = new StructType(new StructF
浏览 3
提问于2018-08-01
得票数 8
回答已采纳
2
回答
使用scala
在
Apache
spark
中
连接不同RDDs
的
数据
集
scala
、
apache-spark
、
apache-spark-sql
、
distributed-computing
、
rdd
有没有办法
在
spark
中
连接两个不同RDD
的
数据
集
? 需求是-我使用scala
创建
了两个
具有
相同列名
的
中间RDDs,需要组合这两个RDDs
的
结果并缓存结果以访问UI。我如何在这里组合
数据
集
?RDDs
的
类型为
spark
.sql.SchemaRDD
浏览 2
提问于2014-12-10
得票数 35
回答已采纳
1
回答
相似
数据
集
上
的
联合操作
apache-spark
我想对
具有
相同结构(相同名称和列类型)
的
小型
数据
集
执行联合操作,以获得一个大型
数据
集
。如何在
JAVA
/
SPARK
中
做到这一点?PS :我尝试过使用union(),但是这个方法只接受一个
数据
集
,而不接受我想要
的
数据
集
联合列表。谢谢
浏览 9
提问于2021-04-17
得票数 1
回答已采纳
1
回答
星星之火-卡桑德拉连接器:如何更改集合写入行为
apache-spark
、
cassandra
、
spark-cassandra-connector
在
Java
中
,我有一个带有
java
.util.ArrayList<Short>类型列
的
Spark
(
Spark
结构化流),我希望将
数据
集
写入一个
具有
相应list<smallint>
的
Cassandra表
中
/code>
中
的
列表
的
内容
中
。我
在
spar
浏览 5
提问于2019-09-26
得票数 0
2
回答
如何将带有小数
的
spark
DataFrame转换为
具有
相同精度
的
BigDecimal
的
数据
集
?
scala
、
apache-spark
、
apache-spark-sql
、
apache-spark-dataset
如何
创建
具有
给定精度
的
BigDecimal
的
spark
数据
集
?请参见
spark
shell
中
的
以下示例。您将看到,我可以
创建
具有
所需BigDecimal精度
的
DataFrame,但无法将其转换为Dataset。类
创建
数据
集
。BigDecimal("123456789011223344556677889
浏览 73
提问于2019-11-14
得票数 2
回答已采纳
1
回答
OData元
数据
中
的
简单类型列表
types
、
odata
如何将
具有
简
单列
表(EDM)类型属性
的
对象呈现在odata元
数据
中
?例如,
具有
基数为2..10
的
字符串列表
的
对象?当我尝试
创建
一个导航属性,关联和关联集时,它需要一个简单类型
的
实体
集
,这是不正确
的
… 谢谢,
浏览 1
提问于2012-03-11
得票数 0
1
回答
Python
中
可用
的
Spark
数据
集
?
apache-spark
、
pyspark
,声明如下: python中有
数据
集
吗?
浏览 6
提问于2022-09-24
得票数 0
回答已采纳
1
回答
为什么需要编码器来
创建
spark
中
的
数据
集
scala
、
apache-spark
我想以拼花
的
形式写输出文件。为此,我将RDD转换为dataset,因为从RDD,我们不能直接获得拼花表单。而对于
创建
数据
集
,我们需要使用隐式编码器,否则,它就会产生编译时错误。我只在这方面有几个问题。以下是我
的
代码: val ds: Dataset: 为什么
在
创建
数据
集<
浏览 3
提问于2018-12-27
得票数 4
回答已采纳
2
回答
星火
数据
集
在
DataFrame上
的
缺点
apache-spark
我知道Dataset (类型安全等)
的
优点,但我找不到任何与火花
数据
集
限制相关
的
文档。 是否有任何特定
的
场景,其中火花Dataset是不推荐
的
和更好地使用DataFrame。目前,我们所有的
数据
工程流程都在使用
Spark
DataFrame。对于我们所有的新流程,我们都想利用Dataset。因此,了解Dataset
的
所有局限性/缺点将对我们有所帮助。编辑:--这与不一样,它解释了
在
Dataset上
的
浏览 4
提问于2019-03-20
得票数 17
1
回答
Spark
dataset获取与整型列标题相同
的
数据
java
、
scala
、
apache-spark
、
hive
我正在尝试通过
java
中
的
spark
读取hive表,通过
创建
spark
数据
集
。对于所有
具有
字符串标题
的
列,都可以正确读取
数据
,但是对于整数标题,
spark
会获取与标题相同
的
列
数据
。该表是
在
拼图文件上
创建
的
外部表。
spark
数据
集
时,
浏览 19
提问于2019-11-15
得票数 0
3
回答
星星之火:
数据
集
序列化
scala
、
apache-spark
、
serialization
、
apache-spark-dataset
如果我有一个
数据
集
,其中
的
每个记录都是一个case类,那么我将该
数据
集
持久化如下所示,以便使用序列化:
Spark
是否使用
java
/kyro序列化来序列化
数据
集
?或者就像dataframe一样,
Spark
有自己
的
方式将
数据
存储在
数据
集中?
浏览 4
提问于2017-12-26
得票数 5
2
回答
互操作性:
Java
和Scala之间共享对象或Row
的
数据
集
,有两种方式。我把Scala
数据
集
操作放在
Java
数据
集
的
中间
java
、
scala
、
apache-spark
、
scala-java-interop
目前,我
的
主要应用程序是用构建
的
,这不会改变,因为它很方便。 Scala使用Enterprise和Establishment对象
创建
一个新
的
数据<
浏览 7
提问于2020-09-22
得票数 3
回答已采纳
1
回答
从循环中
的
Spark
数据
集中读取行
数据
java
、
apache-spark
、
apache-spark-sql
、
apache-spark-dataset
我想用
Java
在
循环中读取
spark
数据
集
行,并且我必须在其中读取其他
数据
集
。假设ds是
数据
集
,如果如下所示
的
写入循环,我可以读取其他
数据
集
ds.toJavaRDD().collect().forEach() 但我删除了collect()和JavaRDD()并直接应用 ds.foreach() 那么我就不能读取其他
数据
集
。
浏览 48
提问于2021-08-26
得票数 1
1
回答
Cassandra
Spark
慢写
python
、
performance
、
apache-spark
、
cassandra
、
spark-dataframe
我正在使用
Spark
Cassandra连接器和python
中
的
数据
帧制作一个小
的
Spark
应用程序,但我
的
写入速度非常慢。我正在从Cassandra读取一些
数据
到一个表
中
,然后对它们进行一些操作(这也会使集合变得更大)。, score int, PRIMARY KEY((movieId1, movieId2))); 我
的
设置如下:我有5个
Spark
worker
在
Docker容器
浏览 1
提问于2017-03-29
得票数 4
1
回答
在
Java
中
从
spark
数据
集
创建
密集矩阵
matrix
、
apache-spark
、
pca
我需要一些关于如何从
数据
集
创建
密集矩阵
的
指导。假设我
的
数据
集
是一个csv文件,其中
的
数据
分别为row-1: 1.1,1.0,1.2和row-2: 1.4,1.1,1.3如何将
数据
集
转换为可以应用矩阵运算
的
matrix..so。
Java
/
Spark
谢谢!
浏览 1
提问于2017-01-09
得票数 0
3
回答
从pyspark DataFrame
创建
Cassandra表
apache-spark
、
cassandra
、
pyspark
、
cassandra-3.0
、
spark-cassandra-connector
我正在使用带有Cassandra 3.11
的
Apache
Spark
2.2.1和来自python/pyspark
的
Datastax
spark
-cassandra-connector。我想从
数据
集结构
创建
Cassandra表。因此,我
在
Java
的
DataSetFunction包中找到了一个函数createCassandraTable,但我找不到与pyspark包
的
对应关系。
在
Ja
浏览 6
提问于2018-01-23
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
教程:Apache Spark SQL入门及实践指南!
Spark机器学习入门实例:大数据集二分类
机器学习实践:如何将Spark与Python结合?
Spark1.6官方文档译文系列一
大数据之spark基础知识
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券