腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9700)
视频
沙龙
1
回答
从
文本文件
加载稀疏向量
的
RDD
scala
、
apache-spark
、
apache-spark-mllib
我在
中
工作,拥有以下
RDD
:res10: org.apache.
spark
.
rdd
.
RDD
[(Long, org.apache.
spark
.mllib.linalg.Vector)] = MapPartitionsRDD[162] at repartition at <console>:9docsWithFeat
浏览 1
提问于2015-11-14
得票数 1
回答已采纳
1
回答
是否可以在
scala
中将apache ignite
rdd
转换为
spark
rdd
scala
、
apache-spark
、
rdd
、
spark-dataframe
、
ignite
我对apache ignite和
spark
都是新手。在
scala
中
,有没有人可以通过示例将ignite
rdd
转换为
spark
rdd
?更新-
使用
案例:我将收到hbase表
的
数据
帧..我将执行一些逻辑来构建报告,
将其
保存到ignite
rdd
中
。将为每个表更新相同
的
ignite
rdd
...一旦所有的表都被执行,最终
的
igni
浏览 3
提问于2016-09-26
得票数 0
2
回答
流到
RDD
到DataFrame到CSV
scala
、
apache-spark
、
spark-streaming
我尝试做
的
是,捕获一个流,聚合几秒钟
的
流
数据
,然后
将其
保存为
CSV文件。现在,我想将每个windowLength保存在一个CSV文件
中
,
并
保存在那里: .add(StructField("text",很抱歉,对于获取错误: a
浏览 0
提问于2017-11-12
得票数 0
2
回答
Scala
映射
过滤
方法
scala
、
apache-spark
、
filter
、
rdd
我是
Scala
和
Spark
的
新手。我正在尝试删除
文本文件
中
的
重复行。每行包含三列(向量值),例如:-4.5、-4.2、2.7import org.apache.
spark
.SparkContextimport
scala</e
浏览 0
提问于2017-10-14
得票数 0
1
回答
随着
数据
集和列数
的
增加,
Spark
作业
的
执行时间呈指数级增长
scala
、
apache-spark
、
bigdata
我已经在
spark
中
创建了一个固定宽度
的
文件导入解析器,并在各种
数据
集上执行了一些执行测试。它可以很好地工作到1000列,但随着列数和固定宽度长度
的
增加,
Spark
作业性能会迅速下降。对于20k列和固定宽度长度超过10万
的
列,执行时间很长。我发现
的
类似问题之一:
浏览 1
提问于2018-09-15
得票数 1
1
回答
使用
spark
将
RDD
保存到hbase时,输出目录未设置异常
scala
、
apache-spark
、
hbase
我有一个工作,用
spark
作为
rdd
从hbase
中
检索
数据
,
并
做一个
过滤
器,然后
将其
作为示例
数据
保存回
数据
库,如下所示: def main(args: Array,
并
指定了column FamilyException in thread "main" org.apache.hadoop.ma
浏览 1
提问于2016-09-06
得票数 1
4
回答
使用
Scala
中
的
Dataframes在
Spark
1.30
中
以文本形式保存
sql
、
scala
、
apache-spark
我正在
使用
Spark
1.3.0版本,并在
Scala
中
使用
带有SparkSQL
的
数据
格式。在1.2.0版本
中
,有一个名为"saveAsText“
的
方法。在
使用
dataframes
的
1.3.0版本
中
,只有一个“保存”方法。默认输出是拼板。val sq
浏览 3
提问于2015-03-27
得票数 6
1
回答
将
Spark
RDD
作为
文本文件
写入S3存储桶
scala
、
apache-spark
、
rdd
、
spark-dataframe
、
databricks
我正在尝试将
Spark
RDD
保存为
gzipped
文本文件
(或多个
文本文件
)到S3存储桶
中
。S3存储桶挂载到dbfs。我正在尝试
使用
以下命令保存该文件:但是当我尝试这样做
的
时候,我一直收到错误: org.apache.
spark
.SparkException按照
的
浏览 8
提问于2016-09-05
得票数 0
回答已采纳
2
回答
不可序列化
的
任务-Java1.8和
Spark
2.1.1
java
、
apache-spark
我对Java 8和
Spark
2.1.1有问题at org.apache.
spark
.
rdd
.
RDD
$$anonfun$filte
浏览 0
提问于2018-08-18
得票数 2
回答已采纳
2
回答
收集具有列值列表
的
多个
RDD
-星点
scala
、
apache-spark
、
apache-spark-sql
我有一个
RDD
和一个值列表。如何根据值列表对它们进行筛选,并将它们作为单独
的
RDD
收集?例如:如何传递一个值列表来收集列表中所有筛选
的
RDD
?
浏览 0
提问于2019-09-05
得票数 0
回答已采纳
1
回答
在google云实例上运行
Spark
时出错
out-of-memory
、
apache-spark
、
rdd
、
google-hadoop
我正在
使用
Apache
Spark
运行一个独立
的
应用程序,当我将所有
数据
作为
文本文件
加载到
RDD
时,我得到了以下错误: at org.apache.
spark
.
rdd
.
RDD
.iterator(
RDD
.
scala</em
浏览 10
提问于2015-02-28
得票数 0
1
回答
将机器学习模型保存/覆盖为单个文件
python
、
apache-spark
、
machine-learning
、
pyspark
我有
使用
LinearRegression
的
机器学习模型。我有5 vm
的
星系团。在对模型进行培训之后,我想保存模型,以便以后只需
将其
加载到内存
中
即可
使用
。有没有一种方法可以将模型
保存为
像model.pkl这样
的
单个文件?此外,当我
使用
新
的
可用
数据
对模型进行重新培训时,我
使用
model.write().overwrite().save("/tmp/mode
浏览 4
提问于2017-10-03
得票数 2
1
回答
在快活
的
工作
中
随机获得java.lang.ClassCastException
apache-spark-sql
、
snappydata
Class1是存储在
RDD
中
的
自定义类。有趣
的
是,这个错误是在强制转换同一个类时抛出
的
。到目前为止,还没有发现任何模式。在工作
中
,我们从hbase获取
数据
,
使用
Dataframe
使用
分析元
数据
丰富
数据
,并
将其
推送到SnappyData
中
的
表
中
。我们
使用
的
是Snappydata 1.2.0.1。
浏览 14
提问于2019-01-18
得票数 0
回答已采纳
2
回答
在群集模式下读取
文本文件
时出现异常。
apache-spark
、
cluster-computing
、
rdd
我
使用
spark
读取一个
文本文件
,并
将其
保存在JavaRDD
中
,
并
试图打印保存在
RDD
中
的
数据
。我正在一个集群
中
运行我
的
代码,其中有一个主程序和两个slaves.But,例如,容器在遍历
RDD
时超过了阈值。代码在独立模式下运行得很好。阶段0.0
中
的
错误TaskSetManager任务0失败4次;在线程"main“org
浏览 0
提问于2018-08-21
得票数 2
1
回答
火花。~1亿行。大小是否超过Integer.MAX_VALUE?
apache-spark
(这是在一个三台机器
的
小型Amazon EMR集群上运行
的
Spark
2.0 ) 我有一个PySpark作业,它将一些大
的
文本文件
加载到
Spark
RDD
中
,count()成功返回158,598,155然后,该作业将每一行解析为一个pyspark.sql.Row实例,构建一个DataFrame,
并
执行另一次计数。DataFrame上
的
第二个count()在
Spark
内部代码Size exceeds
浏览 0
提问于2016-08-16
得票数 3
1
回答
Spark
未能
使用
MatrixFactorizationModel加载模型
java
、
apache-spark
、
apache-spark-mllib
我正在尝试
使用
星火协同
过滤
实现推荐系统。首先,我准备模型
并
保存到磁盘:model.save(jsc.sc(), "/op/tc/model/");代码: private static Opti
浏览 1
提问于2016-08-17
得票数 1
回答已采纳
1
回答
星星之火MLLIB TFIDF文本聚类Python
python
、
apache-spark
、
apache-spark-mllib
、
tf-idf
我是
Spark
的
新手,我试图
使用
Python
中
的
Spark
将新闻文章作为集群进行集群。新闻文章已经被抓取并存储在本地文件夹/input/
中
。它包含大约100个小
文本文件
。(conf=sconf)txtdata=sc.wholeTextFiles(director
浏览 3
提问于2015-02-19
得票数 0
回答已采纳
1
回答
数据
帧
的
scala
joinWithCassandraTable结果
apache-spark
、
cassandra
、
spark-cassandra-connector
我正在
使用
Datastax
spark
- Cassandra -connector来访问Cassandra
中
的
一些
数据
。我
的
需求是将
RDD
与Cassandra表连接起来,获取结果并
将其
存储在hive表
中
。 我正在
使用
joinWithCassandraTable加入cassadra表。加入后,生成
的
RDD
如下所示 com.datastax.
spark
.connect
浏览 20
提问于2020-07-17
得票数 0
2
回答
如
何在
Scala
的
Apache中将读取
文本文件
目录
的
RDD
转换为dataFrame?
feature-extraction
、
tf-idf
我正在开发一个
Scala
功能提取应用程序
使用
Apache以色列国防军。我需要从
文本文件
目录
中
读取。我正在尝试将一个
RDD
转换成一个dataframe,但我得到
的
错误是“toDF()值不是org.apache.
spark
.
rdd
.RDDstreamedRDD
的
成员”。这就是我现在
的
情况..。我有火花-2.2.1和
Scala
2.1.11。提前谢谢。val idf = new IDF().setInpu
浏览 0
提问于2018-03-13
得票数 1
回答已采纳
1
回答
从ES
中
获取
数据
并
保存到HDFS作为Avro (火花)
scala
、
apache-spark
、
rdd
我对
Spark
和
Scala
还不熟悉,所以我有一个非常基本
的
问题。我有
Spark
1.5.2和
Scala
2.10.4。我创建了一个配置,允许我在
使用
spark
-shell命令启动--config时直接从ES
中
以JSON
的
形式获取一些
数据
;我还导入了elasticsearch-hadoop
的
--jar。就会得到以下结果: res9: Class[_ <: org.apache.
spark</
浏览 3
提问于2017-05-11
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
机器学习实践:如何将Spark与Python结合?
了解Spark Streaming
一文读懂Apache Spark
Spark1.6官方文档译文系列一
什么是 Apache Spark?大数据分析平台详解
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券