腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
我
可以
使用
Spark
进行
自定义
计算
吗
?
apache-spark
、
pyspark
、
databricks
我
有一些(200左右)大的zip文件(有些大于1 1GB),它们应该被解压并
使用
Python地理和图像处理库
进行
处理。如果
我
想利用
Spark
集群的处理能力,一般的方法是什么?
我
正在考虑将文件名添加到DataFrame中,并
使用
用户定义的函数通过Select或类似的方法来处理它们。
我
相信我应该能够让它在集群上并行运行,在集群中,工作人员将只获得文件名,然后在本地加载文件。 这是合理的
吗
,还是
我
应该走一些完全不同的方向?
浏览 16
提问于2020-09-30
得票数 1
回答已采纳
1
回答
火花
可以
用于实时交互应用
吗
?
apache-spark
、
analytics
我们有一个系统,它包含一个用于
计算
报表的数据管道,还有一个UI层,它
可以
进行
特殊的查询,并在查询后对数据集
进行
一些特定的
计算
。
我
正在考虑将现有的批处理数据处理层迁移到
Spark
,但我不太确定UI应用程序层。 棘手的部分是,来自UI的请求还需要将某些函数应用于数据集。
我
还没有找到任何查询引擎,比如Elasticsearch,它
可以
从查询结果中应用
自定义
函数。因此,
我
想知道,假设源数据已经缓存在
浏览 1
提问于2020-09-09
得票数 3
1
回答
跨集群分布分区
apache-spark
、
hadoop
、
pyspark
、
bigdata
、
cluster-computing
在apache
spark
中,允许从许多不同的源加载数据集。根据我的理解,
spark
集群的
计算
节点
可以
不同于hadoop用来存储数据的节点(对
吗
?)更重要的是,我们甚至
可以
加载本地文件到
spark
作业中。主要问题来了:即使我们在hdfs和
spark
上
使用
相同的
计算
机,在创建RDD的过程中,
spark
是否总是会对所有数据
进行
混洗?或者
spark
只是试图以一种方式加载
浏览 0
提问于2018-05-08
得票数 0
2
回答
将每个
spark
数据帧元素与相同数据帧的所有其余元素
进行
比较
apache-spark
、
pyspark
、
apache-spark-sql
、
pyspark-dataframes
我
正在寻找一种有效的方法,将一些映射函数应用于数据帧中的每一对元素。例如: records =
spark
.createDataFrame( ['id', 'val'])| id|val|| 1| a|| 3| c| | 4| d
浏览 6
提问于2020-11-20
得票数 0
2
回答
使用
Spark
时DataFrame列的
自定义
数据类型
apache-spark
、
jdbc
我
知道
我
可以
使用
自定义
方言在db和
spark
之间
进行
正确的映射,但是当我
使用
spark
的jdbc.write选项时,如何创建具有特定字段数据类型和长度的
自定义
表模式?当我从
spark
加载一个表时,
我
想要对
我
的表模式
进行
粒度控制。
浏览 1
提问于2017-12-04
得票数 4
回答已采纳
1
回答
从Mesos集群收集日志
logging
、
apache-spark
、
flume
、
mesos
我
的团队正在亚马逊EC2实例上部署一个新的集群。经过一些研究,我们决定
使用
Apache Mesos作为集群管理器,
使用
Spark
进行
计算
。到目前为止,我们开发了一些
自定义
的bash/python脚本,它们从预定义的位置收集日志,将它们压缩并将压缩后的文件发送到S3。这种轮换由cron作业激活,该作业每小时运行一次。
我
一直在寻找“最好的”(或标准的)方法来做到这一点。
我
找到了,它也是一个日志数据收集器,但我不明白如何将它集成到
浏览 0
提问于2015-06-26
得票数 1
0
回答
为什么
Spark
(在Google Dataproc上)不
使用
所有vcore?
apache-spark
、
pyspark
、
hadoop-yarn
、
google-cloud-dataproc
我
在谷歌DataProc集群上运行
spark
作业。但是看起来
Spark
并没有
使用
集群中所有可用的vcores,如下所示基于其他一些问题,如和,
我
已经将集群设置为
使用
DominantResourceCalculator来同时考虑vcpus和内存来
进行
资源分配yarn.scheduler.capacity.resource-calculator=org.apache.hadoop.yarn.util.resource.DominantResourceCalcul
浏览 0
提问于2017-06-14
得票数 8
回答已采纳
1
回答
如何覆盖Kmeans算法的距离评估方法
scala
、
apache-spark
、
k-means
我
有覆盖Kmeans的
spark
框架的距离评估算法的要求。
我
不想实现欧几里得距离
计算
方法,但想
自定义
it.How,
我
可以
覆盖它
吗
?
浏览 0
提问于2016-02-16
得票数 0
1
回答
用于大型csv文件的sparklyr
r
、
apache-spark
、
sparklyr
我
正在尝试
使用
sparklyr加载一个包含一百万行和1000列的数据集。
我
在工作中的一个非常大的集群上运行
Spark
。尽管如此,数据的规模似乎太大了。
我
尝试了两种不同的方法:1) -将路径放入hdfs -
spark
_read_csv(
spark
_context,.csv ) 2) -将csv文件作为常规R dataframe读取-
spark
_frame<-copy_to(sc,R-dat
浏览 2
提问于2017-05-30
得票数 0
1
回答
在星火中
使用
Scala脚本
scala
、
apache-spark
、
pyspark
我们计划
使用
Scala在
Spark
上
进行
计算
。只想知道在
Spark
中执行Scala as Script (或) Scala as Application的最佳方法是什么。这两个方法之间有advantage/disadvantage
吗
? 正如前面提到的,
可以
执行Scala as Script。
我
试图跳过
使用
sbt的编译过程,这样
我
就
可以
像
使用
Python一样
使用</
浏览 2
提问于2016-05-03
得票数 0
1
回答
如何从pyspark连接到hbase
python
、
apache-spark
、
hbase
、
pyspark
我
在azure中有两个集群,一个用于
spark
2.0,另一个用于hbase。
我
可以
完美地填充和
使用
hbase,现在
我
想将
spark
连接到hbase并
进行
一些
计算
。
我
想
使用
python,因为
我
不知道scala。
我
的第一个问题是:做这件事的最好方法是什么?
spark
-> hive -> hbase还是
spark
直接
浏览 0
提问于2016-11-10
得票数 0
2
回答
如何调用从
Spark
作业调用的web服务?
apache-spark
、
apache-spark-sql
、
spark-structured-streaming
我
想调用一个web服务来获取
Spark
Structured Streaming中的一些数据。有可能
吗
?多么?
浏览 0
提问于2019-12-07
得票数 5
1
回答
Spark
程序性能- GC &任务反序列化和并发执行
scala
、
apache-spark
、
garbage-collection
、
apache-spark-sql
、
concurrent-programming
我
有一个由4台机器组成的集群,1台主机和3名工作人员,每台都有128 G内存和64核。
我
使用
Spark
1.5.0作为独立模式。
我
的程序
使用
JDBC从Oracle表中读取数据,然后执行ETL、操作数据以及像k-方法这样的机器学习任务。然而,每次
计算
的实际时间约为7秒,这是不可接受的。从UI中,它显示GC时间为5秒,任务反序列化时间为4秒。
我
尝试过不同的JVM参数,但无法进一步改进。
我
不得不为h1-24做并行
计算
,而不是
浏览 1
提问于2015-11-14
得票数 4
回答已采纳
2
回答
Spark
和RDD分区
apache-spark
、
pyspark
、
apache-spark-sql
、
spark-streaming
与
spark
一样,我们
可以
直接从HDFS加载数据,RDD的分区数量将等于文件的分区数量。HDFS以保存重复的文件块而闻名,因此问题是
spark
如何处理这一问题,以及RDD分区是如何治理的。如果
我
问错了,请纠正
我
。
浏览 0
提问于2016-01-11
得票数 0
3
回答
Spark
TF-IDF从散列中取回单词
java
、
hash
、
apache-spark
、
tf-idf
我
遵循
Spark
文档中的来
计算
一系列文档的TF-IDF。
Spark
使用
散列技巧
进行
此
计算
,因此在最后你会得到一个包含散列单词和相应权重的Vector,但是...
我
怎样才能从散列中取回单词?
我
真的需要对所有的单词
进行
散列,并将它们保存在映射中,以便稍后迭代查找关键字
吗
?有没有更有效的方式内置
Spark
? 提前感谢
浏览 0
提问于2014-11-10
得票数 5
3
回答
如何定义DataFrame的分区?
scala
、
apache-spark
、
dataframe
、
apache-spark-sql
、
partitioning
我
在
Spark
1.4.0中开始
使用
Spark
SQL和DataFrames。
我
想用Scala在DataFrames上定义一个
自定义
的分区程序,但是不知道怎么做。
我
正在
使用
的一个数据表包含一个按帐户划分的事务列表,类似于下面的示例。因此,
我
希望对数据
进行
分区,以便帐户的所有事务都在相同的
Spark
分区中。 但我看不出有什么办法来定义它。但是
我
没有看到任何可用于为DataFrame定
浏览 260
提问于2015-06-23
得票数 141
回答已采纳
1
回答
在
Spark
2.2之前,是否有任何
使用
的表统计信息?
apache-spark
、
hive
Spark
2.2引入了基于成本的优化(CBO,),它利用了表统计信息(由ANALYZE TABLE COMPUTE STATISTICS....
计算
)更新:
浏览 3
提问于2017-10-26
得票数 7
1
回答
如何在
spark
streaming中更改已完成的批量计数?
apache-spark
、
spark-streaming
我
在
我
的一个应用程序中
使用
了
spark
streaming。正在尝试更改应用程序的已完成批次计数,但到目前为止未成功。默认情况下,已完成的批次计数为1000。这个值
可以
根据
spark
应用程序
进行
自定义
吗
?谢谢!
浏览 1
提问于2018-02-15
得票数 0
1
回答
Rdd持久性如何支持容错
apache-spark
、
pyspark
我
想了解
spark
的rdd持久性是如何帮助容错的。 假设
我
的集群中有3个节点,即N1、N2、N3。
我
以Rdd1->Rdd2->Rdd3的形式执行
spark
任务(转换映射)。现在,在第二次调用Rdd3.count()时,N3宕机了,在这种情况下,
Spark
如何
计算
Rdd3计数?根据文档:“
Spark
的缓存是容错的--如果RDD的任何分区丢失,它将
使用
最初创建它的转换自动重新
计算
。”即使
spark</
浏览 0
提问于2018-01-31
得票数 1
1
回答
如何将流查询结果保存为PDF / XLSX (用于生成报表)?
apache-spark
、
apache-spark-sql
、
spark-structured-streaming
想知道我们是否
可以
生成PDF或XLSX文件,以便
使用
火花流/火花结构化流来报告。根据正式文档,有文件库,但支持PDF和XLSX
吗
?如果是这样的话,我们
可以
利用它作为报告代
吗
?
浏览 5
提问于2019-12-19
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
可以使用 TensorFlow 代替 OpenCV 进行计算机视觉研究吗?
妈妈,我可以学计算机吗?
Flink与storm的主要区别译文
Spark踩坑记:Spark Streaming+kafka应用及调优
我用Rust徒手重写了一个Spark,并把它开源了
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券