#spark

Apache Spark是一个开源集群运算框架,Spark使用了存储器内运算技术,能在数据尚未写入硬盘时即在存储器内分析运算。

spark2.2 kerberos环境,beeline为什么配置了principal,还需要用户名?

云服务器上的spark2.1.0单机版怎么配置公网IP服务?

学生路人
推荐已采纳

不能绑定公网ip 的,因为cvm内部是看不到这个公网ip的

broadcast 现在在2.X以后的版本中是否已经弃用了HttpServer方式?

主机优惠教程更新腾讯云服务器使用方法,及更新腾讯云优惠券,腾讯云优惠活动

EMR里面的oozie,是否支持spark2.x的任务,开源版本不支持的?

spark 实现数据转成tfrecord?

找不到python依赖包?

旺仔小小鹿

社区 · 运营 (已认证)

Less is more

哪篇文章呢?建议给作者私信沟通,回复更快捷喔。

请教一下大数据分析过程中关于如何接收数据的问题?

1、首先,你本地集群必须要有公网IP(或DDNS域名也行) 2、在你的HDFS上尝试用docker搭建文件服务,如FTP,SMB等 3、在你的远程服务器链接本地虚拟机文件服务,然后在服务端设置脚本,自动定时复制文件到远程文件服务器。 4、虚拟机访问该文件服务端物理文件,然后做大数...... 展开详请

spark on yarn 中文乱码问题,help?

--conf spark.executor.extraJavaOptions="-Dfile.encoding=UTF-8 -Dsun.jnu.encoding=UTF-8"

CDH通过CM安装,如何实现yum安装与parcels包安装共存?

如何覆盖每个驱动程序的Spark的log4j.properties?

我做不到 -CONF“spark.executor.extraJavaOptions=-Dlog4j.configuration=/tmp/log4j.properties” 或 -CONF“spark.executor.extraJavaOptions=-Dlog4j.con...... 展开详请

使用Spark1.4.0和Tachyan0.6.4的堆外存储时出错如何解决?

红月努力的程序喵

这个问题现在已经解决了。我可以确认这一点,现在可以用Spark1.5和Tachun0.7来确认。

在Spark 1.6.0中调试“检测到管理内存泄漏”?

已采纳
如果你想了解内存泄漏的原因,我就是这么做的。 下载Spark源代码并确保你可以构建它并且你的构建工作。 在TaskMemoryManager.java添加额外的登录acquireExecutionMemory和releaseExecutionMemory:logger.erro...... 展开详请

如何为每个分区具有相同数量的元素的相同大小的分区的Spark RDD定义自定义分区程序?

寒儿互联网产品经理
但提供了一个完整的实现与一个例子人民的复制和粘贴的需要:) import RDDConversions._ trait RDDWrapper[T] { def rdd: RDD[T] } // TODO View bounds are deprecated, shoul...... 展开详请

从案例类生成SparkStructType/Schema

过河不认人前端工程师

我知道这个问题差不多有一年了,但我偶然发现,其他人可能也想知道,我刚刚学会了使用这种方法:

import org.apache.spark.sql.Encoders
val mySchema = Encoders.product[MyCaseClass].schema

如何关闭PySpark中的INFO日志记录?

受我的pyspark / tests.py启发 def quiet_logs( sc ): logger = sc._jvm.org.apache.log4j logger.LogManager.getLogger("org"). setLevel( logger.Le...... 展开详请

如何处理Spark MLlib中的不平衡数据集?

akjok54stay hungry stay foolish
我们可以优化balanceDataset函数以避免使用udf。我还添加了更改正在使用的标签列的功能。这是我结束的功能版本: def balanceDataset(dataset: DataFrame, label: String = "label"): DataFrame = ...... 展开详请

RDD中的分区数量和Spark中的性能

我记得文档建议将您的分区数量设置为群集中CPU内核数量的3倍或4倍,以便可以在可用CPU内核之间更均匀地分配工作。这意味着,如果群集中每个CPU核心只有1个分区,则必须等待完成最长时间运行的任务,但如果您将这一任务分解得更远,那么工作负载将会更平均地与平稳运行的快速和慢速任务平...... 展开详请

如何获取PySpark中可见节点的数量?

BlackKnight写一辈子代码,做一辈子好人

在pyspark上,仍然可以getExecutorMemoryStatus使用pyspark的py4j桥调用scala API:

sc._jsc.sc().getExecutorMemoryStatus().size()

EC2(持久性)HDFS和EMR(瞬态)HDFS如何通信

小川医学生

每当EMR集群启动时,您都必须引导fs.defaultFSfrom core-site.xml来指向持久集群的Namenode,或者您可以hdfs://namenode:port:/ec2-hdfs在代码中明确设置。

如何将pyspark字符串转换为日期格式?

土豆呢Head of Growth
from datetime import datetime from pyspark.sql.functions import col, udf from pyspark.sql.types import DateType # Creation of a dummy da...... 展开详请

扫码关注云+社区

领取腾讯云代金券