腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
0
回答
如何
使用
Spark
向
记录
添加
新
内容
、
我有一个文本文件,其中包含以下几条
记录
: bbbbb我想
添加
一个字符串(例如" record :")放在每条
记录
的前面,所以每条
记录
都像这样: record:ccccc val aRdd = sc.textFile("/tmp/myFile")
如何
使用
Spark
将字符串<
浏览 2
提问于2017-01-01
得票数 0
回答已采纳
1
回答
GraphX Pregel接口:
添加
顶点和边
、
我
使用
的是
Spark
和GraphX 2.0.2。我读到我们可以在vertex程序中
向
图中
添加
顶点和边(计算()方法)。我想知道
如何
使用
vprog
添加
新
的边和顶点谢谢
浏览 4
提问于2017-03-23
得票数 1
1
回答
向
RDD
添加
新
成员
、
我正在做一个研究项目,我正在修改
Spark
的某些方面,以满足我的最终目标。 我正在尝试
向
RDD.scala类
添加
新
的成员变量,然后在从工作节点(执行器)访问rdd时访问这些变量。在 answer中,其中一位
spark
贡献者提到,在executors中只能调用RDD的某些方法。所以,我想知道
如何
向
RDD.scala
添加
新
的成员字段,以便可以在executor中访问它?
浏览 1
提问于2015-04-27
得票数 2
2
回答
如何
向
调用日志(呼叫历史)数据库
添加
新字段和
记录
?
我正在尝试制作一个VoIP应用程序,我想知道是否可以
使用
调用日志
内容
提供者执行以下操作-如果有人能给我举个例子,那就太好了。
浏览 3
提问于2010-04-29
得票数 7
回答已采纳
2
回答
在星火库上列出特定单元表的所有分区,并
添加
一个分区
、
我
使用
的火花2.0,我想知道,它有可能列出所有的文件为特定的蜂巢表?如果是这样的话,我可以直接
使用
spark
sc.textFile("file.orc")增量地更新这些文件。
如何
向
hive表中
添加
新
的分区?有什么api的蜂巢亚稳态,我可以
使用
火花? 有没有办法获得映射dataframe row => partition_path的内部单元函数?现在我发现的唯一方法是FULL OUTER JOIN SQL +SaveMode.
浏览 2
提问于2016-10-26
得票数 6
回答已采纳
3
回答
向
现有数据库
添加
Envers
、
在这个应用程序中,我需要向两个实体(两个表)
添加
审计,我决定
使用
Envers。 对于每次INSERT、UPDATE或DELETE,Envers都会
向
实体的审计表中
添加
一条
新
记录
。Envers文档非常简单,并且没有提到任何关于
向
现有应用程序
添加
Envers的
内容
。如果我简单地
添加
Envers支持并创建相应的审计表,它们将从空开始,因此当我更新现有实体时,Envers将
向
审计表中
添加
<
浏览 0
提问于2013-03-21
得票数 8
1
回答
如何
处理
spark
scala中withcolumn和continue剩余
记录
异常
、
、
我正在尝试
使用
scala中的withColumn
向
spark
数据帧中
添加
一列,我正在尝试用try-catch编写这段代码,这样我就可以捕获异常并
记录
这些错误
记录
,然后继续剩余的
记录
。在
spark
-scala中有没有一种方法来处理withColumn中发生的异常? 请提个建议。
浏览 2
提问于2020-03-04
得票数 0
1
回答
apache
spark
独立变更执行器用户名
、
、
、
我在Ubuntu下以独立模式
使用
Apache
Spark
spark
worker是在一个用户下启动的,该用户拥有我尝试保存到的文件夹的权限。创建了一个文件夹,然后它就不能在其中创建任何
新
内容
。我该
如何
解决这个问题呢?
浏览 17
提问于2017-08-06
得票数 0
回答已采纳
1
回答
如何
在同一
spark
上下文中运行多个按需作业
、
我想在相同的
spark
上下文中按需运行不同的作业,但我不知道
如何
才能做到这一点。我在Amazon EMR上运行代码,
使用
yarn作为资源管理器。=true \
浏览 2
提问于2017-02-06
得票数 1
4
回答
对象流不是包org.apache.
spark
的成员。
、
我正在尝试编译一个简单的scala程序,我正在
使用
StreamingContext,下面是我的代码片段:import org.apache.
spark
.SparkContextimport org.apache.
spark
.scheduler.SparkListener import org.apache.
spark
.scheduler.SparkListenerStageCompletedimport org.apache.
s
浏览 11
提问于2016-04-05
得票数 5
回答已采纳
2
回答
Spark
-shell -i路径/to/文件名替代
、
我们有:要运行scala脚本,是否可以
向
spark
-defaults.conf文件
添加
类似这样的
内容
,以便它始终在
spark
-shell启动时加载scala脚本,从而不必将其
添加
到命令行。我想用它来存储我经常
使用
的import _,凭证和用户定义的函数,这样我就不必在每次启动
spark
-shell时都输入命令。 谢谢,沙恩
浏览 15
提问于2019-10-29
得票数 0
回答已采纳
2
回答
如果RDD变得更大,
Spark
将
如何
反应?
我们有运行在Apache
Spark
中的代码。对代码进行详细检查后,我确定我们的映射器之一正在修改RDD中的对象,而不是为输出创建该对象的副本。也就是说,我们有一个字典的RDD,而map函数将
向
字典中
添加
内容
,而不是返回
新
的字典。 RDDs应该是不可变的。我们的基因正在发生变异。 我们也有内存错误。问:如果RDD的大小突然增加,
Spark
会不会感到困惑?
浏览 14
提问于2019-03-11
得票数 2
2
回答
如何
在
使用
spark
-submit时查看更多的实时日志?
、
、
、
我正在
使用
带有配置文件和包选项的'
spark
-submit‘,它运行起来花费了很长时间。
如何
‘打开’更多的日志
记录
(实时),这样就可以看到瓶颈在哪里(例如,可能正在向我没有访问权限的特定服务器发出请求,等等)。理想情况下,我希望查看所有
内容
-从哪个库加载到哪个请求,以及
向
哪个服务器发出请求。 谢谢。
浏览 6
提问于2018-04-19
得票数 1
1
回答
当您每天收到包含所有数据(新旧)的XML或CSV文件时,
如何
只处理
新
数据
、
、
、
、
例如,如果Yesterday.xml包含3条
记录
,则Today.xml包含4条
记录
(3条旧
记录
和1条
新
记录
)。 我只关心最后一行(
新
行),因为我只想处理
新
数据,旧数据每天都在处理。
使用
火花和卡夫卡实现这一目标的最佳方法是什么?我需要将
新
的(和更新的)数据写入数据库(作为接收器)。的目的是
向
同一专业的人推荐
新
的
记录
。,在那里可以重新
使用
并查看它。如果除了处理XML之
浏览 1
提问于2020-05-11
得票数 0
2
回答
在迭代星火数据集
记录
时
添加
多个列
)ds.printSchema() root 我需要迭代ds中的所有
记录
,对于每个
记录</em
浏览 3
提问于2017-07-27
得票数 0
回答已采纳
1
回答
Vora
Spark
shell语法
、
在Scala
Spark
语法上,用于Vora的
Spark
shell中是否存在编程上的差异。我需要确保我可以
使用
广泛可用的
Spark
示例。谢谢。
浏览 0
提问于2015-11-17
得票数 0
3
回答
如何
在apache
spark
中执行词干分析?
、
、
、
我正在做一个简单的项目,在apache
spark
中
使用
K-Means聚类,我做了一些预处理步骤,如标记化,停止单词删除,和hashingTF。这些是由
spark
own Tokenization()、StopWordRemover()和HasingTF()执行的。但我想在应用k均值聚类之前执行词干分析。但我不知道
如何
在
spark
DataFrame中实现它。有人能教我怎么做吗?
浏览 2
提问于2017-05-08
得票数 1
2
回答
在
Spark
中对可变集合建模
、
如果不是,则根据消息中的数据将
新
实体
添加
到缓存中。(同时,
新
实体被持久化到数据库中)。我的第一个想法是从数据库加载到
Spark
RDD中。查找现有条目显然很简单。但是,因为RDD是不可变的,所以
向
缓存
添加
新
条目需要进行转换。然而,既然
Spark
与RDD一起工作,那么我们
如何
浏览 2
提问于2016-01-25
得票数 2
1
回答
如何
在
Spark
Java中将带有值的列
添加
到
新
数据集中?
、
、
、
、
因此,我从java
Spark
API创建了一些数据集。这些数据集是
使用
spark
.sql()方法从hive表填充的。 因此,在执行了一些sql操作(比如joins)之后,我就有了一个最终的数据集。我想要做的是
向
最终数据集中
添加
一个
新
列,该数据集中的所有行的值都为"1“。因此,您可能会将其视为
向
数据集
添加
约束。Dataset<Row> final = otherDataset.select(otherDataset.col(&qu
浏览 1
提问于2017-07-07
得票数 8
回答已采纳
1
回答
pyspark线程池执行器日志管理
、
、
、
我正在
使用
PYSPARK提取文件,并进行基本转换并将数据加载到配置单元。
使用
for循环查找提取文件并将其加载到Hive。我们大约有60张桌子。循环每个文件和加载都需要时间。所以
使用
ThreadpoolExecutor来并行运行线程。以下是示例代码原型。我正在将
spark
-submit日志重定向到一个文件。但是在
使用
threadpoolexecutor时,日志很笨拙,不能调试任何东西。基于线程对日志进行分组的更好方法。在这里,线程表示每个表。
浏览 4
提问于2021-10-27
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券