腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
0
回答
Spark
RDD
[
String
]
上
的
正则表达式
与
多行
上
的
正则表达式
、
、
、
我正在尝试使用scala在
Spark
1.6中解析日志文件,以下是示例数据所有这些文件都是gzip压缩
的
。我尝试使用sc.wholeTextFiles来获取一对
RDD
,但是遇到了Java heapspace错误,因为每个文件
的
大小在400mb到800mb之间(未压缩)。我可以创建一个RDDString,
浏览 14
提问于2017-12-04
得票数 0
2
回答
Spark
Scala如何在
RDD
中使用替换函数
、
here...see me drooling",LolaofLife我正在尝试在将文件读入
RDD
浏览 0
提问于2017-03-21
得票数 5
回答已采纳
1
回答
如何使用
RDD
删除PySpark中
的
某些
正则表达式
?
、
假设我试图删除这个
正则表达式
“RT\s*@USER\w{8}:\s*”,并且我希望在我
的
RDD
中删除这种形式
的
正则表达式
。我目前
的
RDD
是:delimited = text.map(lambda x: x.split("\t")) 这是我试图移除
正则表达式
的
部分。我试着按照
RDD
转换来处理
与
这个
正则表达式
匹配<e
浏览 0
提问于2017-10-28
得票数 0
回答已采纳
1
回答
从文本文件加载稀疏向量
的
RDD
、
、
我在中工作,拥有以下
RDD
:res10: org.apache.
spark
.
rdd
.
RDD
[(Long, org.apache.
spark
.mllib.linalg.Vectorrepartition at <console>:9docsWithFeatures.saveAsTextFile("path/to/file") 下面是文本文件中
的
一
浏览 1
提问于2015-11-14
得票数 1
回答已采纳
2
回答
不可序列化
的
任务-Java1.8和
Spark
2.1.1
、
我对Java 8和
Spark
2.1.1有问题 JavaRDD<
String
> lines = sc.textFile(path); JavaRDD<
String
> filtered = lines.filter(new Fun
浏览 0
提问于2018-08-18
得票数 2
回答已采纳
2
回答
模式匹配-
spark
scala
RDD
、
、
、
、
我刚接触
Spark
和Scala
的
几个转换,我得到了一个
RDD
类型
的
background.After现在,我想对字符串
RDD
应用一个
正则表达式
新计算
的
子字符串 val brandRegEx = """^.*[Bb][M
浏览 1
提问于2015-12-02
得票数 4
回答已采纳
2
回答
在
spark
scala中如何在单个
RDD
中拆分具有不同分隔符
的
数据?
、
如何在单个
RDD
中使用分隔符":“和”“拆分
上
一行,以及如何使用以下信息在创建
RDD
后创建数据帧警告router1 JApan
浏览 2
提问于2020-05-19
得票数 3
1
回答
如何在Scala中将带字符串
的
DataFrame转换为带向量
的
DataFrame (
Spark
2.0)
、
、
、
、
我有一个DataFrame,列名为KFA,包含两端带角大括号
的
字符串。在这个长字符串中有4个双值。我想把它转换成带向量
的
DataFrame。这是DataFrame
的
第一个元素:res130: org.apache.
spark
.sql.Row = [[.00663 .00197 .29809 .0034]] .map((x=>x.mkSt
浏览 0
提问于2016-12-05
得票数 0
2
回答
Spark
2.2.0-如何将DataFrame写/读到DynamoDB
、
、
、
我希望我
的
Spark
应用程序从DynamoDB读取一个表,做一些事情,然后用DynamoDB编写结果。将表读入DataFrame注意:df_add
与
MyTable在DynamoDB中具有相同
的
模式。编辑:我遵循
的
建议,它
浏览 6
提问于2017-12-08
得票数 9
1
回答
配对
RDD
中
的
scala
正则表达式
、
、
、
我有一个关于Scala/Eclipse/
Spark
中
RDD
操作中
的
regex
的
问题。id=|^https://coach\.nationalexpress\.com/nxbooking/delivery-details))def operation(s1:
RDD
[
String
], s2:
RDD
[
Str
浏览 1
提问于2015-02-17
得票数 1
回答已采纳
3
回答
用于
多行
文本
的
Java
正则表达式
、
在Java中,我需要将字符串
与
正则表达式
进行匹配。该字符串是
多行
的
,因此包含多个\n,如下所示 + "fghij\n"
String
regex我还为
正则表达式
尝试了\\S*(\n)*,它也返回false。 在实际
的
程序中,文本和
正则表达式
都不是硬编码
的
浏览 2
提问于2017-04-29
得票数 2
1
回答
什么时候使用Scala Futures?
、
、
、
、
我是
spark
Scala程序员。我有一个火花工作,有子任务,以完成整个工作。我想使用to Futures来并行完成子任务。一旦完成整个工作,我必须返回整个工作
的
回应。关于scala Futures,我听说一旦主线程执行并停止,剩下
的
线程就会被杀死,你也会得到空
的
响应。 我必须使用Await.result来收集结果。但是所有的博客都告诉你应该避免使用Await.result,这是一种糟糕
的
做法。 在mycase中使用Await.result是正确
的
还是错误
的
?def c
浏览 16
提问于2019-09-20
得票数 0
1
回答
SparkSession Hive没有应用regexp_replace
、
、
我有一个正在工作
的
Spark
应用程序正在执行hive查询。 regexp_replace(
string
INITIAL_
STRING
,
string
PATTERN,
string
REPLACEMENT)返回替换INITIAL_
STRING
中
与
模式中定义
的</em
浏览 3
提问于2018-04-30
得票数 1
回答已采纳
1
回答
如何在pySpark中将CSV字符串(
RDD
)转换为DataFrame?
、
、
我有一个CSV字符串,这是一个
RDD
,我需要将它转换为
spark
DataFrame。我有这个目录结构。Csv_files (dir) |- B.csv我所拥有的是对Csv_files.zip
的
访问权限,它位于hdfs存储中。如果每个文件都存储为A.gz、B.gz……但是我在一个压缩过
的
目录中有文件。 在SO ()
上
的
回答
的
帮助下,我能够将这个压缩文件转换成字典。'B.
浏览 0
提问于2017-08-24
得票数 0
1
回答
多行
sublime文本语言模块定义
、
我正在尝试为Sublime文本创建一个新
的
语法定义。我已经编写了
正则表达式
来突出显示每个行中
的
匹配项,但我希望匹配项包括新行和任何字符。下面是tmLanguage文件中
的
正则表达式
,它在一行中工作:<
string
>\{\+\+(.*?)\+\+[ \t]*(\[(.*?)\])?[ \t]*\}</
string
> 我已尝试修改点(.)匹配以跨越
多行
,
浏览 0
提问于2013-01-21
得票数 3
回答已采纳
2
回答
值联接不是org.apache.
spark
.
rdd
.
RDD
的
成员
、
我得到了这个错误: org.apache.
spark
.
rdd
.
RDD
[(Long, (Int, (Long,
String
, Array[_0])))我找到
的
唯一建议是import org.apache.
spark
.SparkContext编辑:更改代码以消除forSome (即,当对象
的
浏览 1
提问于2015-03-26
得票数 4
回答已采纳
1
回答
火花: Split不是org.apache.
spark
.sql.Row
的
成员
、
、
、
下面是我在
Spark
1.6
上
的
代码。我正在尝试将其转换为
Spark
2.3,但我正在收到使用split
的
错误。星火1.6代码:val mapping = file.map(_.split('/t')).map(a => a(1))火花2.3代码: val file =
spark
.read.text(
浏览 0
提问于2019-08-04
得票数 4
回答已采纳
1
回答
调用o196时出错,显示calling
、
、
、
、
不幸
的
是,我得到了标题中提到
的
错误。我不知道是什么导致了这个错误,如果有人能帮我,我会非常感激
的
。", "1gb") \comments = ["
string
1", "
string
2", "
string
3",...](comments) df =
spark
.createDataFrame(
rd
浏览 7
提问于2022-01-24
得票数 0
回答已采纳
2
回答
distinct和map
的
调用一起在
spark
库中抛出NPE
、
、
我不确定这是不是一个bug,所以如果你这样做d.distinct().map(x => d.filter(_.equals(x)))我使用
的
是 0.6.1。
浏览 1
提问于2012-12-08
得票数 7
回答已采纳
1
回答
Scala编译器如何处理未使用
的
变量值?
、
、
、
使用Scala和
Spark
,我有以下构造:val
rdd
2:
RDD
[(
String
, Any)] = ...
String
, (e: Any, _)) => e } 将
rdd
1映射到PairRDD
的
目的是在后续步骤中
与
rdd
2连接。然而,我实际
上
只对
rdd
2
的
值感兴
浏览 2
提问于2015-09-04
得票数 6
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
云直播
活动推荐
运营活动
广告
关闭
领券