Spark RDD[String]上的正则表达式与多行上的正则表达式

文章/答案/技术大牛

发布

0回答

、、、

我正在尝试使用scala在Spark 1.6中解析日志文件，以下是示例数据所有这些文件都是gzip压缩的。我尝试使用sc.wholeTextFiles来获取一对RDD，但是遇到了Java heapspace错误，因为每个文件的大小在400mb到800mb之间(未压缩)。我可以创建一个RDDString，

浏览 14提问于2017-12-04得票数 0

2回答

Spark Scala如何在RDD中使用替换函数

、

here...see me drooling",LolaofLife我正在尝试在将文件读入RDD

浏览 0提问于2017-03-21得票数 5

回答已采纳

1回答

如何使用RDD删除PySpark中的某些正则表达式？

、

假设我试图删除这个正则表达式“RT\s*@USER\w{8}：\s*”，并且我希望在我的RDD中删除这种形式的正则表达式。我目前的RDD是：delimited = text.map(lambda x: x.split("\t")) 这是我试图移除正则表达式的部分。我试着按照RDD转换来处理与这个正则表达式匹配<e

浏览 0提问于2017-10-28得票数 0

回答已采纳

1回答

从文本文件加载稀疏向量的RDD

、、

我在中工作，拥有以下RDD：res10: org.apache.spark.rdd.RDD[(Long, org.apache.spark.mllib.linalg.Vectorrepartition at <console>:9docsWithFeatures.saveAsTextFile("path/to/file") 下面是文本文件中的一

浏览 1提问于2015-11-14得票数 1

回答已采纳

2回答

不可序列化的任务-Java1.8和Spark2.1.1

、

我对Java 8和Spark2.1.1有问题 JavaRDD<String> lines = sc.textFile(path); JavaRDD<String> filtered = lines.filter(new Fun

浏览 0提问于2018-08-18得票数 2

回答已采纳

2回答

模式匹配- spark scala RDD

、、、、

我刚接触Spark和Scala的几个转换，我得到了一个RDD类型的background.After现在，我想对字符串RDD应用一个正则表达式新计算的子字符串 val brandRegEx = """^.*[Bb][M

浏览 1提问于2015-12-02得票数 4

回答已采纳

2回答

在spark scala中如何在单个RDD中拆分具有不同分隔符的数据？

、

如何在单个RDD中使用分隔符":“和”“拆分上一行，以及如何使用以下信息在创建RDD后创建数据帧警告router1 JApan

浏览 2提问于2020-05-19得票数 3

1回答

如何在Scala中将带字符串的DataFrame转换为带向量的DataFrame (Spark2.0)

、、、、

我有一个DataFrame，列名为KFA，包含两端带角大括号的字符串。在这个长字符串中有4个双值。我想把它转换成带向量的DataFrame。这是DataFrame的第一个元素：res130: org.apache.spark.sql.Row = [[.00663 .00197 .29809 .0034]] .map((x=>x.mkSt

浏览 0提问于2016-12-05得票数 0

2回答

Spark2.2.0-如何将DataFrame写/读到DynamoDB

、、、

我希望我的Spark应用程序从DynamoDB读取一个表，做一些事情，然后用DynamoDB编写结果。将表读入DataFrame注意：df_add与MyTable在DynamoDB中具有相同的模式。编辑：我遵循的建议，它

浏览 6提问于2017-12-08得票数 9

1回答

配对RDD中的scala正则表达式

、、、

我有一个关于Scala/Eclipse/Spark中RDD操作中的regex的问题。id=|^https://coach\.nationalexpress\.com/nxbooking/delivery-details))def operation(s1:RDD[String], s2:RDD[Str

浏览 1提问于2015-02-17得票数 1

回答已采纳

3回答

用于多行文本的Java正则表达式

、

在Java中，我需要将字符串与正则表达式进行匹配。该字符串是多行的，因此包含多个\n，如下所示 + "fghij\n"String regex我还为正则表达式尝试了\\S*(\n)*，它也返回false。在实际的程序中，文本和正则表达式都不是硬编码的

浏览 2提问于2017-04-29得票数 2

1回答

我是spark Scala程序员。我有一个火花工作，有子任务，以完成整个工作。我想使用to Futures来并行完成子任务。一旦完成整个工作，我必须返回整个工作的回应。关于scala Futures，我听说一旦主线程执行并停止，剩下的线程就会被杀死，你也会得到空的响应。我必须使用Await.result来收集结果。但是所有的博客都告诉你应该避免使用Await.result，这是一种糟糕的做法。在mycase中使用Await.result是正确的还是错误的？def c

浏览 16提问于2019-09-20得票数 0

1回答

SparkSession Hive没有应用regexp_replace

、、

我有一个正在工作的Spark应用程序正在执行hive查询。 regexp_replace(string INITIAL_STRING, string PATTERN, string REPLACEMENT)返回替换INITIAL_STRING中与模式中定义的</em

浏览 3提问于2018-04-30得票数 1

回答已采纳

1回答

如何在pySpark中将CSV字符串(RDD)转换为DataFrame？

、、

我有一个CSV字符串，这是一个RDD，我需要将它转换为spark DataFrame。我有这个目录结构。Csv_files (dir) |- B.csv我所拥有的是对Csv_files.zip的访问权限，它位于hdfs存储中。如果每个文件都存储为A.gz、B.gz……但是我在一个压缩过的目录中有文件。在SO ()上的回答的帮助下，我能够将这个压缩文件转换成字典。'B.

浏览 0提问于2017-08-24得票数 0

1回答

多行sublime文本语言模块定义

、

我正在尝试为Sublime文本创建一个新的语法定义。我已经编写了正则表达式来突出显示每个行中的匹配项，但我希望匹配项包括新行和任何字符。下面是tmLanguage文件中的正则表达式，它在一行中工作：<string>\{\+\+(.*?)\+\+[ \t]*(\[(.*?)\])?[ \t]*\}</string> 我已尝试修改点(.)匹配以跨越多行，

浏览 0提问于2013-01-21得票数 3

回答已采纳

2回答

值联接不是org.apache.spark.rdd.RDD的成员

、

我得到了这个错误： org.apache.spark.rdd.RDD[(Long, (Int, (Long, String, Array[_0])))我找到的唯一建议是import org.apache.spark.SparkContext编辑:更改代码以消除forSome (即，当对象的

浏览 1提问于2015-03-26得票数 4

回答已采纳

1回答

火花: Split不是org.apache.spark.sql.Row的成员

、、、

下面是我在Spark1.6上的代码。我正在尝试将其转换为Spark2.3，但我正在收到使用split的错误。星火1.6代码：val mapping = file.map(_.split('/t')).map(a => a(1))火花2.3代码： val file = spark.read.text(

浏览 0提问于2019-08-04得票数 4

回答已采纳

1回答

调用o196时出错，显示calling

、、、、

不幸的是，我得到了标题中提到的错误。我不知道是什么导致了这个错误，如果有人能帮我，我会非常感激的。", "1gb") \comments = ["string1", "string2", "string3",...](comments) df = spark.createDataFrame(rd

浏览 7提问于2022-01-24得票数 0

回答已采纳

2回答

distinct和map的调用一起在spark库中抛出NPE

、、

我不确定这是不是一个bug，所以如果你这样做d.distinct().map(x => d.filter(_.equals(x)))我使用的是 0.6.1。

浏览 1提问于2012-12-08得票数 7

回答已采纳

1回答

Scala编译器如何处理未使用的变量值？

、、、

使用Scala和Spark，我有以下构造：val rdd2: RDD[(String, Any)] = ...String, (e: Any, _)) => e } 将rdd1映射到PairRDD的目的是在后续步骤中与rdd2连接。然而，我实际上只对rdd2的值感兴

浏览 2提问于2015-09-04得票数 6

回答已采纳

点击加载更多