Spark 1.6和Spark 2.2中的不同rlike行为

Spark是一个开源的大数据处理框架，用于分布式数据处理和分析。Spark 1.6和Spark 2.2是Spark的两个不同版本，它们在rlike行为上有以下不同之处：

Spark 1.6中的rlike行为：
- rlike是Spark中的一个正则表达式函数，用于在字符串中匹配正则表达式。
- 在Spark 1.6中，rlike函数只能用于DataFrame的列，不能用于字符串直接匹配。
- rlike函数返回一个布尔值，表示字符串是否匹配正则表达式。

Spark 2.2中的rlike行为：
- 在Spark 2.2中，rlike函数可以直接用于字符串的匹配，不仅限于DataFrame的列。
- rlike函数返回一个布尔值，表示字符串是否匹配正则表达式。

总结： Spark 1.6中的rlike函数只能用于DataFrame的列，而Spark 2.2中的rlike函数可以直接用于字符串的匹配。这意味着在Spark 2.2中，我们可以更方便地使用rlike函数进行字符串匹配操作。

腾讯云相关产品和产品介绍链接地址：腾讯云提供了一系列与大数据处理和分析相关的产品和服务，例如腾讯云数据仓库CDW、腾讯云数据湖DLake、腾讯云数据集成服务DataWorks等。您可以访问腾讯云官方网站了解更多详情：https://cloud.tencent.com/product/bigdata

数据仓库能包括一个数据湖吗？

data-modeling、data-warehouse、data-lake

我想更详细地了解数据仓库和数据湖。在我看来，这个话题有不同的信息。Inmon将数据仓库定义为一种面向主题、综合、时变和非易失性的数据收集，以支持管理层的决策过程。现在我明白了，这只是一种架构形式，并不意味着任何技术。这意味着底层数据可以是任何也可以是S3对象存储的结构。此外，还提出了一个具有数据集成过程的数据仓库。当谈到数据湖时，我发现了以下定义可伸缩的存储存储库，保存大量原生格式的原始数据(“原样”)，直到需要时再加上可以在不损害数据结构的情况下接收数据的处理系统(引擎)。取自。现在，数据仓库能成为一个更严格的数据湖吗？有一种观点认为，数据仓库必须使用ETL，但

浏览 0提问于2018-12-11得票数 1

2回答

SparkR regexp_extract函数问题

r、apache-spark、sparkr

数据我使用的是一个大型数据集(2.8亿行)，其中Spark和R似乎工作得很好。问题我对SparkR的regexp_extract函数有问题。我认为它的工作方式类似于Stringr的str_detect，但我没有设法让它工作。regexp_extract的文档是有限的。你能帮我一把吗？ Reprex 这里是一个reprex，我尝试识别没有空格的字符串，并粘贴“00:01”作为后缀。 # Load packages library(tidyverse) library(sparklyr) library(SparkR) # Create data df <- data.frame(s

浏览 11提问于2020-06-08得票数 1

回答已采纳

1回答

Spark SQL -仅匹配数字的正则表达式

regex、dataframe、apache-spark、pyspark、apache-spark-sql

我正在尝试确保dataframe中的特定列不包含任何非法值(非数字数据)。为此，我尝试使用使用rlike的正则表达式匹配来收集数据中的非法值：我需要收集包含字符串字符、空格、逗号或任何其他不像数字的字符的值。我试过了： spark.sql("select * from tabl where UPC not rlike '[0-9]*'").show() 但这不管用。它产生0行。任何帮助都是非常感谢的。谢谢。

浏览 155提问于2020-02-10得票数 6

回答已采纳

2回答

Spark SQL不区分大小写的列条件过滤器

apache-spark、apache-spark-sql

如何使用Spark SQL过滤器作为不区分大小写的过滤器。例如： dataFrame.filter(dataFrame.col("vendor").equalTo("fortinet")); 只返回'vendor'列等于'fortinet'的行，但我希望'vendor'列等于'fortinet'或'Fortinet'或'foRtinet'的行...

浏览 6提问于2016-01-20得票数 16

回答已采纳

1回答

从RDD中的单词中筛选火花数据中的行

python、regex、apache-spark、pyspark、spark-dataframe

我有以下命令， data = sqlContext.sql("select column1, column2, column3 from table_name") words = sc.textFile("words.txt") words.txt有一堆单词，数据有三个字符串列来自table_name。现在，每当words.txt中的每个单词的单词模式出现在数据的三列中的任何一列时，我都想过滤掉数据中的行(spark )。例如，如果words.txt有单词(如gon )，如果三列数据中的任何一列包含bygone、gone等值，则我希望筛选出该行。我试过以

浏览 9提问于2016-08-21得票数 5

2回答

组合多个SQL查询结果

php、mysql、sql

我正在使用PHP，并编写了以下代码： $categories = array('casual','dinner', 'kids'); $numberOfCategories = count($categories); for ($i=0; $i < $numberOfCategories; $i++) { $req = $pdo->query('

浏览 3提问于2016-05-10得票数 0

回答已采纳

3回答

字符串列包含通过spark scala进行精确匹配的单词

scala、apache-spark、apache-spark-sql

我有两个数据帧，第一个数据帧包含实际数据(从CSV文件读取)，第二个数据帧包含一个具有多个关键字的列。即下面的Dataframe-1外观相似(我们必须搜索的地方)：数据帧-2：我想要的输出：我在这里使用spark scala。我想要一个与dataframe-1中的dataframe-2完全匹配的单词。我使用了like、rlike、contains等函数，但它没有给出我想要的输出。有人知道如何在spark scala SQL中或使用dataframe的spark scala函数来开发此逻辑吗？请帮我弄一下这个。

浏览 1提问于2021-02-12得票数 0

2回答

Spark列rlike将int转换为boolean

regex、scala、apache-spark、spark-dataframe

所以我使用regex和Spark的列rlike从字符串中提取最后一个数字。问题是，在它提取数字后，它会自动转换为布尔值。有没有办法阻止它自动转换为布尔值？ test.withColumn("Quarter", $"Month".rlike("\\d+$")) 例如：输入： 2015 Q 1 2015 Q 1 2015 Q 2 2015 Q 2 输出： true true true true 预期：1 1 2 2 我尝试将其转换为整数，但它所做的只是返回1，因为它被从Boolean转换为Int。 test.withColumn("Qua

浏览 20提问于2017-07-26得票数 1

回答已采纳

1回答

读取json文件和聚合#值

json、scala、apache-spark

读取json文件并按照每个User_Name计数唯一的#值。 I/P和O/P如下。输入档案:- { "id": "0", "User_Name": "ANUP", "Tweet": "I love #BigData it is growing too fast #tech #spark #Hive" } { "id": "1", "User_Name": "ANUP", "Tweet":

浏览 2提问于2022-05-20得票数 -1

2回答

吡火花查询和sql吡咯烷酮查询

python、sql、dataframe、apache-spark、pyspark

嘿，我有一个包含以下列行的dataframe :日期和文本，我需要找到每天有多少行包含"corona“( dataframes和sql两种方式)。，，corona这个词需要是一个词，而不是子串，如果这个词旁边有一个双关符号，我也需要数它。我从移除文本列中的双关语开始，然后添加了一个名为“标记”的指示列，以标记一行中是否包含corona一词，之后，我将检查列相加，并按日期列分组。 1.我想问一下，这样做对吗？ 2.我试着将其转换为吡火花sql查询(如果使用这种方式，我需要添加带有sql代码的check列)，但是结果非常不同，所以如何翻译呢？ dataframes way: #abov

浏览 3提问于2020-06-21得票数 1

1回答

如何在循环中读取dataframe列值并检查每个列的数据类型

scala、apache-spark

我需要一些帮助来理解“scala”中的迭代。我有一个数据文件，它有不同类型的数据“(Int，String，Date，Long)”。我想在循环中读取每一行数据。如果列的数据与数据类型不匹配，则为正确的数据类型。然后，我想用null更新列的值。我已经厌倦了读取每个列的值并检查相应的数据类型，比如'ID列是:整型，AirName:字符串类型，Place:String类型，TakeoffDate:Date‘type.My输入数据集是： +-----+-------+-----+-----------+ | ID|AirName|Place|TakeoffDate| | 1| De

浏览 0提问于2019-07-01得票数 1

回答已采纳

2回答

Scala/Spark --计数一个字段与regex匹配的数据帧中的行数

scala、apache-spark

我创建了一个名为"project_code“和"page_title”两列的dataframe。我想计算"page_title“以" the”开头的行数，并在此之后有任何内容。为此，我使用了一个regex，它看起来像"^The*“。到目前为止，我的情况如下： val df = spark.read.textFile(“/pagecounts-20160101-000000”).map(l => { val a = l.split(“ “) (a(0), a(1)) }).toDF(“project_code”, “page_tit

浏览 7提问于2020-03-21得票数 1

回答已采纳

2回答

在雪花中用正则表达式过滤句子/单词的精确匹配

sql、regex、snowflake-cloud-data-platform

我想筛选与特定单词或句子匹配的列。例如，如果我选择了用于筛选的单词anti，则在以下行中： this is anti-pattern antimosquitos products the word anti is cool 我只想保留最后一个，因为它是唯一与整个匹配模式相匹配的，而不是在另一个词中。我尝试过使用RLIKE，我总是得到一个FALSE值，但我不明白为什么。我希望至少在其中一个SQL语句中有一个TRUE值： SELECT RLIKE ('Spray antimosquitos', '\bantimosquitos\b', 'i') a

浏览 11提问于2021-12-13得票数 3

回答已采纳

1回答

过滤不包含数字的记录

sql、hiveql

浏览 13提问于2020-10-22得票数 0

回答已采纳

3回答

根据字符串列表过滤pyspark数据帧

python、dataframe、apache-spark、pyspark、apache-spark-sql

我对Pyspark是个新手。我希望我能在这里得到一个答案。我需要一个使用DataFrame API的答案我的问题是找出文本文件test.txt中包含单词“testA”、“testB”或“testC”的行数。 lines=spark.read.text("C:\test.txt") listStr=["testA","testB","testC"] lines.filter(lines.isin(listStr)).count() --> this is showing all the lines in the tex

浏览 18提问于2021-02-05得票数 1

回答已采纳

2回答

将自定义函数应用于星火数据访问组

apache-spark、dataframe、group-by、dataset、pyspark

我有一个非常大的时间序列数据表，其中包含以下列：时间戳 LicensePlate UberRide# 速度每一组许可板块/UberRide数据的收集都应考虑到整个数据集。换句话说，我不需要逐行处理数据，而是按(LicensePlate/UberRide)分组的所有行。我计划在dataframe中使用spark，但我对如何对spark分组数据执行自定义计算感到困惑。我需要做的是：获取所有数据按某些列分组前火花数据组应用f(x)。返回自定义对象foreach组通过应用g(x)并返回单个自定义对象来获得结果我如何完成步骤3和步骤4？任

浏览 2提问于2016-09-20得票数 10

回答已采纳

6回答

大咖问答——计算机视觉的原理和最佳实践，你知道多少？

人脸识别、文字识别、图像处理、图像识别

相信大家对本期腾讯云开发者社区技术沙龙【计算机视觉的原理及最佳实践】还意犹未尽，所以我们请来了沙龙的五位分享嘉宾在本版块为各位开发者们继续解答关于计算机视觉的问题。同时，对本场沙龙感兴趣的小伙伴也可以点击链接直达沙龙活动页，观看沙龙回放并下载沙龙资料。【分享嘉宾介绍】 image.png 范锦腾讯云资深技术专家冀永楠腾讯云资深技术专家陈琪华图在线高级产品经理卓伟腾讯云高级研发工程师周吉成腾讯云高级产品经理【问答内容】 1. 图像识别系统的原理和应用方法 2. 腾讯云API搭建图像识别应用的优势？ 3. 人脸识别技术在各领域的解决方案 4. 文字识别的技术难点 5. 搭建人

浏览 912提问于2019-04-12

2回答

如何实现数据网格概念数据工程产品或应用

database、neo4j、graphdb

我正在尝试在一个与业务相关的应用程序中实现数据网格概念。让我先描述一下：已经使用数据HDFS、hive和cassandra_database来管理数据。 1:据我所知，在数据网格概念中，多个数据库、内部数据、数据湖和数据仓库连接在一个点上，分布这些数据。在这里，每个数据仓库、数据湖或数据库都是一个数据网格节点。对于数据网格，这个整体概念是否正确？ 2:如何在我的项目中实现，我正在尝试使用graphDb数据库，因为它支持作为主节点和工作节点(存储库)的另一个数据库的集群连接。 3:可以使用graphDb以外的其他平台进行检查吗？像neo4j一样，这是可能的吗？任何人都可以在我的项目或任何参

浏览 16提问于2020-04-28得票数 2

2回答

向dataframe添加新列，该列将指示另一列是否包含单词pyspark

python、sql、dataframe、pyspark、apache-spark-sql

我有一个数据框，我想在其中添加一列，用于指示单词"yes“是否在该行文本列中(如果单词不在该行中，则为1；如果不在该行中，则为0)。只有当"yes”显示为单词而不是子字符串，或者"yes“位于标点符号旁边时，我才需要检查1(示例: yes!)我如何在spark中做到这一点呢？例如： id group text 1 a hey there 2 c no you can 3 a yes yes yes 4 b yes or no 5 b you need to say yes. 6 a

浏览 0提问于2020-06-21得票数 1

4回答

BigData解决方案的比较。

azure、amazon-web-services、bigdata、azure-hdinsight

在过去的几个月里，我一直在研究BigData，并开始做我的五年计划，即在Windows Azure中使用MapReduce和HDInsight来分析BigData。我只是遇到了一个特殊的困惑，在成本、性能、稳定性等方面，哪种平台可以更好地进行BigData分析，例如Amazon、Oracle、IBM等。这个问题可能太宽泛了，但我只是想了解一下，与Azure HDInsight相比，它们如何区分开来的基本概念。简而言之，就是BigData分析的HDInsight vs Other BigData Solutions。任何帮助都将不胜感激。

浏览 1提问于2015-02-24得票数 0

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark 1.6和Spark 2.2中的不同rlike行为

相关·内容

数据仓库能包括一个数据湖吗？

SparkR regexp_extract函数问题

Spark SQL -仅匹配数字的正则表达式

Spark SQL不区分大小写的列条件过滤器

从RDD中的单词中筛选火花数据中的行

组合多个SQL查询结果

字符串列包含通过spark scala进行精确匹配的单词

Spark列rlike将int转换为boolean

读取json文件和聚合#值

吡火花查询和sql吡咯烷酮查询

如何在循环中读取dataframe列值并检查每个列的数据类型

Scala/Spark --计数一个字段与regex匹配的数据帧中的行数

在雪花中用正则表达式过滤句子/单词的精确匹配

过滤不包含数字的记录

根据字符串列表过滤pyspark数据帧

将自定义函数应用于星火数据访问组

大咖问答——计算机视觉的原理和最佳实践，你知道多少？

如何实现数据网格概念数据工程产品或应用

向dataframe添加新列，该列将指示另一列是否包含单词pyspark

BigData解决方案的比较。

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐