开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

在Pyspark中选择字符("-")之前/之后的特定字符串

在Pyspark中，我们可以使用字符串函数和正则表达式来选择字符之前或之后的特定字符串。

如果要选择字符之前的特定字符串，可以使用split()函数将字符串拆分为一个字符串数组，然后通过索引获取所需的字符串。例如，假设我们有一个字符串列text，其中包含类似于"特定字符串-其他字符串"的格式，我们可以使用以下代码选择字符"-"之前的特定字符串：

from pyspark.sql.functions import split

df = spark.createDataFrame([(1, "特定字符串-其他字符串")], ["id", "text"])

result = df.withColumn("specific_string", split(df["text"], "-")[0])
result.show()

这将输出：

+---+-------------------+----------------+
|id |text               |specific_string |
+---+-------------------+----------------+
|1  |特定字符串-其他字符串|特定字符串       |
+---+-------------------+----------------+

如果要选择字符之后的特定字符串，可以使用split()函数将字符串拆分为一个字符串数组，然后通过索引获取所需的字符串。例如，假设我们有一个字符串列text，其中包含类似于"其他字符串-特定字符串"的格式，我们可以使用以下代码选择字符"-"之后的特定字符串：

from pyspark.sql.functions import split

df = spark.createDataFrame([(1, "其他字符串-特定字符串")], ["id", "text"])

result = df.withColumn("specific_string", split(df["text"], "-")[1])
result.show()

这将输出：

+---+-------------------+----------------+
|id |text               |specific_string |
+---+-------------------+----------------+
|1  |其他字符串-特定字符串|特定字符串       |
+---+-------------------+----------------+

在这个例子中，我们使用了split()函数将字符串拆分为一个字符串数组，然后通过索引选择所需的字符串。这是一种在Pyspark中选择字符之前或之后的特定字符串的常见方法。

希望这个答案能够满足你的需求。如果你有任何其他问题，请随时提问。

相关搜索:Javascript:特定字符之前的粗体字符串 Oracle -在特定字符串之前选择字符串 PHP在字符串中的字符串之后返回字符串 pyspark在groupBy之后使用agg连接字符串 Python列表:在项目之前和之后添加字符串 Regex -如何在文本中选择数字字符串之前的特定字符 Regex:获取特定子字符串之前和之后的数字 XML -在字符串之后和特定字符之前提取在powershell中的seperator之后/之前切断字符串中的文本在Python中连接整个字符串之前和之后

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

大数据入门与实战-PySpark的使用教程

Apache Spark是用Scala编程语言编写的。为了用Spark支持Python，Apache Spark社区发布了一个工具PySpark。使用PySpark，您也可以使用Python编程语言处理RDD。正是由于一个名为Py4j的库，他们才能实现这一目标。这里不介绍PySpark的环境设置，主要介绍一些实例，以便快速上手。

02

Spark Extracting,transforming,selecting features

官方文档链接：https://spark.apache.org/docs/2.2.0/ml-features.html

04

Spark 编程指南 (一) [Spa

每一个运行在cluster上的spark应用程序，是由一个运行main函数的driver program和运行多种并行操作的executes组成

01

PySpark SQL——SQL和pd.DataFrame的结合体

昨日推文PySpark环境搭建和简介，今天开始介绍PySpark中的第一个重要组件SQL/DataFrame，实际上从名字便可看出这是关系型数据库SQL和pandas.DataFrame的结合体，功能也几乎恰是这样，所以如果具有良好的SQL基本功和熟练的pandas运用技巧，学习PySpark SQL会感到非常熟悉和舒适。

02

独家 | PySpark和SparkSQL基础：如何利用Python编程执行Spark（附代码）

本文通过介绍Apache Spark在Python中的应用来讲解如何利用PySpark包执行常用函数来进行数据处理工作。

02

PySpark ｜ML（转换器）

在PySpark中包含了两种机器学习相关的包：MLlib和ML，二者的主要区别在于MLlib包的操作是基于RDD的，ML包的操作是基于DataFrame的。根据之前我们叙述过的DataFrame的性能要远远好于RDD，并且MLlib已经不再被维护了，所以在本专栏中我们将不会讲解MLlib。

02

PySpark数据类型转换异常分析

在使用PySpark的SparkSQL读取HDFS的文本文件创建DataFrame时，在做数据类型转换时会出现一些异常，如下：

05

在测试自动化中使用Java枚举

对象几乎可以满足这些要求。但是，创建多个实体将意味着创建几个仅具有少量属性且没有行为或行为最少的对象。最小的行为转化为少量的方法。基本上，对于您需要的每个实体，都必须创建一个新的对象。那将是浪费。相反，可以使用一种特殊类型的Object Enum。

01

PySpark简介

Apache Spark是一个大数据处理引擎，与MapReduce相比具有多个优势。通过删除Hadoop中的大部分样板代码，Spark提供了更大的简单性。此外，由于Spark处理内存中的大多数操作，因此它通常比MapReduce更快，在每次操作之后将数据写入磁盘。

03

csv导入Hive脚本

from pyspark.sql import HiveContext hivec = HiveContext(sc) # 创建一个hivecontext对象用于写执行SQL，sc为sparkc

01

用Spark学习矩阵分解推荐算法

在矩阵分解在协同过滤推荐算法中的应用中，我们对矩阵分解在推荐算法中的应用原理做了总结，这里我们就从实践的角度来用Spark学习矩阵分解推荐算法。

03

PySpark 中的机器学习库

传统的机器学习算法，由于技术和单机存储的限制，比如使用scikit-learn,只能在少量数据上使用。即以前的统计/机器学习依赖于数据抽样。但实际过程中样本往往很难做好随机，导致学习的模型不是很准确，在测试数据上的效果也可能不太好。随着 HDFS(Hadoop Distributed File System) 等分布式文件系统出现，存储海量数据已经成为可能。在全量数据上进行机器学习也成为了可能，这顺便也解决了统计随机性的问题。然而，由于 MapReduce 自身的限制，使得使用 MapReduce 来实现分布式机器学习算法非常耗时和消耗磁盘IO。因为通常情况下机器学习算法参数学习的过程都是迭代计算的，即本次计算的结果要作为下一次迭代的输入，这个过程中，如果使用 MapReduce，我们只能把中间结果存储磁盘，然后在下一次计算的时候从新读取，这对于迭代频发的算法显然是致命的性能瓶颈。引用官网一句话：Apache Spark™ is a unified analytics engine for large-scale data processing.Spark，是一种"One Stack to rule them all"的大数据计算框架，期望使用一个技术堆栈就完美地解决大数据领域的各种计算任务.

02

【干货】Python大数据处理库PySpark实战——使用PySpark处理文本多分类问题

【导读】近日，多伦多数据科学家Susan Li发表一篇博文，讲解利用PySpark处理文本多分类问题的详情。我们知道，Apache Spark在处理实时数据方面的能力非常出色，目前也在工业界广泛使用。

利用PySpark对 Tweets 流数据进行情感分析实战

想象一下，每秒有超过8500条微博被发送，900多张照片被上传到Instagram上，超过4200个Skype电话被打，超过78000个谷歌搜索发生，超过200万封电子邮件被发送（根据互联网实时统计）。

01

《Learning ELK Stack》2 构建第一条ELK数据管道

2 构建第一条ELK数据管道本章将使用ELK技术栈来构建第一条基本的数据管道。这样可以帮助我们理解如何将ELK技术栈的组件简单地组合到一起来构建一个完整的端到端的分析过程 ---- 输入的数据集在

02

利用PySpark 数据预处理（特征化）实战

之前说要自己维护一个spark deep learning的分支，加快SDL的进度，这次终于提供了一些组件和实践，可以很大简化数据的预处理。

03

MySql常用函数

常用函数聚集函数 avg count max min sum 用于处理字符串的函数合并字符串函数：concat(str1,str2,str3…) 比较字符串大小函数：strcmp(str1,str2) 获取字符串字节数函数：length(str) 获取字符串字符数函数：char_length(str) 字母大小写转换函数：大写：upper(x),ucase(x)；小写lower(x),lcase(x) 字符串查找函数获取指定位置的子串字符串去空函数字符串替换函数：用于处理数值的函数

02

【原】Spark之机器学习(Python版)(一)——聚类

kmeans聚类相信大家都已经很熟悉了。在Python里我们用kmeans通常调用Sklearn包（当然自己写也很简单）。那么在Spark里能不能也直接使用sklean包呢？目前来说直接使用有点困难，不过我看到spark-packages里已经有了，但还没有发布。不过没关系，PySpark里有ml包，除了ml包，还可以使用MLlib，这个在后期会写，也很方便。　　首先来看一下Spark自带的例子： 1 from pyspark.mllib.linalg import Vectors 2 from p

Mysql常用函数

https://dev.mysql.com/doc/refman/5.7/en/date-and-time-functions.html

01

总要到最后关头才肯重构代码，强如spark也不例外

用过Python做过机器学习的同学对Python当中pandas当中的DataFrame应该不陌生，如果没做过也没有关系，我们简单来介绍一下。DataFrame翻译过来的意思是数据帧，但其实它指的是一种特殊的数据结构，使得数据以类似关系型数据库当中的表一样存储。使用DataFrame我们可以非常方便地对整张表进行一些类似SQL的一些复杂的处理。Apache Spark在升级到了1.3版本之后，也提供了类似功能的DataFrame，也就是大名鼎鼎的SparkSQL。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭