解码pyspark中的字符串URL列？

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、、、

我使用的是python2.7和spark版本2.2.0。我在pyspark中创建了一个数据框，它具有字符串列类型并包含URL。---------------------------------------------------------------------------------------------+ 因此，为了解码列中的所有URL，我尝试使用urllib，并使用它创建一个udf，如下所示 from <e

浏览 11提问于2019-03-01得票数 0

回答已采纳

1回答

如何解码URL格式的列

、、

你知道如何在Pyspark中解码下面的“竞选”栏目吗？本列中的记录是URL格式的字符串：|user_id |campaignkasd877191kdsd999 |Aquisi%C3%A7%C3%A3o+%7C |我

浏览 1提问于2022-06-15得票数 1

回答已采纳

2回答

每当我重新启动系统时，它都显示'utf-8‘编解码器无法解码kafka中的字节0x98到spark

、、、、

这是我从kafka获取数据到spark streaming的代码。首先，它在运行，但当我重新启动系统时，它再次显示以下错误： UnicodeDecodeError：'utf-8‘编解码器无法解码位置5中的字节0x98 :无效的起始字节 from pyspark importSparkContextfrom pyspark.stre

浏览 41提问于2019-12-19得票数 2

1回答

使用Python和GAE对编码的URL查询参数进行不一致的解码

、、、

我正在尝试在提交之前在移动客户端中获得一致的URL字符串，并在收到后在服务器上获得一致的URL字符串，以便能够可靠地添加用于安全校验和的哈希。目前，我在客户端的URL编码之后添加散列，并试图在服务器端解码之前获取URL，但我得到的是已经解码的一个字符(句点)： h

浏览 3提问于2012-04-24得票数 1

2回答

列表列中的Pyspark筛选项

、、、

我在试图过滤数据中的数据。Dataframe df有2列- query + href。在一行中：query是随机字符串，href是字符串列表。我有另一个名为urls的字符串列表。查找从列表urls中查找href列列表中的URL + url在href列表中的位置。我正在尝试df.filter(col("

浏览 0提问于2020-03-27得票数 2

回答已采纳

2回答

在PySpark中使用列对象而不是字符串有什么优点

、、、、

在PySpark中，可以使用列对象和字符串来选择列。这两种方法返回相同的结果。有什么不同吗？什么时候应该使用列对象而不是字符串？例如，我可以使用column对象：# or# or

浏览 0提问于2020-11-09得票数 0

5回答

Firefox自动解码url中的编码参数，在IE中不会发生

、、、

我在Firefox和IE之间感到沮丧，主要是Firefox，因为在我可以在Javascript中使用它之前，它会自动解码散列中的参数。IE不会自动解码url，因此不会出现读取错误。我的问题与此类似，只是我没有使用ASP.NET 鉴于“！%40%23%24%25^%26*”是使用encodeURIComponent

浏览 4提问于2011-01-29得票数 18

3回答

当值与pyspark中的字符串的一部分匹配时，过滤df

、、、

我有一个很大的pyspark.sql.dataframe.DataFrame，我想保留(所以filter)保存在location列中的所有行，其中的URL包含预先确定的字符串，例如'google.com我试过了：df.filter(sf.col('location').contains('google.co

浏览 2提问于2017-01-27得票数 66

回答已采纳

1回答

JavaScript中用于URL的双向散列JSON字符串

、、、、

我希望接受一个JSON字符串并对它进行加密/散列/编码，这样我就可以将它放入一个URL中，以便它类似于如下所示的内容：'www.myrandomurl.com/someurl/123fas234asf1543rasfsafda' 然后，我想将该加密/散列

浏览 4提问于2015-12-10得票数 5

2回答

在pyspark* DataFrame中创建某个类型的空数组列*

、、、

我尝试向df添加一个包含字符串数组的空数组的列，但最终添加了一个字符串数组的列。我试过这个： import pyspark.sql.functions as F df = df.withColumn('newCol', F.array([])) 我如何在pyspark中做到这一点？

浏览 91提问于2019-08-28得票数 9

回答已采纳

1回答

如何将电火花列(pyspark.sql.column.Column)转换为火花放电数据？

、、

我有一个用例来映射基于条件的pyspark列的元素。通过这个文档，我找不到一个函数来执行映射函数。因此，尝试使用pyspark映射函数，但无法将pyspark列转换为dataFrame # like c

浏览 4提问于2021-11-19得票数 0

回答已采纳

2回答

从tweet中删除urls UnicodeEncodeError：'ascii‘编解码器不能编码字符

、、

我正在尝试使用pyspark从tweet数据集中删除urls，但我得到了以下错误：从tweet中删除urls：from pyspark.sql.functionsimport udf normalizeTextUDF=udf(

浏览 1提问于2017-04-12得票数 1

回答已采纳

2回答

如何从PySpark中的2列中获得一行序列字符串？

、、、、

我有以下数据结构：列"s“和"d”表示"x“列中对象的转换。我想要做的是获取"x“列中的每个对象的转换字符串。例如，“新”栏如下：有使用PySpark的好方法吗？我使用PySpark尝试了以下udf代码，但它不起作用： from pyspark.sql.functions impor

浏览 13提问于2022-10-19得票数 1

回答已采纳

2回答

如何在Pyspark中获取kafka模式注册表？

、、、

我正在查看PySpark的相关库，以便从Kafka获取模式注册表并对数据进行解码。有人知道在中从scala到pyspark的代码/库转换是什么吗

浏览 25提问于2020-02-28得票数 2

回答已采纳

1回答

Base64url编码表示拼图

、、

原始编码字符串看来是base64url编码的。事实上，使用几个base64url代码模块和在线工具中的任何一个，解码后的值都是预期的结果。但是，编码解码值的base64url (同样使用几种工具中的任何一种)不会再现原始字符串。两个编码的字符串都解码到预期的

浏览 0提问于2015-09-21得票数 0

回答已采纳

1回答

Pyspark:多节点上的多线程

、

我仍然是Pyspark的新手，并尝试在周围搜索，但没有找到任何直接回答这个问题的答案。我正在运行一些作业来解码大量的URL，目前它在单个节点上(默认情况下)是多线程的，只是想知道是否有可能在每个节点中跨多个节点使用多线程(spark +多线程)来进一步加速作业？我可以将多线程作为Pyspark udf函数的一部分吗？谢谢!

浏览 30提问于2020-01-07得票数 0

1回答

在pyspark中将LongType()转换为DateType()并添加日期

假设我有一个具有列birth_date的dataframe df，该列具有值('123'，'5345',234345')等。df['birth_date'].cast(LongType())) 现在，如何将birth_date列设置为DateType，并将该列包含的整数值添加为日期为"1960-01-01“的天数？我尝试使用以下命令使用date_add方法date_add，但我对py

浏览 36提问于2019-03-23得票数 0

2回答

通过JDBC从pyspark* dataframe插入到外部数据库表时的重复键更新*

、、、、

嗯，我使用的是PySpark，我有一个Spark dataframe，我使用它将数据插入到mysql表中。df.write.jdbc(url=url, table="myTable", mode="append") 我希望通过列值和特定数字的

浏览 4提问于2015-09-16得票数 12

1回答

用于显示不带小数点的整数

、、

在下面的代码中，数据文件的所有列都是字符串。其中一列用一个小数位存储整数或小数(6.1,4.8,3,9.4,6，...etc.)。但是，一旦将数据加载到pyspark dataframe中，它也会显示带有单个小数位(例如3.0)的整数。问题：我们如何才能强迫pyspark显示所有不带小数的整数值？例如，3.0应该显示为3。from pyspark.sql.types import StringTy

浏览 7提问于2022-05-21得票数 0

2回答

电火花数据爆炸串柱

、、、

我正在寻找一种有效的方法，将pyspark df_input中的行分解为列。我不明白这种格式的'@{name...}'，不知道从哪里开始，以解码它。谢谢你帮忙！

浏览 1提问于2022-06-14得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云