Pyspark:在分解数组后选择值

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、、

我是pyspark的新手，尝试在telecom.system =“telecom.value |phone”的情况下解析传真，但遇到了下面的错误。我知道filter()会返回一个struct，我正在从中选择一列。如何在调用filter()后选择列值？raise_from pyspark.sql.utils.AnalysisException中的文件""，第3行: Resolved attribute telecom#27，telecom#33 mis

浏览 3提问于2020-11-13得票数 2

回答已采纳

1回答

正在读取Pyspark代码中的嵌套Json文件。pyspark.sql.utils.AnalysisException：

、、

我无法分解嵌套列并正确读取JSON文件。import * from pyspark.sql.functions import * from pyspark.sql import functions as F from pyspark.sql.functionsdf.withColumn("Department", explode(col("Department"))) File "C:\Workspace\anaconda3\envs\student\py

浏览 174提问于2021-07-09得票数 0

2回答

PySpark -拆分所有列中的数组并合并为行

、

在PySpark中有没有一种方法可以同时分解所有列中的数组/列表，并将分解后的数据分别合并/压缩到行中？根据其他因素，列数可以是动态的。

浏览 17提问于2018-02-27得票数 1

回答已采纳

1回答

PYSPARK:-在不丢失null值的情况下分解dataframe中的数组：“DataFrame”对象没有属性“_get_object_id”

、、、

调用下面的对象时出错是在不丢失空值的情况下分解dataframe中的数组，但在调用列时我得到错误，说对象没有属性‘_ code.This _ object _id’。from pyspark.sql import SparkSessionfrom pyspark.sql import Rowfrom <e

浏览 2提问于2018-07-05得票数 2

1回答

如何在Pyspark中获取数组类型中的最大重复值？

、、、

浏览 27提问于2021-11-19得票数 0

回答已采纳

1回答

展开PySpark* DataFrame的阵列列*

、、、

让我们考虑一下数据帧中的一列作者，其中包含如下所示的字符串数组： +-----------+------------------------------------++-----------+------------------------------------+ 在数据表中，我们有一个在同一篇论文中合作的作者列表Author 3' | | 'Author 4' | &#x

浏览 3提问于2019-05-17得票数 1

回答已采纳

3回答

Pyspark :从字符串数组中删除特殊/数字字符串

、、、、

tokens).alias('elements')) ) 这只在字符串类型的列中有效，并且使用explode方法我可以将数组分解为字符串，但不再在同一行中...有人可以改进这一点吗？

浏览 10提问于2018-08-06得票数 2

回答已采纳

1回答

将插入查询从sql文件转换为php数组

、、、

有没有办法将这些insert查询转换成php数组？`INSERT INTO `products` (`p_id`, `p_name`, `p_parent`, `p_dependent`,`p_pid`)"some", '2', '1'),(1, 'some', "some", '2', '1'),(1, 'some',

浏览 0提问于2018-07-09得票数 1

2回答

从pyspark中的列表中提取列

、、、

我一直在尝试从列表中提取列，但无法想象如何做到这一点。我对spark来说还是个新手。在Spark 2.4.3上运行pyspark。

浏览 53提问于2020-12-18得票数 1

回答已采纳

2回答

Pyspark -如何从DataFrame列中获取随机值

、、

我在一个DataFrame中有一列，我需要在Pyspark中选择3个随机值。有没有人能帮帮我-我，好吗？+---++---+|245| |234|愿望：**output**: [123, 12, 234]

浏览 0提问于2017-10-04得票数 5

回答已采纳

3回答

php & mysql -循环遍历单行的列，并将值传递给数组

、、

每列包含一个分隔字符串，如a#b#c#d，其中a、b、c、d是不同语言(a=english、b=french等)的值我需要通过id选择一行，分解每一列的值(f1，f2...)使用'#‘来获取我需要的语言部分，然后将值传递给一个数组，以便在我的产品规范页面中使用。如何遍历获取的行(我使用$row = my_fetch_array)并将分解后的值放入一个一维数组中，如$specs=('green&#

浏览 3提问于2011-12-16得票数 2

回答已采纳

2回答

使用有效字段中断输入框；knockoutJS

、、

来自<td><select data-bind="options: $root.availableMeals, value: meal, optionsText: 'mealName'"></select></td> <td><select data-bind="options: $root.availableMeals, value: name, optionsText: 'mealName'"></select></td&g

浏览 0提问于2016-03-01得票数 0

回答已采纳

1回答

Jupyter Notebook在启动时没有显示pyspark内核

、、、

我在jupyter notebook中运行pyspark脚本，但是内核没有启动。从下拉列表中选择pyspark后，内核加载并保持忙碌一段时间，然后显示"no kernel“。有人能帮我吗？注意:运行“pyspark kernelspec list”时，我可以在列表中看到$Jupyter内核。

浏览 25提问于2019-05-16得票数 0

2回答

如何创建Jsonpath文件在redshift中加载数据

下面是我对Json的一个示例记录： "viewerId": "Ext-04835139", "firstHbTimems": 1.506283958371E12, "streamUrl": "https://dc3-ll-livedazn-dznlivejp

浏览 0提问于2017-10-16得票数 0

2回答

计数选择算法

、、

我已经得到了一个算法的基本代码，该算法在一个未排序的数组中选择第k个最小的元素(或者排序，我不确定)。通常，我们会使用快速选择，但我们已经给了另一个选择，它已经被标记为'countingselect‘作为函数名。 counting select使用类似的方法对排序进行计数。列表中的项被用作计数数组的索引。然后，从数组的低值端开始，累积项计数，直到总数超过所需的值。对于我们给出的代码，我的第一个困惑是'cap‘的<e

浏览 5提问于2012-06-01得票数 1

回答已采纳

1回答

将星火DataFrame列中的JSON数据转换为表格格式

、、、、

浏览 2提问于2021-04-09得票数 0

回答已采纳

1回答

Pyspark over zeppilin:无法导出为csv格式？

、、

我正在尝试将数据帧导出到S3存储桶的.csv文件中。不幸的是，它保存在拼图文件中。谁能让我知道，如何得到出口火花源数据帧到.csv文件。我尝试了下面的代码: predictions.select("probability").write.format('csv').csv('s3a://bucketname/output/x1.csv') 它抛出这个错误: CSV数据源不支持结构，values:array>数据类型。感谢任何人的帮助。注意:我的spark设置是基于zepplin的。谢谢，Naseer

浏览 15提问于2019-02-11得票数 2

回答已采纳

1回答

jq解析获取值

、、

我需要从一个json文件中获取一些值。我需要获取一个数组(dimmer1、dimmer2) 有人知道吗？

浏览 0提问于2015-04-01得票数 24

回答已采纳

1回答

在火花放电数据中查找阈值

、、

在python中，我想做的只是一些琐碎的事情--然而，我似乎找不到一种不用花很长时间使用pyspark的方法。|-- dimensions: array (nullable = true)每个数组大约是搜索这个数组以找到最大值和阈值(最大值的50%的第一个实例)只需要很短的时间--但是只有在数据以“正常”格式(numpy数组)的情况下才能找到。为了避免使用.co

浏览 3提问于2021-12-01得票数 0

回答已采纳

2回答

子字符串PySpark* 2.2中数组列的每个元素*

、、、

我想在PySpark 2.2中子串数组列的每个元素。我的df类似于下面的df，它类似于this，尽管我的df中的每个元素在连字符分隔符之前都有相同的长度。有没有办法在PySpark 2.2中做到这一点？import pyspark.sql.functions as F cust_udf = F.udf(lambda arr: [x[0:4

浏览 24提问于2021-09-09得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云