使用数据帧的Pyspark子选择/子查询连接_如何使用Pyspark从xml文件创建子数据帧？_使用子选择的JPA查询 - 腾讯云开发者社区

、、、

我希望加入到一个值的基础上，最接近的匹配低于该值。在SQL中，我可以很容易地做到这一点。0.99638519|14.5 |0.997435894|15.5 |0.999135509 在SQL中，我可以通过使用以下命令来实现连接tblCoefficients b where b.Metric <= a.Temperature order by b.Metric desc) as coefficient from tblAc

浏览 37提问于2021-02-09得票数 0

回答已采纳

1回答

如何使用Pyspark从xml文件创建子数据帧？

我在pyspark中有所有这些支持库，并且我能够为parent创建数据帧- def xmlReader(root, row, filename): return xref df1.head() 我无法创建

浏览 11提问于2019-03-15得票数 0

1回答

如何在pyspark中组合包含和正则表达式？

、、、

你好，堆栈溢出社区，我在pyspark中使用两个数据帧df1和df2进行连接：我希望df2.col1值在前后有一个空格，并且是df1.col1的子字符串。当我尝试这样做时，它不起作用。

浏览 9提问于2021-08-06得票数 0

1回答

使用groupBy()的pySpark子数据帧

、

我有一个pySpark数据帧，想用groupBy操作做几个子数据帧。例如，我有一个像这样的DFDF = s1 p o1 s3 q o3并希望拥有一个具有相同关系名称的子数据帧<

浏览 5提问于2019-12-25得票数 0

1回答

如何在Pyspark中不使用API连接表的情况下执行子查询？

、、

我正在重写一些SQL代码，其中有一段代码使用子查询。我可以将其编写为连接，但想知道它是否可以在Pyspark中以类似的子查询方式完成。在SQL代码中使用子查询具有显著的性能优势，但是想知道这在Pyspark中是否会由于DAG中的优化而不相关。因此，如果有人能够解释相对性能权衡，这将是有帮助的，如果有权衡的话。逻辑非常简单:我有df_a，我想从df

浏览 1提问于2020-04-08得票数 0

2回答

Pyspark:通过ID和最近日期向后加入2个数据帧

、、、

在pyspark (和一般的python )中执行两个数据帧的滚动连接时，我遇到了很多问题。我希望将两个pyspark数据帧通过它们的ID和最近日期反向连接在一起(这意味着第二个数据帧中的日期不能晚于第一个数据帧中的日期) Table_2：期望的

浏览 1提问于2020-08-08得票数 2

1回答

从PySpark运行大量配置单元查询

、、、

我想要执行大量的配置单元查询，并将结果存储在数据帧中。我有一个非常大的数据集，结构如下：| visid_high，它使用每一行作为二级查询的输入：for session in sessions.collect()[:100]: query

浏览 5提问于2018-07-23得票数 0

1回答

访问jupyter中的数据帧元素pyspark

、、、

我对spark和pyspark是个新手。我的DataFrame由几列组成，在一些列中，是数组或子数据帧。我的问题是如何访问等元素谢谢您的帮助

浏览 19提问于2018-03-01得票数 0

回答已采纳

1回答

nhibernate多标准CTE子查询

、、

我目前有一个MultiCriteria查询，它根据子查询中的ids过滤结果子查询对于多准则查询中使用的所有查询都是相同的在sql中，子查询被重复了15次，这看起来有点丑陋。单独查询的原因是每个查询

浏览 2提问于2010-07-08得票数 1

回答已采纳

1回答

在oracle中有什么替代查询的方法吗？

、、、、

b.id 以及如何从(select ci.cardno from taccount ac,tcardinfo ci where ac.accountno = ci.accountno)或任何其他方式选择多个字段请注意，不是两个查询(主查询和子查询)中的关系。子查询取值取决于主查询的数据。主查询是多表连接的数据集，子</e

浏览 21提问于2020-06-11得票数 0

1回答

跨多列搜索子字符串

、

我正在尝试使用PySpark在spark数据帧的所有列中查找一个子字符串。我目前知道如何使用filter通过一列搜索子字符串，并且包含： df.filter(df.col_name.contains('substring')) 如何扩展这条语句或利用另一条语句在多个列中搜索子字符串匹配

浏览 21提问于2019-10-17得票数 0

回答已采纳

1回答

通过PySpark覆盖(更新) S3上的数据

、、

我有一个pyspark脚本，它将被airflow重复执行。df.write.mode('overwrite').parquet(s3_url) 它会完全清除目录(删除目录)。我是不是误解了“覆盖”模式？简而言之，我希望继续覆盖到特定的s3路径，而不是根据我选择运行执行脚本的时间创建子文件夹。当我用上面的代码尝试这样做时，它删除

浏览 7提问于2021-05-12得票数 1

1回答

如何用sacala代码详细说明pyspark代码？

、、

我想把这段Scala代码转换成Pyspark代码。columnArray(1)=x.substring(11,14) Row.fromSeq(columnArray)在pyspark上，同样的scala代码有多复杂？

浏览 0提问于2018-05-15得票数 0

1回答

如何删除火花放电数据栏中的引号“”

、、

我有一个数据框架。+-------+-----+|"asasa"| 8888||"wewwe"|99999|我想要的是-----+-----+| asasa | 8888|| wewwe |99999|如何在火花2中使用火花放电代码实现这一目标

浏览 1提问于2019-11-08得票数 2

1回答

Oracle:连接两个快速、不相关的查询，导致查询速度慢。

、、

为什么两个快速、简单的查询的连接要花这么长时间才能运行？我有一个查询，它连接一个不相关的子查询(为了说明起见，我已经将这个示例简化了一些)，返回3450行数据需要花费1684秒。' with‘子句重写的整个查询--与运行上述整体查询相同的性能： 使用</e

浏览 2提问于2018-06-28得票数 1

1回答

如果子查询返回太多的数据，我应该担心吗？

、、、

如果没有内部连接(以减少数据)而只剩下外部联接，这是否会使事情变得更糟/更慢，因为它必须与子查询中的所有行一起进行联接？如果(2)是一个问题，那么我想出的一个解决方案是通过添加其他连接来限制子查询返回的数据，这会使事情变得更慢(我已经尝试过了)。对这件事还有什么想法吗？为了澄清问题，子查询返回太多数据的原因是，我试图<

浏览 1提问于2012-12-10得票数 2

回答已采纳

1回答

Typeorm -使用子查询

、

我的数据库中有3个实体，我们可以想象这3个实体(我只保留了重要的列)。type => Stream) @PrimaryGeneratedColumn()我认为我有一些用类型构建查询的技能，但我现在正在使用子查询。连接连接实体的一部分上的所有用户实体(选择几个<

浏览 3提问于2020-07-12得票数 0

2回答

根据单个字段聚合整个行，而不查询源两次，还是使用CTE？

、、、

2 || c | b | 3 |我只想选择，一次直接查询，然后连接到子查询，在该子查询中再次查询源，然后进行聚合。但是，由于我的数据源实际上是一个派生表/子查询本身，所以我必须在SQL中复制子查询<

浏览 0提问于2015-09-03得票数 1

回答已采纳

1回答

在JPA的SQL查询中的FROM语句中包含子查询

、、、、

在其中，我有一个SQL查询，它需要创建子查询，将该子查询的结果与另一个表进行内部连接，然后从该内部连接的结果中进行选择。但显然，JPA不允许在FROM子句中使用子查询(我假设既不使用JPQL，也不使用Criteria API)。有什么办法可以解决这个问题吗？我曾考虑将子查询的

浏览 34提问于2019-05-15得票数 0

1回答

作为数据集的子查询

我在使用子查询时遇到了问题。子查询本身工作；我需要逻辑来生成所需的数据集。但是当我尝试使用它作为数据集时，我得到了下面的错误。显然，我可以使用连接来实现这一点，但我需要这个特定的解决方案来使用子查询方法。我使用的是SQLServer 2008 R2。bkorders.order_details

浏览 0提问于2014-04-02得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云