Spark SQL:在表的列中随机选择10组值_根据Spark中的列值选择文字_SQL -选择其中包含特定值和其他随机值的列 - 腾讯云开发者社区

sql、apache-spark

我有一个表，在一个数据库中。有一列" id“，并且每个id都有多行。我想随机挑选10个I，然后用这些I加载所有行。下面的代码是有效的，并给出了一个包含10个随机ids的表。这很好。distinct_ids = spark.sql(f""" (SELECT DISTINCT id FROM {database_name}.{orig_table_cl_name

浏览 10提问于2021-11-10得票数 0

回答已采纳

2回答

如何使用spark.sql将表列传递给rand函数？

apache-spark、pyspark、apache-spark-sql

我有一个表，在单元元数据中有两列A和B。当A和B对的值与其他记录相同时，我必须生成相同的随机数。示例:使用散列函数对这些记录上的值对2.0 & 3.0或1.0 & 5.0，我将得到hash_code。这个hash_code我将传递给随机函数，以获得每个匹配记录的特定值。编辑1：具有相同种子的函数rand(123)将产生ident

浏览 8提问于2021-12-31得票数 1

1回答

当percentile_approx基于groupby返回特定列的单个值时，如何选择另一列的对应值？

python-2.7、pyspark、pyspark-sql

浏览 0提问于2018-10-18得票数 0

回答已采纳

2回答

在哪些工作负载上使用MapReduce比SQL更有意义，反之亦然？

sql、mapreduce、bigdata

似乎所有用SQL表达的查询都可以转换为MapReduce作业。这本质上就是Spark SQL所做的。SparkSQL接收SQL，将其转换为MapReduce作业，然后在Spark的运行时执行MapReduce作业。所有可以用SQL回答的问题都可以用MapReduce作业来回答。是否所有的MapReduce作业也可以写成SQL (可能有自定义的用户定义函数)？什么

浏览 28提问于2021-03-21得票数 2

1回答

在不更改列名的情况下创建PySpark数据框

apache-spark、pyspark、apache-spark-sql、databricks

我使用下面的CTAS命令使用SparkSQL创建表。FROM TBL1 在那之后，我正在使用下面的PySpark代码读取新创建的位置(TBL2)下面的文件。但是，下面的data frame仅使用lowercase中的所有列名创建。而预期的结果是在camel case中，就像我在上面对CTAS所做的那样。df = spark.read.format('ORC') \ .option('infe

浏览 12提问于2019-12-23得票数 1

回答已采纳

1回答

PySpark/Spark相关标量子查询与order by

sql、apache-spark、random、pyspark

我试图在一个相等的条件下，在Spark中将一个列值从一个表expl连接到我的主表co。问题是，因为有许多行从expl连接，所以我只想加入一个随机行，并使用它的列值。但是，我在子查询select语句或order中遇到了Correlated scalar subqueries错误。没有posts，这样就可以根据子查询的一部分处理订单

浏览 1提问于2020-07-31得票数 0

1回答

sql、pyspark、where-in

我正在寻找一种快速的PySpark替代方案WHERE foo IN (SELECT baz FROM bar)b

浏览 2提问于2020-05-18得票数 2

1回答

我有一个场景，通过where条件从同一个DataFrame中使用另一个列从DataFrame读取一列，这个值作为IN条件通过，从另一个DataFrame中选择相同的值，我如何在spark DataFrame中实现。在SQL中，它将类似于： select distinct(A.date) from table A where A.key in (select B.key from table B wh

浏览 19提问于2021-05-28得票数 0

回答已采纳

2回答

Spark 2.3.1 AWS EMR没有返回某些列的数据，但在雅典娜/Presto和频谱中工作

apache-spark、amazon-emr

上表中每一行的每个值都返回空。数据存储在拼板中。。 .enableH

浏览 1提问于2018-09-13得票数 4

回答已采纳

2回答

如何在使用spark数据帧写入时自动计算numRepartition

apache-spark、hadoop、hive

当我尝试将dataframe写入Hive拼接分区表时它会在HDFS中创建大量的块，每个块只有很小的数据量。我理解它是如何进行的，因为每个spark子任务都会创建一个块，然后向其中写入数据。我也理解，块的数量会提高Hadoop<

浏览 2提问于2018-08-13得票数 1

2回答

如果条件依赖于列的后续值，那么如何在pyspark中创建新列？

apache-spark、pyspark、conditional-statements

如下图所示，我需要从列Value2创建列Value1。问题是，对于所有具有相同时间值的行，列Value2中的值需要是与此时间在Value1中对应的第一个值。因此，如果您查看时间为16:07的所有行的图片，则值需要为100。我知道我需要使用某种形式的条件，但我想不出怎么做，所以我想知道是否有人能指出我的<

浏览 0提问于2020-10-15得票数 0

回答已采纳

1回答

当基于列的条件也必须满足时，如何从Spark数据帧中随机选择行

apache-spark、dataframe、pyspark、apache-spark-sql

假设我们有一个Spark dataframe df，其中有一列col==0，其中此列中的值仅为0和1。我们如何选择所有行中包含col==1的行，以及50%的行中包含col==0的行？50%的col==0人群应该是随机选择的。 sample方法允许随机选择50%的行，但不能强加

浏览 14提问于2019-07-03得票数 1

回答已采纳

2回答

在jdbc数据源上激发SQL持久视图

apache-spark、pyspark、jdbc、apache-spark-sql、view

我想在spark中创建一个持久化(全局)视图，从底层jdbc数据库连接中获取数据。当我使用临时(会话范围)视图时，它工作得很好，如下所示，但是当我试图创建一个常规(持久和全局)视图时，它会失败。我不明白为什么后者不能工作，但是找不到任何文档/提示，因为所有的示例都是用临时视图完成的。从技术上讲，我不明白为什么它不应该工作，因为数据是在临时视图中正确地从jdbc源检索的，因此，如果我想将查询“存储”在一个持久视图中，那么无论何时调用视图，它都可以直接从jdbc源

浏览 14提问于2022-10-27得票数 0

回答已采纳

1回答

在SparkSQL中加入表的顺序以获得更好的性能

sql、hive、apache-spark-sql、sql-optimization

我是Spark-SQL刚开始阅读Hive表的人。我想知道星火如何执行多表 Join。我在某个地方读到，建议始终将最大的表保留在联接顺序的顶部，以此类推，这有利于提高Join效率。我在Join中看到，Spark按顺序将第一个表(最大的)加载到内存中，并流另一个有助于Join性能的表。但是，我对这种策略如何提高性能感到困惑，因为最大的</em

浏览 6提问于2020-06-20得票数 4

1回答

如何使用Spark从mariadb读取数据

java、apache-spark、jdbc、apache-spark-sql、mariadb

我需要使用从MariaDB读取一个表。import org.apache.spark.sql.Row;import static org.apach

浏览 1提问于2018-10-09得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云