不带join操作的pyspark中同一列上的多个AND条件_多个列上的pyspark条件并返回新列_如何使用OR子句在pyspark中的多个列上构建一个join子句？ - 腾讯云开发者社区

python、function、join、pyspark、inner-join

如何编写一个通用函数来连接两个PySpark数据格式？我想要编写一个函数，在两个数据文件上执行内部连接，并在加入后消除重复的公共列。据我所知，没有办法做到这一点，因为我们总是需要在加入时手动定义公共列。还是有办法？

浏览 4提问于2022-07-30得票数 -1

回答已采纳

3回答

为什么在左外部连接中需要'ON‘子句

sql、join、syntax、left-join、outer-join

据我所知，在两个表(比如a& b)之间的左外部连接中，无论右侧表中的行中的值是什么，都会检索连接左侧表中的所有行。那么为什么我们需要一个'ON‘子句来指定一个条件，就像这样： select * from a LEFT OUTER JOIN b on a.some_column1 = b.some_column2; 为什么需要"a.some_column1 = b.some_column2“这句话。

浏览 2提问于2018-06-10得票数 2

1回答

在pyspark中将对象传递给UDF

python、pyspark、databricks

我需要在Spark DataFrame中的列的每个单元格上应用一个方法。我正在使用一个数据库来查找单元格的值。我使用的UDF将Database作为输入，如下所示，但它不起作用并返回一个错误。 from pyspark.sql.functions import udf, col import random asndb = pyasn.pyasn('/dbfs/mnt/geoip/ipasn.db') def asn_mapper(ip, asndb): try: ret = asndb.lookup(ip) ret = ret[0] if ret

浏览 36提问于2019-11-02得票数 0

2回答

具有3个表的链接表-架构设计

c#、sql、schema

我正在寻找一种将“上传附件”功能实现到系统的方法。这些附件可以应用于两个领域，调查答案和员工行动。我想要一个链接表，因为我想要一种实现附件存储库的方法，这样它们就可以应用于答案和操作，而不必再次上传相同的文档。我可以简单地创建一个链接表，如下所示： INT - AttachmentId INT -系统中的AppliesTo ->枚举(1表示应答，2表示操作) INT- AppliesToId ->操作或应答的Id 这是一个糟糕的设计吗？我有一种感觉，我走错了路。这是我的第一篇帖子，所以道歉，如果它不符合标准的话！非常感谢，克里斯

浏览 1提问于2013-01-22得票数 0

1回答

PicklingError:无法对未打开以读取的文件进行筛选：

logging、pyspark、databricks、azure-databricks

我在databricks上遇到的错误： /databricks/spark/python/pyspark/cloudpickle/cloudpickle_fast.py in dumps(obj, protocol, buffer_callback) 71 file, protocol=protocol, buffer_callback=buffer_callback 72 ) ---> 73 cp.dump(obj) 74 return file.get

浏览 4提问于2022-11-07得票数 0

1回答

使用QuantileDiscretizer的pyspark中的百分位数排名

pyspark、apache-spark-sql、quantile

我想知道是否可以在pyspark中使用QuantileDiscretizer转换器获得percentile_rank的结果。这样做的目的是为了避免计算整个列的percent_rank，因为它会生成以下错误： WARN WindowExec: No Partition Defined for Window operation! Moving all data to a single partition, this can cause serious performance degradation. 我遵循的方法是首先使用QuantileDiscretizer，然后规范化为0,1 from

浏览 67提问于2020-07-27得票数 1

1回答

从非分区单元表到分区单元表的PySpark数据加载的性能优化

apache-spark、pyspark、hive、apache-spark-sql

我们有一个要求，从一个非分区的work_db.customer_tbl外部蜂窝表通过PySpark从一个分区的外部的蜂巢表通过PySpark摄取数据，以前是通过hive查询完成的。最后一个表由列 load_date (load_date列的格式为load_date)进行分区。因此，我们有一个简单的PySpark脚本，它使用一个插入查询(与前面使用的单元查询相同)来使用spark.sql()命令摄取数据。但是，我们有一些严重的性能问题，因为我们在摄入后试图摄入的表大约有3000分区，和每个分区大约有4MB的数据，除了最后一个分区大约4GB。总表大小接近15 is。另外，在摄入每个分区之后，每

浏览 2提问于2021-03-25得票数 0

2回答

数据库.自动并行性和Spark

apache-spark-sql、parallel-processing、query-optimization、azure-databricks

我有一个关于数据库单元格和Spark的自动并行性的一般性问题。我有一个摘要表，其中有许多字段，其中大多数字段背后有一个复杂的逻辑。如果我在单个单元中放置单个字段逻辑的块(%SQL)，调度程序是否会自动尝试将单元分配到集群中的不同节点以提高性能(取决于我的集群有多少节点)？或者，我可以使用它们的PySpark函数来组织并行运行吗？我在其他地方找不到很多这件事..。我正在使用LTS 10.4 (Spark3.2.1Scala2.12) 非常感谢理查德

浏览 3提问于2022-05-04得票数 0

回答已采纳

1回答

与空字符串的条件连接

dataframe、join、pyspark

我有三份数据如下。 df_prod Year ID Name brand Point 2020 20903 Ken KKK 2000 2019 12890 Matt MMM 209 2017 346780 Nene NNN 2000 2020 346780 Nene NNN 6000 df_miss Name brand point Holy HHH 345 Joshi JJJ 900 df_sale ID Name Year brand 12

浏览 3提问于2020-11-11得票数 0

回答已采纳

2回答

PySpark DataFrame -动态连接多个列

python、apache-spark、dataframe、pyspark、apache-spark-sql

假设我在Spark上有两个DataFrames firstdf = sqlContext.createDataFrame([{'firstdf-id':1,'firstdf-column1':2,'firstdf-column2':3,'firstdf-column3':4}, \ {'firstdf-id':2,'firstdf-column1':3,'firstdf-column2':4,'firstdf-column3':5}]) seconddf = sql

浏览 15提问于2016-09-21得票数 8

回答已采纳

1回答

如何在不将列列表临时存储到变量中的情况下重命名df列？

python、pandas、pyspark、apache-spark-sql

我正在提取Snowflake表并将其加载到PySpark DataFrame中，并且我想重命名它的列。现在，正在将加载的数据帧存储到一个变量中，然后访问列列表： calculated_signal_df = ( spark.read.format("snowflake") .options(**sfOptions) .option("query", "select * from iot.calculated_signal") .load() ) calculated_signal_df = calculated_s

浏览 1提问于2021-04-21得票数 0

2回答

如何使用多重或条件过滤火花中的值？

python、apache-spark、pyspark、azure-databricks

我正在尝试将SQL查询转换为Pyspark。SQL查询如下所示。在以下条件满足的情况下，我需要设置ZIPCODE='0‘。 UPDATE COUNTRY_TABLE SET COUNTRY_TABLE.ZIPCODE = "0" WHERE (((COUNTRY_TABLE.STATE)="TN" Or (COUNTRY_TABLE.STATE)="DEL" Or (COUNTRY_TABLE.STATE)="UK" Or (COUNTRY_TABLE.STATE)="UP" Or (COUNTRY_

浏览 6提问于2022-10-17得票数 0

回答已采纳

1回答

如何使用PySpark的RegexTokenizer从字符串中删除数字？

python、apache-spark、pyspark

我想使用PySpark的RegexTokenizer从DataFrame列中删除5位或更多位的数字。我可以使用下面的代码提取这些数字，但有人知道我如何删除它们吗？我的代码： regexTokenizer = RegexTokenizer(inputCol="description", outputCol="tokenized_description", gaps=False,pattern="[0-9]{5,}") 如果字符串是"123abc 122323232"，我希望它去掉122323232，变成"123abc“

浏览 0提问于2019-02-13得票数 0

1回答

如何通过比较两个数据文件的列值来有效地连接它们

pyspark、apache-spark-sql

浏览 5提问于2022-03-23得票数 0

回答已采纳

3回答

这不会返回任何内容。为什么？

sql、sql-server、inner-join、where

SELECT Recipes.RecipeID, Recipes.RecipeTitle FROM Recipes INNER JOIN Recipe_Ingredients ON Recipes.RecipeID = Recipe_Ingredients.RecipeID INNER JOIN Ingredients ON Ingredients.IngredientID = Recipe_Ingredients.IngredientID WHERE (Ingredients.IngredientName = 'Beef')

浏览 20提问于2017-08-16得票数 2

2回答

创建新列，以将与另一列中的另一个重复值对应的值安排在单行中。

pyspark、spark-dataframe

我有一个类似于这个例子的DataFrame：我希望获得以下新的数据：最新情况:2 import pyspark.sql.types as typ import pyspark.sql.functions as fn import datetime from pyspark.sql.functions import * labels=[('name', typ.StringType()),('month', typ.StringType()),('degree',typ.FloatType())] schema=typ.Struc

浏览 2提问于2018-01-07得票数 4

回答已采纳

1回答

在pyspark中动态生成连接条件

join、dynamic、pyspark

有没有人可以建议一种方法来传递一个listofJoinColumns和一个条件来加入pyspark。例如，我需要从列表中动态获取要连接的列，并希望在连接时传递另一个条件。下面解释了在scala中完成的类似操作：generating join condition dynamically in spark/scala 我正在寻找一个类似的解决方案在pyspark。我知道我可以使用join，例如a.join(b，a.join can，how="inner")，但我也想传递一个join条件：我想把它称为a.join(b，a.join call and join conditio

浏览 16提问于2020-11-10得票数 1

1回答

如何用火花数据框架计算星火数据流对象

apache-spark、pyspark、spark-streaming

我正在编写一个星星之火应用程序，在这个应用程序中，我需要根据位于sql server数据库中的历史数据对流数据进行评估。现在的想法是，spark将从数据库中获取历史数据，并将其保存在内存中，并根据它对流数据进行评估。现在我得到的流数据是 import re from pyspark import SparkContext from pyspark.streaming import StreamingContext from pyspark.sql import SQLContext,functions as func,Row sc = SparkContext("local[2

浏览 4提问于2016-05-11得票数 5

2回答

PySpark DataFrame地板分区不支持操作数类型

pyspark

我有如下所示的数据集：我是按年龄分组的，平均每个年龄的朋友数。 from pyspark.sql import SparkSession from pyspark.sql import Row import pyspark.sql.functions as F def parseInput(line): fields = line.split(',') return Row(age = int(fields[2]), numFriends = int(fields[3])) spark = SparkSession.builder.appName

浏览 3提问于2020-07-11得票数 5

回答已采纳

1回答

倍增两种火花放电数据

python、apache-spark、pyspark、apache-spark-sql

我有一个PySpark DataFrame，df1，看起来像： CustomerID CustomerValue CustomerValue2 15 10 2 16 10 3 18 3 3 我有第二个PySpark DataFrame，df2 CustomerID CustomerValue 15 2 16 3 18 4 我希望将df1的所有列(我

浏览 0提问于2018-09-27得票数 1

回答已采纳

2回答

为独立应用程序导入pyspark

python、apache-spark、pyspark

我正在学习使用Spark。到目前为止，我一直关注的文章。当我尝试导入pyspark时，我得到了以下错误。在pyspark中有一个文件accumulators.py。 >>> import os >>> import sys >>> os.environ['SPARK_HOME'] = "E:\\spark-1.2.0" >>> sys.path.append("E:\\spark-1.2.0\\python") >>> from pyspark import

浏览 1提问于2015-02-09得票数 4

1回答

火花放电操作比蜂巢慢

apache-spark、pyspark、apache-spark-sql、pyspark-sql

我有3个数据-- df1，df2和df3。每个dataframe大约有300万行。df1和df3有学徒。8栏。df2只有3列。 ( df1的源文件大小约为600 is ) --这些是执行的操作： df_new=df1左加入df2 ->group by df1列->选择df1列，首先(df2列) df_final = df_new外部连接df3 df_split1 =使用condition1过滤的df_final df_split2 =使用condition2过滤的df_final 在对两个数据文件执行不同的操作后，将df_split1、df_split2写入单个

浏览 3提问于2016-04-17得票数 0

2回答

删除字符串中的空空格和字符串

regex、pyspark、regexp-replace

在具有以下值的行中： ' ,some value, some value,' 或 'some value, some value, ' 使用pyspark，我需要从字符串的开头或结尾移除空空间和,。这是如何用regexp_replace来完成的？

浏览 12提问于2022-10-27得票数 -1

1回答

这种加入行为正常吗？

python、dataframe、apache-spark

from datetime import * from pyspark.sql.functions import * from pyspark.sql.types import * columns = [ 'id1', 'id2', 'val' ] ids = [ 'id1', 'id2' ] vals1 = [ (1, 'a', 1), (2, 'b', 4), (4, None, 1), ] df1 = spark.

浏览 3提问于2022-09-19得票数 0

回答已采纳

1回答

将numpy中的不同数组添加到数据帧的每一行

apache-spark、pyspark、apache-spark-sql、pyspark-sql

我有一个SparkSQL数据帧和2Dnumpy矩阵。它们具有相同的行数。我打算将numpy矩阵中的每个不同数组作为新列添加到现有的PySpark数据帧中。这样，添加到每一行的列表是不同的。例如，PySpark数据帧如下所示 | Id | Name | | ------ | ------ | | 1 | Bob | | 2 | Alice | | 3 | Mike | numpy矩阵是这样的 [[2, 3, 5] [5, 2, 6] [1, 4, 7]] 产生的预期数据帧应该如下所示 | Id | Name | custo

浏览 16提问于2019-10-05得票数 0

1回答

仅在具有特定标记的情况下获取记录

sql、sql-server

我有以下sql查询，以获取未被注意到的问题，这些问题除了我最喜欢的标记之外没有其他标记，另外它还包含更多的过滤器。这个查询有两个主要问题(它可能需要更多的改进) 我使用了一种伪技术来实现，并且只在=>中实现(您可以看到查询)。我必须先使用相同的查询两次才能获得所需的内容，然后使用筛选器以外的方法过滤相同的结果，以忽略除我最喜欢的标记之外还有其他标记的所有问题)。我找不到别的办法去做了。我应用distinct是因为它给了我重复的结果，即使我没有使用任何左联接。如何在不使用关键字的情况下区分Ids ？ Select distinct top 100 'ht

浏览 1提问于2016-09-05得票数 2

回答已采纳

3回答

在中插入和删除数据

apache-spark、pyspark

我有一个input_dataframe PySpark Dataframe，如下所示： **cust_id** **source_id** **value** 10 11 test_value 10 12 test_value2 我有另一个dataframe delta_dataframe，它更新了来自input_dataframe的记录和一些新记录，如下所示： **cust_id** **source_id** **value** 10

浏览 3提问于2017-07-26得票数 0

回答已采纳

1回答

有没有一种方法可以对已经“刻面”的表格进行细分？

google-refine

我有一个表，为了查找重复项(在列上)，我对其应用了自定义的facet。现在我想用这个facet在表上应用一个新的facet (在另一列上)。这有可能吗？似乎它每次只能使用一个方面，而不能将它们组合在一起。干杯, elisa

浏览 8提问于2012-05-04得票数 2

1回答

我能得到关于我的Postgres表现的反馈吗？

postgresql、query-optimization

这是我在pgAdmin4中执行的查询： update point set grid_id_new=g.grid_id from grid as g where (point.region='EMILIA-ROMAGNA'and st_within(point.geom,g.geom)) Point是一个3400万条记录表，描述一个点几何(16 GB - 20列) Grid是一个1000万记录表，描述一个多多边形几何图形(网格)(4GB) 我希望我的点表与它们所在的网格ID相关联。查询输出在24分钟内更新了250万条记录(因为我按区域过滤)。我觉得花了太多时间。这些是我的电

浏览 2提问于2021-04-02得票数 0

1回答

如何使用代理键执行更新查询

mysql、database、performance、surrogate-key

我对数据库的概念非常陌生，目前正在学习如何设计数据库。我有一张表，下面有几列... 这是在mysql中： 1. Names - text - unique but might change in future 2. Result - varchar - not unique 3. issues_id - int - not unique 4. comments - text - not unique 5. level - varchar - not unique 6. functionality - varchar - not unique 我不能选择上述任何列作为主键，因为它们将来可能会更改

浏览 4提问于2013-03-05得票数 1

回答已采纳

1回答

MySql是否与find_in_set一起工作不正常？

mysql、join、left-join

我使用left编写了查询，它连接了3个表来获取数据，它们是：产品： product_id category_id master_category_id manufacturers_id product_name product_img product_des product_price product_status 17421 194 4,6,7,5 2504 prod_name image-1.jpg ---- ---- 1 maste

浏览 0提问于2018-06-28得票数 1

回答已采纳

1回答

如何减少基于CREATE VIEW的冗长SQL查询？

mysql、sql、wordpress

我一直依赖CREATE VIEW和别名来创建SQL查询，相信有一种更有效的方法可以做到这一点。有没有人能给我们一些一般性的建议？这是我最新的反感： SELECT associations2.object_id, associations2.term_id, associations2.cat_ID, associations2.term_taxonomy_id FROM (SELECT objects_tags.object_id, objects_tags.term_id, wp_cb_tags2cats.cat_ID, categories.term_taxonomy_id FRO

浏览 0提问于2012-02-20得票数 0

回答已采纳

2回答

SQL连接具有多个位置的四个表的数据

sql

嗨，我有下面的sql语句，它可以很好地连接四个表。表为人(c，e)，关系(d)，PersonFamily(b)，家庭(A)。我添加了一个条件，比如‘% d.Relationship’，因为我想要过滤这个特殊的关系，所以它只检索(c)如果关系是父亲、继父、祖父等的数据。一旦添加这个条件，它就失败了--我还没有找到有多个条件的例子，因为我需要为母亲再添加一个条件，但我希望它出现在f.Title、f.Forename、f.Surname下面的同一行中。我想，如果我能够理解如何在sql中执行多个where操作，那么我也可以检索出母数据。 SELECT a.pk_FamilyID, a.Salutat

浏览 2提问于2015-02-25得票数 1

回答已采纳

2回答

在Python中线程多个SQL查询的良好实践/设计是什么？

python、mysql、multithreading

我从网站中提取信息，并使用Pythonwith和将其存储到数据库中。该网站由大约15个不同的城市组成，每个城市都有10至150页的网页。总共大约有500页。对于每个城市的每个页面，我使用BeautifulSoup打开站点，提取所有必要的信息，然后执行insert into或update SQL查询。目前我不使用线程，浏览所有500页需要几分钟，因为Python程序. 打开一页。提取信息。执行SQL查询。打开下一页。理想情况下，我希望负载平衡线程，例如，有10个并发线程，每个线程打开大约50页。但我认为这可能太复杂了，无法编码。因此，相反，我在考虑在每个城

浏览 2提问于2012-02-09得票数 2

回答已采纳

2回答

为什么火花不认识我的“数据布尔表达式”？

python、apache-spark、pyspark、apache-spark-2.0

环境 pyspark 2.1.0python 3.5.2 问题我有一个多个条件的连接： join_cond = [ (col("ltmr1.anc_ref") == col("global.anc_ref") & col("global.straight_distance") >= args.radius_1 & col("global.straight_distance") <= args.radius_2) ] 以后使用的方法： ltm_r1_in_r2 = data_

浏览 8提问于2021-07-09得票数 0

回答已采纳

2回答

TSQL -在多个列中搜索单个值

tsql、barcode

我们的数据库包含以下项目信息： ItemNumber | ItemDescription | CaseUPC | BoxUPC | UnitUPC =============================================================================== 12345 | Widget | 00487060982629 | 00334556905837 | 00803709021138 23456 | Dunkit | 00442765157512 | 00

浏览 16提问于2019-03-06得票数 0

回答已采纳

1回答

将字符串数组的pyspark列转换为databricks上的字符串时出错

python、dataframe、apache-spark、pyspark

我正在尝试将pyspark dataframe列从字符串数组转换为字符串。 df： text [this, is, a, book, that, I, like] 我需要： text "this, is, a, book, that, I, like" 基于How to convert column of arrays of strings to strings?，我的py3代码： import pyspark.sql.functions as F t = df.withColumn('text', F.concat_ws(", &

浏览 7提问于2020-09-14得票数 0

回答已采纳

1回答

建立电火花会话面临的问题

apache-spark、pyspark、apache-spark-sql

我正在尝试连接两个数据库Postgres和Server。 from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("Spark SQL basic example") \ .config("spark.jars", "mssql-jdbc-8.4.1.jre8.jar") \ .getOrCreate() spark1 = SparkSession \ .builder \ .appName(

浏览 8提问于2022-08-05得票数 0

1回答

设计包含逻辑运算符的数据模型

database、database-design、plsql、oracle11g、data-modeling

我是数据建模的新手，在想出一个可以存储逻辑的数据模型时遇到了麻烦。数据模型将用于存储位置和营销属性。当客户访问该公司的网站时，他们会输入他们的邮政编码，根据他们的位置，这些属性将被用来安排在线商品目录。条目的目录将与数据库分开，因此数据模型将只生成用于排列条目的属性的输出。目录中的每个项目都具有ItemNumber、价格、条件、制造和营销细分(年龄:成人、教育程度:大学、收入:高等)等属性。 **For example:** **Input zip code**: 90210 **Output Attributes**: (ItemNumber:123456, Segment:H

浏览 0提问于2016-04-12得票数 0

4回答

如何查询mysql进行多值选择和分组

mysql

我尝试按下表中的所有contentId值进行选择和分组，其中匹配条件可以是几个不同的值。 ContentId值实际上表示汽车，所以我需要根据值为'GMC‘、值为'sedan’、值为'automatic‘的所有争用项进行选择和分组。也就是说，我正在尝试选择所有自动变速器的GMC轿车。像这样的查询显然失败了 select * from modx_site_tmplvar_contentvalues WHERE `value` = 'gmc' and `value` = 'tacoma' group by contentid 我不知道如何创

浏览 1提问于2014-08-21得票数 0

1回答

自然连接的结合性

database、relational-database、relational-algebra、natural-join

我想知道关系代数中的自然连接操作是否具有结合性。我的意思是，下面的方程式是真的吗？ (S1 NATURAL JOIN S2) NATURAL JOIN S3 = S1 NATURAL JOIN (S2 NATURAL JOIN S3) 直觉上它看起来与我有联系，但我不确定。谢谢

浏览 1提问于2013-04-06得票数 1

回答已采纳

1回答

如何将列分割成标号和化石粉中的特性？

python、csv、apache-spark、pyspark、apache-spark-ml

我正在学习PySpark。在中，有一个例子： from pyspark.ml.linalg import Vectors from pyspark.ml.classification import LogisticRegression # Prepare training data from a list of (label, features) tuples. training = spark.createDataFrame([ (1.0, Vectors.dense([0.0, 1.1, 0.1])), (0.0, Vectors.dense([2.0, 1.0, -1.

浏览 0提问于2019-02-13得票数 1

回答已采纳

1回答

在pyspark中参数化连接条件

apache-spark、pyspark、apache-spark-sql

我有一个列名列表，每次列名都不同。列名存储在列表中。因此，我需要传递列表中的列名(在下面的示例中，列名是其id和programid id)，以便在源数据帧和目标数据帧之间进行比较。在下面的示例中，我想检查src_id == id和src_programid == programid是否。 from pyspark import SparkContext, SparkConf, SQLContext from pyspark.sql.functions import col, when srccolumns = ['src_id','src_programid'

浏览 14提问于2019-04-13得票数 0

4回答

pyspark连接多个条件

apache-spark、pyspark、apache-spark-sql

在使用.join()时，如何在pyspark中指定许多条件示例:使用hive： query= "select a.NUMCNT,b.NUMCNT as RNUMCNT ,a.POLE,b.POLE as RPOLE,a.ACTIVITE,b.ACTIVITE as RACTIVITE FROM rapexp201412 b \ join rapexp201412 a where (a.NUMCNT=b.NUMCNT and a.ACTIVITE = b.ACTIVITE and a.POLE =b.POLE )\ 但在PySpark中，我不知道如何制作它，因为以下是： df

浏览 0提问于2015-12-02得票数 23

3回答

PostgreSQL - GROUP BY子句或用于聚合函数

sql、ruby-on-rails-3、postgresql、heroku

我在这里找到了一些主题，但我仍然找不到适合我的查询的设置。这是查询，在localhost上运行得很好： @cars = Car.find_by_sql('SELECT cars.*, COUNT(cars.id) AS counter FROM cars LEFT JOIN users ON cars.id=users.car_id GROUP BY cars.id ORDER BY counter DESC') 但是在H

浏览 3提问于2012-04-15得票数 30

回答已采纳

1回答

如何使用hibernate和jpa获取oneToMany惰性关系

hibernate、jpa、fetch、jpql

问题: hibernate忽略了我在查询中的连接提取。我的目的是从被设置为惰性的product_item关系中检索oneToMany元素，但这种情况并没有发生。这是我正在尝试运行的查询： em.createQuery("SELECT DISTINCT e " + "FROM ereturn e, " + "user shipper " + "JOIN FETCH product_item pi on pi.ereturn.id = e.id " +

浏览 1提问于2018-01-31得票数 1

回答已采纳

1回答

星星之火:用另一列的值替换缺少的值

apache-spark、pyspark、apache-spark-sql

假设您有一个包含一些空值的，如果存在的话，您希望将一个列的值替换为来自另一个列的值。在Python/Pandas中，您可以使用Pandas()函数很好地完成这一任务： df = spark.createDataFrame([('a', 'b', 'c'),(None,'e', 'f'),(None,None,'i')], ['c1','c2','c3']) DF = df.toPandas() DF['c1'].fillna(DF[&#

浏览 1提问于2017-02-09得票数 4

回答已采纳

1回答

GeoPandas .sjoin大型结果表

python、pandas、geopandas

我有两个数据帧，每个数据帧都包含几何列。第一个数据帧包含POLYGONS，第二个数据帧包含POINT。我的目标是加入数据帧，以便将每个POINT分配给相应的POLYGON。DF_polygons有113704行，DF_points有23223行。我使用以下代码连接数据帧(还尝试了'within'和'contains')： points_in_polygons = gpd.sjoin(DF_points, DF_polygons, op='intersects') 问题是，它返回的结果在所有情况下都近似为3.000.000 rows。会有什么问

浏览 1提问于2020-06-01得票数 0

2回答

如何删除所有重复行(忽略某些列)而不留下任何dupe对？

python、apache-spark、pyspark

我有下表： df = spark.createDataFrame([(2,'john',1), (2,'john',1), (3,'pete',8), (3,'pete',8), (5,'steve',9)], ['id',&

浏览 1提问于2018-06-19得票数 1

回答已采纳

4回答

连接多个字段上的两个Spark数据帧

apache-spark、dataframe、join

我正在尝试在多个字段上连接Spark中的两个数据帧。我试过这个： df1. join(df2, df1$col1 == df2$col2 && df1$col3 == df2$col4) 但这不起作用(有一系列错误，如果需要，我可以列出)。有没有更好的方法来写这篇文章？我需要在Spark中做这件事，而不是pySpark，等等。

浏览 0提问于2018-04-16得票数 3