腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
pyspark
,
新
列
,
与
模式
不
匹配
、
、
我需要创建一个名为Check的
新
列
,如果一组行中的值不相同,该
列
将显示
不
匹配
。OK| +---------+--------+-----+-------------+---------+ 我正在考虑使用一个窗口函数来按Category对行进行分组,但我仍然坚持如何思考/编写
不
匹配
的逻辑
浏览 15
提问于2021-04-28
得票数 3
回答已采纳
1
回答
在
pyspark
中创建带有arraytype
列
的数据
、
、
、
我正在尝试用ArrayType()
列
创建一个
新
的dataframe,我尝试使用或不定义
模式
,但无法获得所需的结果。我下面的代码有
模式
l = [[1,2,3],[3,2,4],[6,8,9]] StructFieldTrue)df = spark.createDataFrame(l,schema)这会产生错误: ValueError
浏览 2
提问于2020-09-24
得票数 3
回答已采纳
1
回答
声明字段类型和实际字段类型
不
匹配
时生成空值的
PySpark
SQLContext.createDataFrame
、
、
在
PySpark
(v1.6.2)中,当使用指定的
模式
将RDD转换为DataFrame时,值类型
与
模式
中声明的值类型
不
匹配
的字段将转换为null。from
pyspark
import SparkContextfrom
pyspark
.sql.types import StructTypesqlContext.createDataFrame(rdd, schema
浏览 27
提问于2016-07-27
得票数 0
回答已采纳
1
回答
创建一个
新
列
,详细说明一个
PySpark
数据row中的行是否
与
另一
列
中的一个行
匹配
。
、
、
、
我想要创建一个函数,该函数从
PySpark
中的左联接创建一个
新
列
,详细说明一个
列
中的值是否
匹配
或
不
匹配
另一个dataframe逐行的
列
。例如,我们有一个
PySpark
dataframe (d1)具有
列
ID和名称,另一个
PySpark
dataframe (d2)具有相同的
列
- ID和Name。我试图创建一个连接这两个表的函数,并创建一个
新
列
,如
浏览 3
提问于2021-12-11
得票数 0
1
回答
将
pyspark
写入一个雪花表,其中包含相同数量的
列
和一个额外的autoIncrement
列
、
、
我有一个具有5
列
的
pyspark
,我需要写到雪花表中有6
列
,5
列
与
dataframe
列
相同,但是雪花表中有1条额外的自动增量
列
。当我试图将此数据写入雪花表时,它会给出一个错误;由于dataframe和雪花表中有不同的
列
数而导致
列
不
匹配
。我已经试过了
模式
=‘追加’,但那不起作用。**sfoptions) \ .option("dbtable"
浏览 5
提问于2019-10-10
得票数 1
1
回答
PySpark
:爆炸性
模式
列
与
底层嵌套
模式
不
匹配
、
、
我使用火花放电
与
Azure-Synapse相结合。我如何在dataframe中筛选行,这将导致更新
模式
(在这种情况下,没有折扣属性)?
浏览 4
提问于2022-07-11
得票数 0
回答已采纳
2
回答
在多个列上使用AWS胶连接创建重复
、
、
、
我在AWS、table_1和table_2中有两个表,它们的
模式
几乎相同,但是table_2有两个额外的
列
。我试图将这两个表连接到相同的列上,并为
模式
不包括这些值的“旧”数据添加对table_2唯一的
列
,并将其为空值。这个调用成功地将表连接成一个表,但是,生成的joined_table具有
匹配
列
的重复字段。我的两个问题是: 我如何利用AWS Glue作业
与
Pyspark
连接跨两个表
匹配
的所有
列
,以便在添加新字段时
浏览 0
提问于2018-02-13
得票数 4
1
回答
如何删除火花放电数据栏中的引号“”
、
、
我有一个数据框架。| Name| age|| "aaa"| 111|| "2323"| 999|+-------+-----++-------+-----++-------+-----+| asasa | 8888|| wewwe |99999| +-------+--
浏览 1
提问于2019-11-08
得票数 2
1
回答
检查
PySpark
列
是否
与
正则表达式
匹配
,并根据结果创建
新
列
、
、
、
我有一个
PySpark
数据帧,看起来像这样:+----+--------------------++----+------------| sampleexample.org|+----+--------------------+ 我想对上面的dataframe (电子邮件
列
)应用正则表达式,并根据
匹配
结果(True或False)添加一个
新
列
。|3983| sample@ex
浏览 69
提问于2019-11-07
得票数 4
2
回答
在向表中插入数据之前,是否执行
模式
匹配
MySQL-side?
、
、
、
、
我是
新
接触MySQL的,我想知道:有没有可能让一个表根据某种
模式
匹配
来检查尝试的插入,并拒绝任何
与
模式
不
匹配
的插入,或者这些检查都必须在PHP /任何服务器端语言端完成?我特别考虑使用某种类似正则表达式的
模式
匹配
将user表中的email
列
限制为只能包含电子邮件地址。
浏览 0
提问于2013-06-11
得票数 0
回答已采纳
1
回答
使用spark-sql或
pyspark
模式
在
列
之间
匹配
的转换
、
、
、
我有一个问题声明,所有的
列
类型都是字符串 ?
列
A
模式
如果它与
列
C中的
模式
匹配
,则用1更新好的东西,否则(-)
pyspark
、sparksql中的任何查询 感谢Anuj Gupta
浏览 8
提问于2021-11-09
得票数 0
回答已采纳
2
回答
Pyspark
替换Spark dataframe
列
中的字符串
、
、
我想通过替换子字符串在Spark Dataframe列上执行一些基本的词干提取。做这件事最快的方法是什么?id address2 10 bar lane会变成1 2 foo ln3 24 pants ln
浏览 0
提问于2016-05-05
得票数 54
回答已采纳
1
回答
将多个
PySpark
DataFrames
与
MergeSchema合并
、
、
我想将多个
PySpark
数据帧合并到一个
PySpark
数据帧中。它们都来自相同的
模式
,但是它们可能会有所不同,因为有时会缺少一些
列
(例如,
模式
通常包含200个具有已定义数据类型的
列
,其中dataFrame A有120
列
,dataFrame B有60
列
)。是否有可能在
不
写入和读取所有数据帧的情况下再次使用mergeSchema合并
模式
? 谢谢。
浏览 2
提问于2020-06-22
得票数 0
1
回答
PySpark
模式
未被识别
、
我试图使用以下
模式
转换csv文件: StructField("id", StringType(), True), StructField("words
浏览 3
提问于2017-04-21
得票数 0
回答已采纳
2
回答
使用
模式
将csv文件加载到dataframe
、
我正在尝试用已知的
模式
将2个.csv文件(有超过一个标题行)读取到两个不同的数据格式中,并执行比较操作。我不确定是否有任何最佳/更好的方法来创建
模式
文件(包括列名、数据类型、空值性),并将其引用到吡火花程序中加载到dataframe中。我为第一个文件编写了如下代码: 通过传递RDD,
模式
结构,使用sqlContext.createDa
浏览 1
提问于2018-09-08
得票数 2
回答已采纳
1
回答
带自定义
模式
的Spark read镶嵌板
、
、
我正在尝试使用自定义架构导入具有parquet格式的数据,但它返回: TypeError: option()缺少1个必需的位置参数:'value‘ StructField("id_sku", IntegerType(), True), StructField("flag_weight", StringType(), True
浏览 1
提问于2018-09-18
得票数 7
1
回答
如何根据将
列
的行
匹配
到列表,将
新
列
添加到
PySpark
DF
、
、
、
我有一个
PySpark
DF,它包含数百万个路名实例。因此,我将无法皈依潘达。 我还有一个列表,其中包含一小部分(大约400个)重要的道路名称。我希望在DF中创建一个
新
列
,该
列
标记道路名称是否包含子集中的任何字符串。例如,如果列表包含一个名为"Portobello“的实例,那么我希望DF中包含"Portobello”的所有行在
新
列
中标记为"1“。如果该行
不
包含,则需要
列
中的"0“。“蓝色波托贝罗路”或“波托贝罗绿
浏览 0
提问于2022-05-04
得票数 0
2
回答
如何使用完全缓存
模式
从查找中获取所有
匹配
行?
、
、
我需要在C列上的两个表T1(A,B,C)和T2(A,B,C,D,E)之间查找,以得到所有
匹配
的B
列
值: T2:当我选择完全缓存
模式
时,我只得到第一个
匹配
行(我只对B
列
值感兴趣):12122,但是我还需要得到12123和12124,因为C也
与
这些行
匹配
。我尝试使用部分缓存
模式
和
不
缓存
模式
,方法是使用自定义的inner join查询(在SSMS中执行查询时返回所有需要的行),但不返回所有行,
浏览 0
提问于2019-08-29
得票数 3
1
回答
在Azure数据工厂中使用Azure数据流有条件地向上插入到增量接收器中
、
、
、
我在Azure数据流模块中有一个接收器增量,我用来更新它的dataframe有一个用于业务键的散
列
键和一个用于所有
列
内容的散
列
键。我希望将
新
的散
列
业务散
列
键插入到接收器中,并且仅在内容散
列
键不同时才更新现有散
列
键(本质上仅当已存在的业务密钥的内容散
列
发生变化时才更新)。 你认为我可以使用“修改行策略”来做这件事吗?我主要在寻找一种类似于
pyspark
中的“合并”选项的解决方案,在这种方案中,我可以对业务键
匹配
浏览 1
提问于2021-06-10
得票数 0
1
回答
PySpark
RDD:
列
数
不
匹配
、
、
、
、
我希望使用
pyspark
与其中一个
列
一起构建一个数据文件,该
列
是数据集的另外两个
列
的的结果。为此,我创建了一个在rdd.map()函数中调用的函数,如下所示:from
pyspark
.sql import Row test_df_schema) \ final_test_df.show(truncate=
浏览 3
提问于2020-08-20
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python开源数据分析工具TOP 3!
PySaprk之DataFrame
大数据下Python的三款大数据分析工具
Jupyter在美团民宿的应用实践
Python 3.10的几个好用的新特性
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券