腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
在
Spark
DataFrame
中
搜索
列
中
字符串
的
最佳
方法
scala
、
apache-spark
、
apache-spark-sql
我使用
的
是Apache
Spark
2.2和Scala 2.11。 我有一个
字符串
,我用它来创建1-gram,2-gram和3-gram。之后,我尝试在数据帧
中
搜索
这些值。现在这个过程发生了很多次,由于整个
Spark
作业需要花费大量
的
时间。我应该怎么想呢?if(df.count.toInt > 0) { return countryCode}
在</e
浏览 19
提问于2019-05-06
得票数 1
回答已采纳
2
回答
如何使用.contains()
在
PySpark中进行单子或多子串筛选?
python
、
apache-spark
、
pyspark
、
apache-spark-sql
这是一个简单
的
问题(我认为),但我不确定回答它
的
最佳
方法
。data = [[1, "ABC"], [2, "DEF"], [3, "DEF"], [4, "JFKLMN"], [5, "JFKOPQ"
浏览 7
提问于2021-11-10
得票数 0
1
回答
火花放电数据
的
模糊
搜索
python
、
pyspark
、
fuzzywuzzy
我有一个大型csv文件(>9600万行)和七
列
。我想对其中一个
列
进行模糊
搜索
,并检索与输入
字符串
相似程度最高
的
记录。这个文件是由
spark
管理
的
,我通过pyspark将它加载到一些
dataframe
中
。现在,我想使用像fuzzywuzzy这样
的
方法
来提取与
最佳
匹配
的
行。但是,fuzzywuzzy函数提取返回一些我无法使用
的
内容: proce
浏览 9
提问于2022-09-27
得票数 0
4
回答
如何访问数组
列
中
的
值?
scala
、
apache-spark
、
apache-spark-sql
我有一个只有一
列
的
Dataframe
该
列
的
每一行都有一个
字符串
值数组:["123", "abc", "2017", "ABC"]["789&q
浏览 8
提问于2017-12-01
得票数 28
回答已采纳
1
回答
高效
的
字母数字
搜索
sparkR
r
、
apache-spark
、
sparkr
我
在
一个有1,000万行
的
火花数据帧
中
,每一行代表一个显示用户id
的
alpha数字
字符串
,例如:602d38c9-7077-4ea1-bc8d-af5c965b4e85 --我
的
目标是检查1千万个列表
中
是否存在另一个像aaad38c9-7087-4ef1-bc8d-af5c965b4e85这样
的
id。我会想要高效地做,而不是
搜索
所有的1000万条记录,每次
搜索
发生。例如,我能否按字母顺序对我
的
记录进
浏览 1
提问于2018-06-04
得票数 0
2
回答
Scala
Spark
-统计
Dataframe
列
中
特定
字符串
的
出现次数
scala
、
apache-spark
、
dataframe
、
aggregate
、
window-functions
如何使用按id分区
的
Spark
来计算df
列
中
字符串
的
出现次数
在
SQL
中
是: SUM(CASE WHEN name = 'testFROM WINDOW window AS (PARTITION BY id) 我试过使用map( v
浏览 0
提问于2017-10-29
得票数 4
2
回答
熊猫:从一个
dataframe
列
过滤数据,并更新另一个df
列
。
python
、
pandas
、
dataframe
我
在
熊猫身上有一种情况。我有一个excel文件,它有一个名为item
的
列
,它有一些文本。我有另一个
dataframe
有一个名为brand
的
列
。如果项目
列
文本
中
存在品牌
字符串
,我希望
在
项目
列
前面添加品牌名称。 我
的
品牌数据图如下所示。brand_df = pd.
DataFrame
({'brand&
浏览 0
提问于2019-07-09
得票数 0
回答已采纳
2
回答
从单个
字符串
创建火花
DataFrame
scala
、
apache-spark
、
spark-dataframe
我尝试使用硬编码
字符串
并将其转换为1行星火
DataFrame
(带有类型为StringType
的
一
列
),以便:
DataFrame
的
结果,其.show()
方法
如下所示:| fizz|| buzz|到目前为止,我
的
最佳
尝试是:val df = sq
浏览 3
提问于2016-10-10
得票数 7
回答已采纳
2
回答
PySpark用新列表向
dataframe
添加新
列
python
、
apache-spark
、
pyspark
、
spark-dataframe
假设我有以下数据: [(1, "a", 23.0), (3, "B", -23.0)], 我想要添加新
的
x4
列
,但是我
在
Python中有值,而不是添加到新
列
中
,例如x4_ls = [35.0, 32.0]。是否有
最佳
方法
将新
列</e
浏览 0
提问于2017-02-15
得票数 0
回答已采纳
3
回答
如何在星火中从Json对象{}(复杂数据类型)
DataFrame
中选择密钥
json
、
scala
、
dataframe
、
apache-spark
aggregate_rating": "4.5"}}rating_text | rating_color | votes | aggregate_rating无法按索引访问Solution2
中
提供
的
列
。获取NoSuchColumn
列
错误。提取keys(rating_text,rating_color,..)并作为
DataFrame
中
<e
浏览 5
提问于2020-01-19
得票数 2
回答已采纳
1
回答
PySpark DataFrames -使用不同类型
列
之间
的
比较进行过滤
python
、
apache-spark
、
pyspark
、
apache-spark-sql
假设您有一个具有各种类型
列
(string,double.)
的
dataframe
以及
在
字符串
类型
列
中表示“缺失值”
的
特殊值“想念”。df =
spark
.createDataFrame(data=pdf)col = df['strcol'] df.filter(col.isNotNull= 'miss'))
浏览 0
提问于2019-01-31
得票数 2
回答已采纳
3
回答
在
匹配模式
的
DataFrame
列
之间进行
字符串
搜索
python
、
pandas
) 和一个将
搜索
参数作为正则表达式
的
方法
re = pd.
DataFrame
({"regex_search" : ["^(?*GZ3).*$"]}) 我
的
目标是匹配
字符串
和
搜索
参数,如果它是
字符串
的
一部分。我想将每个
字符串
与每个模式进行比较,并加入匹配
的
字符串
模式,如下所示: | AA1 BB2 CVC GF2 | ^(?*GZ3).*$ 有
浏览 31
提问于2019-02-21
得票数 0
回答已采纳
2
回答
为什么$不能处理String类型
的
值(并且只直接处理
字符串
文本)?
scala
、
apache-spark
、
apache-spark-sql
" val Date = "Date"} 然后,我想按
列
对
浏览 2
提问于2018-01-11
得票数 2
回答已采纳
2
回答
如何在
spark
- java项目中进行info/debug级别的
spark
Dataset printSchema日志记录
java
、
sql
、
scala
、
apache-spark
、
apache-spark-sql
尝试将我
的
spark
scala项目转换为
spark
-java项目。我
在
scala中有一个日志,如下所示 import org.slf4j.Logger; class ClassName{logger.debug("
dataframe
1.printSchema : \n " +
dataframe
1.printSchema()); //this is not working
浏览 38
提问于2019-04-19
得票数 1
回答已采纳
3
回答
我可以将pandas数据帧转换为
spark
rdd吗?
pyspark
Pbm: a)读取一个本地文件到Panda
dataframe
中
,比如PD_DF。b)操纵/海量PD_DF并添加列到
dataframe
中
。c)需要使用
spark
将PD_DF写到HDFS。
浏览 0
提问于2015-04-15
得票数 4
1
回答
星火
DataFrame
筛选:保留属于列表
的
元素
scala
、
apache-spark
、
dataframe
、
apache-spark-sql
、
apache-zeppelin
我正在使用
Spark
1.5.1和Scala
在
齐柏林飞艇笔记本上。 删除所有属于要排除
的
用户
的
行
的
最佳
方法
是什么?提出同样问题
的</
浏览 1
提问于2015-11-20
得票数 5
回答已采纳
1
回答
spark
2.x正在使用csv函数将整型/双精度列作为
字符串
读取
apache-spark
、
pyspark
、
apache-spark-sql
、
pyspark-sql
我正在使用下面的语句
在
spark
中
读取csv。df =
spark
.read.csv('<CSV FILE>', header=True, inferSchema = True)我已经检查了特定
列
<e
浏览 5
提问于2017-08-31
得票数 2
1
回答
如何将雪花中
的
变体类型转换为星火上
的
结构数组?
scala
、
apache-spark
、
snowflake-connector
下面的桌子
在
雪花上。myarray
列
是json格式
的
变体类型:我正在使用雪花星火连接器检索星火上
的
那张桌子:.format("snowflake").option("query", "SELECT uid, myarray FROM mytable")问题是myarray以
字符串</em
浏览 1
提问于2022-07-16
得票数 0
2
回答
哪一种编码
方法
能在火花中获得
最佳
性能?
python
、
pyspark
如果我需要对
dataframe
(例如,添加
列
)进行转换,那么获得
最佳
性能
的
更好
方法
是什么?1.df=
spark
.createDataframe(a)2.df=
spark
.createDataframe(a)假设我增加了200
列
。
浏览 0
提问于2019-07-16
得票数 0
回答已采纳
1
回答
我如何采取最高级别的过滤条件,最终匹配在一个数据?
scala
、
apache-spark
我
的
问题
的
措辞可能会令人困惑,所以让我解释一下。假设我有一串
字符串
。它们是按
最佳
案例场景匹配顺序排列
的
。因此,
在
索引0时,我们希望它始终存在于
dataframe
列
中
,但如果不存在,则索引1是下一个
最佳
选项。我写过这样
的
逻辑,但我觉得这不是最有效
的
方法
。还有其他更好
的
方法
吗?val df =
spark
.crea
浏览 0
提问于2018-05-17
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
在JavaScript中重复字符串的三种方法
4种方法,在Word里面的已有表格中插入新的行和列
教程:Apache Spark SQL入门及实践指南!
肝了3天,整理了90个Pandas案例
Spark SQL DataFrame与RDD交互
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券