腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
用于
返回
单词
数最多
的
行
的
PySpark
SQL
查询
、
、
、
我正在尝试想出一个
pyspark
sql
查询
来
返回
review Dataframe
的
text列中具有最多
单词
的
行
。 我想
返回
全文以及字数。这个问题是关于Yelp数据集
的
审查
的
。以下是我到目前为止所掌握
的
,但显然不是(完全)正确
的
: query = """ SELECT text,LENGTH(text) - LENGTH(REPLAC
浏览 34
提问于2021-11-16
得票数 0
回答已采纳
1
回答
PySpark
在一个目录中执行所有测试用例
、
我正在尝试开发一个脚本,它将运行保存在目录中
的
所有spark
sql
查询
。我已经能够在Python中做到这一点,但是
pyspark
是一个不同
的
游戏。下面是
用于
读取和执行目录中所有
查询
文件
的
python脚本。xxxx",password="xxxx",host="localhost",port="5432") cur =conn.cursor(“完成”) 将open("*.t
浏览 1
提问于2016-09-02
得票数 0
1
回答
比较单列Server中
的
两个值
、
我有一个
SQL
Server数据库,在该数据库中,我运行了一个
查询
,该
查询
收集关于两个不同
的
锦标赛和参加锦标赛的人数
的
数据。Tourney People enrolledTourney 2 ----------- 8 在获得这两个值之后,我希望能够比较它们,并且只显示包含注册人
数最多
的
旅游网站
的
信息
浏览 0
提问于2013-04-20
得票数 0
回答已采纳
3
回答
在
SQL
Server中使用TOP (1)获取某列中字符串
的
最大出现次数
、
我有两个专栏: 125 john 125 dave 131 dave这适
用于
SQL
Server2008和C#
浏览 0
提问于2012-04-12
得票数 0
回答已采纳
1
回答
运行spark.read.json时在json中找到重复列,即使没有重复列
、
、
、
在
PySpark
和Synapse数据流中,我遇到了非常奇怪
的
错误。df = ( .options(encoding="UTF-8") .load/
pyspark
/
浏览 3
提问于2021-11-25
得票数 0
1
回答
删除包含小于n字
的
Pyspark
数据帧中
的
行
、
、
我有一个由大约600万
行
组成
的
**
Pyspark
数据格式**。.| 1|+--------------------+-----+pandasDF = df.toPandas()ind = [] for index, row in pandasD
浏览 2
提问于2021-09-06
得票数 1
回答已采纳
3
回答
Hbase模式设计--让排序变得简单?
、
我
的
字典里有一百万个
单词
。每当用户在我
的
网站上发出
查询
时,我就会查看
查询
中是否包含字典中
的
单词
,并分别递增与它们对应
的
计数器。下面是一个例子,假设用户输入“奥巴马是总统”,“奥巴马”和“总统”在我
的
字典里,那么我应该将“奥巴马”和“总统”
的
计数器加1。 时不时地,我想看看前100个
单词
(
查询
次
数最多
的
单词
)。--我还没有想出一个
浏览 2
提问于2010-03-25
得票数 1
1
回答
使用python中
的
SQL
文件运行SPARK会出现错误。
、
我正在尝试使用SPARK调用一个带有来自Python文件
的
单元
查询
的
.
SQL
文件。它给出了错误-- AttributeError:'Builder‘对象没有属性'SparkContext’sc = SparkSession.SparkContext.getOrC
浏览 2
提问于2022-02-14
得票数 0
2
回答
使用
pyspark
从python运行自定义函数
、
、
、
我编写了一个自定义函数,它将从.txt文件中查找出现次
数最多
的
单词
。我需要通过
PySpark
将其作为RDD运行。我写了一个名为top_five
的
函数,它只有一个参数是file_name
浏览 26
提问于2019-10-28
得票数 1
3
回答
如何将注册为spark表
的
表放入数据帧
、
、
、
我已经使用spark-thriftserver connection将表从PostgreSQL数据库导入到spark-
sql
中,现在我可以从直线上看到这些表。
浏览 1
提问于2016-09-25
得票数 2
1
回答
如何在
pyspark
中筛选出RDD的确切
单词
?
、
、
我是Apache Spark
的
新手,正在运行一个
单词
计数示例。在我得到了我
的
单词
列表和它们
的
单词
计数后,我现在想要过滤出4个特定
的
单词
。我写了下面的代码: output_result = list_RDD.filter(lambda x: "can" in x[0]) 当我运行它
的
时候,我得到了所有包含"can“
的
单词
,比如"canada但我只想
返回<
浏览 39
提问于2021-10-06
得票数 2
回答已采纳
1
回答
SQL
查询
包含以短语开头
的
全部
单词
的
字段内容
、
、
我正在尝试编写一个
SQL
查询
,以获取字段包含多个关键字
的
行
。
查询
的
用途是为用jQuery实现
的
自动完成器函数获取结果。我只想
返回
以短语开头
的
结果,因为用户很可能不会随意
浏览 3
提问于2011-05-19
得票数 2
回答已采纳
1
回答
SQL
中不同值
的
最大计数
、
请原谅我已经回答了,但找不到它使用搜索工具或一个基本
的
谷歌
查询
。SELECT MAX(COUNT(DISTINCT person_id) AS MAX_NUM_PERS_ROW如果表中行
数最多
的人有5
行
,则
返回
的
值为任何和所有的帮助都是感激
的
!
浏览 2
提问于2014-10-08
得票数 5
回答已采纳
1
回答
具有给定术语
的
文档
的
PySpark
HashingTF计数
、
、
我有一个spark数据框,其中
的
" text“列有一些文本。我想要计算出现各种
单词
的
行数-本质上是出现“术语”
的
“文档”
的
数量-以及相关
的
计数,如最频繁
的
单词
,具有最频繁
单词
的
行
(或称为文档)。我正在使用来自
pyspark
.ml.feature
的
HashingTF。但是似乎找不到一种有效
的
方法来从输出中提取这些信息。and jumped
浏览 25
提问于2021-08-31
得票数 0
回答已采纳
2
回答
如何避免AssertionError同时执行对Hive表
的
ORC格式
的
查询
?
、
、
、
、
我正在从
PySpark
运行一个简单
的
Hive
查询
,但是它会引发一个错误。这张表是ORC格式
的
。需要一些帮助。在File "/usr/hdp/current/spark2-client/python/
pyspark
/
sql
/session.py",第716
行
,在
sql
返回
DataFrame(self.中,在"/usr&
浏览 9
提问于2019-08-27
得票数 1
回答已采纳
2
回答
关于
SQL
查询
的
问题
给定一个有n列
的
关系R。使用
sql
返回
值出现次
数最多
的
元组。我不知道怎么做横向
查询
?
浏览 0
提问于2011-02-16
得票数 0
2
回答
mysql搜索短语中
的
关键字,按找到
的
最多关键字排序
、
、
我有一个带有3列数据
的
mysql表
用于
常见问题搜索,我想让用户键入他们想要回答
的
问题,并在表中
的
3列中搜索出现在表中任何列中
的
问题关键字。并按关键字匹配
数最多
的
行
对结果进行排序。我使用
的
是Code点火器框架。目前,我
的
模型中有一个带有全文搜索
的
查询
:$
sql
= "
浏览 0
提问于2012-11-16
得票数 0
回答已采纳
2
回答
当任何列中有来自其他表
的
单词
时,过滤掉
Pyspark
中
的
行
、
、
、
、
我是
pyspark
的
新手,我想写一个
查询
,比如,data = sqlCtx.
sql
('select * from table1 where column like '%word1%')NameError: name 'word1' is n
浏览 0
提问于2016-08-20
得票数 1
回答已采纳
1
回答
Python中带有时间戳
的
单词
计数
、
此示例摘自“星火
的
结构化流编程指南”:from
pyspark
.
sql
.functions import explode .builder \ .appName("StructuredNetworkWordCountoutputM
浏览 2
提问于2021-12-16
得票数 0
6
回答
星星之火
sql
计数(*)
查询
存储结果
、
、
你好,我在Python中使用Spark,我对dataframe执行了一个基本
的
count(*)
查询
,如下所示结果是|count(1)|| 3469|如何保存此值以执行进一步
的
操作。
浏览 4
提问于2017-08-01
得票数 8
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券