腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
使用
rdd.sum
()
从
pyspark
的
文本文件
中
查找
RDD
中
特定
单词
的
总
计数
、
、
我有一个
文本文件
123 Twinkle twinkle littlestar and moon125 TwinkleTwinkletwinkle little star and star130 Twinkletwinkle little star 假设我想知道"star“在文件
中
作为一个
单词
出现了多少次我希望找到每一行中出现
的
单词
的
浏览 36
提问于2020-01-27
得票数 0
回答已采纳
1
回答
使用
Python在文件中
使用
单词
的
频率
、
、
我正在尝试
使用
python程序来计算
单词
数。from
pyspark
import SparkContext lines = sc.textFile(sys.argv[1],counts.collect() print "%s: %i" % (word, count) 这并没有给我想要
的
输出
浏览 1
提问于2018-02-27
得票数 0
1
回答
如何
使用
PySpark
RDD
找到哪个句子
的
最大
单词
数?
、
我试着用最多
的
单词
来得到这个句子。我对
PySpark
几乎没有经验,在这方面也有困难。 让我列出我所遵循
的
步骤。创建了一个包含以下句子
的
text_file : Hello,这是Subhayan,这是我
的
第一个火花程序,我和Python一起
使用
火花,这是Subhayan,是我
的
第一个火花程序,我用
的
是Spark和Python将
文本文件
读取为
RDD
(必须仅
使用
RDD
浏览 2
提问于2020-08-18
得票数 0
回答已采纳
1
回答
修改由火花读取
的
文本文件
、
、
在
使用
Spark时,我试图在Hadoop集群
中
数几个
文本文件
中
的
单词
。我设法得到
单词
计数
,但我也想做一些进一步
的
修改,例如忽略数字或将所有
单词
转换为小写。我不能正常地迭代
RDD
-数据。我试过
使用
collect(),但是map函数不接受list作为参数。我还尝试将regex逻辑直接应用于
RDD
的
"filter“函数,但没有成功。这就是我提
浏览 0
提问于2018-12-06
得票数 0
1
回答
将键值
rdd
转换为仅包含值列表
的
rdd
。
、
、
、
如何
将键值
rdd
转换为只有
PySpark
中
的
值列表
的
rdd
?假设
rdd
有(key1,“这是一个测试”)和(key2,“今天是周日”),我想将这个
rdd
转换成一个包含(“这是一个测试”,“今天是周日”)
的
rdd
。键值对是user_id和tweet,我希望首先标记这些tweet,并报告每个令牌
的
计数
。然后对
特定
用户组执行相同
的
操作。
浏览 0
提问于2018-05-20
得票数 0
回答已采纳
1
回答
用
PySpark
1.6为LDA训练准备数据
、
、
、
我有一个文档
的
语料库,我正在阅读一个火花数据框架。我已经对文本进行了标记和矢量化,现在我希望将向量化
的
数据提供给mllib LDA模型。LDA API文档似乎要求数据为:
如何
<em
浏览 1
提问于2017-05-25
得票数 1
回答已采纳
1
回答
文本文件
中元素之和
使用
pyspark
、
、
使用
pyspark
,我可以在
文本文件
中找到数据
的
计数
值。但是我想要
的
是我想要总结
文本文件
中
的
数字。他怎么能这么做。
文本文件
的
一部分如下所示:1.34751.33451.3315sc = SparkContext(appName="RangeOfDoviz")
RDD
= sc.tex
浏览 3
提问于2016-12-25
得票数 1
回答已采纳
2
回答
如何
替换/删除
PySpark
中
的
正则表达式?
、
、
我
的
句子是,“我很想把这根绳子去掉。”我把这个
文本文件
作为我想过滤掉(即删除)
单词
"string“,我注意到在python中有一个"re”包。我试着做过滤掉“字符串”,但是在
PySpark
中
似乎没有这样
的
函数,因为它给了我一个错误
浏览 5
提问于2017-10-26
得票数 1
回答已采纳
1
回答
使用
Pyspark
从
单词
列表
的
行条目中创建元组,并
使用
RDD
进行
计数
、
、
、
、
我有一个由5个
单词
(5个
单词
n-gram)、它们
的
计数
、页数和(ngram)\t(count)\t(page_count)\t(books_count)格式
的
文档数组成
的
RDD
。我正在尝试
使用
PySpark
以(word, count)格式获得单个
单词
及其
计数
的
最终输出。.collect() 为了得到形式
中
的
单词
[('
浏览 8
提问于2021-02-05
得票数 1
回答已采纳
2
回答
如何
使用
Spark Dstream进行简单
的
随机采样?(
使用
spark 1.6.1
的
pyspark
)
、
我想从数据流
中
的
rdds中提取样本。因为数据流没有sample()转换,它是一个rdds序列,所以我这样做是为了
从
数据流中提取样本,并对其应用字数
计数
:from
pyspark
conf.set("spark.cores.max", "2") sc = SparkContext('local[3]
浏览 8
提问于2016-08-19
得票数 0
回答已采纳
2
回答
将数据保存到HDFS
的
格式是什么?
、
、
、
在dataframe或
rdd
中
是否有其他格式可用于在Hadoop中保存数据?
浏览 2
提问于2017-12-21
得票数 1
1
回答
在由字符串数组组成
的
RDD
中
执行
单词
计数
。
、
、
、
、
我有一个巨大
的
维基百科文章
文本文件
,文件
的
每一行都是一篇文章。我正在尝试创建一个由字符串数组组成
的
RDD
,每个数组将表示
文本文件
的
一行(完整
的
文章),然后我想要计算每个数组
的
单词
频率,所以在最后我将有:corpus = sc.textFile("articles.txt
浏览 1
提问于2016-02-07
得票数 0
回答已采纳
1
回答
将多个输入文件放入一个
RDD
和一个输出文件
中
。
、
、
、
、
我在Python中有一个wordcount,我想在Spark上
使用
多个
文本文件
运行它,并得到一个输出文件,所以所有文件
中
的
单词
都是
计数
的
。我尝试了几种解决方案,例如找到和
的
解决方案,但它仍然给出了与输入文件数量相同
的
输出文件数量。
rdd
= sc.textFile("file:///path/*.txt") input = sc.textFile(join(
浏览 6
提问于2016-02-24
得票数 5
回答已采纳
2
回答
在哪些工作负载上
使用
MapReduce比SQL更有意义,反之亦然?
、
、
似乎所有用SQL表达
的
查询都可以转换为MapReduce作业。这本质上就是Spark SQL所做
的
。SparkSQL接收SQL,将其转换为MapReduce作业,然后在Spark
的
运行时执行MapReduce作业。 所有可以用SQL回答
的
问题都可以用MapReduce作业来回答。是否所有的MapReduce作业也可以写成SQL (可能有自定义
的
用户定义函数)?什么时候
使用
MapReduce比SQL更有意义,反之亦然?
浏览 28
提问于2021-03-21
得票数 2
2
回答
Spark using Python :将
RDD
输出保存为
文本文件
、
、
我正在尝试
使用
python在spark
中
解决
单词
计数
问题。但是,当我尝试
使用
.saveAsTextFile命令将输出
的
RDD
保存到
文本文件
中
时,我会遇到这个问题。这是我
的
代码。请帮帮我。我被卡住了。感谢您
的
宝贵时间。import re
浏览 0
提问于2015-12-04
得票数 6
回答已采纳
1
回答
火花scala
中
的
TextFileStreaming
、
、
、
我在本地目录中有很多
文本文件
。火花程序读取所有文件并将其存储到数据库
中
。目前,尝试
使用
文本文件
流读取文件不起作用。TextLine(line: String)
rdd
.foreach(println) ssc.st
浏览 0
提问于2018-03-11
得票数 0
回答已采纳
1
回答
如何
从
任何数据库表创建
PySpark
RDD
?
由于我是星火社区
的
新手,任何人都能解释
如何
从
数据库表创建
PySpark
RDD
吗?我可以
使用
PySpark
方法
的
textFile()方法
从
CSV文件创建SparkContext
RDD
。但我不知道
从
数据库表
中
创建
PySpark
RDD
。
浏览 0
提问于2018-02-10
得票数 1
回答已采纳
3
回答
用火星雨/熊猫寻找跨行
的
常用词语
、
、
、
我有一个
文本文件
,如下所示,带有管道分隔符1|A|He bought cat1|B|He has hen2|A|Switzerland Australia我想按person_id和类别分组,只
查找
所有行
中
重复
的
单词
1|A|He bought2|A|Australia 我已经按person_id和类别购买了每个
使用
组<em
浏览 8
提问于2021-11-29
得票数 4
回答已采纳
1
回答
如何
在一行
中
,
文本文件
中
查找
单词
的
频率
、
、
、
、
我已经成功地制作了一个
RDD
(在
Pyspark
中
),如下所示:test1 =
RDD
.zipWithIndex().flatMap(lambda x: ((i,(x[1],1)) for iin x
浏览 5
提问于2022-01-10
得票数 -1
回答已采纳
1
回答
从
包含实际文件路径
的
文本文件
中生成
rdd
、
我必须
从
包含原始
文本文件
路径
的
文本文件
中生成
rdd
。我有一个目录,其中包含三个文件-- hw2-file-10mb.txt(the hw2-file.txt、实际
文本文件
)和hw2.ipynb,这是我必须处理
的
一个jupyter笔记本。我
的
hw2-file.txt包含 with open(
浏览 0
提问于2019-06-18
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PySpark,大数据处理的Python加速器!
机器学习实践:如何将Spark与Python结合?
一文读懂PySpark数据框
pyspark 安装
一文读懂 PySpark 数据框
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券