如何使用rdd.sum()从pyspark的文本文件中查找RDD中特定单词的总计数

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、

我有一个文本文件 123 Twinkle twinkle littlestar and moon125 TwinkleTwinkletwinkle little star and star130 Twinkletwinkle little star 假设我想知道"star“在文件中作为一个单词出现了多少次我希望找到每一行中出现的单词的

浏览 36提问于2020-01-27得票数 0

回答已采纳

1回答

使用Python在文件中使用单词的频率

、、

我正在尝试使用python程序来计算单词数。from pyspark import SparkContext lines = sc.textFile(sys.argv[1],counts.collect() print "%s: %i" % (word, count) 这并没有给我想要的输出

浏览 1提问于2018-02-27得票数 0

1回答

如何使用PySpark RDD找到哪个句子的最大单词数？

、

我试着用最多的单词来得到这个句子。我对PySpark几乎没有经验，在这方面也有困难。让我列出我所遵循的步骤。创建了一个包含以下句子的text_file : Hello，这是Subhayan，这是我的第一个火花程序，我和Python一起使用火花，这是Subhayan，是我的第一个火花程序，我用的是Spark和Python将文本文件读取为RDD (必须仅使用RDD

浏览 2提问于2020-08-18得票数 0

回答已采纳

1回答

修改由火花读取的文本文件

、、

在使用Spark时，我试图在Hadoop集群中数几个文本文件中的单词。我设法得到单词计数，但我也想做一些进一步的修改，例如忽略数字或将所有单词转换为小写。我不能正常地迭代RDD-数据。我试过使用collect()，但是map函数不接受list作为参数。我还尝试将regex逻辑直接应用于RDD的"filter“函数，但没有成功。这就是我提

浏览 0提问于2018-12-06得票数 0

1回答

将键值rdd转换为仅包含值列表的rdd。

、、、

如何将键值rdd转换为只有PySpark中的值列表的rdd？假设rdd有(key1，“这是一个测试”)和(key2，“今天是周日”)，我想将这个rdd转换成一个包含(“这是一个测试”，“今天是周日”)的rdd。键值对是user_id和tweet，我希望首先标记这些tweet，并报告每个令牌的计数。然后对特定用户组执行相同的操作。

浏览 0提问于2018-05-20得票数 0

回答已采纳

1回答

用PySpark 1.6为LDA训练准备数据

、、、

我有一个文档的语料库，我正在阅读一个火花数据框架。我已经对文本进行了标记和矢量化，现在我希望将向量化的数据提供给mllib LDA模型。LDA API文档似乎要求数据为：如何<em

浏览 1提问于2017-05-25得票数 1

回答已采纳

1回答

文本文件中元素之和使用pyspark

、、

使用pyspark，我可以在文本文件中找到数据的计数值。但是我想要的是我想要总结文本文件中的数字。他怎么能这么做。文本文件的一部分如下所示：1.34751.33451.3315sc = SparkContext(appName="RangeOfDoviz") RDD = sc.tex

浏览 3提问于2016-12-25得票数 1

回答已采纳

2回答

如何替换/删除PySpark中的正则表达式？

、、

我的句子是，“我很想把这根绳子去掉。”我把这个文本文件作为我想过滤掉(即删除)单词"string“，我注意到在python中有一个"re”包。我试着做过滤掉“字符串”，但是在PySpark中似乎没有这样的函数，因为它给了我一个错误

浏览 5提问于2017-10-26得票数 1

回答已采纳

1回答

使用Pyspark从单词列表的行条目中创建元组，并使用RDD进行计数

、、、、

我有一个由5个单词(5个单词n-gram)、它们的计数、页数和(ngram)\t(count)\t(page_count)\t(books_count)格式的文档数组成的RDD。我正在尝试使用PySpark以(word, count)格式获得单个单词及其计数的最终输出。.collect() 为了得到形式中的单词 [('

浏览 8提问于2021-02-05得票数 1

回答已采纳

2回答

如何使用Spark Dstream进行简单的随机采样？(使用spark 1.6.1的pyspark)

、

我想从数据流中的rdds中提取样本。因为数据流没有sample()转换，它是一个rdds序列，所以我这样做是为了从数据流中提取样本，并对其应用字数计数：from pysparkconf.set("spark.cores.max", "2") sc = SparkContext('local[3]

浏览 8提问于2016-08-19得票数 0

回答已采纳

2回答

将数据保存到HDFS的格式是什么？

、、、

在dataframe或rdd中是否有其他格式可用于在Hadoop中保存数据？

浏览 2提问于2017-12-21得票数 1

1回答

在由字符串数组组成的RDD中执行单词计数。

、、、、

我有一个巨大的维基百科文章文本文件，文件的每一行都是一篇文章。我正在尝试创建一个由字符串数组组成的RDD，每个数组将表示文本文件的一行(完整的文章)，然后我想要计算每个数组的单词频率，所以在最后我将有：corpus = sc.textFile("articles.txt

浏览 1提问于2016-02-07得票数 0

回答已采纳

1回答

将多个输入文件放入一个RDD和一个输出文件中。

、、、、

我在Python中有一个wordcount，我想在Spark上使用多个文本文件运行它，并得到一个输出文件，所以所有文件中的单词都是计数的。我尝试了几种解决方案，例如找到和的解决方案，但它仍然给出了与输入文件数量相同的输出文件数量。rdd = sc.textFile("file:///path/*.txt") input = sc.textFile(join(

浏览 6提问于2016-02-24得票数 5

回答已采纳

2回答

在哪些工作负载上使用MapReduce比SQL更有意义，反之亦然？

、、

似乎所有用SQL表达的查询都可以转换为MapReduce作业。这本质上就是Spark SQL所做的。SparkSQL接收SQL，将其转换为MapReduce作业，然后在Spark的运行时执行MapReduce作业。所有可以用SQL回答的问题都可以用MapReduce作业来回答。是否所有的MapReduce作业也可以写成SQL (可能有自定义的用户定义函数)？什么时候使用MapReduce比SQL更有意义，反之亦然？

浏览 28提问于2021-03-21得票数 2

2回答

Spark using Python :将RDD输出保存为文本文件

、、

我正在尝试使用python在spark中解决单词计数问题。但是，当我尝试使用.saveAsTextFile命令将输出的RDD保存到文本文件中时，我会遇到这个问题。这是我的代码。请帮帮我。我被卡住了。感谢您的宝贵时间。import re

浏览 0提问于2015-12-04得票数 6

回答已采纳

1回答

火花scala中的TextFileStreaming

、、、

我在本地目录中有很多文本文件。火花程序读取所有文件并将其存储到数据库中。目前，尝试使用文本文件流读取文件不起作用。TextLine(line: String) rdd.foreach(println) ssc.st

浏览 0提问于2018-03-11得票数 0

回答已采纳

1回答

如何从任何数据库表创建PySpark RDD？

由于我是星火社区的新手，任何人都能解释如何从数据库表创建PySpark RDD吗？我可以使用PySpark方法的textFile()方法从CSV文件创建SparkContext RDD。但我不知道从数据库表中创建PySpark RDD。

浏览 0提问于2018-02-10得票数 1

回答已采纳

3回答

用火星雨/熊猫寻找跨行的常用词语

、、、

我有一个文本文件，如下所示，带有管道分隔符1|A|He bought cat1|B|He has hen2|A|Switzerland Australia我想按person_id和类别分组，只查找所有行中重复的单词1|A|He bought2|A|Australia 我已经按person_id和类别购买了每个使用组<em

浏览 8提问于2021-11-29得票数 4

回答已采纳

1回答

如何在一行中，文本文件中查找单词的频率

、、、、

我已经成功地制作了一个RDD (在Pyspark中)，如下所示：test1 = RDD.zipWithIndex().flatMap(lambda x: ((i,(x[1],1)) for iin x

浏览 5提问于2022-01-10得票数 -1

回答已采纳

1回答

从包含实际文件路径的文本文件中生成rdd

、

我必须从包含原始文本文件路径的文本文件中生成rdd。我有一个目录，其中包含三个文件-- hw2-file-10mb.txt(the hw2-file.txt、实际文本文件)和hw2.ipynb，这是我必须处理的一个jupyter笔记本。我的hw2-file.txt包含 with open(

浏览 0提问于2019-06-18得票数 0

点击加载更多