Spark在Python中使用map reduce分析大型邮箱文件

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、、

我有一个很大的mbox文件，我可以使用邮箱api对其进行解析并转储到csvimport csv writer.writerows(data)如何使用pySpark和map

浏览 8提问于2017-08-14得票数 2

1回答

缩放基于Java的树

、、、、

首先想到的是Spark。我对它的理解是，Spark对事件窗口进行批量处理--几乎去掉了“流中”的部分。时间在这里是非常关键的。我不介意读一本好书。如果有任何文章、教程和/或建议，我们将非常感谢。干杯

浏览 0提问于2017-06-07得票数 0

1回答

度量收集和分析体系结构

、、、、

AWS具有共享的时间序列数据处理架构：很简单，我是这样想的：以前有没有人做过类似的事？

浏览 0提问于2018-11-26得票数 1

1回答

如何通过pyspark/hadoop等来提高程序的速度？

、、、、

我有一个大型矩阵的大型目录，我正在对这些矩阵应用一些昂贵的操作。管道看起来像这样：请注意，我将前面的“流水线”封装到一个函数中。到目前为止，有了python的多处理库，我能够在一周内应用上一个流水线。然而，我很好奇是否有可能在spark map中“并行化”--以reduce</em

浏览 2提问于2017-05-02得票数 0

1回答

Scala/Pythonvs.java: PI示例中的SparkContext.map与.filter？

、、、、

在的Pi示例中Python x, y = random(), random() count = spark.paralleliz

浏览 3提问于2015-11-24得票数 1

回答已采纳

1回答

有没有一种方法可以在不下载的情况下使用pyspark处理s3桶中的json文件？

、、、、

我在一个特定的s3桶文件夹中有一些大型json文件。每个文件每一行都包含json对象。我试图使用spark.read.json(s3a://bucket/prefix/file.json)下载它，但是得到了“内容长度分隔消息体的过早结束”错误。我想知道是否有办法处理json中的空行，同时读取它？我们如何逐行读取json并处理它？最后，我需要使用json数据进行一些事件分析。我们

浏览 2提问于2020-10-02得票数 0

2回答

在其他一些工具或框架中，我读过Apache和Python用于数据分析的文章。Hadoop:允许您执行任何您想要的任务，如果它符合Map-约简范式。它可以使用集群添加并发，等等。SciPy:基于python的生态系统(事实上，很多事情).如果我已经从一个环境中收集到数据，并且想把数据关联起来，计算平均值，提取结论，等等。我基本上是试图在两者之间做出选择，以建立一个小的例子，所以我想知道哪一个更适合，或者我可能误解

浏览 0提问于2018-05-09得票数 0

回答已采纳

4回答

使用Hadoop MapReduce的计算语言学项目构想

、、

有没有什么有趣的“语言”问题，需要足够密集的数据才能使用Hadoop map reduce。解决方案或算法应该尝试和分析，并在“语言”领域提供一些见解。但是，它应该适用于大型数据集，以便我可以使用hadoop。我知道有一个适用于hadoop的python自然语言处理工具包。

浏览 1提问于2010-03-01得票数 3

2回答

使用spark跨hadoop群集复制数据

、、、、

我遇到了这样的情况:我必须将数据/文件从PROD复制到UAT (hadoop群集)。为此，我现在使用'distcp'。但这需要永远的时间。由于distcp在幕后使用map-reduce，有没有办法使用spark使这个过程更快呢？就像我们可以将hive执行引擎设置为'TEZ' (以取代map-reduce)一样，我们可以将distcp的执行引擎设置为spark<

浏览 1提问于2016-08-19得票数 0

1回答

如何在Apache Spark中实现递归算法？

、、、

我有一个问题，我想在Spark中实现一个递归算法，并希望了解是否有任何建议可以在Spark中构建它，或者探索其他可能更适合的数据分析框架。例如：作业需要递归地列出目录结构/树，并处理节点，结合map/reduce模式将路径或文件组映射到派生数据中，递归地对这些派生数据进行分组/合并。构建一个在单个节点上运行的解决方案是很简单的(例如，spark mas

浏览 37提问于2021-06-24得票数 0

2回答

像couchdb这样的数据存储的MapReduce和Hadoop的有什么区别？

、、

最近在Couchbase的一次网络研讨会上，他们说Hadoop用于处理大型日志文件，Couchbase用于将其呈现给应用层。他们声称Couchbase和Hadoop的map和reduce是不同的，适合所提到的各自的用例。我打算使用Couchbase map reduce来处理大量的日志文件。有人能澄清一下这两个map reduce之间的确切区别吗？Hadoop中是否有更适合处理大型

浏览 0提问于2012-05-13得票数 1

回答已采纳

1回答

在Spark中对DataFrame进行排序时，幕后会发生什么？

在Spark中对DataFrame进行排序时，幕后会发生什么？例如,df.sort(i) 我知道当您将数据读取到DataFrame时会发生什么，但是我很好奇当您排序时会发生什么

浏览 2提问于2018-08-14得票数 0

1回答

PySpark如何将CSV读入数据帧，并对其进行操作

、、、、

我对pyspark非常陌生，正在尝试使用它来处理一个保存为csv文件的大型数据集。我想将CSV文件读入spark dataframe，删除一些列，然后添加新列。我该怎么做呢？我在将这些数据放入数据帧时遇到了问题。reducing to a dataframe的想法是能够将结果数据写入数据库(Redshift，使用spark-redshift包)。我也尝试过在partial()中使用unionAll()和map

浏览 2提问于2016-10-30得票数 7

回答已采纳

1回答

比较内存中的集群计算系统

、、、

我正在从事Spark(Berkeley)集群计算系统的工作。在我的研究中，我了解了一些其他的内存系统，如Redis，Memcachedb等。如果有人能给我一个SPARK和REDIS (以及MEMCACHEDB)的比较，那就太好了。Spark在哪些情况下比其他内存系统更有优势？

浏览 4提问于2013-05-22得票数 10

回答已采纳

2回答

使PySpark中简洁的Python* lambda代码更易于理解*

、

我已经能够在测试集群上使用Anaconda让pyspark运行一个线性回归示例。这很酷。我的下一步是让我们的分析人员的代码更加模板化。具体地说，我想将下面的lambda函数重写为常规函数，以便我们当前的Python技能水平更容易访问它。我已经做了很多尝试，但是同时使用map、lambda和numpy.array会让人感到困惑。data = sc.textFile("hdfs://nameservice1:8020/spark_i

浏览 4提问于2014-03-04得票数 0

2回答

这个Spark/Scala代码的性能瓶颈在哪里？

、

这项工作在Hadoop上需要14分钟，使用3xr3.2x大型机器输入16个压缩bzip文件，每个压缩文件为170 16。def fromJson[T](json: String)(implicit m : Manifest[T]): T = { }我在开始时使用重新分区命令将分区设置为我在相同的3xr3.2x大型机器上运行这个星火作业(每个机器都有8个核心和58G可

浏览 5提问于2015-01-03得票数 8

回答已采纳

1回答

如何使用默认群集管理器获得工作日志？

、

基本上，我是在讨论集群工作人员上的<spark install dir>/work目录的内容。非常感谢。

浏览 1提问于2016-11-07得票数 1

回答已采纳

1回答

如何在Google中优化Hadoop MapReduce压缩火花输出？

、、

目标:卡桑德拉中的数百万行需要尽可能快、高效地被提取和压缩到一个文件中(每天如此)。使用(现在已被废弃的) FileUtil.copyMerge()将大约9000 Spark分区文件组合到一个未压缩的文件中，然后提交一个Hadoop MapReduce作业来压缩该单个文件保留大约9000个星

浏览 1提问于2018-12-27得票数 0

3回答

Spark:运行时reduce元素的技术术语？

、、、

在下面的字数统计示例中：(Hello,1)(Hello,1)Hadoop的reducer函数将使用键"Hello“收集所有5个元素，然后在然而，在Spark中，它实际上是每次减少2个元素。那么，有没有专门的术语来描述Spark中使用的这种计算方法呢？谢谢!

浏览 0提问于2016-01-07得票数 0

2回答

使用大型gzip文件的hadoop策略

、、

我会在hadoop中复制很多压缩为gzip的大型博客文件。我需要在这些文件上运行许多map/reduce。通常的做法是将gzip文件分割成较小的块(在hadoop中复制它们之前或之后)，以便能够运行尽可能多的map</em

浏览 2提问于2013-03-28得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云