在Spark中生成大量随机化数据的有效方法_在Firebase上加载大量数据的最有效方法_是在稀疏数据中生成缺少行的有效方法 - 腾讯云开发者社区

、、

我正在尝试生成一个大型随机数据集spark。( timestamp列是唯一有意义的列) 即使当我试图在一个大型集群上生成数万亿行时，我也希望它仍然有效，所以我试图一次生成100个元素的批次，因为数万亿行无法放入一个Seq中。我想知道是否有人有更好的想法来做这件事。 import Math.import org.apache.spark.sql.{DataFrame, Row, SaveMode} import org.apache.spark<

浏览 75提问于2019-03-10得票数 4

1回答

从Schema创建eclipse

、、、、

我目前正在使用Spark解析大量数据。Spark在读取所有数据后推断架构。我想使用这个模式来生成Eclipse。但是在Spark中生成的模式并不是标准的XSD格式。它是Json格式的，我无法找到将这个Json转换为XSD的通用方法。您知道我是否可以在Spark推断架构时创建XSD吗？

浏览 1提问于2018-04-10得票数 1

1回答

是否在S3中生成大量样本数据用于火花消耗？

、、

我有一个目前的spark管道，它在相对少量的数据上运行。对这些数据量的性能测试只能得到这么多，理想情况下，我希望在大量数据上测试spark管道。是否有任何方法或工具可以模拟或模拟大量输入数据以供spark处理，特别是当输入来自亚马逊S3时？我不希望当我开始获得更多的数据时火花爆炸。我有一个JSON模式，如果有

浏览 0提问于2019-04-04得票数 0

3回答

将大文本文件导入Spark

、、

我有一个以竖线分隔的文本文件，大小为360 is，压缩(gzip)。该文件位于S3存储桶中。这是我第一次使用Spark。我知道，您可以对文件进行分区，以便允许多个工作节点对数据进行操作，这会带来巨大的性能提升。但是，我正在尝试找到一种有效的方法来将我的一个360‘m的文件转换为分区文件。有没有办法使用多个spark worker节点来处理我的一个压缩文件，以便对其进行分区？不幸的是

浏览 1提问于2017-10-25得票数 4

1回答

在Qualtrics中随机化块中的页面？

、

在Qualtrics中，是否有可能将块中的页面随机化？例如，以这个第1块为例：1. Do you like cats?是否可能将每一页出现的顺序随机化(例如，Q3,4,5可能首先出现，Q1&2秒，Q6和7第三)。我有大量的调查页面，如果要把它们分解成许多不同的块来随机化它们，那将是相当痛苦的。

浏览 17提问于2016-05-09得票数 3

回答已采纳

6回答

在R中，我如何局部地混洗向量的元素

、

我在R中有下面的向量，把它们想象成一个数字的向量。我想根据一些输入数字“局部性因子”来“局部”地随机化这个向量。例如，如果位置因子是3，则取前3个元素并随机化，然后是接下来的3个元素，依此类推。有没有一种有效的方法来做到这一点？我知道如果我使用sample，它会使整个数组变得混乱。提前感谢

浏览 6提问于2013-07-14得票数 6

回答已采纳

1回答

基于列值高效地从宽Spark数据帧中删除列

、、

如果我有一个只包含IP地址的宽数据帧(200m cols)，并且我想删除包含空值或格式不佳的IP地址的列，那么在Spark中执行此操作的最有效方法是什么？我的理解是Spark并行地执行基于行的处理，而不是基于列的处理。因此，如果我尝试在列上应用转换，将会有大量的混洗。首先转置数据帧，然后应用筛

浏览 11提问于2019-10-31得票数 1

1回答

在Haskell中生成大量文本的有效方法

、、

完整的源代码和性能分析报告在这里：我开始将String连接在一起来生成我的文本文件，很快就发现它占用了几乎90%的执行时间。color Main 219 250000 0.5 0.0 0.5 0.0 这告诉我Text和S

浏览 3提问于2014-12-31得票数 3

1回答

Mapreduce Vs Spark* Vs Storm Vs Drill -用于小文件*

、、、、

我知道spark在内存中进行计算，而且比MapReduce快得多。我想知道spark对小于10000的记录有多好的效果？我有大量的文件(每个文件大约有10000条记录，比如说100列文件)进入我的hadoop数据平台，在我加载到hbase之前，我需要执行一些数据质量检查。我在后端使用MapReduce的hive中执行数据质量检查。对于每个文件，它大约需要8分钟，这对我来说很糟糕。<

浏览 2提问于2015-08-16得票数 1

2回答

如何处理大量的实木地板文件

、、、、

我在Hadoop上使用Apache Parquet，一段时间后，我有一个问题。当我在Hadoop上的Spark中生成parquets时，它可能会变得非常混乱。当我说乱七八糟的时候，我的意思是Spark job正在生成大量的镶木地板文件。当我试图查询它们时，我正在处理大量的查询，因为Spark将所有的文件合并在一起。你能告诉我处理它的正确方

浏览 2提问于2017-07-12得票数 1

回答已采纳

1回答

MATLAB从一个.m文件访问另一个.m文件中的数据

是否有方法从一个.m文件中访问另一个文件中生成的数据。我想要做的是，我有一个.m名称为A.m，在这里，我从一个.txt文件中加载了大量数据，并将其分解成一个包含各种字段的结构。由于这占用了脚本中的大量空间，所以我希望创建另一个.m文件，名为B.m，在该文件中，我可以访问A.m中创建的结构，并在B.m中绘制并执行计算。基本上，我想访问B.m.中在A

浏览 2提问于2014-12-16得票数 0

4回答

如何在Javascript中随机化数组的子集？

在Javascript中随机化部分数组的最佳方法是什么例如，如果我在数组中有100个项目，那么每10次对集合进行随机化的快速有效的方法是什么？在数据项内将0到9之间项随机化到items9。在data items10到items19中，10到19之间的项被随机化，依此类推。

浏览 0提问于2010-10-27得票数 1

1回答

如何在spark2-submits之间保持Spark集群的活力？

、

我需要在输入数据文件到达时通过执行spark2-submit来处理它们，以通过pyspark脚本处理输入文件。我观察到的是，对于每个spark2--submit，spark在进行最新输入文件的数据处理之前都会进行大量的初始化。这会导致延迟。如何在spark2提交之间保持Spark集群的活动状态？单独但相关的问题:除了spark2

浏览 2提问于2017-12-06得票数 2

4回答

如何有效地从由loadmat函数生成的嵌套numpy数组中提取值？

、、、

在python中是否有更有效的方法从嵌套的python列表(如A = array([[array([[12000000]])]], dtype=object) )中提取数据。我一直在使用A[0][0][0][0]，当你有像A这样的大量数据时，它似乎不是一个有效的方法。([[12000000]])]], dtype=object))，但这给了我 array(arr

浏览 6提问于2018-01-12得票数 4

回答已采纳

1回答

Cloudera Quick Start VM缺少Spark* 2.0或更高版本*

、、

为了测试和学习Spark函数，开发人员需要Spark的最新版本。因为2.0版之前的API和方法已经过时，在新版本中不再有效。这带来了更大的挑战，开发人员被迫手动安装Spark，这浪费了大量的开发时间。如何在Quickstart VM上使用更高版本的Spark？

浏览 3提问于2018-11-05得票数 0

1回答

使用Spark解析多个CSV文件时添加行号

、、

我目前正在让Spark将大量的小CSV文件解析成一个大型数据文件。与…有关的东西由于分析的数据集是如何构造的，所以我需要df中每一行的对应源CSV文件中的行号。是否有一些简单的方法来实现这一目标(最好不需要在i

浏览 3提问于2019-07-05得票数 2

1回答

PySpark:随机化数据帧中的行

、、、、

我有一个数据帧，我想对数据帧中的行进行随机化。我尝试通过给1的分数来采样数据，但这不起作用(有趣的是，这在Pandas中起作用)。

浏览 0提问于2016-04-23得票数 11

回答已采纳

1回答

pyspark数据写入结果

、

我用RDD读取它们，并使用spark.createDataFrame创建数据帧。现在，我需要在dataframe上处理30个Sql查询，大多数查询都需要上一个Sql查询的输出，就像相互依赖一样，所以我将所有中间状态保存在dataframe中，并为该dataframe创建临时视图。2.为什么要花太多的时间来编写甚至所有的处理都要花费很少的时间？

浏览 0提问于2018-02-26得票数 0

回答已采纳

2回答

匿名性:标准化还是随机化？

、、、

我不知道是否更好的标准化或随机化数据的匿名性。例如，想想浏览器指纹。如果将每个参数标准化，那么所有浏览器都将返回相同的用户代理、相同的安装字体、相同的窗口大小等。每个浏览器看起来都与其他浏览器相同，因此它是匿名的(当然，源IP除外)。另一种方法是随机化:每个浏览器都会将每个请求的数据随机化，因此，例如，用户代理每次都会不断地更改(或者经常更改)，并且可能从

浏览 0提问于2019-07-08得票数 1

1回答

有效地对已分区的数据集进行重新分区，以便将小文件合并为更大的文件

有没有一种方法可以重新分区已经分区的数据集，以便有效地减少单个分区中的文件数量，即不进行混洗？例如，如果数据集由某个key分区 part1我可以做以下几件事： .parquet("/input") .write .partitionBy("key").parquet(&quo

浏览 12提问于2019-08-15得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云