腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
Spark
中生
成
大量
随机化
数据
的
有效
方法
、
、
我正在尝试生成一个大型随机
数据
集
spark
。( timestamp列是唯一有意义
的
列) 即使当我试图
在
一个大型集群上生成数万亿行时,我也希望它仍然
有效
,所以我试图一次生成100个元素
的
批次,因为数万亿行无法放入一个Seq中。我想知道是否有人有更好
的
想法来做这件事。 import Math.import org.apache.
spark
.sql.{DataFrame, Row, SaveMode} import org.apache.
spark<
浏览 75
提问于2019-03-10
得票数 4
1
回答
从Schema创建eclipse
、
、
、
、
我目前正在使用
Spark
解析
大量
数据
。
Spark
在读取所有
数据
后推断架构。我想使用这个模式来生成Eclipse。但是
在
Spark
中生
成
的
模式并不是标准
的
XSD格式。它是Json格式
的
,我无法找到将这个Json转换为XSD
的
通用
方法
。您知道我是否可以
在
Spark
推断架构时创建XSD吗?
浏览 1
提问于2018-04-10
得票数 1
1
回答
是否
在
S3
中生
成
大量
样本
数据
用于火花消耗?
、
、
我有一个目前
的
spark
管道,它在相对少量
的
数据
上运行。对这些
数据
量
的
性能测试只能得到这么多,理想情况下,我希望
在
大量
数据
上测试
spark
管道。是否有任何
方法
或工具可以模拟或模拟
大量
输入
数据
以供
spark
处理,特别是当输入来自亚马逊S3时?我不希望当我开始获得更多
的
数据
时火花爆炸。 我有一个JSON模式,如果有
浏览 0
提问于2019-04-04
得票数 0
3
回答
将大文本文件导入
Spark
、
、
我有一个以竖线分隔
的
文本文件,大小为360 is,压缩(gzip)。该文件位于S3存储桶中。这是我第一次使用
Spark
。我知道,您可以对文件进行分区,以便允许多个工作节点对
数据
进行操作,这会带来巨大
的
性能提升。但是,我正在尝试找到一种
有效
的
方法
来将我
的
一个360‘m
的
文件转换为分区文件。有没有办法使用多个
spark
worker节点来处理我
的
一个压缩文件,以便对其进行分区?不幸
的
是
浏览 1
提问于2017-10-25
得票数 4
1
回答
在
Qualtrics中
随机化
块中
的
页面?
、
在
Qualtrics中,是否有可能将块中
的
页面
随机化
?例如,以这个第1块为例:1. Do you like cats?是否可能将每一页出现
的
顺序
随机化
(例如,Q3,4,5可能首先出现,Q1&2秒,Q6和7第三)。我有
大量
的
调查页面,如果要把它们分解
成
许多不同
的
块来
随机化
它们,那将是相当痛苦
的
。
浏览 17
提问于2016-05-09
得票数 3
回答已采纳
6
回答
在
R中,我如何局部地混洗向量
的
元素
、
我
在
R中有下面的向量,把它们想象
成
一个数字
的
向量。我想根据一些输入数字“局部性因子”来“局部”地
随机化
这个向量。例如,如果位置因子是3,则取前3个元素并
随机化
,然后是接下来
的
3个元素,依此类推。有没有一种
有效
的
方法
来做到这一点?我知道如果我使用sample,它会使整个数组变得混乱。提前感谢
浏览 6
提问于2013-07-14
得票数 6
回答已采纳
1
回答
基于列值高效地从宽
Spark
数据
帧中删除列
、
、
如果我有一个只包含IP地址
的
宽
数据
帧(200m cols),并且我想删除包含空值或格式不佳
的
IP地址
的
列,那么
在
Spark
中执行此操作
的
最
有效
方法
是什么?我
的
理解是
Spark
并行地执行基于行
的
处理,而不是基于列
的
处理。因此,如果我尝试
在
列上应用转换,将会有
大量
的
混洗。首先转置
数据
帧,然后应用筛
浏览 11
提问于2019-10-31
得票数 1
1
回答
在
Haskell
中生
成
大量
文本
的
有效
方法
、
、
完整
的
源代码和性能分析报告在这里:我开始将String连接在一起来生成我
的
文本文件,很快就发现它占用了几乎90%
的
执行时间。color Main 219 250000 0.5 0.0 0.5 0.0 这告诉我Text和S
浏览 3
提问于2014-12-31
得票数 3
1
回答
Mapreduce Vs
Spark
Vs Storm Vs Drill -用于小文件
、
、
、
、
我知道
spark
在内存中进行计算,而且比MapReduce快得多。我想知道
spark
对小于10000
的
记录有多好
的
效果?我有
大量
的
文件(每个文件大约有10000条记录,比如说100列文件)进入我
的
hadoop
数据
平台,
在
我加载到hbase之前,我需要执行一些
数据
质量检查。我在后端使用MapReduce
的
hive中执行
数据
质量检查。对于每个文件,它大约需要8分钟,这对我来说很糟糕。<
浏览 2
提问于2015-08-16
得票数 1
2
回答
如何处理
大量
的
实木地板文件
、
、
、
、
我
在
Hadoop上使用Apache Parquet,一段时间后,我有一个问题。当我
在
Hadoop上
的
Spark
中生
成parquets时,它可能会变得非常混乱。当我说乱七八糟
的
时候,我
的
意思是
Spark
job正在生成
大量
的
镶木地板文件。当我试图查询它们时,我正在处理
大量
的
查询,因为
Spark
将所有的文件合并在一起。你能告诉我处理它
的
正确
方
浏览 2
提问于2017-07-12
得票数 1
回答已采纳
1
回答
MATLAB从一个.m文件访问另一个.m文件中
的
数据
是否有
方法
从一个.m文件中访问另一个文件
中生
成
的
数据
。我想要做
的
是,我有一个.m名称为A.m,在这里,我从一个.txt文件中加载了
大量
数据
,并将其分解
成
一个包含各种字段
的
结构。由于这占用了脚本中
的
大量
空间,所以我希望创建另一个.m文件,名为B.m,
在
该文件中,我可以访问A.m中创建
的
结构,并在B.m中绘制并执行计算。基本上,我想访问B.m.中
在
A
浏览 2
提问于2014-12-16
得票数 0
4
回答
如何在Javascript中
随机化
数组
的
子集?
在
Javascript中
随机化
部分数组
的
最佳
方法
是什么 例如,如果我在数组中有100个项目,那么每10次对集合进行
随机化
的
快速
有效
的
方法
是什么?在
数据
项内将0到9之间项
随机化
到items9。
在
data items10到items19中,10到19之间
的
项被
随机化
,依此类推。
浏览 0
提问于2010-10-27
得票数 1
1
回答
如何在
spark
2-submits之间保持
Spark
集群
的
活力?
、
我需要在输入
数据
文件到达时通过执行
spark
2-submit来处理它们,以通过pyspark脚本处理输入文件。我观察到
的
是,对于每个
spark
2--submit,
spark
在
进行最新输入文件
的
数据
处理之前都会进行
大量
的
初始化。这会导致延迟。如何在
spark
2提交之间保持
Spark
集群
的
活动状态?单独但相关
的
问题:除了
spark
2
浏览 2
提问于2017-12-06
得票数 2
4
回答
如何
有效
地从由loadmat函数生成
的
嵌套numpy数组中提取值?
、
、
、
在
python中是否有更
有效
的
方法
从嵌套
的
python列表(如A = array([[array([[12000000]])]], dtype=object) )中提取
数据
。我一直
在
使用A[0][0][0][0],当你有像A这样
的
大量
数据
时,它似乎不是一个
有效
的
方法
。([[12000000]])]], dtype=object)),但这给了我 array(arr
浏览 6
提问于2018-01-12
得票数 4
回答已采纳
1
回答
Cloudera Quick Start VM缺少
Spark
2.0或更高版本
、
、
为了测试和学习
Spark
函数,开发人员需要
Spark
的
最新版本。因为2.0版之前
的
API和
方法
已经过时,
在
新版本中不再
有效
。这带来了更大
的
挑战,开发人员被迫手动安装
Spark
,这浪费了
大量
的
开发时间。 如何在Quickstart VM上使用更高版本
的
Spark
?
浏览 3
提问于2018-11-05
得票数 0
1
回答
使用
Spark
解析多个CSV文件时添加行号
、
、
我目前正在让
Spark
将
大量
的
小CSV文件解析
成
一个大型
数据
文件。与…有关
的
东西由于分析
的
数据
集是如何构造
的
,所以我需要df中每一行
的
对应源CSV文件中
的
行号。是否有一些简单
的
方法
来实现这一目标(最好不需要在i
浏览 3
提问于2019-07-05
得票数 2
1
回答
PySpark:
随机化
数据
帧中
的
行
、
、
、
、
我有一个
数据
帧,我想对
数据
帧中
的
行进行
随机化
。我尝试通过给1
的
分数来采样
数据
,但这不起作用(有趣
的
是,这在Pandas中起作用)。
浏览 0
提问于2016-04-23
得票数 11
回答已采纳
1
回答
pyspark
数据
写入结果
、
我用RDD读取它们,并使用
spark
.createDataFrame创建
数据
帧。现在,我需要在dataframe上处理30个Sql查询,大多数查询都需要上一个Sql查询
的
输出,就像相互依赖一样,所以我将所有中间状态保存在dataframe中,并为该dataframe创建临时视图。2.为什么要花太多
的
时间来编写甚至所有的处理都要花费很少
的
时间?
浏览 0
提问于2018-02-26
得票数 0
回答已采纳
2
回答
匿名性:标准化还是
随机化
?
、
、
、
我不知道是否更好
的
标准化或
随机化
数据
的
匿名性。例如,想想浏览器指纹。如果将每个参数标准化,那么所有浏览器都将返回相同
的
用户代理、相同
的
安装字体、相同
的
窗口大小等。每个浏览器看起来都与其他浏览器相同,因此它是匿名
的
(当然,源IP除外)。另一种
方法
是
随机化
:每个浏览器都会将每个请求
的
数据
随机化
,因此,例如,用户代理每次都会不断地更改(或者经常更改),并且可能从
浏览 0
提问于2019-07-08
得票数 1
1
回答
有效
地对已分区
的
数据
集进行重新分区,以便将小文件合并为更大
的
文件
有没有一种
方法
可以重新分区已经分区
的
数据
集,以便
有效
地减少单个分区中
的
文件数量,即不进行混洗?例如,如果
数据
集由某个key分区 part1我可以做以下几件事: .parquet("/input") .write .partitionBy("key").parquet(&quo
浏览 12
提问于2019-08-15
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
再谈Spark Streaming Kafka反压
如果你想月薪超过3万英镑,那么这项技能是必要的
大数据查询——HBase读写设计与实践
从OpenAI的魔方机械手,看元学习的崛起
Spark关键性能考量
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券