腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如
何在
PySpark
中
随机
生成
/
拆分
数据
、
、
Apache Spark
中
的以下Scala代码行将在8个分区
中
随机
拆分
数据
: import org.apache.spark.sql.functions.rand .repartition(8, col("person_country"), rand).partitionBy("person_country") .csv(outputPath) 有人能给我演示一下如何用
PySpark
我自己用下面的代码尝试过,但失败了 fr
浏览 53
提问于2020-09-10
得票数 0
2
回答
更改
数据
类型
拆分
后的星火RDD如
何在
不更改
数据
类型的情况下
拆分
、
、
我已经将
数据
从文本文件加载到Spark,在
数据
类型
拆分
更改之后。如
何在
不更改
数据
类型的情况下
拆分
数据
,或者如何将
拆分
的
数据
转换为原始
数据
类型?我的代码conf = SparkConf().setMaster("local").setAppName("Movietimestamp
浏览 2
提问于2020-10-22
得票数 0
1
回答
使用map函数将Spark Dataframe转换为RDD
、
、
我正在尝试将spark
数据
框
中
的列
拆分
为多个值。因此,我分隔了要
拆分
的列,并检查了其类型:O:
pyspark
.sql.dataframe.DataFrameO:
pyspark
.rdd.PipelinedRDD万分感谢
浏览 0
提问于2016-06-22
得票数 0
1
回答
spark是否提供了一种
生成
64位
随机
盐的方法?
、
我正在使用
Pyspark
,并希望
生成
随机
加密盐作为我的
数据
帧
中
的一个附加列。我想用它来为我的
数据
生成
Hash或一种保留加密密码值的格式。Spark dataframe API
中
是否有
生成
加密盐的最佳实践?
浏览 2
提问于2018-05-30
得票数 0
1
回答
与TestContainer一起使用自定义容器作为
数据
库
、
、
此应用程序的
数据
库驻留在自定义PostgreSQL Docker映像
中
。在集成测试
中
,ApplicationContext是通过MockMvc启动的,容器的启动方式如下 private我不能在spring.datasource.url=jdbc:tc:postgresql://localhost/my_db文件中使用JDBC方案(
如
spring.datasource.url=jdbc如果我指定容器的名
浏览 1
提问于2019-08-29
得票数 0
1
回答
具有替换的
pyspark
中
的
随机
抽样
、
、
喜欢 1 我想
生成
一个
随机
样本,将这9000个ids替换100000次。我如
何在
pyspark
中
做到这一点?
浏览 3
提问于2016-06-08
得票数 9
1
回答
在Logistic回归中使用不同random_state值的sklearn.linear_model.SGDClassifier得到完全不同的权重值
我认为,权重应该随着
随机
状态的不同而略有变化。请注意,我是在执行标准化之后使用
数据
的。我使用如下所示的非常简单的代码来训练我的模型,因为我的
数据
只包含200行具有3个要素的
数据
SGDClf =
浏览 1
提问于2021-03-28
得票数 0
1
回答
在一列
中
按唯一值
随机
拆分
DataFrame
、
、
我有一个如下所示的
pyspark
DataFrame:| col1 | col2 | groupId |这意味着如果为d1.groupId = d2.groupId,则d1和d2处于相同的
拆分
中
。| | val15 | val25 | 1
浏览 0
提问于2018-11-07
得票数 3
1
回答
在使用
PySpark
时,如
何在
Spark
中
实现Python
数据
结构?
、
、
、
我目前正在自学Spark programming,并试图用
PySpark
重新编写一个现有的Python应用程序。然而,我仍然对如
何在
PySpark
中使用常规Python对象感到困惑。我了解Spark
中
的分布式
数据
结构,
如
RDD、DataFrame、Datasets、vector等。Spark有自己的转换操作和动作操作,
如
.map()、.reduceByKey()来操作这些对象。但是,如果我在
PySpark
中
创建传统的Python<em
浏览 34
提问于2017-03-01
得票数 1
回答已采纳
3
回答
随机
生成
基于字母和数字的2个符号的数字和字母,并使用-
拆分
随机
字符串,
如
??#?#-?##-#?-#?#-## 我需要一些代码来
生成
如上所示的字符串。它不需要很复杂。我正在寻找一个vb.net项目来处理
生成
,所以我可以提交到
数据
库
中
手动序列。
浏览 1
提问于2019-06-03
得票数 0
1
回答
如
何在
Pyspark
Dataframe
中
训练和测试
拆分
的时间序列
数据
、
、
、
我想对排序后的
Pyspark
数据
帧进行基于时间的训练测试
拆分
。假设前300行将在训练集中,下200行将在测试
拆分
中
。我可以用以下命令选择前300行: train = df.show(300) 但是如何从
Pyspark
dataframe中选择最后200行呢?
浏览 14
提问于2019-03-13
得票数 1
1
回答
随机
森林分类器指标rdd
寻找
随机
森林分类器指标,
如
ROC,精确度回忆曲线,精确度,召回率,基于
数据
帧使用
pyspark
的F1分数。我可以在RDD object.Could上得到相同的指标,请帮帮忙。
浏览 1
提问于2019-04-10
得票数 0
1
回答
什么是“种子”在分裂测试-val
数据
在Python和如何得出一个正确的数字?
、
我试图分割我的图像
数据
集,以便它可以有一个训练集和验证集。我找到了这个叫做的Python库。语法很容易理解。如何为
数据
集找到正确的种子?
浏览 1
提问于2021-05-19
得票数 2
回答已采纳
1
回答
使用套接字的火花结构化流,设置模式,在控制台中显示DATAFRAME
、
、
、
如
何在
DataFrame
中
为流
PySpark
设置架构。from
pyspark
.sql import SparkSessionfrom
pyspark
.sql.functionsformat('socket')\ .option('port',
浏览 3
提问于2016-12-29
得票数 3
回答已采纳
1
回答
如何根据行号列表
拆分
pyspark
数据
帧的行?
、
、
、
我已经创建了一个
pyspark
数据
帧,形象化地看起来像这样: >>> df ------------------------------30 | 50 | ... |300 | 350 | 50 | ... |500 | 5 然后我还创建了
随机
的行号列表,如下所示: my_list = [[2, 5],[4, 1, 3]] 根据这个列表的结构,我希望创建
p
浏览 16
提问于2019-04-18
得票数 0
回答已采纳
2
回答
如
何在
pyspark
中
设置分割器和减速器的数量
、
、
、
我正尝试在amazon EMR实例上运行
pyspark
以从dynamodb读取
数据
,我想知道如
何在
我的代码
中
设置
拆分
和工作的数量?我按照下面两篇文档
中
的说明使用了下面的代码,该代码当前连接到dynamoDB并读取
数据
。和sc = SparkContext.getOrCreate() conf = {"dynamodb.servicenameSparkConf(
浏览 2
提问于2017-12-03
得票数 0
2
回答
在
pyspark
中
对
数据
帧进行
随机
采样
、
、
在我的
数据
集中,我有730亿行。我想对它应用一个分类算法。我需要原始
数据
中
的一个样本,以便我可以测试我的模型。5 58 m 87643 354 vb 1 如何使用
pyspark
进行
随机
采样,以使我的依赖(流失)变量比率不会发生变化。
浏览 0
提问于2019-09-26
得票数 0
1
回答
有没有一个与Scala的Seq.fill()等同的高效的
PySpark
/Python?
、
、
我正在尝试使用
PySpark
创建
随机
生成
的大型
数据
。下面的Scala代码基本上就是我想要的,但是我找不到一种在
PySpark
中
复制seq.fill()的有效方法。有没有办法用Python或
PySpark
重写这段代码,以利用Spark的并行性?
浏览 0
提问于2021-08-06
得票数 1
2
回答
在训练和测试
数据
集中
随机
分割tf
数据
集
、
有没有推荐的使用dataset api将tf
数据
集
随机
拆分
成子
数据
集的方法?我在大约150个文件上使用了一个
生成
器函数,这些文件大约有1TB。我想在读取时
随机
拆分
这些
数据
集,这样就不需要再次保存这些文件。
浏览 2
提问于2018-09-26
得票数 3
1
回答
Omnifaces FileServlet -更改图像的输出链接路径
、
我正在使用Omnifaces的FileServlet:例如:一张图片的路径是: myapp/imagesservlet/mypic1.jpg 有人可以输入myapp/imagesservlet
浏览 11
提问于2016-09-11
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何在Excel中快速拆分和合并数据
如何在Spark中处理结构化流式数据,如日志文件或传感器数据?
一个Python大数据处理利器:PySpark入门指南
PySpark,大数据处理的Python加速器!
九道门丨如何使用随机森林进行时间序列预测?
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券