腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
pyspark
中
使用
动态
生成器
作为
输入
、
、
我正在尝试
使用
pyspark
处理一个非常大的语料库,但是我的
输入
文件不是“每行一个文档”的结构,所以我不能简单地
使用
sc.textFile直接加载该文件。相反,我
使用
一个
生成器
函数加载该文件,每当遇到停止序列时,该
生成器
函数就会yield‘s文档。我可以
使用
sc.parallelize封装这个
生成器
,但是这会导致
pyspark
一次将我所有的数据加载到内存
中
,这是我负担不起的。 有什么办法可以解决这个
浏览 5
提问于2017-07-20
得票数 0
回答已采纳
1
回答
如何在火花放电
中
不
使用
参数
生成器
执行交叉验证?
、
我想在不
使用
ParamGrid Builder的情况下,
在
火花放电中进行一种简单的交叉验证。from
pyspark
.ml.tuning import CrossValidator, ParamGridBuilder numFolds=2) 可以不
使用
浏览 1
提问于2018-10-10
得票数 2
1
回答
使用
配置单元元数据读取HDFS文件-
Pyspark
、
、
、
、
我是
PySpark
新手,正在尝试读取HDFS文件(上面创建了hive表)并创建
PySpark
数据帧。通过
PySpark
读取配置单元表非常耗时。有没有什么方法可以
动态
获取hive列名(用作dataframe
中
的模式)?我希望将文件位置、表名和数据库名
作为
输入
传递给aa程序/函数,以便从配置单元元数据(可能是元数据xml)
中
获取模式/列名称,并
作为
dataframe返回。 请指教
浏览 15
提问于2019-03-06
得票数 0
回答已采纳
2
回答
将
PySpark
数据转换为Delta表
、
、
、
我
在
AWS胶水环境工作。我将Glue目录
中
的数据
作为
动态
数据读取,并将其转换为
Pyspark
dataframe以进行自定义转换。为了重新插入新的/更新的数据,我打算
使用
delta表。但我只找到从路径读取数据
作为
增量表的选项。为了执行合并操作,我需要将我的
Pyspark
转换为Delta表。有办法这样做吗?
浏览 7
提问于2021-08-30
得票数 3
回答已采纳
2
回答
Pact契约测试:如何
使用
json值生成
动态
PactDslJsonBody?
、
、
如何
使用
json值生成
动态
PactDslJsonBody?有没有可能Pact团队可以提供自动
生成器
来
动态
分配body?") 断言响应:基于断言响应(
作为
输入
generatePactDSLJsonBody(json));
浏览 33
提问于2018-01-19
得票数 1
回答已采纳
1
回答
带有用户变量的SSIS包在Where子句中
、
、
、
简单地说,我试图获取用户
输入
,将其存储
在
一个变量
中
,然后
在
查询中
使用
该变量。接下来,我有一个执行SQL任务。设置如下: Connection = localho
浏览 7
提问于2017-08-11
得票数 3
回答已采纳
1
回答
如何在
pyspark
中
使用
ALS记录每个时期的RMSE
、
、
基于
pyspark
的教程。我正在尝试创建一个
使用
pyspark
和RMSE
作为
评估指标的推荐系统。我想记录每个训练周期的RMSE。但是,
在
创建ALS对象时
输入
了纪元编号,似乎只有
在
训练完成后才能打印RMSE值。请问如何
使用
pyspark
中
的ALS打印每个时期的RMSE?
浏览 4
提问于2020-04-19
得票数 0
1
回答
方法pow不存在错误火花误差
、
、
但当我推动它在现实世界
中
运行时,它就没有了。
在
我的虚拟场景
中
,列的数据类型和实际场景是相同的。from
pyspark
.sql.types import StructType,StructField, IntegerType, DoubleType columns = ["CounterpartIDchurn_probability_unit", "churn_probability_nanos", "dead_probability_unit","d
浏览 7
提问于2022-08-11
得票数 0
回答已采纳
2
回答
如何在IPython笔记本中加载jar依赖项
、
、
、
鼓励我尝试
使用
spark-csv来读取
PySpark
中
的.csv文件。我发现有几篇文章描述了如何
使用
,比如ipython notebook --profile=
pyspark
ipython notebook --profile=
pyspark
--packages com.databricks
浏览 1
提问于2015-11-25
得票数 8
1
回答
pyspark
.pandas API:构造共生矩阵,.dot()不支持数据
作为
输入
。
、
、
、
我试图
使用
pyspark
.pandas API在数据库上构造数据的共生矩阵。该代码
在
熊猫
中
运行良好,但在
使用
pyspark
.pandas时出现了错误。
pyspark
.pandas.DataFrame.dot() 以串联
作为
输入
。我尝试
使用
psdf.squeeze()将dataframe转换为系列化,但它并不将dataframe转换为串联,因为我的dataframe有多个列。有没有办法将<
浏览 8
提问于2022-10-14
得票数 0
回答已采纳
1
回答
请帮助react pdf/渲染器PDFViewer的
动态
数据
、
、
、
、
我目前正在
使用
@react/renderer
作为
pdf
生成器
的项目,到目前为止,我发现能够
动态
填充pdf内容的方法是
使用
@react/renderer的"BlobProvider“组件。但是,blobprovider将用户引导到一个新的选项卡,我只想在相同的选项卡
中
显示内容,比如Iframe (包括
输入
框
中
的
动态
更改)。我试过
使用
iframe,它只生成PDF文档,我无法获得pdf文档的<
浏览 6
提问于2020-10-13
得票数 2
1
回答
动态
汇总和重命名
PySpark
中
的聚合列
、
、
、
、
我有一个
PySpark
数据帧(Df),其中包含50+列,其中包含一些
动态
列,这些列可能存在也可能不存在,但它们存在于一个单独的列表(Reqd_col)
中
。我想对列表(Reqd_col)
中
存在的
PySpark
data frame(df)
中
的那些列进行汇总(按固定列‘region’分组)和汇总总和或计数,汇总列的名称应与列的原始名称相同,而不是
PySpark
以下是一个例子: df-
PySpark
数据帧,由50+列组成 Reqd_Col = '
浏览 24
提问于2021-09-08
得票数 0
1
回答
pyspark
中
的
动态
条件
生成器
、
、
现在,我需要的是一个
动态
条件
生成器
或查询
生成器
。因此,
在
本例
中
,我确定了一个类似"select *"的常见模式,并创建了一个扩展名为.properties的属性文件,并读取了.py文件
中
的变量:selectVar在上面的示例
中
,他们可以删除CONDITIONS2或添加CONDITIONS4,也可以根据需要更改CONDITIONS3。它应该是
动态
的。不需要,客户端需要编码部分。那
浏览 17
提问于2019-10-27
得票数 0
1
回答
动态
创建内容的最佳静态站点
生成器
、
、
、
哪个静态站点引擎最有意义,如果你要用购物车
作为
购物车制作一个
动态
内容的在线商店?我把Snipcart连接到Jekyll上,我也看到了
使用
其他静态站点
生成器
的实现,但我认为
生成器
应该是轻巧的(因为它能够快速构建)和/或仅仅能够
动态
构建(实际上大多数都不是)。所谓
动态
内容,我的意思是网站应该经常更新/刷新,这取决于仓库内容(限量版计数器-只剩下10项,然后9项等等)。以及限时报价(例如,一件物品12小时的减价)?我看了一下花椰菜-Taco,因为它“基于数
浏览 3
提问于2015-11-29
得票数 2
3
回答
org.apache.spark.api.python.PythonUtils.getPythonAuthSocketTimeout : JVM
中
不存在org.apache.spark.api.python.PythonUtils.getPythonAuthSocketTimeout
、
我试图
在
jupyter笔记本
中
创建SparkContext,但是我得到了以下错误:这是我的密码conf = SparkConf().setMasterMy App") ----> 2 sc = SparkContext(conf =
浏览 29
提问于2021-04-02
得票数 6
1
回答
是否可以
使用
“`dask`”数组
作为
“`
pyspark
`”的
输入
?
、
、
、
是否可以
使用
dask数组
作为
pyspark
的
输入
我有一个dask数组,我喜欢提供给
pyspark
.mllib.clustering.StreamingKMeans。
浏览 0
提问于2022-01-27
得票数 1
1
回答
无效日期:
使用
pySpark
将CSV导入Cassandra时出错
、
、
、
我
使用
木星NoteBook运行
pySpark
代码将CSV文件导入Cassandrav3.11.3。越来越少的错误。 [![
pyspark
_code][1]][1]
浏览 3
提问于2020-03-12
得票数 1
2
回答
Azure Data表达式
生成器
字符串格式错误:未识别的令牌(新行)
我有一个映射数据流,其中我想为Source
使用
一个自定义SQL查询,但是我不能在多行上中断它,我收到一个错误声明:select
在
ADF
中
是这样的:
浏览 5
提问于2020-10-20
得票数 2
回答已采纳
1
回答
在
PySpark
DataFrame
中
添加多个空列
、
有人能建议我如何在
pyspark
dataframe
中
添加多个空列吗?: return dataframe
在
应用add_columns函数后的输出模式
中
,我
在
0x7f41189d7e10处获得了新的列
作为
生成器
对象genexpr : string (nullable = true)
浏览 1
提问于2018-09-14
得票数 0
1
回答
PySpark
randomSplit与SkLearn列车测试拆分-随机种子问题
、
、
、
假设我
使用
完全相同的pandas数据,并
使用
SQLContext实例创建一个Spark。如果我应用
PySpark
randomSplit函数,并将seed参数设置为1,将始终保证得到相同的精确拆分吗?
浏览 3
提问于2019-03-31
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
在Excel中实现基于输入值的动态数列生成
在VBA中如何使用动态数组,以及利用动态数组去除重复值的方法
机器学习实践:如何将Spark与Python结合?
Windows和PC机上搭建Spark+Python开发环境的详细步骤
PySpark数据分析基础:PySpark原理详解
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券