在pyspark中使用动态生成器作为输入

、、

我正在尝试使用pyspark处理一个非常大的语料库，但是我的输入文件不是“每行一个文档”的结构，所以我不能简单地使用sc.textFile直接加载该文件。相反，我使用一个生成器函数加载该文件，每当遇到停止序列时，该生成器函数就会yield‘s文档。我可以使用sc.parallelize封装这个生成器，但是这会导致pyspark一次将我所有的数据加载到内存中，这是我负担不起的。有什么办法可以解决这个

浏览 5提问于2017-07-20得票数 0

回答已采纳

1回答

如何在火花放电中不使用参数生成器执行交叉验证？

、

我想在不使用ParamGrid Builder的情况下，在火花放电中进行一种简单的交叉验证。from pyspark.ml.tuning import CrossValidator, ParamGridBuilder numFolds=2) 可以不使用

浏览 1提问于2018-10-10得票数 2

1回答

使用配置单元元数据读取HDFS文件- Pyspark

、、、、

我是PySpark新手，正在尝试读取HDFS文件(上面创建了hive表)并创建PySpark数据帧。通过PySpark读取配置单元表非常耗时。有没有什么方法可以动态获取hive列名(用作dataframe中的模式)？我希望将文件位置、表名和数据库名作为输入传递给aa程序/函数，以便从配置单元元数据(可能是元数据xml)中获取模式/列名称，并作为dataframe返回。请指教

浏览 15提问于2019-03-06得票数 0

回答已采纳

2回答

将PySpark数据转换为Delta表

、、、

我在AWS胶水环境工作。我将Glue目录中的数据作为动态数据读取，并将其转换为Pyspark dataframe以进行自定义转换。为了重新插入新的/更新的数据，我打算使用delta表。但我只找到从路径读取数据作为增量表的选项。为了执行合并操作，我需要将我的Pyspark转换为Delta表。有办法这样做吗？

浏览 7提问于2021-08-30得票数 3

回答已采纳

2回答

Pact契约测试:如何使用json值生成动态PactDslJsonBody？

、、

如何使用json值生成动态PactDslJsonBody？有没有可能Pact团队可以提供自动生成器来动态分配body？") 断言响应：基于断言响应(作为输入generatePactDSLJsonBody(json));

浏览 33提问于2018-01-19得票数 1

回答已采纳

1回答

带有用户变量的SSIS包在Where子句中

、、、

简单地说，我试图获取用户输入，将其存储在一个变量中，然后在查询中使用该变量。接下来，我有一个执行SQL任务。设置如下： Connection = localho

浏览 7提问于2017-08-11得票数 3

回答已采纳

1回答

如何在pyspark中使用ALS记录每个时期的RMSE

、、

基于pyspark的教程。我正在尝试创建一个使用pyspark和RMSE作为评估指标的推荐系统。我想记录每个训练周期的RMSE。但是，在创建ALS对象时输入了纪元编号，似乎只有在训练完成后才能打印RMSE值。请问如何使用pyspark中的ALS打印每个时期的RMSE？

浏览 4提问于2020-04-19得票数 0

1回答

方法pow不存在错误火花误差

、、

但当我推动它在现实世界中运行时，它就没有了。在我的虚拟场景中，列的数据类型和实际场景是相同的。from pyspark.sql.types import StructType,StructField, IntegerType, DoubleType columns = ["CounterpartIDchurn_probability_unit", "churn_probability_nanos", "dead_probability_unit","d

浏览 7提问于2022-08-11得票数 0

回答已采纳

2回答

如何在IPython笔记本中加载jar依赖项

、、、

鼓励我尝试使用spark-csv来读取PySpark中的.csv文件。我发现有几篇文章描述了如何使用，比如ipython notebook --profile=pysparkipython notebook --profile=pyspark --packages com.databricks

浏览 1提问于2015-11-25得票数 8

1回答

pyspark.pandas API:构造共生矩阵，.dot()不支持数据作为输入。

、、、

我试图使用pyspark.pandas API在数据库上构造数据的共生矩阵。该代码在熊猫中运行良好，但在使用pyspark.pandas时出现了错误。pyspark.pandas.DataFrame.dot() 以串联作为输入。我尝试使用psdf.squeeze()将dataframe转换为系列化，但它并不将dataframe转换为串联，因为我的dataframe有多个列。有没有办法将<

浏览 8提问于2022-10-14得票数 0

回答已采纳

1回答

请帮助react pdf/渲染器PDFViewer的动态数据

、、、、

我目前正在使用@react/renderer作为pdf生成器的项目，到目前为止，我发现能够动态填充pdf内容的方法是使用@react/renderer的"BlobProvider“组件。但是，blobprovider将用户引导到一个新的选项卡，我只想在相同的选项卡中显示内容，比如Iframe (包括输入框中的动态更改)。我试过使用iframe，它只生成PDF文档，我无法获得pdf文档的<

浏览 6提问于2020-10-13得票数 2

1回答

动态汇总和重命名PySpark中的聚合列

、、、、

我有一个PySpark数据帧(Df)，其中包含50+列，其中包含一些动态列，这些列可能存在也可能不存在，但它们存在于一个单独的列表(Reqd_col)中。我想对列表(Reqd_col)中存在的PySpark data frame(df)中的那些列进行汇总(按固定列‘region’分组)和汇总总和或计数，汇总列的名称应与列的原始名称相同，而不是PySpark以下是一个例子： df- PySpark数据帧，由50+列组成 Reqd_Col = '

浏览 24提问于2021-09-08得票数 0

1回答

pyspark中的动态条件生成器

、、

现在，我需要的是一个动态条件生成器或查询生成器。因此，在本例中，我确定了一个类似"select *"的常见模式，并创建了一个扩展名为.properties的属性文件，并读取了.py文件中的变量：selectVar在上面的示例中，他们可以删除CONDITIONS2或添加CONDITIONS4，也可以根据需要更改CONDITIONS3。它应该是动态的。不需要，客户端需要编码部分。那

浏览 17提问于2019-10-27得票数 0

1回答

动态创建内容的最佳静态站点生成器

、、、

哪个静态站点引擎最有意义，如果你要用购物车作为购物车制作一个动态内容的在线商店？我把Snipcart连接到Jekyll上，我也看到了使用其他静态站点生成器的实现，但我认为生成器应该是轻巧的(因为它能够快速构建)和/或仅仅能够动态构建(实际上大多数都不是)。所谓动态内容，我的意思是网站应该经常更新/刷新，这取决于仓库内容(限量版计数器-只剩下10项，然后9项等等)。以及限时报价(例如，一件物品12小时的减价)？我看了一下花椰菜-Taco，因为它“基于数

浏览 3提问于2015-11-29得票数 2

3回答

org.apache.spark.api.python.PythonUtils.getPythonAuthSocketTimeout : JVM中不存在org.apache.spark.api.python.PythonUtils.getPythonAuthSocketTimeout

、

我试图在jupyter笔记本中创建SparkContext，但是我得到了以下错误：这是我的密码conf = SparkConf().setMasterMy App") ----> 2 sc = SparkContext(conf =

浏览 29提问于2021-04-02得票数 6

1回答

是否可以使用“`dask`”数组作为“`pyspark`”的输入？

、、、

是否可以使用dask数组作为pyspark的输入我有一个dask数组，我喜欢提供给pyspark.mllib.clustering.StreamingKMeans。

浏览 0提问于2022-01-27得票数 1

1回答

无效日期:使用pySpark将CSV导入Cassandra时出错

、、、

我使用木星NoteBook运行pySpark代码将CSV文件导入Cassandrav3.11.3。越来越少的错误。 [![pyspark_code][1]][1] 

浏览 3提问于2020-03-12得票数 1

2回答

Azure Data表达式生成器字符串格式错误:未识别的令牌(新行)

我有一个映射数据流，其中我想为Source使用一个自定义SQL查询，但是我不能在多行上中断它，我收到一个错误声明：select 在ADF中是这样的： 

浏览 5提问于2020-10-20得票数 2

回答已采纳

1回答

在PySpark* DataFrame中添加多个空列*

、

有人能建议我如何在pyspark dataframe中添加多个空列吗？: return dataframe 在应用add_columns函数后的输出模式中，我在0x7f41189d7e10处获得了新的列作为生成器对象genexpr : string (nullable = true)

浏览 1提问于2018-09-14得票数 0

1回答

PySpark randomSplit与SkLearn列车测试拆分-随机种子问题

、、、

假设我使用完全相同的pandas数据，并使用SQLContext实例创建一个Spark。如果我应用PySpark randomSplit函数，并将seed参数设置为1，将始终保证得到相同的精确拆分吗？

浏览 3提问于2019-03-31得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在火花放电中不使用参数生成器执行交叉验证？

使用配置单元元数据读取HDFS文件- Pyspark

将PySpark数据转换为Delta表

Pact契约测试:如何使用json值生成动态PactDslJsonBody？

带有用户变量的SSIS包在Where子句中

如何在pyspark中使用ALS记录每个时期的RMSE

方法pow不存在错误火花误差

如何在IPython笔记本中加载jar依赖项

pyspark.pandas API:构造共生矩阵，.dot()不支持数据作为输入。

请帮助react pdf/渲染器PDFViewer的动态数据

动态汇总和重命名PySpark中的聚合列

pyspark中的动态条件生成器

动态创建内容的最佳静态站点生成器

org.apache.spark.api.python.PythonUtils.getPythonAuthSocketTimeout : JVM中不存在org.apache.spark.api.python.PythonUtils.getPythonAuthSocketTimeout

是否可以使用“`dask`”数组作为“`pyspark`”的输入？

无效日期:使用pySpark将CSV导入Cassandra时出错

Azure Data表达式生成器字符串格式错误:未识别的令牌(新行)

在PySpark* DataFrame中添加多个空列*

PySpark randomSplit与SkLearn列车测试拆分-随机种子问题

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐