Pyspark:在大型数据帧上调用.toJSON()是最佳实践吗？

apache-spark、pyspark、apache-spark-sql

我有一个很大的数据帧，我需要将每一行转换成JSON，然后对每个产生的JSON msg进行“一些处理”。最简单的方法似乎是在dataframe上调用.toJSON()，收集结果并循环结果，以便在每次迭代时进行处理。但是在大型数据帧上调用.toJSON()是一种可伸缩的方法吗？如果不是，那么将数据帧中的每一行转换为

浏览 36提问于2021-04-19得票数 0

回答已采纳

5回答

火花复制数据栏- Python/PySpark中的最佳实践？

python、apache-spark、pyspark

这是用于使用Spark2.3.2的Python/PySpark。我正在寻找最佳实践方法，将一个数据框架的列复制到另一个数据框架，使用PySpark对一个非常大的10+十亿行数据集(按年/月/日平均划分)。每一行都有120列要转换/复制。输出数据帧将被写入另一组文件中，日期分区。示例模式是：input DFinput (colA，colB，colC)和输出DFoutput (X，

浏览 1提问于2018-12-19得票数 5

1回答

Table to pandas正在杀死我在azure Synapse中的会话

pandas、azure-synapse

我正在以表的形式将数据库中的表调用到synapse中。然后我的下一步是转换为pandas，这样我就可以运行所有与pandas.However相关的代码。当我将表转换为pandas时，会话将被终止。我已经通过转换为拼花文件，但我不能转换为拼花从一个表，然后读取熊猫数据帧。这方面有没有什么最佳实践： %pysparkVendor_Name

浏览 13提问于2021-04-20得票数 0

回答已采纳

1回答

合并两个大型数据帧

python、pandas、dataframe、merge

我有两个大数据帧:一个包含3M行，另一个包含2M行第一个数据帧： sacc_id$ id$ creation_date0 001A000000hAUn8IAG有什么需要帮忙的吗？谢谢

浏览 16提问于2019-01-31得票数 0

1回答

如何迭代大型Pyspark Dataframe中列的不同值？.distinct().collect()引发大型任务警告

python、pyspark

我正在尝试迭代一个大型Pyspark Dataframe列中的所有不同值。当我尝试使用.distinct().collect()执行此操作时，即使只有两个不同的值，它也会发出“任务太大”警告。下面是一些示例代码： data.select("a

浏览 1提问于2020-01-14得票数 1

1回答

与Pandas结果相比，dataframe中唯一值的Pyspark数量不同

pandas、dataframe、pyspark、unique、pyspark-dataframes

我有400万行的大型数据帧。其中一列是名为"name“的变量。当我通过：df['name].nunique()检查Pandas中唯一值的数量时，我得到了一个与Pyspark df.select("name").distinct().show()不同的答案(在Pandas中大约为1800，在Pyspark中为350 )。这是一个数据分区的问题吗？编辑:数据框中

浏览 0提问于2020-05-24得票数 0

1回答

在java spring项目中，gremlin客户端集群的最佳实践是什么？

java、gremlin、tinkerpop3、amazon-neptune

我使用的是海王星(AWS)图形数据库，我的客户端api是java spring。我的应用程序对我的数据库进行读写。实际上，我们有两个集群，用于将读写作为一个bean。我们正在生成几次遍历，在提交了每一次之后，我们决定使用try with ressource来关闭它。关闭遍历并重新创建traversal().withRemote(..)是一种最佳实践吗？在一个线程中有多个连接的大型项

浏览 65提问于2020-09-08得票数 3

1回答

在pyspark数据帧中查找非重叠窗口

apache-spark、pyspark、apache-spark-sql、pyspark-sql

假设我有一个以秒为单位的id列和时间列(t)的pyspark数据帧。对于每个id，我希望对行进行分组，以便每个组都包含在该组开始时间之后5秒内的所有条目。例如，如果表是：|id |t ||1 |0 ||1 |3 ||1 |14||2 |0 |计算每个组中的(cumsum(t)-(cumsum(t)%5))/5可以

浏览 20提问于2019-07-19得票数 0

3回答

最佳实践:使用PHP5.x将CSV导入MYSQL数据库

php、sql

将大量记录导入MySQL或的最佳解决方案是什么。我认为有两种方法：我不确定你的表现是不是更好？对于这类操作有什么最佳实践解决方案吗？

浏览 0提问于2009-07-07得票数 0

回答已采纳

4回答

从AS400 (IBM )与.NET通信时的最佳实践

.net、ibm-midrange

当在现有的基于.NET的系统上构建基于AS400的报告解决方案时，我需要一些关于什么是重要的和最佳实践的帮助。什么是最适合的集成技术(ODBC、OLE DB、ADO.NET)，这取决于我们正在讨论的AS400版本吗？它总是DB2数据库还是不同的？通常使用的是什么其他的持久性系统？是否可以在具有逻辑的大型机中调用程序，或者在.NET层复制该逻辑，然后直接调用大型机D

浏览 2提问于2010-11-14得票数 6

回答已采纳

2回答

海量数据集上的深度学习

apache-spark、deep-learning

我知道，在处理无法放入单机内存的数据集时，spark + EMR是一种很好的方法。我是不是走错路了？对内存无法容纳的数据进行深度学习的最佳实践是什么？

浏览 10提问于2017-10-18得票数 0

1回答

具有多个实体的DataMapper

php、datamapper、entities

寻求一些最佳实践建议。基本上，我有一个由各种属性组成的大型实体，其中一些属性是其他实体。 } 我见过这

浏览 4提问于2012-08-19得票数 0

1回答

在远程R会话上工作

r、ssh、remote-server

由于内存限制，我正在处理的R会话位于远程集群上，并且数据存储在远程。因此，我使用notepad++编辑我的文件，并将它们粘贴到我的SSH会话中。什么是与远程会话集成的最佳方式，以利用代码完成和RStudio等编辑器中提供的其他功能。关于处理远程连接，有什么最佳实践建议吗？我想这一定是大多数使用大型数据集的R用户的情况。

浏览 0提问于2012-10-24得票数 3

回答已采纳

1回答

我应该单独运行vacuum和分析吗？假设完成了大量的删除和更新

greenplum、vacuum

假设大型删除和更新是在GP表上完成的。当我运行vacuum analyze时，它运行的顺序是什么？有没有关于运行真空和分析的顺序的最佳实践？

浏览 2提问于2016-09-16得票数 1

1回答

这是用于移动的现代OpenGL UI和文本呈现的典型方法吗？

opengl、performance、opengl-es、mobile、efficiency

是当今移动游戏的通用方法标准？对每个控件和文本使用以下内容：一本纹理地图集(当然只有一本用于文本，最好只是一本用于控制背景)可修改的Text字段有自己的小的、单独的VBO，使用glBufferSubData()或glBufferData() (在backspace/delete上缩短)进行修改，就像注意到的

浏览 0提问于2015-11-03得票数 5

回答已采纳

1回答

在一个大型EC2上托管几个应用程序与在多个小型EC2s上托管

amazon-ec2

我似乎找不到这个问题的答案:我想把几个EC2s和网站合并到一个大的EC2上，而不是分散在多个小的webapps上。这似乎会更具成本效益。然而，我的同事说，设置多个EC2s是最佳实践，尽管它的成本会更高。但他不能真正地进一步解释。提前感谢！

浏览 1提问于2017-01-27得票数 0

2回答

关于JavaScript键引号的标准或最佳实践是什么？

javascript、typescript、ecmascript-6、jsx、tsx

我已经经历了几个问题，比如，看看是否有一个标准的实践/最佳实践，用于在JavaScript、JSX或TSX中将引号放在键上。然而，我没有发现任何东西，我想知道(在构建一个关于不良实践的大型项目之前)哪一个是最好的：和或者更好的是，有什么文件我可以参考吗</e

浏览 8提问于2022-02-06得票数 3

回答已采纳

1回答

React和Redux架构

reactjs、redux

假设您有规范化的数据 { userId: 1, name: 'Ian', groupId: 1 },} 处理.map、.filter、.reduce、.forEach、.sort、反规范化等数据的最佳实践是什么？我创建了utils函数来处理像Utils.getChatsFromUsers之类的大型数据

浏览 0提问于2018-04-07得票数 1

1回答

如何使用PySpark更新hive表中的记录？

hive、pyspark-sql

我们正在使用spark来处理大型数据，并且最近获得了新的用例，我们需要使用spark更新Hive表中的数据。下面是一个简单的例子:数据驻留在Hive表中，应用程序使用PySpark读取数据帧(比如PySpark)。例句:数据帧在列下面。例如：加5 Add 30 32000 应用程序可以通过剥离Action列并附加到表中，将新数据</e

浏览 1提问于2019-03-29得票数 2

3回答

取消持久化(py)spark中的所有数据帧

python、caching、apache-spark、pyspark、apache-spark-sql

我是一个spark应用程序，有几个点我想要持久化当前状态。这通常是在一个大的步骤之后，或者缓存一个我想要多次使用的状态之后。似乎当我第二次对我的数据帧调用cache时，一个新的副本被缓存到内存中。在我的应用程序中，这会导致在扩展时出现内存问题。尽管在我当前的测试中，给定的数据帧最大大约为100MB，但中间结果的累积大小超出了executor上分配的内存。C2'])d

浏览 9提问于2016-04-28得票数 39

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

火花复制数据栏- Python/PySpark中的最佳实践？

Table to pandas正在杀死我在azure Synapse中的会话

合并两个大型数据帧

如何迭代大型Pyspark Dataframe中列的不同值？.distinct().collect()引发大型任务警告

与Pandas结果相比，dataframe中唯一值的Pyspark数量不同

在java spring项目中，gremlin客户端集群的最佳实践是什么？

在pyspark数据帧中查找非重叠窗口

最佳实践:使用PHP5.x将CSV导入MYSQL数据库

从AS400 (IBM )与.NET通信时的最佳实践

海量数据集上的深度学习

具有多个实体的DataMapper

在远程R会话上工作

我应该单独运行vacuum和分析吗？假设完成了大量的删除和更新

这是用于移动的现代OpenGL UI和文本呈现的典型方法吗？

在一个大型EC2上托管几个应用程序与在多个小型EC2s上托管

关于JavaScript键引号的标准或最佳实践是什么？

React和Redux架构

如何使用PySpark更新hive表中的记录？

取消持久化(py)spark中的所有数据帧

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐