腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Pyspark
:
在
大型
数据
帧
上
调用
.
toJSON
()
是
最佳
实践
吗
?
apache-spark
、
pyspark
、
apache-spark-sql
我有一个很大的
数据
帧
,我需要将每一行转换成JSON,然后对每个产生的JSON msg进行“一些处理”。最简单的方法似乎
是
在
dataframe上
调用
.
toJSON
(),收集结果并循环结果,以便在每次迭代时进行处理。但是
在
大型
数据
帧
上
调用
.
toJSON
()
是
一种可伸缩的方法
吗
?如果不是,那么将
数据
帧
中的每一行转换为
浏览 36
提问于2021-04-19
得票数 0
回答已采纳
5
回答
火花复制
数据
栏- Python/
PySpark
中的
最佳
实践
?
python
、
apache-spark
、
pyspark
这是用于使用Spark2.3.2的Python/
PySpark
。我正在寻找
最佳
实践
方法,将一个
数据
框架的列复制到另一个
数据
框架,使用
PySpark
对一个非常大的10+十亿行
数据
集(按年/月/日平均划分)。每一行都有120列要转换/复制。输出
数据
帧
将被写入另一组文件中,日期分区。示例模式
是
:input DFinput (colA,colB,colC)和输出DFoutput (X,
浏览 1
提问于2018-12-19
得票数 5
1
回答
Table to pandas正在杀死我
在
azure Synapse中的会话
pandas
、
azure-synapse
我正在以表的形式将
数据
库中的表
调用
到synapse中。然后我的下一步
是
转换为pandas,这样我就可以运行所有与pandas.However相关的代码。当我将表转换为pandas时,会话将被终止。我已经通过转换为拼花文件,但我不能转换为拼花从一个表,然后读取熊猫
数据
帧
。这方面有没有什么
最佳
实践
: %
pyspark
Vendor_Name
浏览 13
提问于2021-04-20
得票数 0
回答已采纳
1
回答
合并两个
大型
数据
帧
python
、
pandas
、
dataframe
、
merge
我有两个大
数据
帧
:一个包含3M行,另一个包含2M行第一个
数据
帧
: sacc_id$ id$ creation_date0 001A000000hAUn8IAG有什么需要帮忙的
吗
?谢谢
浏览 16
提问于2019-01-31
得票数 0
1
回答
如何迭代
大型
Pyspark
Dataframe中列的不同值?.distinct().collect()引发
大型
任务警告
python
、
pyspark
我正在尝试迭代一个
大型
Pyspark
Dataframe列中的所有不同值。当我尝试使用.distinct().collect()执行此操作时,即使只有两个不同的值,它也会发出“任务太大”警告。下面
是
一些示例代码: data.select("a
浏览 1
提问于2020-01-14
得票数 1
1
回答
与Pandas结果相比,dataframe中唯一值的
Pyspark
数量不同
pandas
、
dataframe
、
pyspark
、
unique
、
pyspark-dataframes
我有400万行的
大型
数据
帧
。其中一列
是
名为"name“的变量。当我通过:df['name].nunique()检查Pandas中唯一值的数量时,我得到了一个与
Pyspark
df.select("name").distinct().show()不同的答案(
在
Pandas中大约为1800,
在
Pyspark
中为350 )。这是一个
数据
分区的问题
吗
? 编辑:
数据
框中
浏览 0
提问于2020-05-24
得票数 0
1
回答
在
java spring项目中,gremlin客户端集群的
最佳
实践
是什么?
java
、
gremlin
、
tinkerpop3
、
amazon-neptune
我使用的
是
海王星(AWS)图形
数据
库,我的客户端api
是
java spring。我的应用程序对我的
数据
库进行读写。实际
上
,我们有两个集群,用于将读写作为一个bean。我们正在生成几次遍历,
在
提交了每一次之后,我们决定使用try with ressource来关闭它。关闭遍历并重新创建traversal().withRemote(..)
是
一种
最佳
实践
吗
?
在
一个线程中有多个连接的
大型
项
浏览 65
提问于2020-09-08
得票数 3
1
回答
在
pyspark
数据
帧
中查找非重叠窗口
apache-spark
、
pyspark
、
apache-spark-sql
、
pyspark-sql
假设我有一个以秒为单位的id列和时间列(t)的
pyspark
数据
帧
。对于每个id,我希望对行进行分组,以便每个组都包含在该组开始时间之后5秒内的所有条目。例如,如果表
是
:|id |t ||1 |0 ||1 |3 ||1 |14||2 |0 |计算每个组中的(cumsum(t)-(cumsum(t)%5))/5可以
浏览 20
提问于2019-07-19
得票数 0
3
回答
最佳
实践
:使用PHP5.x将CSV导入MYSQL
数据
库
php
、
sql
将大量记录导入MySQL或的
最佳
解决方案是什么。我认为有两种方法:我不确定你的表现是不是更好?对于这类操作有什么
最佳
实践
解决方案
吗
?
浏览 0
提问于2009-07-07
得票数 0
回答已采纳
4
回答
从AS400 (IBM )与.NET通信时的
最佳
实践
.net
、
ibm-midrange
当在现有的基于.NET的系统
上
构建基于AS400的报告解决方案时,我需要一些关于什么
是
重要的和
最佳
实践
的帮助。什么
是
最适合的集成技术(ODBC、OLE DB、ADO.NET),这取决于我们正在讨论的AS400版本
吗
?它总是DB2
数据
库还是不同的?通常使用的是什么其他的持久性系统?是否可以
在
具有逻辑的
大型
机中
调用
程序,或者
在
.NET层复制该逻辑,然后直接
调用
大型
机D
浏览 2
提问于2010-11-14
得票数 6
回答已采纳
2
回答
海量
数据
集
上
的深度学习
apache-spark
、
deep-learning
我知道,
在
处理无法放入单机内存的
数据
集时,spark + EMR
是
一种很好的方法。我是不是走错路了?对内存无法容纳的
数据
进行深度学习的
最佳
实践
是什么?
浏览 10
提问于2017-10-18
得票数 0
1
回答
具有多个实体的DataMapper
php
、
datamapper
、
entities
寻求一些
最佳
实践
建议。基本
上
,我有一个由各种属性组成的
大型
实体,其中一些属性
是
其他实体。 } 我见过这
浏览 4
提问于2012-08-19
得票数 0
1
回答
在
远程R会话上工作
r
、
ssh
、
remote-server
由于内存限制,我正在处理的R会话位于远程集群
上
,并且
数据
存储
在
远程。因此,我使用notepad++编辑我的文件,并将它们粘贴到我的SSH会话中。什么
是
与远程会话集成的
最佳
方式,以利用代码完成和RStudio等编辑器中提供的其他功能。关于处理远程连接,有什么
最佳
实践
建议
吗
?我想这一定是大多数使用
大型
数据
集的R用户的情况。
浏览 0
提问于2012-10-24
得票数 3
回答已采纳
1
回答
我应该单独运行vacuum和分析
吗
?假设完成了大量的删除和更新
greenplum
、
vacuum
假设
大型
删除和更新
是
在
GP表
上
完成的。当我运行vacuum analyze时,它运行的顺序是什么?有没有关于运行真空和分析的顺序的
最佳
实践
?
浏览 2
提问于2016-09-16
得票数 1
1
回答
这是用于移动的现代OpenGL UI和文本呈现的典型方法
吗
?
opengl
、
performance
、
opengl-es
、
mobile
、
efficiency
是
当今移动游戏的通用方法标准?对每个控件和文本使用以下内容:一本纹理地图集(当然只有一本用于文本,最好只是一本用于控制背景)可修改的Text字段有自己的小的、单独的VBO,使用glBufferSubData()或glBufferData() (
在
backspace/delete
上
缩短)进行修改,就像注意到的
浏览 0
提问于2015-11-03
得票数 5
回答已采纳
1
回答
在
一个
大型
EC2上托管几个应用程序与
在
多个小型EC2s上托管
amazon-ec2
我似乎找不到这个问题的答案:我想把几个EC2s和网站合并到一个大的EC2
上
,而不是分散
在
多个小的webapps
上
。这似乎会更具成本效益。然而,我的同事说,设置多个EC2s
是
最佳
实践
,尽管它的成本会更高。但他不能真正地进一步解释。提前感谢!
浏览 1
提问于2017-01-27
得票数 0
2
回答
关于JavaScript键引号的标准或
最佳
实践
是什么?
javascript
、
typescript
、
ecmascript-6
、
jsx
、
tsx
我已经经历了几个问题,比如,看看是否有一个标准的
实践
/
最佳
实践
,用于
在
JavaScript、JSX或TSX中将引号放在键
上
。然而,我没有发现任何东西,我想知道(
在
构建一个关于不良
实践
的
大型
项目之前)哪一个
是
最好的:和或者更好的
是
,有什么文件我可以参考
吗</e
浏览 8
提问于2022-02-06
得票数 3
回答已采纳
1
回答
React和Redux架构
reactjs
、
redux
假设您有规范化的
数据
{ userId: 1, name: 'Ian', groupId: 1 },} 处理.map、.filter、.reduce、.forEach、.sort、反规范化等
数据
的
最佳
实践
是什么?我创建了utils函数来处理像Utils.getChatsFromUsers之类的
大型
数据
浏览 0
提问于2018-04-07
得票数 1
1
回答
如何使用
PySpark
更新hive表中的记录?
hive
、
pyspark-sql
我们正在使用spark来处理
大型
数据
,并且最近获得了新的用例,我们需要使用spark更新Hive表中的
数据
。下面
是
一个简单的例子:
数据
驻留在Hive表中,应用程序使用
PySpark
读取
数据
帧
(比如
PySpark
)。例句:
数据
帧
在
列下面。例如:加5 Add 30 32000 应用程序可以通过剥离Action列并附加到表中,将新
数据</e
浏览 1
提问于2019-03-29
得票数 2
3
回答
取消持久化(py)spark中的所有
数据
帧
python
、
caching
、
apache-spark
、
pyspark
、
apache-spark-sql
我
是
一个spark应用程序,有几个点我想要持久化当前状态。这通常是
在
一个大的步骤之后,或者缓存一个我想要多次使用的状态之后。似乎当我第二次对我的
数据
帧
调用
cache时,一个新的副本被缓存到内存中。
在
我的应用程序中,这会导致
在
扩展时出现内存问题。尽管
在
我当前的测试中,给定的
数据
帧
最大大约为100MB,但中间结果的累积大小超出了executor
上
分配的内存。C2'])d
浏览 9
提问于2016-04-28
得票数 39
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何从Pandas迁移到Spark?这8个问答解决你所有疑问
Spark 3.0重磅发布!开发近两年,流、Python、SQL重大更新全面解读
Jupyter在美团民宿的应用实践
使用pdb进行Python调试
Groovy解析及处理JSON
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券