要对pandas进行预处理的数据太多了-- pyspark.sql是一个可行的替代方案吗？[已关闭]

已关闭..。这个问题是opinion-based..。它目前不接受答案。想要改进这个问题吗？更新问题，以便可以通过以下方式使用事实和引用回答问题编辑此帖子..。两天前就关门了。改进此问题我在几个.csv文件中有大约20 GB的数据，并希望对其进行一些常见的预处理步骤，如连接、添加列、删除行/列、分组/聚合等。.merge(df2).drop(['col']) df['new

浏览 34提问于2021-02-25得票数 0

3回答

Dask在群集之间切换或更改群集上下文

dask、dask-distributed、dask-dataframe、dask-ml

我是新来Dask的，所以如果你觉得这个问题很愚蠢，请原谅我。在Dask中，我正在使用一个包含大约50 of数据的Dask数据帧。此数据是字符串数据，在将其提供给机器学习算法之前，我需要对其进行预处理(使用该过程快速)(使用线程快速)。现在的问题是，当我设计一个关于进程的集群时，数据帧操作<em

浏览 30提问于2021-02-17得票数 2

1回答

我在定制数据集上训练了OD模型。我想将模型部署为API。该模型将用于实时推理，我计划在一个API市场上赚钱，比如AWS，Rakuten的快速API等等。我担心的是，如果OD模型是作为API提供的，在视频流(监视摄像头馈送)上执行实时预测会带来网络延迟，从而使应用程序变得更慢。是否有其他替代方案来解决延迟问题？例如，如果我打包要在客户端系统上执行的代码和工件，则可以消除网络延迟，但有可能暴露模型、代码等。因此API似乎

浏览 19提问于2021-12-06得票数 0

3回答

如何对大型数据集中的多个变量进行排序？

sorting、sas、rank、proc、ranking-functions

我有一个大约5000万条记录的数据集，大约有30个变量(列)。我需要对每个变量的数据集进行排序。 Proc rank不起作用，因为对于这个大型数据集，它需要大量内存。要手动给出排名，我必须在相应的变量列上对数据集进行排序，然后使用公式给出排名。但问题是，我们必须对30个变量的数据集进行30次排序，这将花费非常长的</em

浏览 1提问于2016-10-27得票数 0

1回答

Azure用作调度器

azure、azure-functions、azure-data-factory

Azure函数是作为调度器使用的Azure Data Factory的一个很好的替代品吗？它具有要监控的blob触发器，并且可以使用C#通过API触发数据库作业。但这是一个可行的替代方案吗？已编辑以添加更多信息。希望基于触发器文件触发databricks作业，但不希望使用Azure数据工厂或D

浏览 12提问于2019-09-24得票数 2

回答已采纳

1回答

撒克逊XQuery内存管理

java、sql、jdbc、xquery、saxon

所以我最近一直在和Saxon一起工作，并且对它的内存管理能力有一些担忧。我觉得这确实使XQuery成为支持流的SQL和JDBC的一个不太可行的替代<em

浏览 2提问于2014-11-10得票数 0

回答已采纳

1回答

Exasol对HBase

hadoop、hbase、business-intelligence、exasolution

我对BigData体系结构非常陌生，所以请不要对我太苛刻。我正试图找到最好的替代方案来构建能够处理大量数据的BI体系结构。在我看来，解决方案必须是集群/水平可伸缩的，以应对系统的增长。我希望能够使用sql与系统进行交互，因此HBase + Hive (甚至Pig )不是用于SQL，而是不需要手动编写MR任务。这样一种体系结构相对于EXAS卷积和它们的内

浏览 1提问于2015-08-12得票数 0

回答已采纳

1回答

星火DataFrame如何处理比内存更大的潘达斯DataFrame

pandas、apache-spark、dataframe、apache-spark-sql、hdf5

我现在正在学习Spark，它似乎是Pandas Dataframe的大数据解决方案，但是我有一个让我不确定的问题。目前，我使用HDF5存储比内存更大的Pandas数据文件。HDF5是一个很好的工具，它可以让我在熊猫的数据上分块。因此，当我需要对大型Pandas数据进

浏览 0提问于2015-10-29得票数 5

回答已采纳

1回答

如何使用任何图表库根据日期对x轴进行排序？

javascript、anychart、anychart-8.2

我对倍数系列数据有问题。我有三个系列数据(有时是两个)，其中x值是日期，y值是数字。我无法根据日期对列栏进行排序。如您所见，序列数据显示在“串联”键中。日期应从2019年至2020年进行排序。一个类似的问题被问到了。然而，即使使用DateTime，我也无法按照正确的顺序显示日期。如果我使用DateTime，图表不会显示日期的实际值(es )。

浏览 1提问于2021-03-15得票数 0

回答已采纳

2回答

如何在Pandas中存储多个相关的时间序列

python、pandas、time-series、quantitative-finance

我是Pandas的新手，想从专业人士那里获得一些见解。我需要对金融证券每日开盘价、高价、低价、收盘价的>30个时间序列进行各种统计分析(多元回归、相关等)。每个系列都有500-1500天的数据。由于每个分析都着眼于多个证券，我想知道从易用性和效率的角度来看，将每个时间序列存储在单独的df中是更可取的，每个df都以日期作为索引，还是将它们全部合并到具有单个日期索引的</

浏览 2提问于2014-03-19得票数 2

1回答

BRE策略-在何处存储Db事实的连接字符串

biztalk、business-rules、biztalk-2016、btdf

我有一个BRE规则，它接受4个类型的xml文档和一个数据连接。我已经设置了一个业务流程来使用调用规则形状来执行它。 <datarow ref=

浏览 2提问于2018-11-07得票数 0

回答已采纳

2回答

Regex只返回带有管道字符的标记

php、regex

我很难找到一份Regex的工作。<ALERTNOTEACTIONS>0</ALERTNOTEACTIONS> <ALLOW|DELIVERY|EDIT>1</ALLOW|DELIVERY

浏览 2提问于2014-05-06得票数 1

回答已采纳

1回答

在Octave中将文本/数字混合的CSV文件作为表格读取

octave

在octave中，有没有一种简单的方法从csv中加载数据到类似于R中数据帧的数据结构中？我尝试了csvread dlmread，但octave一直在读取test中的一个虚数，另外，我希望有列的标题作为参考。我看到网上有一些例子看起来太扭曲了，怎么可能没有一个函数或类似于R的数据帧的东西呢？我说的是一个名为dat

浏览 3提问于2015-02-09得票数 1

1回答

解锁用于查找和替换的Xcode项目文件

xcode、xcode4

我经常使用Xcode的工作空间Find和Replace。当与regex结合使用时，它的功能非常强大。然而，我有一个包含30-40个项目的工作区，并且需要对构建设置进行大量更改。我的所有Xcode项目文件都被锁定。所以regex find运行得很好，但是我没有办法替代它。我甚至不能预览它。它只影响我能看到的项目文件。我打开Finder来检查权限，它们是完全开放的，OSX文件锁对它们都是关闭的

浏览 3提问于2013-07-09得票数 1

回答已采纳

1回答

从列表创建数据帧时内存错误

python、pandas、dataframe

我在python中使用cx_oracle运行一个SQL查询，查询的结果是一个列表。list的维度if 180列* 200,000+行。每当我试图使用pd.DataFrame将其转换为数据帧时，就会遇到内存错误。现在，作为一种解决方案，我已经尝试通过设置过滤器来分解我的查询，或者只查询几列等等，这是可行的。但是，如果我更改了一些过滤器，就会再次遇到错误，并且我不能始终确定一个查询将返回多少行。因此，

浏览 3提问于2019-07-05得票数 2

回答已采纳

2回答

在MQTT上发送Kinect Body[]数据

c#、unity3d、json.net、mqtt、kinect-v2

我试图通过MQTT发送微软的Kinect v2身体数据，以有效地映射骨骼数据而不直接连接到Kinect，但我似乎无法正确地反序列化Body[]。我将在Update()中发布Bodys的每个帧的列表。我目前的设置是使用Newtonsoft的JSON.Net来序列化从Body[]获取的列表，并将其发布到MQTT (使用)。我使用它是因为Body类是不可序列化的(所以我不能使用JSONUtility?)。

浏览 0提问于2018-02-06得票数 1

回答已采纳

1回答

为带有模板文字的对象数组中的变量赋值？

javascript、arrays、javascript-objects、template-literals

我将介绍一个简化的数据结构：const data2 = [{"age例如，我知道这是可行的：const zero = '0' const a = 'ag

浏览 2提问于2021-06-29得票数 1

回答已采纳

2回答

将数据库保存在内存中，即使客户端脚本断开连接

php、linux、sqlite、memory

在将一些统计数据写入主数据库之前，我需要对其进行预处理。我的php-cli脚本每10分钟检索一次数据，并将其存储在某个地方。每小时都会对所有保存的数据进行预处理，然后写入主数据库。我想如果我能把它记在记忆里的话，sqlite应该是个不错的解决方案。我没有太多的数据(我可以把它保存在我的RAM中

浏览 3提问于2014-01-04得票数 0

回答已采纳

2回答

LR自定义日志文件:如何从生成器机器获取它们？

load-testing、loadrunner、scenarios、lr

假设我有一个VUGen C测试，它将结果写入某个数据日志文件，即它列出了在初始化时创建(或附加)、在主操作中写入并在关闭时关闭的文件中已处理的in或类似的内容。然后我想知道是否有LR功能允许我在控制器上找到包含该文件的所有vuser副本的整合目录结构？据我所知，所有vuser实例都使用测试目录结构的一个公共副本，该副本位于temp中的某个位置。因此，a)我需要将VUser ID包

浏览 1提问于2010-12-16得票数 0

回答已采纳

1回答

DataFrame cols的pyspark变换子集，但保留索引

pandas、apache-spark、pyspark、user-defined-functions

我是spark/pyspark的新手，我正在尝试将一些pandas代码转换为pyspark。简而言之，问题是:如何在保留行索引值的同时，对spark数据帧的一些数值列进行行式转换。我有一个数据帧，其中有几列用作索引，而其余的是我需要对其进行几次转换的数值数据 i0 i1 c0

浏览 19提问于2021-04-16得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Dask在群集之间切换或更改群集上下文

面向实时推理的对象检测模型

如何对大型数据集中的多个变量进行排序？

Azure用作调度器

撒克逊XQuery内存管理

Exasol对HBase

星火DataFrame如何处理比内存更大的潘达斯DataFrame

如何使用任何图表库根据日期对x轴进行排序？

如何在Pandas中存储多个相关的时间序列

BRE策略-在何处存储Db事实的连接字符串

Regex只返回带有管道字符的标记

在Octave中将文本/数字混合的CSV文件作为表格读取

解锁用于查找和替换的Xcode项目文件

从列表创建数据帧时内存错误

在MQTT上发送Kinect Body[]数据

为带有模板文字的对象数组中的变量赋值？

将数据库保存在内存中，即使客户端脚本断开连接

LR自定义日志文件:如何从生成器机器获取它们？

DataFrame cols的pyspark变换子集，但保留索引

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐