大数据计算框架 - 腾讯云开发者社区

、、、

我正在编写一个框架，它需要从MSSQL获取大量记录，而且每个记录/行都有一个JSON数据，我需要解析这些数据，然后从该JSON数据中进行一些计算。每个记录的解析和计算是独立的。因此，为这个框架寻找一些设计建议。没有DB记录:相当大，所以需要一些批处理和并行处理。

浏览 0提问于2014-09-16得票数 2

1回答

熊猫群中的多栏连接

、

我有一个大的数据和一个小的数据，我想加入到一起。小数据存储与大数据按组的值范围相对应的最大每周值。我想加入每组每周的最大值到大帧。大框架：datetime group value2014-05-07 B 3 import pandas as pd L.index

浏览 1提问于2014-08-29得票数 0

回答已采纳

1回答

我如何计算熊猫的平均真实范围？

、、、、

如何计算数据帧中的平均真实范围？电流大电流低当前低-前关但我不知道该如何为熊猫数据框架设定三个值之间的最高值

浏览 7提问于2022-04-17得票数 0

回答已采纳

1回答

在Hadoop或分布式计算框架中管理多个集群

、、、、

其中一台是主计算机，另外四台是从机。有什么好的开源分布式计算框架，我可以轻松地完成上面的任务吗？提前谢谢。

浏览 0提问于2018-10-26得票数 3

回答已采纳

1回答

sparkSQL的数据是否会超过内存？

我在用SparkSQL做一些计算。每5分钟就会有一个新的数据框架出现。我需要计算一下最近一周的数据。这意味着我需要将12*24*7 =2016年的数据合并成一个大的数据，并运行计算。因此，我想知道，如果数据太大，不适合在内存中会发生什么？会不会暂时把它换到磁盘上？我是否需要明确要求火花交换，还是它会自动完成？

浏览 2提问于2016-04-08得票数 1

回答已采纳

1回答

如何从小批量中获取原始索引？

假设我有一个作为以下代码的结果的小型批处理：如何获取此小批量的索引作为对原始数据的引用？假设我的测试数据集是100行。我如何知道100个原始行中的哪10行在小批量中？

浏览 15提问于2017-01-07得票数 1

回答已采纳

3回答

在R中去复制数据并创建大小写权重的有效方法

、、

问题为了加速整个过程，我喜欢通过只获取唯一的行以及它们的案例权重(它们发生的频率)来折叠数据框架。因此，从这个数据框架来看：------------A | B | AC | C | A对于此数据框架电流逼近目前，我使用dplyr逻辑来完成这个任务

浏览 9提问于2022-08-10得票数 1

回答已采纳

1回答

我有一个大的数据框架，其中包含从其他列计算出来的多个列。这些问题出现在8888和9999的值分别构成NA或拒绝回答的地方。这些值被错误地用于计算其他列(例如pricepergram的值)，因为它们在计算之前没有被指示为NA。我无法重新计算所有的值，所以我想找到一些代码，它将数据的每一行作为参数。解决方案需要适用于由250个列组成的数据。i需要能够跨多个列应用代码，而不仅仅是一个列。i已经确认，数据格式中唯一

浏览 3提问于2022-08-23得票数 0

1回答

R中没有重复项的所有行的和

我有一个大的数据帧。我需要找到一个特定列的所有行的和，但是重复的项只计算一次。例如,z = data.frame(id = c(16249, 16249, 16250, 16251), value = c(1, 1, 2, 3)) 2 16249 14 16251 3 我需要找到列"value“的所有行的和，但是重复的"id”只计算一次。

浏览 2提问于2013-08-13得票数 0

回答已采纳

1回答

是否有方法在大查询中使用滚动窗口上的percentile_cont()函数计算百分位数？

、

我有一个具有下列列的数据集理想情况下，我希望从percentile_cont(收入，0.5)中计算50%(按城市订单划分，按月划分，范围在前一行和当前行之间但是大查询不支持percentile_cont中的窗口框架。如果有关于这个问题的工作，谁能帮我一下吗？

浏览 1提问于2020-08-03得票数 2

2回答

如何找出r中第一次观测与前两次连续负观测之间的观测次数

、

我有一个大的数据框架，我需要一个函数来自动化这个搜索。基本上，我想找出在第一次观测和第一次连续两次负面观测之间有多少次观测。示例：假设这是我的数据，我想计算2到-7之间的数据点数。非常感谢您的帮助：！

浏览 1提问于2020-05-25得票数 3

回答已采纳

1回答

如何找出第一次观测与最大值观测之间的观测次数

我有一个大的数据框架，我需要一个函数来自动化这个搜索。基本上，我想知道在第一次观测和最大值的观测之间有多少次观测。示例：假设这是我的数据，我想计算2到11之间的数据点数。非常感谢您的帮助：！

浏览 0提问于2020-05-27得票数 1

回答已采纳

1回答

加快熊猫日期框架的双循环

、、、

我想创建一个基于另一个非常大的数据框架(df_aug15_exp)的数据框架(df_aug15)。其思想是，对于原始数据框架中的每个元素，我计算该元素的行和列的总和，将它们相乘并除以整个数据帧的和，如下所示。

浏览 4提问于2022-10-03得票数 1

回答已采纳

1回答

用NA值计算/细分来自证券价格的数据框架(XTS/动物园)的回报？

、、、、

我有一个1379x843大小的数据框架，行是每日价格，列是证券。我想根据一天下降30%来计算回报和子集，但是我在处理大量NA值时遇到了困难。

浏览 0提问于2018-06-25得票数 0

回答已采纳

2回答

如何将数据框架按多个不同类别进行子集？

、、

我正在尝试将数据框架划分为多个类别。例如-我的数据集看起来类似于我想要做的是对这个数据框架进行子集，所以我只有来自类别B1、O1和H1以及响应变量1和3的样本，而不必计算行或列(实际的数据集相当大)。variable 1, Response variable 3))drop && length(x) == 1L中的错误：“x&y”中无效的“x”类型只是想知道像这样对数据</e

浏览 2提问于2022-06-08得票数 0

1回答

使用Pandas处理Python中的大型SQL查询？

、、、、

我想对一些数据进行备份测试，这些数据将使用Python、psycopg2和Pandas从Postgres数据库中提取。将从Postgres提取的数据非常大(超过10 of )--即使Pandas数据帧能够存储这么多数据，我的系统也无法以RAM的形式保存这些数据。综上所述，我希望我的Python程序需要执行以下操作：2:对数据库表运行基本select查询 3

浏览 27提问于2017-11-02得票数 3

回答已采纳

1回答

非常大的CSV文件--如何只将某些行读入数据帧

、、、、

我有一个非常大的csv文件，我不能使用熊猫read_csv加载到我的计算机内存。我看着dask.dataframe as ddUser ProductA C 3

浏览 2提问于2020-04-04得票数 1

1回答

现代数据仓库的Azure synapse与Databricks框架

、

我在做数据库的工作。我以事实和虚实的形式整理了数据。这些数据消耗的权力比报告通过突触。如果数据已经在databricks层中烹饪，我不知道synapse的用途是什么。为什么我们要在这个框架中使用突触。

浏览 2提问于2022-07-26得票数 1

2回答

Ignite使用的内存比预期的多

、

我正在使用Ignite构建一个数据计算框架。一个很大的问题是内存使用量比预期的要多一点。在Ignite外部使用1G内存的数据将在Ignite缓存中使用超过1.5G。我还计算了用于每个缓存和缓存条目的额外空间。总的内存使用量仍然没有加起来。会有什么问题呢？是数据结构还是配置？

浏览 0提问于2016-12-03得票数 3

1回答

pandas数据帧中多行的平均值

、、、

我的计算方法(SSA)有一个相当大的数据框架-大约80000行。我想按几行(例如20行)平均我的数据。我该怎么做呢？我有一个数据帧，例如： 1. 00h 03h 06h 09h 12h 10 0.003546 0.000885 0.006852

浏览 28提问于2020-01-08得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

MSSQL记录的JSON解析与处理设计建议

熊猫群中的多栏连接

我如何计算熊猫的平均真实范围？

在Hadoop或分布式计算框架中管理多个集群

sparkSQL的数据是否会超过内存？

如何从小批量中获取原始索引？

在R中去复制数据并创建大小写权重的有效方法

根据每行的最大值更改所有列

R中没有重复项的所有行的和

是否有方法在大查询中使用滚动窗口上的percentile_cont()函数计算百分位数？

如何找出r中第一次观测与前两次连续负观测之间的观测次数

如何找出第一次观测与最大值观测之间的观测次数

加快熊猫日期框架的双循环

用NA值计算/细分来自证券价格的数据框架(XTS/动物园)的回报？

如何将数据框架按多个不同类别进行子集？

使用Pandas处理Python中的大型SQL查询？

非常大的CSV文件--如何只将某些行读入数据帧

现代数据仓库的Azure synapse与Databricks框架

Ignite使用的内存比预期的多

pandas数据帧中多行的平均值

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐