我根据股票代码的首字母使用范围划分策略对数据进行划分，导致划分结果不均匀

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

2回答

、、

我根据股票代码的首字母使用范围划分策略对数据进行划分，导致划分结果不均匀。如何解决不均衡问题？我需要根据两个维度对股票的出价数据进行划分:日期和股票代码。如果仅根据<

浏览 32提问于2021-07-23得票数 0

1回答

按地理位置划分的MongoDB组

我希望使用聚合查询对MongoDB中的地理空间数据进行分组。我有一个包含大约100万份文档的集合，其中有一个带有2D Sphere索引的geojson。我能够使用一个$geoNear查询(每次一个网格的每个方格)循环遍历预定的多边形，以得到我想要的结果，但是效率很低。我想以某种方式查询一次，并以lat/long对<em

浏览 3提问于2022-01-04得票数 0

1回答

与潘达斯的二维联调

、、

因此，我有两组特性，我希望对它们进行存储(分类)，然后组合起来创建一个新特性。这与将坐标划分为地图上的网格没有什么不同。问题是，这些特性的分布并不均匀，我想在这两个特性/坐标上绑定(比如pandas.qcut())时使用分位数。有比在这两个特性上执行qcut()然后连接结果标签更好的方法吗？

浏览 0提问于2017-04-15得票数 5

回答已采纳

1回答

Oracle中表的分区

、

我有一个包含数百万行的表，在查询数据时需要很长时间才能从表中检索数据。我试着根据日期来划分它。我尝试使用Oracle中可用的重新定义包来对其进行分区，但没有工作。请给我一个有效的划分表的方法。

浏览 1提问于2012-01-18得票数 0

2回答

培训、测试和验证数据集

、、

我正在训练一个用于肿瘤分割的Unet模型。我有400名病人的数据集。使用的图像是CT扫描(3D图像)，我将其划分为2D图像(总共30k 2D图像)。我实际上将数据集分成: 10%的测试数据、18%的验证数据、72%的实际培训数据。我将测试和培训数据除以病人(即用于测试

浏览 0提问于2020-11-06得票数 3

回答已采纳

2回答

是否有任何策略来划分应用SRP的责任？

、、、

是否有将类划分为应用单一责任原则的策略？在一个中等规模的团队中，我们正在开发一个可穿戴管理应用程序，它可以连接不同类型的可穿戴设备，比方说，Wearable1和Wearable2 (一次性连接)。每个可穿戴设备具有不同类型的交换数据的能力。因此，我决定根据可穿戴类型来划分责任。，但我们的责任划分思想却是基于不同的方面。当我需要决定应该根

浏览 3提问于2019-12-04得票数 1

回答已采纳

1回答

火花流数据流执行，有状态，分区本地groupBy，避免洗牌

、、

我有一个基于Spark2.4.2& Kafka的流应用程序，它将聚合(时间窗口‘’ed)流写回Kafka：问题是，在没有洗牌的情况下，实现这一目标的正确方法是什么？有吗？到目前为止，我已经探索了一些解决方案： "agg o

浏览 2提问于2020-03-13得票数 0

1回答

Dask按索引重新分区不像预期的那样工作，导致2个分区而不是3个分区

、、、

我想把我的达斯克数据按城市重新划分。我目前有超过100万行，但只有3个城市。因此，自然地，我希望有3个分区数据的基础上，我包括的参数。我直接从Dask文档网站使用的代码：ddf_2 = ddf_1.repartition(divisions=list(ddf_1.index.uniq

浏览 13提问于2022-03-03得票数 0

回答已采纳

3回答

如何根据数据框列中的值划分数据框？

所以，我有一个这样的数据框架，2 3 101 100 NA NA3 2 110 100 101 NA1 2而文件，10将包含，3 4 就像这样，我想把它分开。我知道如何<e

浏览 0提问于2014-09-24得票数 0

6回答

我有一个示例应用程序可以从csv文件中读取数据。可以使用df.saveAsTable(tablename,mode)方法以拼花格式将数据存储到Hive表中。上面的代码工作正常，但是我每天都有这么多的数据，所以我想根据creationdate(表中的列)动态地划分hive表。是否有任何方法来动态划分数据并将其存储到蜂窝仓库。希望避免使用hivesqlcontext.sql(insert into t

浏览 7提问于2015-07-10得票数 41

回答已采纳

1回答

从scikit学到的缺失数据

、、、、

我正在使用scikit-learn的hmmlearn模块运行一个简单的HMM。它适用于完全观测的数据，但当我用丢失的数据传递它的观测时，它就失败了。obs, type(obs)print posteriors 如果obs完全被观察到(每个元素都是0或1)，那么它可以工作，但是我想得到未观测数据点的估计值我试着将它

浏览 2提问于2016-01-24得票数 0

回答已采纳

1回答

复杂搜索索引的最佳Azure解

、、、、

我需要对组合的标记执行快速搜索，同时包括日期范围：用户对至少3天前发出的通知没有作出答复事件数据结构非常简单：EntityIdEventType日期有关对于数以十亿计的事件，进行表格扫描将无法工作。充其量，我可以缩小表，然后扫描一个更小的分区，但我不认为它会有多大

浏览 0提问于2016-05-06得票数 0

2回答

更远距离查询会场提示

我想在更远的距离上查询特定关键字的地点提示。目前，当我进行查询时，距离通常在40-80公里之间，然而，如果我想计算整个国家，我必须进行多次查询。我在我的家乡特别创建了一个，并调整了经纬度和经度坐标，(+/- 40-80公里)它看起来距离半径并不均匀，某种类型的集群基础的四方数据结构。如果我想对一个国家

浏览 1提问于2011-11-28得票数 0

回答已采纳

2回答

如何实现对纬度和经度值的邻近搜索？

、、、、

我的应用程序(基于Qt的移动应用程序)以以下格式从服务器获取数据:纬度、经度、描述。我需要将这些数据存储在数据结构中，以便稍后快速检索。现在我有了一张地图，当用户点击地图上的一个点时，我得到了那个点的纬度和经度。使用这两个值，我需要快速扫描我的数据结构并检索相关的描述。我的

浏览 2提问于2011-03-24得票数 1

2回答

表示聚类结果存储以供以后使用。

、、

我正在探索r编程环境，以便对我的测试数据进行聚类分析。为了进行测试，我使用了一个列数据集，下面的散点图和直方图对应于值索引。从数据中，我觉得这些值可以划分为7个集群。当我使用kmeans函数时，不将集群参数设为7，则得到以下结果。492.480 2979.013 1903.396 18682.262 1430.533 754221.

浏览 1提问于2015-03-13得票数 2

1回答

根据字符串中的间隔自动生成组

我有几个单位的协变量数据。此外，我还可以使用一条评分规则，根据分数对我的观察结果进行排序。我决定根据X的分位数来划分我的训练样本score，这是通过使用GenericMl包中的quantile_group函数实现的。列由TRUEs和FALSEs组成，表示score的<

浏览 3提问于2022-11-08得票数 0

回答已采纳

1回答

地理分区的算法

问题陈述:我有一个位置数据库，如果一个特定的位置，X在指定的距离半径内，我想返回。简而言之，返回搜索中点X半径内的所有城市。有没有一种算法可以有效地划分地图并

浏览 2提问于2015-06-08得票数 2

1回答

Rails中devision的突然理性结果

、、、

在IRB中执行devision时：结果总是0。但是，在运行在WEBrick或Apache/ value中的活动Rails应用程序中，相同的划分会导致Rational类型的1/600值。在RubyMine 6.3.3中对断点表进行除法时，我得到了相同的合理结果。这两个参数都是整数。

浏览 5提问于2014-10-02得票数 1

回答已采纳

1回答

Jboss数据网格中键值对的分布

、、

我正在使用Hotrod客户端在Jboss数据网格中加载2000万个未过期的条目。我的热棒客户端运行在5台不同的机器上来加载数据。已成功添加条目。我们已经给出了复制因子2。我们发现在每个节点中添加的条目数量的变化超过了10%。例如，一个节点具有780万个条目，而另一个节点具有1200万个条目。所以我在想为什么条目不是均匀分布的，理想情况下每个节点应该有大约1000万个条目。我们上述测试的目标是检查负载

浏览 8提问于2017-03-10得票数 0

回答已采纳

1回答

如何随机拼接稀疏矩阵进行机器学习分类

、、、、

我正在做一个利用稀疏矩阵的机器学习任务(具体地说，如果你熟悉的话，20个新闻组)。preprocess(testset.data)print(np.mean(predicted == testset.target)) 因此，我在整个训练数据集上进行训练，然后使用我的分类器对测试数据进行分类，结果打印出88%的

浏览 0提问于2015-11-09得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云