问统一混洗两个numpy数组的更好方法
EN

Stack Overflow用户

提问于 2011-01-05 14:23:56

回答 14查看 157.1K关注 0票数 297

我有两个不同形状的numpy数组，但长度(前导维度)相同。我想对它们中的每一个进行混洗，以便相应的元素继续对应--即根据它们的领先索引对它们进行一致的混洗。

这段代码可以工作，并说明了我的目标：

def shuffle_in_unison(a, b):
    assert len(a) == len(b)
    shuffled_a = numpy.empty(a.shape, dtype=a.dtype)
    shuffled_b = numpy.empty(b.shape, dtype=b.dtype)
    permutation = numpy.random.permutation(len(a))
    for old_index, new_index in enumerate(permutation):
        shuffled_a[new_index] = a[old_index]
        shuffled_b[new_index] = b[old_index]
    return shuffled_a, shuffled_b

例如：

>>> a = numpy.asarray([[1, 1], [2, 2], [3, 3]])
>>> b = numpy.asarray([1, 2, 3])
>>> shuffle_in_unison(a, b)
(array([[2, 2],
       [1, 1],
       [3, 3]]), array([2, 1, 3]))

然而，这让人感觉笨拙、低效和缓慢，而且它需要制作数组的副本--我宁愿就地处理它们，因为它们将非常大。

有没有更好的方法来解决这个问题呢？更快的执行速度和更低的内存使用率是我的主要目标，但优雅的代码也会很好。

我的另一个想法是：

def shuffle_in_unison_scary(a, b):
    rng_state = numpy.random.get_state()
    numpy.random.shuffle(a)
    numpy.random.set_state(rng_state)
    numpy.random.shuffle(b)

这个works...but有点吓人，因为我认为它几乎不能保证它会继续工作--例如，它看起来不像是那种可以保证在numpy版本中存活的东西。

python

numpy

random

shuffle

numpy-ndarray

回答 14

Stack Overflow用户

回答已采纳

发布于 2011-01-05 19:35:28

你的“可怕”解决方案在我看来并不可怕。为两个相同长度的序列调用shuffle()会导致对随机数生成器的调用次数相同，这是混洗算法中唯一的“随机”元素。通过重置状态，您可以确保对随机数生成器的调用将在第二次调用shuffle()时产生相同的结果，因此整个算法将生成相同的排列。

如果您不喜欢这样，一个不同的解决方案是将您的数据存储在一个数组中，而不是从一开始就存储两个数组，然后在这个单独的数组中创建两个视图，模拟您现在拥有的两个数组。您可以将单个数组用于混洗，将视图用于所有其他目的。

示例:假设数组a和b如下所示：

a = numpy.array([[[  0.,   1.,   2.],
                  [  3.,   4.,   5.]],

                 [[  6.,   7.,   8.],
                  [  9.,  10.,  11.]],

                 [[ 12.,  13.,  14.],
                  [ 15.,  16.,  17.]]])

b = numpy.array([[ 0.,  1.],
                 [ 2.,  3.],
                 [ 4.,  5.]])

我们现在可以构造一个包含所有数据的数组：

c = numpy.c_[a.reshape(len(a), -1), b.reshape(len(b), -1)]
# array([[  0.,   1.,   2.,   3.,   4.,   5.,   0.,   1.],
#        [  6.,   7.,   8.,   9.,  10.,  11.,   2.,   3.],
#        [ 12.,  13.,  14.,  15.,  16.,  17.,   4.,   5.]])

现在，我们创建模拟原始a和b的视图

a2 = c[:, :a.size//len(a)].reshape(a.shape)
b2 = c[:, a.size//len(a):].reshape(b.shape)

a2和b2的数据与c共享。要同时混洗两个数组，请使用numpy.random.shuffle(c)。

在生产代码中，您当然会尽量避免创建原始的a和b，而立即创建c、a2和b2。

这种解决方案可以适用于a和b具有不同数据类型的情况。

票数 79

Stack Overflow用户

发布于 2011-01-05 16:52:04

你可以使用NumPy的array indexing

def unison_shuffled_copies(a, b):
    assert len(a) == len(b)
    p = numpy.random.permutation(len(a))
    return a[p], b[p]

这将导致创建单独的统一混洗数组。

票数 423

Stack Overflow用户

发布于 2015-06-04 09:46:56

X = np.array([[1., 0.], [2., 1.], [0., 0.]])
y = np.array([0, 1, 2])
from sklearn.utils import shuffle
X, y = shuffle(X, y, random_state=0)

要了解更多信息，请参阅http://scikit-learn.org/stable/modules/generated/sklearn.utils.shuffle.html

票数 199

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/4601373

复制

相似问题

问统一混洗两个numpy数组的更好方法
EN

回答 14

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问统一混洗两个numpy数组的更好方法EN

回答 14

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问统一混洗两个numpy数组的更好方法
EN