首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >计算列表中非唯一项的总数。

计算列表中非唯一项的总数。
EN

Stack Overflow用户
提问于 2020-03-17 23:10:48
回答 2查看 787关注 0票数 2

我正在寻找一种最有效的方法来计算Python大列表中的非唯一项的数量(大约100,000项)。

到目前为止,我的方法是:

代码语言:javascript
运行
复制
original_list = [1, 4, 6, 2, 2, 1, 5, 3, 2]

duplicates_list = []
for item in original_list:
    if original_list.count(item) > 1:
        duplicates_list.append(item)

duplicates_count = len(duplicates_list)

print(duplicates_count)

# Should give the following answer:
5

目前,大约70-80K项的大列表需要1-2分钟才能执行计算。我想知道我们是否可以将计算所需的时间减少到尽可能低的水平(也许是3-10秒)。

我真的很感激你的帮助!

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2020-03-17 23:20:03

计数器对象应该更快,因为在您的版本中,您在列表中的每个项目上调用count(),所以每个问题都调用100,000次。这将在整个列表上执行一次Count(),然后对计数器对象的迭代将仅为每个唯一值一次。

代码语言:javascript
运行
复制
original_list = [1, 4, 6, 2, 2, 1, 5, 3, 2]

from collections import Counter
count = Counter(original_list)

dupes = sum(v for k, v in count.items() if v > 1)
票数 5
EN

Stack Overflow用户

发布于 2020-03-17 23:42:46

这利用了对Counter类中算术运算符的支持-- setCounter都支持几个有用的操作:

代码语言:javascript
运行
复制
>>> li = [1, 4, 6, 2, 2, 1, 5, 3, 2]
>>> s  = set(li)
>>>
>>> len(li) - len(s) + len(Counter(li) - Counter(s))
5
>>> 

len(li) - len(set(li))给出了重复的数量,或者在我们取出set条目之后剩下的列表项目的数量。

若要获取与剩余列表中的项相关的集合项列表,请执行以下操作:

代码语言:javascript
运行
复制
>>> list((Counter(li) - Counter(set(li))))
[1, 2]

并获取set项全部删除后列表中遗留的重复项列表:

代码语言:javascript
运行
复制
>>> list((Counter(li) - Counter(set(li))).elements())
[1, 2, 2]

如果对列表进行减法操作,这就是从列表中减去set后得到的结果。

建议优化

如果可能的话,使用这个由70-80K项组成的列表的应用程序应该在填充列表时从一开始就逐步构建计数器。当需要时,它可以有它的列表、计数器或其他需要的结构,因此度量或其他类型的处理在以后的步骤中可以是快捷的。

基准测试

没有特别的顺序,以下是每个算法处理80K随机数列表所用的时间。

代码语言:javascript
运行
复制
>>> li     = [random.randint(0, 100) for _ in range(80 * 1000)]
>>> n_iter = 1000
>>>
>>> timeit.timeit("s = set(li); "
...               "len(li) - len(s) + len(Counter(li) - Counter(s))", 
...               globals=globals(), number=n_iter)
7.048838693
>>> 
>>> timeit.timeit("sum(v for k, v in Counter(li).items() if v > 1)", 
...               globals=globals(), number=n_iter)
5.787936814
>>>
>>> timeit.timeit(original_posters_script, globals=globals(), number=n_iter)
# Takes too much time to sit through. It's very slow. O(N^2)
>>> 

毫不奇怪,最快的算法是所选答案中的另一个计数器解决方案。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/60731456

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档