首页
学习
活动
专区
工具
TVP
发布

Python机器学习算法说书人

专栏作者
163
文章
245891
阅读量
27
订阅数
SciPy 稀疏矩阵(4):LIL(上)
上回说到,无论是 COO 格式的稀疏矩阵还是 DOK 格式的稀疏矩阵,进行线性代数的矩阵运算的操作效率都非常低。至于如何优化线性代数的矩阵运算的操作效率,继续改进三元组的存储方式可能不好办了,需要换一种存储方式。至于存储方式也不需要我们去实现,SciPy 已经实现了这样的稀疏矩阵存储方式,它就是另一个板块,这个板块共有 4 种稀疏矩阵格式,分别是{BSR, CSC, CSR, LIL},这一回先介绍 LIL 格式的稀疏矩阵!
不可言诉的深渊
2024-01-12
1020
SciPy 稀疏矩阵(3):DOK
散列表(Hash Table)是一种非常重要的数据结构,它允许我们根据键(Key)直接访问在内存存储位置的数据。这种数据结构是一种特殊类型的关联数组,对于每个键都存在一个唯一的值。它被广泛应用于各种程序设计和应用中,扮演着关键的角色。散列表的主要优点是查找速度快,因为每个元素都存储了它的键和值,所以我们可以直接访问任何元素,无论元素在数组中的位置如何。这种直接访问的特性使得散列表在处理查询操作时非常高效。因此,无论是进行数据检索、缓存操作,还是实现关联数组,散列表都是一种非常有用的工具。这种高效性使得散列表在需要快速查找和访问数据的场景中特别有用,比如在搜索引擎的索引中。散列表的基本实现涉及两个主要操作:插入(Insert)和查找(Lookup)。插入操作将一个键值对存储到散列表中,而查找操作则根据给定的键在散列表中查找相应的值。这两种操作都是 O(1) 时间复杂度,这意味着它们都能在非常短的时间内完成。这种时间复杂度在散列表与其他数据结构相比时,如二分搜索树或数组,显示出显著的优势。然而,为了保持散列表的高效性,我们必须处理冲突,即当两个或更多的键映射到同一个内存位置时。这是因为在散列表中,不同的键可能会被哈希到同一位置。这是散列表实现中的一个重要挑战。常见的冲突解决方法有开放寻址法和链地址法。开放寻址法是一种在散列表中解决冲突的方法,其中每个单元都存储一个键值对和一个额外的信息,例如,计数器或下一个元素的指针。当一个元素被插入到散列表中时,如果当前位置已经存在另一个元素,那么下一个空闲的单元将用于存储新的元素。然而,这个方法的一个缺点是,在某些情况下,可能会产生聚集效应,导致某些单元过于拥挤,而其他单元过于稀疏。这可能会降低散列表的性能。链地址法是一种更常见的解决冲突的方法,其中每个单元都存储一个链表。当一个元素被插入到散列表中时,如果当前位置已经存在另一个元素,那么新元素将被添加到链表的末尾。这种方法的一个优点是它能够处理更多的冲突,而且不会产生聚集效应。然而,它也有一个缺点,那就是它需要更多的空间来存储链表。总的来说,散列表是一种非常高效的数据结构,它能够快速地查找、插入和删除元素。然而,为了保持高效性,我们需要处理冲突并采取一些策略来优化散列表的性能。例如,我们可以使用再哈希(rehashing)技术来重新分配键,以更均匀地分布散列表中的元素,减少聚集效应。还可以使用动态数组或链表等其他数据结构来更好地处理冲突。这些优化策略可以显著提高散列表的性能,使其在各种应用中更加高效。
不可言诉的深渊
2023-09-12
2230
SciPy 稀疏矩阵(2):COO
上回说到,计算机存储稀疏矩阵的核心思想就是对矩阵中的非零元素的信息进行一个必要的管理。然而,我们都知道在稀疏矩阵中零元素的分布通常情况下没有什么规律,因此仅仅存储非零元素的值是不够的,我们还需要非零元素的其他信息,具体需要什么信息很容易想到:考虑到在矩阵中的每一个元素不仅有值,同时对应的信息还有矩阵的行和列。因此,将非零元素的值外加上其对应的行和列构成一个三元组(行索引,列索引,值)。然后再按照某种规律存储这些三元组。
不可言诉的深渊
2023-08-28
2030
SciPy 稀疏矩阵(1):介绍
SciPy 是一个利用 Python 开发的科学计算库,其中包含了众多的科学计算工具。其中,SciPy 稀疏矩阵是其中一个重要的工具。相比于常规的矩阵,稀疏矩阵主要的特点是它的数据大部分都是 0 ,而非 0 的数据只有少数。这种特点可以在存储和计算上节省大量的时间和空间。SciPy 提供了多种格式的稀疏矩阵,包括 COO、CSR、CSC 等多种格式。在实际应用中,SciPy 稀疏矩阵被广泛应用于图像处理、网络分析、文本处理等领域。例如,在图像处理中,为了压缩存储图像,可以将彩色图像转化为三个单色图像,然后使用稀疏矩阵存储。另外,在网络分析中,线性代数中的稀疏矩阵常被用来表示网络拓扑结构。因此,学习和掌握 SciPy 稀疏矩阵是非常有必要的。
不可言诉的深渊
2023-08-28
2100
惊!你知道PyTorch浮点数上溢问题居然会导致这些结果?!
当我们在使用 PyTorch 中的浮点数时,我们都知道它们并不能占满整个实数集 R。这主要是由于两个原因:精度和表示范围。对于计算机处理浮点数而言,精度不够的情况一般会选择截断,而超出表示范围的情况则通常会返回无穷大。然而,一旦 PyTorch 中的浮点数变成无穷大,将会出现非常奇怪的报错。因此,我们需要思考一下如何解决 PyTorch 中浮点数超出表示范围的问题。
不可言诉的深渊
2023-08-28
6480
数据结构(6):串(上)
字符串简称串,计算机上非数值处理的对象基本都是字符串数据。我们常见的信息检索系统(如搜索引擎)、文本编辑程序(如 Word)、问答系统、自然语言翻译系统等,都是以字符串数据作为处理对象的。本文详细介绍字符串的存储结构及相应的操作。
不可言诉的深渊
2021-04-16
5620
彩色图变黑白图
就在昨天,几乎所有网站都从彩色页面变成黑白页面,虽然一行 CSS 就可以解决这个问题,但是彩色页面(彩色图)变黑白页面(黑白图)有很多方法,主要有三种:最大值法、平均值法、加权平均值法,下面我就主要讲解这三种算法的具体逻辑。
不可言诉的深渊
2020-04-08
1.2K0
解读一篇Numpy好文
最近工作太忙,每次回家洗洗就不想再开电脑码字了,写了也近两年了,习惯了,时间久了,不写都欲罢不能。
不可言诉的深渊
2019-07-28
4960
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档