Python从小白到攻城狮(4)——字典和集合
本文于 1755 天之前发表,文中内容可能已经过时。
在前面的一篇文章 《Python从小白到攻城狮(3):列表和元组》中,我们学习了列表和元组,了解了其基本操作和性能比较。今天这篇文章,我们来学习两个同样很常见并且很有用的数据结构:字典(dict)和集合(set)。字典和集合在 Python 被广泛使用,并且性能进行了高度优化,其重要性不言而喻。
字典(dict)
什么是字典
字典,dict全称dictionary,在其他语言中也称为map,是一系列无序元素的组合,其长度大小可变,元素可以任意地删减和改变。
字典的元素是一对键(key)和值(value)的配对,和列表/元组相比,字典的性能更优,尤其是对于查找、添加和删除操作,字典都能在常数时间复杂度内完成。
字典的创建
字典的创建,通常有下面几种方式:
1 | d1 = {'name': 'jack', 'age': 20, 'gender': 'male'} |
元素访问
刚才我们学习了如何创建字典,我们再来看元素访问的问题。字典访问可以直接索引键,如果不存在,就会抛出异常:
1 | d = {'name': 'jack', 'age': 20, 'gender': 'male'} |
要避免出现key不存在的错误,我们可以通过in
来判断key是否存在
1 | d = {'name': 'jack', 'age': 20} |
也可以使用dict提供的get(key, default)
函数来进行索引。如果键不存在,调用get()
函数可以返回None
, 或者返回自己指定的一个默认值。比如下面这个示例,返回了
1 | d = {'name': 'jack', 'age': 20, 'gender': 'male'} |
注意:返回None的时候Python的交互环境不显示结果。
增、删、更新操作
字典支持增加、删除、更新等操作。
1 | # 增加 |
排序
对于字典,我们通常会根据键或值,进行升序或降序排序:
1 | d = {'b': 1, 'a': 2, 'c': 10} |
当然,因为字典本身是无序的,所以这里返回了一个列表。列表中的每个元素,是由原字典的键和值组成的元组。
集合(set)
什么是集合
集合和字典类似,也是一组key的集合,但是不存储value。由于key不能重复,所以集合是一系列无序的、唯一的元素组合。
集合的创建
1 | s1 = {1, 2, 3} |
操作
集合并不支持索引操作,因为集合本质上是一个哈希表,和列表不一样。所以,下面这样的操作是错误的,Python 会抛出异常:
1 | s = {1, 2, 3} |
和字典一样,我们可以通过in
来判断一个元素是否在集合中。
1 | s = {1, 2, 3} |
集合也同样支持增加、删除、更新等操作。
s.add(x):将元素 x 添加到集合 s 中,如果元素已存在,则不进行任何操作。
update(): 方法用于修改当前集合,可以添加新的元素或集合到当前集合中,如果添加的元素在集合中已存在,则该元素只会出现一次,重复的会忽略。
s.remove( x ):将元素 x 从集合 s 中移除,如果元素不存在,则会发生错误。
s.discard(x):移除集合中的元素,且如果元素不存在,不会发生错误。
1 | s = {1, 2, 3} |
不过要注意,集合的 pop() 操作是删除集合中最后一个元素,可是集合本身是无序的,你无法知道会删除哪个元素,因此这个操作得谨慎使用。
排序
而对于集合,其排序和前面讲过的列表、元组很类似,直接调用 sorted(set) 即可,结果会返回一个排好序的列表。
1 | s = {3, 4, 2, 1} |
字典和集合性能
字典和集合是进行过性能高度优化的数据结构,特别是对于查找、添加和删除操作。那接下来,就来看看,它们在具体场景下的性能表现,以及与列表等其他数据结构的对比。
比如电商企业的后台,存储了每件产品的ID、名称和价格。现在的需求是,给定某件商品的ID,我们要找出其价格。
如果我们用列表来存储这些数据结构,并进行查找,相应的代码如下:
1 | def find_product_price(products, product_id): |
假设列表有 n 个元素,而查找的过程要遍历列表,那么时间复杂度就为 O(n)。即使我们先对列表进行排序,然后使用二分查找,也会需要 O(logn) 的时间复杂度,更何况,列表的排序还需要 O(nlogn) 的时间。
但如果我们用字典来存储这些数据,那么查找就会非常便捷高效,只需 O(1) 的时间复杂度就可以完成。原因也很简单,刚刚提到过的,字典的内部组成是一张哈希表,你可以直接通过键的哈希值,找到其对应的值。
1 | products = { |
类似的,现在需求变成,要找出这些商品有多少种不同的价格。我们还用同样的方法来比较一下。
如果还是选择使用列表,对应的代码如下,其中,A 和 B 是两层循环。同样假设原始列表有 n 个元素,那么,在最差情况下,需要 O(n^2) 的时间复杂度。
1 | # list version |
但如果我们选择使用集合这个数据结构,由于集合是高度优化的哈希表,里面元素不能重复,并且其添加和查找操作只需 O(1) 的复杂度,那么,总的时间复杂度就只有 O(n)。
1 | # set version |
可能你对这些时间复杂度没有直观的认识,我可以举一个实际工作场景中的例子,让你来感受一下。
下面的代码,初始化了含有 100,000 个元素的产品,并分别计算了使用列表和集合来统计产品价格数量的运行时间:
1 | import time |
你可以看到,仅仅十万的数据量,两者的速度差异就如此之大。事实上,大型企业的后台数据往往有上亿乃至十亿数量级,如果使用了不合适的数据结构,就很容易造成服务器的崩溃,不但影响用户体验,并且会给公司带来巨大的财产损失。
字典和集合的工作原理
我们通过举例以及与列表的对比,看到了字典和集合操作的高效性。不过,字典和集合为什么能够如此高效,特别是查找、插入和删除操作?
这当然和字典、集合内部的数据结构密不可分。不同于其他数据结构,字典和集合的内部结构都是一张哈希表。
- 对于字典而言,这张表存储了哈希值(hash)、键和值这 3 个元素。
- 而对集合来说,区别就是哈希表内没有键和值的配对,只有单一的元素了。
我们来看,老版本 Python 的哈希表结构如下所示:
1 | --+-------------------------------+ |
不难想象,随着哈希表的扩张,它会变得越来越稀疏。举个例子,比如我有这样一个字典:
1 | {'name': 'mike', 'dob': '1999-01-01', 'gender': 'male'} |
那么它会存储为类似下面的形式:
1 | entries = [ |
这样的设计结构显然非常浪费存储空间。为了提高存储空间的利用率,现在的哈希表除了字典本身的结构,会把索引和哈希值、键、值单独分开,也就是下面这样新的结构:
1 | Indices |
那么,刚刚的这个例子,在新的哈希表结构下的存储形式,就会变成下面这样:
1 | indices = [None, 1, None, None, 0, None, 2] |
我们可以很清晰地看到,空间利用率得到很大的提高。
清楚了具体的设计结构,我们接着来看这几个操作的工作原理。
插入操作
每次向字典或集合插入一个元素时,Python 会首先计算键的哈希值(hash(key)),再和 mask = PyDicMinSize - 1 做与操作,计算这个元素应该插入哈希表的位置 index = hash(key) & mask。如果哈希表中此位置是空的,那么这个元素就会被插入其中。
而如果此位置已被占用,Python 便会比较两个元素的哈希值和键是否相等。
- 若两者都相等,则表明这个元素已经存在,如果值不同,则更新值。
- 若两者中有一个不相等,这种情况我们通常称为哈希冲突(hash collision),意思是两个元素的键不相等,但是哈希值相等。这种情况下,Python 便会继续寻找表中空余的位置,直到找到位置为止。
值得一提的是,通常来说,遇到这种情况,最简单的方式是线性寻找,即从这个位置开始,挨个往后寻找空位。当然,Python 内部对此进行了优化(这一点无需深入了解,你有兴趣可以查看源码,我就不再赘述),让这个步骤更加高效。
查找操作
和前面的插入操作类似,Python 会根据哈希值,找到其应该处于的位置;然后,比较哈希表这个位置中元素的哈希值和键,与需要查找的元素是否相等。如果相等,则直接返回;如果不等,则继续查找,直到找到空位或者抛出异常为止。
删除操作
对于删除操作,Python 会暂时对这个位置的元素,赋于一个特殊的值,等到重新调整哈希表的大小时,再将其删除。
不难理解,哈希冲突的发生,往往会降低字典和集合操作的速度。因此,为了保证其高效性,字典和集合内的哈希表,通常会保证其至少留有 1/3 的剩余空间。随着元素的不停插入,当剩余空间小于 1/3 时,Python 会重新获取更大的内存空间,扩充哈希表。不过,这种情况下,表内所有的元素位置都会被重新排放。
虽然哈希冲突和哈希表大小的调整,都会导致速度减缓,但是这种情况发生的次数极少。所以,平均情况下,这仍能保证插入、查找和删除的时间复杂度为 O(1)。
总结
字典和集合都是无序的数据结构,其内部的哈希表存储结构,保证了其查找、插入、删除操作的高效性。
所以,字典和集合通常运用在对元素的高效查找、去重等场景。
文中示例代码: python-learning
未完待续,持续更新中……



赞赏是不耍流氓的鼓励