首页
技术小册
AIGC
面试刷题
技术文章
MAGENTO
云计算
视频课程
源码下载
PDF书籍
「涨薪秘籍」
登录
注册
01 | 为什么要学习数据结构和算法?
02 | 如何抓住重点,系统高效地学习数据结构与算法?
03 | 复杂度分析(上):如何分析、统计算法的执行效率和资源消耗?
04 | 复杂度分析(下):浅析最好、最坏、平均、均摊时间复杂度
05 | 数组:为什么很多编程语言中数组都从0开始编号?
06 | 链表(上):如何实现LRU缓存淘汰算法?
07 | 链表(下):如何轻松写出正确的链表代码?
08 | 栈:如何实现浏览器的前进和后退功能?
09 | 队列:队列在线程池等有限资源池中的应用
10 | 递归:如何用三行代码找到“最终推荐人”?
11 | 排序(上):为什么插入排序比冒泡排序更受欢迎?
12 | 排序(下):如何用快排思想在O(n)内查找第K大元素?
13 | 线性排序:如何根据年龄给100万用户数据排序?
14 | 排序优化:如何实现一个通用的、高性能的排序函数?
15 | 二分查找(上):如何用最省内存的方式实现快速查找功能?
16 | 二分查找(下):如何快速定位IP对应的省份地址?
17 | 跳表:为什么Redis一定要用跳表来实现有序集合?
18 | 散列表(上):Word文档中的单词拼写检查功能是如何实现的?
19 | 散列表(中):如何打造一个工业级水平的散列表?
20 | 散列表(下):为什么散列表和链表经常会一起使用?
21 | 哈希算法(上):如何防止数据库中的用户信息被脱库?
22 | 哈希算法(下):哈希算法在分布式系统中有哪些应用?
23 | 二叉树基础(上):什么样的二叉树适合用数组来存储?
24 | 二叉树基础(下):有了如此高效的散列表,为什么还需要二叉树?
25 | 红黑树(上):为什么工程中都用红黑树这种二叉树?
26 | 红黑树(下):掌握这些技巧,你也可以实现一个红黑树
27 | 递归树:如何借助树来求解递归算法的时间复杂度?
28 | 堆和堆排序:为什么说堆排序没有快速排序快?
29 | 堆的应用:如何快速获取到Top 10最热门的搜索关键词?
30 | 图的表示:如何存储微博、微信等社交网络中的好友关系?
31 | 深度和广度优先搜索:如何找出社交网络中的三度好友关系?
32 | 字符串匹配基础(上):如何借助哈希算法实现高效字符串匹配?
33 | 字符串匹配基础(中):如何实现文本编辑器中的查找功能?
34 | 字符串匹配基础(下):如何借助BM算法轻松理解KMP算法?
35 | Trie树:如何实现搜索引擎的搜索关键词提示功能?
36 | AC自动机:如何用多模式串匹配实现敏感词过滤功能?
37 | 贪心算法:如何用贪心算法实现Huffman压缩编码?
38 | 分治算法:谈一谈大规模计算框架MapReduce中的分治思想
39 | 回溯算法:从电影《蝴蝶效应》中学习回溯算法的核心思想
40 | 初识动态规划:如何巧妙解决“双十一”购物时的凑单问题?
41 | 动态规划理论:一篇文章带你彻底搞懂最优子结构、无后效性和重复子问题
42 | 动态规划实战:如何实现搜索引擎中的拼写纠错功能?
43 | 拓扑排序:如何确定代码源文件的编译依赖关系?
44 | 最短路径:地图软件是如何计算出最优出行路径的?
45 | 位图:如何实现网页爬虫中的URL去重功能?
46 | 概率统计:如何利用朴素贝叶斯算法过滤垃圾短信?
47 | 向量空间:如何实现一个简单的音乐推荐系统?
48 | B+树:MySQL数据库索引是如何实现的?
49 | 搜索:如何用A*搜索算法实现游戏中的寻路功能?
50 | 索引:如何在海量数据中快速查找某个数据?
51 | 并行算法:如何利用并行处理提高算法的执行效率?
52 | 算法实战(一):剖析Redis常用数据类型对应的数据结构
53 | 算法实战(二):剖析搜索引擎背后的经典数据结构和算法
54 | 算法实战(三):剖析高性能队列Disruptor背后的数据结构和算法
55 | 算法实战(四):剖析微服务接口鉴权限流背后的数据结构和算法
56 | 算法实战(五):如何用学过的数据结构和算法实现一个短网址系统?
当前位置:
首页>>
技术小册>>
数据结构与算法之美
小册名称:数据结构与算法之美
### 28 | 堆和堆排序:为什么说堆排序没有快速排序快? 在探讨为何堆排序(Heap Sort)在多数情况下不如快速排序(Quick Sort)高效之前,我们先深入了解堆排序的基本原理及其特性,再将其与快速排序进行细致比较。 #### 堆排序的基本原理 **堆的定义**:堆是一种特殊的完全二叉树结构,其中每个节点的值都不大于或不小于其子节点的值,分别称为最大堆和最小堆。在计算机科学中,堆通常通过数组来实现,利用数组下标来表示树中的位置关系,便于高效访问和修改。 **堆排序的步骤**: 1. **构建堆**:将待排序的数组构造成一个最大堆(或最小堆,取决于排序需求,但通常使用最大堆进行升序排序)。这一步的时间复杂度为O(n)。 2. **堆调整与排序**:将堆顶元素(即数组的第一个元素,也是当前最大/最小的元素)与堆的最后一个元素交换,然后减少堆的大小(即考虑前n-1个元素),并重新调整剩余元素以维持堆的性质。重复此过程,直到堆的大小为1,此时数组即为有序状态。每次调整堆(即下沉或上浮操作)的时间复杂度为O(log n),因此整个排序过程的时间复杂度为O(n log n)。 #### 快速排序的基本原理 **快速排序的核心**:分而治之(Divide and Conquer)。通过选择一个基准元素(pivot),将数组分为两部分,一部分包含所有小于基准元素的元素,另一部分包含所有大于基准元素的元素,这个过程称为分区(partitioning)。然后递归地对这两部分进行同样的操作,直到整个数组有序。 **快速排序的步骤**: 1. **选择基准**:从数组中挑选一个元素作为基准。 2. **分区**:重新排列数组,所有比基准小的元素摆放在基准前面,所有比基准大的元素摆在基准的后面(相同的数可以到任一边)。在这个分区退出之后,该基准就处于数组的中间位置。这个称为分区(partition)操作。 3. **递归排序**:递归地(recursive)把小于基准值元素的子数组和大于基准值元素的子数组排序。 **性能特点**:平均情况下,快速排序的时间复杂度为O(n log n),但由于其分治策略,最坏情况下(如数组已排序或所有元素相等)时间复杂度会退化到O(n^2)。然而,通过随机选择基准元素或使用其他优化策略(如三数中值分割法),可以显著降低最坏情况发生的概率。 #### 堆排序与快速排序的性能比较 **1. 内存使用**: - **堆排序**:主要在原地(in-place)进行,除了几个辅助变量外,不需要额外的存储空间,空间复杂度为O(1)。 - **快速排序**:虽然也是原地排序,但在递归过程中,如果递归栈过深(尤其是在最坏情况下),会消耗较多的栈空间。尽管空间复杂度仍为O(log n)(平均情况下),但在极端情况下可能接近O(n)。 **2. 时间复杂度**: - 两者在平均和最好情况下都有O(n log n)的时间复杂度,但快速排序在实际应用中往往能表现出更优的性能。 **3. 稳定性**: - **堆排序**:不稳定排序算法,因为相同的元素可能在堆调整过程中改变相对位置。 - **快速排序**:在默认实现下也是不稳定排序,但可以通过修改分区策略来使其变得稳定,但这通常会牺牲一些性能。 **4. 缓存利用率**: - **堆排序**:由于堆的性质,堆排序在调整堆时经常涉及跨越数组两端的访问,这可能导致缓存不命中(cache miss)增多,影响性能。 - **快速排序**:分区操作倾向于在局部范围内进行元素交换,更好地利用了缓存的局部性原理,因此在实际执行中往往能更快地完成排序。 **5. 适应性**: - **快速排序**:对输入数据有一定的敏感性,特别是对于已经接近有序或包含大量重复元素的数组,性能可能下降。但通过优化手段(如三数中值分割、尾递归优化等)可以显著提高其在各种情况下的表现。 - **堆排序**:则相对稳定,无论输入数据如何,其时间复杂度都保持在O(n log n)。 **6. 实际应用**: - 快速排序因其在实际应用中表现出的高效性和灵活性,成为了大多数编程语言标准库中的首选排序算法。 - 堆排序则因其原地性和稳定的O(n log n)时间复杂度,在需要频繁执行最大/最小值查询和删除的场景中(如优先队列)更为适用。 #### 结论 综上所述,虽然堆排序和快速排序在平均时间复杂度上都是O(n log n),但快速排序在实际应用中往往能表现出更优的性能。这主要得益于其高效的分区策略和更好的缓存利用率。然而,堆排序也有其独特的优势,特别是在需要维护最大堆或最小堆结构的场景中。因此,在选择排序算法时,应根据具体的应用场景和需求来决定使用哪种算法。对于大多数通用排序任务,快速排序通常是更好的选择。
上一篇:
27 | 递归树:如何借助树来求解递归算法的时间复杂度?
下一篇:
29 | 堆的应用:如何快速获取到Top 10最热门的搜索关键词?
该分类下的相关小册推荐:
数据结构与算法(下)
算法面试通关 50 讲
数据结构与算法(上)
编程之道-算法面试(上)
编程之道-算法面试(下)
数据结构与算法(中)
业务开发实用算法精讲