【C++】STL 的 map 和 set
本篇博客让我们来了解一下 STL 库里面的 map/set 的使用,并尝试用自己写的红黑树封装一个类似的 map/set
出来
所用编译器:VS2019
[TOC]
1 set
set 就是二叉搜索树中只有单个 key 的树,它有下面的函数可供使用
1.1 构造函数、迭代器
构造函数、迭代器什么的都很简单,在这里就提到了,和其他 STL 基本一致
1.2 节点计数 size
set 自带节点计数,我们可以之间获取二叉树中节点的个数,或判断 set 是否为空
1.3 插入删除
插入删除等函数在这里不过多解释,使用方法和 string、vector 完全一致。如果大家的 stl 是从 string 一路学习过来,那么对于这些函数的使用肯定没有问题!
插入可以插入单个元素,其返回一个键值对包含这个元素的迭代器 + 一个 bool 标识是否插入成功。你还可以用相同类型 set 的迭代器区间进行插入操作
1 | set<int>t1;//定义 set 对象 t1 |
删除可以删除:
- 指定迭代器位置
- 指定元素
- 迭代器区间
不过对于二叉搜索树而言,删除一直都不是高频操作 + 效率较低。这也是为什么在实现二叉搜索树的时候,我没有去实现删除操作。
其实主要是删除操作比较难理解,特别是在平衡二叉树中
1.4 查找 find
作为搜索二叉树,查找才是最重要的一个函数。该函数会返回一个迭代器,指向元素的位置。
如果没有找到这个元素,则返回 end 迭代器
所以我们只需要在使用这个函数的时候,加上对于 end()迭代器
的判断,只要不等于 end 说明找到了该元素,进行访问
1 | set<int> v1; |
因为 set 是只有 key 的搜素二叉树,在获取到迭代器之后,我们直接使用 *it
进行解引用即可得到节点的值
而当我们查找内部不存在的元素,也可以得知没有找到
1.5 count
这个函数的作用是查找二叉树中 value 值的个数。但由于默认的 set 不支持键值冗余,插入相同的键值会被忽略掉。所以这个 count 在这里只有 0 和 1 两个返回值,也只能用来判断该值是否存在。
但是因为 count 需要遍历所有元素,所以在 set 中,它的效率比 find 是更差的。
multiset 支持键值冗余
这个函数真正起作用的地方是在 multiset
,人如其名,这是一个支持键值冗余的 set,成员函数完全相同。第一个模板变量是 set 的参数类型,第二个是比较函数,第三个是一个空间配置器
1 | template < class T, // multiset::key_type/value_type |
1.6 lower/upper_bound
1 | iterator lower_bound (const value_type& val); // 返回指向等于或大于指定键值元素的迭代器 |
这两个函数的作用是返回一个和我们指定的元素相同 / 或者比指定元素更大(第一个更大的键值)的迭代器
如果更大的键值或者它本身不存在,就会返回一个 end
迭代器,这一点和 find 一样
set 基本用得到的迭代器这里都提了一嘴,接下来康康 map
2 map
map 同样有一个支持键值冗余的 multimap
,后面就不说辣
前面关于构造函数都暂且不提,直接来看 map 和 set 最不一样的地方,插入
2.1 插入
map 是一个 kvl 二叉搜索树,其所有元素都是一个键值对。这就要求我们插入的时候,需要先 make_pair
建立一个键值关系,再插入进 map 中。
也因为迭代器获取到的是一个键值对,所以访问的时候需要指定键值对的 first 和 second。map 是用 first 进行排序的,所以 first 是不能修改的,但是 second 可以
2.2 下标访问 /at
map 相比于 set,最特殊的一点就是它可以用下标直接进行访问
1 | map[key]=value; |
所以我们可以使用这种方式非常方便的修改 value
和重载了下标的 vector
一样,map 也有一个 at 函数(C++11 新增)在之前 vector
的函数中,我没有提到这两个的区别。在这里说一下
operator[]和at
的主要区别在于 operator [] 不做边界检查,而 at 会做边界检查。
- 由于
operator[]
不做边界检查, 那怕越界了也会返回一个引用,当然这个引用是错误的引用,如何不小心调用了这个引用对象的方法,会直接导致应用退出。 - 而由于 at 会做边界检查,如果越界,会抛出异常,应用可以
try/catch
这个异常,进行异常管理,而应用还能继续运行。
at 的使用和下标不太一样,和成员函数的使用方法一致。我们可以来试一试
在这里如果我们下标访问第 11 个元素,也不会出问题。因为下标访问会自动创建一个对应的 key,而 value 会调用默认构造函数。int 类型也是有默认构造的,返回一个 0
但如果我们不用下标,直接用 at 访问第 11 个元素,就会报 debug 错误,这便是它们俩的区别所在
map 和 set 有区别的地方主要就是上面两个函数,其余都是完全相同
2.3 下标访问自定义类型必须要有默认构造函数
如题,如果你想在 map 里面插入一个自定义类型,使用 emplace 和 insert 的时候不会出现问题,但是使用 []
重载就会有编译错误。
1 | class mytestint |
这里我有一个自定义类型,内部只实现了一个有参构造函数,没有无参构造。
此时调用下标重载,就会出现问题
1 | map<uint16_t, mytestint> _test_map; |
编译这个代码,会出现如下报错(如果去掉最后两个下标的访问,只用 insert 和 emplace 是不会有报错的)
1 | /usr/include/c++/11/tuple:1820:9: error: no matching function for call to ‘mytestint::mytestint()’ |
如果给 mytestint 类添加一个默认构造,则不会有编译错误
1 | mytestint() = default; |
2.4 迭代器失效问题
在 cppreference 网站上有记录,对于 map/set 而言,erase 会让指向被删除元素的迭代器失效,其他元素的迭代器不受影响。因为 map/set 本质是个二叉树(红黑树),每一个节点都是独立的,删除一个节点可能会影响其他节点之间的关联关系,但不会让其他节点的迭代器直接失效。
所以在循环的时候,如果你想删除某个元素,应该如下操作
1 | // 先itr++,然后返回itr++之前的值给erase函数 |
下面给个测试代码
1 | // 测试map迭代器失效的情况 |
这种情况下,因为我们没有进行 itr++ 还访问了 c 的迭代器,直接段错误了(也不一定每次都会段错误)
1 | ❯ g++ test.cpp -o test1 && ./test1 |
如果加上,就不会出现问题,能正常跳过 c 元素,往后遍历
1 | for (auto itr = testMap.begin();itr!=testMap.end();itr++) |
输出如下
1 | ❯ g++ test.cpp -o test1 && ./test1 |
3. 模拟实现
这里主要以 KV 键值对的 map 为例,set 只需要修改 keyofValue
和它自己的模板参数即可
3.1 康康 STL 源码
利用红黑树实现 map 和 set 之前,我们需要先来思考一个问题:我们自己写的红黑树只有一个 KV 键值对,那么要怎么判断封装的是 map 还是只有 key 的 set 呢?
- 先来看看 STL 库的源码吧!【链接】
在 map.h 的第 68 行可以看到,实际上库函数里面的 map 和 set 都只是封装了红黑树
再去找红黑树的头文件,就能看到其与我们实现的不同。这里面的红黑树总共有 5 个模板参数,除去最后一个用来申请内存空间的 alloc,其余 4 个都有其不同的用处
而其中的 value 是用来构造红黑树节点的参数
看起来好像差不多对吧?可再回头看看 map,其传入的 value 是一个 pair
!
实际上,库中的红黑树,并不是一个简单的 kvl,其 k 并不是真正用于比较的 k,而是依靠第三个模板参数 keyofvalue,以及我们传入的比较函数 compore 来进行比较的
说人话就是:RBtree 不会判断你是 map 还是 set,而是在 map 和 set 的封装端,根据数据的不同类型,传入对应的比较函数,以及键值。
- 比如 set 的 keyofvalue 就是它自己的 key
- 而 map 的 keyofvalue 是
pair.first
因为库函数里面 pair 的比较,是会比较 first 之后,再比较 second 的。
这和我们搜索二叉树的需求不太符合,所以 STL 库里面就需要写一个比较大小的仿函数,只针对 pair 的 first 进行严格比较,以保证稳定性
3.2 模拟实现的基础框架
如果我们自己模拟实现,则可以依据下面的模板进行操作
1 | // 模板参数V决定红黑树存什么数据 |
而节点类也需要进行对应的修改,不再默认创建一个键值对。而是直接用 V 来创建一个基本的类型,这就和最基础的搜索二叉树相同。
1 | template<class V> |
3.3 修改插入的代码
因为新增了模板参数,所以这里我们也不能通过 kv first
进行键值的比较了。我们需要里利用模板参数中的 KeyOfV
仿函数来进行比较的操作。
在这里,先给出 map 和 set 两种 KeyOfV
仿函数的实现
1 | struct MapKeyOfV |
有了这个仿函数,我们只需要实例化一个对象,然后将原有的比较替换成仿函数在进行比较即可!
1 | pair<iterator,bool> Insert(const V& data) |
这里说明一下为何要把返回值替换成键值对。因为在实际操作的时候,我们需要获取道新插入元素的迭代器(迭代器的模拟实现会在后面提及),以方便在插入后进行修改 value 的操作。
比如我们默认插入的是一个空字符串,在进行一些判断之后,再重新给这个键值的 value 进行修改(仅限于 map 的情况)
如果不返回一个迭代器,那么想修改这个键值,就只能通过 find 函数查找后再进行修改,相对有些麻烦。
3.4 迭代器✨
这一部分是比较难理解的迭代器操作,主要就是在一个二叉树中应该如何进行迭代器的 ++/--
操作。
3.4.1 加减操作
如果你看过我之前的 stl 博客,那么你应该还记得,我们的模拟实现迭代器其实就是用指针来进行的。迭代器的使用方法也和指针相差无几。
在此处我们选择使用中序遍历来进行迭代器的操作。中序遍历的基本情况就是左根右
,只不过我们这里不再能使用递归进行操作了,而需要使用迭代的方法。
上图中 cur 遍历到了右子树,其左右子树都为空。这时候我们需要返回到的是根节点,准确来说是祖父节点 —— 吗?要是 cur 的父亲 prev 不是 g 节点的左子树,我们就不能直接返回 g 进行打印!而需要返回 g 的左子树。
总结出来的规律如下,当我们执行 ++ 操作的时候:
- 如果右节点为空,当前节点是父亲的右侧,就需要继续往上找(我们需要找到父亲左侧的那个节点)
- 如果右子树不为空,找右子树的最左节点。
在上图中,prev
就是 g 的左子树,所以我们只需要找到 prev 就行了。然后因为我们的 prev 的右子树已经遍历过,所以这时候就需要往上。因为 g 是根节点,所以就需要返回 g 的右子树的最左节点,也就是下图中的位置
而当我们做到最右侧的节点时,再次 ++ 的时候其实已经遍历完了。这时候右子树为空,开始往上找父亲是祖父左的哪一个。这时候会一直找到根,而根的父亲为空,停止遍历
转换为代码如下
1 | Self& operator++() |
进行 --
操作的时候则是完全相反的情况。我们需要找到父亲是祖父节点右边的那一个。如果父亲是祖父的左,那就继续往上找。
1 | Self& operator--() |
3.4.2 套上完整迭代器模板
完成了迭代器的加减操作后,我们只需要套上之前模拟实现的类似模板,再添加参数到红黑树的类中。即可配套好一个迭代器!
1 | template<class V, class Ref, class Ptr> |
完整代码请参考我的 Gitee 仓库
3.4.3 添加参数到红黑树类中
我们需要把迭代器写入红黑树的类,并附上普通迭代器和 const 的两个版本,提供 begin
和 end
函数即可。
1 | //迭代器封装,const和普通版本 |
可以看到,迭代器已经可以正常使用了!
这里的测试环节最好把自己写的 map 套进一个命名空间中,不然就会用到 stl 库里面的 map
迭代器写好之后,范围for
也是可以用的
3.5 重载下标
map 非常特殊的一点就是,可以直接用 map[key]=value
来修改 value 的内容。我们模拟实现的时候当然不能落下这个了!
其实操作起来非常简单。我们只需要直接调用插入,如果键值存在也会返回当前键值的迭代器。键值不存在就能直接插入,返回新插入元素的迭代器。这也是之前为啥 insert 函数没有直接用 bool 做插入的返回值的原因
1 | //重载下标 |
因为我们返回的是 V 的引用,所以可以直接用 =
进行修改!
测试一下,咩有问题 OJBK👍
set 的模拟实现更为简单,这里就不贴出来辣!大家可以去我的 gitee 看源码,有啥问题可以评论提出!
4. 更多操作
4.1 用 set 得出两组数据的重合处
假设有两个文件,我们现需要找到这两个文件的重合处
- 设置两个 set,分别插入两个文件的内容
- 同时遍历两个 set(从小到大)
- 如果两个 set 的 key 相同,则取出这个相同值,两个 set 一起 ++
- 如果不相同,则 ++ 那个小的 key
- 其中一个 set 结束遍历,即代表重合处查找完毕!
结语
最近感觉自己真的很忙,但又不知在忙什么。事情一个接着一个,虽然学校的课不算多,但事情真的没少多少。
有些事情自己又有拖延症,再加上作息不规律(指下午一睡睡 3h),浪费了好多时间……
- 最新
- 最热
- 最早
- 作者
点击重新获取 | 打开控制台