我们致力于一个MySQL知识的分享网站

  |   本站Feed      

MySQL DISTINCT 的基本实现原理

2008-12-12 10:26:15  |   才被阅读:816 次  |   要评论?
分类: MySQL基础知识  |   发布: OurMySQL  |   来源:简朝阳
标签: ,

接上一篇: MySQL 中 GROUP BY 基本实现原理

实际上和 操作的实现非常相似,只不过是在 之后的每组中只取出一条记录而已。所以, 的实现和 GROUP BY 的实现也基本差不多,没有太大的区别。同样可以通过松散索引扫描或者是紧凑索引扫描来实现,当然,在无法仅仅使用索引即能完成 的时候,MySQL 只能通过临时表来完成。但是,和 GROUP BY 有一点差别的是, 并不需要进行排序。也就是说,在仅仅只是 操作的 Query 如果无法仅仅利用索引完成操作的时候,MySQL 会利用临时表来做一次数据的“缓存”,但是不会对临时表中的数据进行 filesort 操作。当然,如果我们在进行 的时候还使用了 GROUP BY 并进行了分组,并使用了类似于 MAX 之类的聚合函数操作,就无法避免 filesort 了。

下面我们就通过几个简单的 Query 示例来展示一下 DISTINCT 的实现。

1.首先看看通过松散索引扫描完成 DISTINCT 的操作:

sky@localhost : example 11:03:41> EXPLAIN SELECT DISTINCT group_id
    ->
FROM group_message\G
***************************
1. row ***************************
          
id: 1
 
SELECT_type: SIMPLE
        
table: group_message
        
type: range
possible_keys: NULL
          
key: idx_gid_uid_gc
      
key_len: 4
          
ref: NULL
        
rows: 10
        
Extra: Using index for group-by
1 row in set (0.00 sec)

我们可以很清晰的看到,执行计划中的 Extra 信息为“Using index for group-by”,这代表什么意思?为什么我没有进行 GROUP BY 操作的时候,执行计划中会告诉我这里通过索引进行了 GROUP BY 呢?其实这就是于 DISTINCT 的实现原理相关的,在实现 DISTINCT的过程中,同样也是需要分组的,然后再从每组数据中取出一条返回给客户端。而这里的 Extra 信息就告诉我们,MySQL 利用松散索引扫描就完成了整个操作。当然,如果 MySQL Query Optimizer 要是能够做的再人性化一点将这里的信息换成“Using index for distinct”那就更好更容易让人理解了,呵呵。

2.我们再来看看通过紧凑索引扫描的示例:

sky@localhost : example 11:03:53EXPLAIN SELECT DISTINCT user_id
    ->
FROM group_message
    ->
WHERE group_id = 2\G
***************************
1. row ***************************
          
id: 1
 
SELECT_type: SIMPLE
        
table: group_message
        
type: ref
possible_keys: idx_gid_uid_gc
          
key: idx_gid_uid_gc
      
key_len: 4
          
ref: const
        
rows: 4
        
Extra: Using WHERE; Using index
1 row in set (0.00 sec)

这里的显示和通过紧凑索引扫描实现 GROUP BY 也完全一样。实际上,这个 Query 的实现过程中,MySQL 会让存储引擎扫描 group_id = 2 的所有索引键,得出所有的 user_id,然后利用索引的已排序特性,每更换一个 user_id 的索引键值的时候保留一条信息,即可在扫描完所有 gruop_id = 2 的索引键的时候完成整个 DISTINCT 操作。

3.下面我们在看看无法单独使用索引即可完成 DISTINCT 的时候会是怎样:

sky@localhost : example 11:04:40> EXPLAIN SELECT DISTINCT user_id
    ->
FROM group_message
    ->
WHERE group_id > 1 AND group_id < 10\G
***************************
1. row ***************************
          
id: 1
 
SELECT_type: SIMPLE
        
table: group_message
        
type: range
possible_keys: idx_gid_uid_gc
          
key: idx_gid_uid_gc
      
key_len: 4
          
ref: NULL
        
rows: 32
        
Extra: Using WHERE; Using index; Using temporary
1 row in set (0.00 sec)

当 MySQL 无法仅仅依赖索引即可完成 DISTINCT 操作的时候,就不得不使用临时表来进行相应的操作了。但是我们可以看到,在 MySQL 利用临时表来完成 DISTINCT 的时候,和处理 GROUP BY 有一点区别,就是少了 filesort。实际上,在 MySQL 的分组算法中,并不一定非要排序才能完成分组操作的,这一点在上面的 GROUP BY 优化小技巧中我已经提到过了。实际上这里 MySQL 正是在没有排序的情况下实现分组最后完成 DISTINCT 操作的,所以少了 filesort 这个排序操作。

4.最后再和 GROUP BY 结合试试看:

sky@localhost : example 11:05:06> EXPLAIN SELECT DISTINCT max(user_id)
    ->
FROM group_message
    ->
WHERE group_id > 1 AND group_id < 10
    ->
GROUP BY group_id\G
***************************
1. row ***************************
          
id: 1
 
SELECT_type: SIMPLE
        
table: group_message
        
type: range
possible_keys: idx_gid_uid_gc
          
key: idx_gid_uid_gc
      
key_len: 4
          
ref: NULL
        
rows: 32
        
Extra: Using WHERE; Using index; Using temporary; Using filesort
1 row in set (0.00 sec)

最后我们再看一下这个和 GROUP BY 一起使用带有聚合函数的示例,和上面第三个示例相比,可以看到已经多了 filesort 排序操作了,正是因为我们使用了 MAX 函数的缘故。要取得分组后的 MAX 值,又无法使用索引完成操作,只能通过排序才行了。

由于 DISTINCT的实现基本上和 GROUP BY 的实现差不多,所以这篇文章就不再画图展示实现过程了,大家可以通过 上一篇文章中关于 GROUP BY 的基本实现原理中的插图了解详情

相关文章

Leave a Reply