返回顶部
分享到

MySQL中DISTINCT去重的核心注意事项

Mysql 来源:互联网 作者:佚名 发布时间:2025-06-18 22:28:28 人浏览
摘要

DISTINCT 六大注意事项 1. 作用范围:所有 SELECT 字段 1 SELECT DISTINCT a, b FROM table; -- 对(a,b)组合整体去重 误以为只作用于第一个字段: 1 2 -- 错误理解:以为只对name去重 SELECT DISTINCT name, class FROM

DISTINCT 六大注意事项

1. 作用范围:所有 SELECT 字段

1

SELECT DISTINCT a, b FROM table;  -- 对(a,b)组合整体去重

误以为只作用于第一个字段:

1

2

-- 错误理解:以为只对name去重

SELECT DISTINCT name, class FROM students; 

实际效果:对 (name, class) 组合去重(如 ('张三','一班') 和 ('张三','二班') 算不同记录)

2. NULL 值的特殊处理

1

2

3

INSERT INTO students (name, class, score) VALUES (NULL, '三班', 90);

 

SELECT DISTINCT name FROM students;

结果:

+--------+
| name   |
+--------+
| 张三   |
| 李四   |
| 王五   |
| NULL   |  -- NULL被视为独立值保留
+--------+

3. 性能陷阱(大数据量)

1

2

-- 当表有百万行时慎用

SELECT DISTINCT text_column FROM huge_table;

优化方案:

1

2

3

4

5

6

7

-- 先通过WHERE缩小范围再去重

SELECT DISTINCT text_column

FROM huge_table

WHERE create_time > '2023-01-01';

 

-- 或添加索引(对text类型有限制)

ALTER TABLE huge_table ADD INDEX idx_text(text_column(20)); -- 前缀索引

4. 与 ORDER BY 的优先级

1

2

3

SELECT DISTINCT class

FROM students

ORDER BY score DESC; -- 错误!score不在SELECT中

正确写法:

1

2

3

4

5

6

7

8

9

10

-- 方案1:排序字段必须在SELECT中

SELECT DISTINCT class, MAX(score) AS max_score

FROM students

GROUP BY class

ORDER BY max_score DESC;

 

-- 方案2:子查询

SELECT DISTINCT class FROM (

  SELECT class, score FROM students ORDER BY score DESC

) AS tmp;

5. 聚合函数中的 DISTINCT

1

2

3

4

5

-- 统计不重复的班级数量

SELECT COUNT(DISTINCT class) FROM students;

 

-- 错误用法(语法无效):

SELECT DISTINCT COUNT(class) FROM students;

6. 不可用于部分字段计算

1

2

-- 尝试计算不同班级的平均分(错误!)

SELECT DISTINCT class, AVG(score) FROM students;

正确做法:必须配合 GROUP BY

1

2

3

SELECT class, AVG(score)

FROM students

GROUP BY class;  -- 这才是标准解法

高级注意点

7. 与 LIMIT 的配合问题

1

SELECT DISTINCT class FROM students LIMIT 2;

结果不确定性:

返回的 2 条记录是随机的(除非指定 ORDER BY),不同执行可能结果不同。

8. 临时表空间占用

DISTINCT 操作会在内存/磁盘创建临时表存储唯一值

当去重字段总数据量超过 tmp_table_size 时,性能急剧下降

查看阈值:

1

SHOW VARIABLES LIKE 'tmp_table_size'; -- 默认16MB

对比 GROUP BY 去重

特性 DISTINCT GROUP BY
是否可搭配聚合函数 ? ? (如SUM/AVG)
结果排序 无序 可按分组键排序
执行效率 简单场景更快 复杂聚合时更优
索引利用 可使用索引 必须用分组字段索引

最佳实践总结

小数据量:直接 DISTINCT 简洁高效

需要聚合计算:用 GROUP BY 替代

精确去重计数:优先 COUNT(DISTINCT column)

排序需求:必须显式写 ORDER BY

超大数据:先过滤再去重 + 合理索引

实战检验

订单表 orders 结构:

1

2

3

4

5

6

7

CREATE TABLE orders (

    id INT PRIMARY KEY,

    product_id INT,

    user_id INT,

    amount DECIMAL(10,2),

    coupon_code VARCHAR(20) -- 允许为NULL

);

问题:

如何高效获取使用过不同优惠券的用户ID列表(含NULL)?

写出你的解决方案:

SELECT _______________________________
FROM orders;

答案(折叠):

1

2

3

4

5

6

7

8

-- 方案1:基础写法

SELECT DISTINCT user_id, coupon_code

FROM orders

WHERE coupon_code IS NOT NULL; -- 若需包含NULL则去掉WHERE

 

???????-- 方案2:大数据量优化(添加联合索引)

ALTER TABLE orders ADD INDEX idx_user_coupon(user_id, coupon_code);

SELECT DISTINCT user_id, coupon_code FROM orders;


版权声明 : 本文内容来源于互联网或用户自行发布贡献,该文观点仅代表原作者本人。本站仅提供信息存储空间服务和不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权, 违法违规的内容, 请发送邮件至2530232025#qq.cn(#换@)举报,一经查实,本站将立刻删除。
原文链接 :
相关文章
  • MySQL中DISTINCT去重的核心注意事项
    DISTINCT 六大注意事项 1. 作用范围:所有 SELECT 字段 1 SELECT DISTINCT a, b FROM table; -- 对(a,b)组合整体去重 误以为只作用于第一个字段: 1 2 -- 错误
  • MySQL中日期相减的完整指南(最新推荐)
    MySQL 中日期相减的完整指南 在 MySQL 中,日期相减有几种不同的方法,具体取决于你想要得到的结果类型(天数差、时间差等)。 1. 使用
  • MySQL中的LIMIT语句及基本用法
    MySQL 中的 LIMIT 语句 LIMIT语句用于限制查询返回的行数,常用于分页查询或取部分数据,提高查询效率。 1. LIMIT 语法 1 2 3 4 5 SELECT 列名1, 列名
  • MySQL备份失败的问题:undo log清理耗时10小时的问题
    在数据库运维领域,备份失败是令人头疼的问题。本文将结合实际案例,剖析 MySQL 8.0.18 环境下,因 undo log 清理耗时过长导致全备失败的故
  • MySQL启动报错:InnoDB表空间丢失问题及解决方法
    MySQL启动报错:InnoDB表空间丢失问题及解决方法 在启动 MySQL时,遇到了如下错误: 1 2 3 2025-01-16T12:43:28.341240Z 0 [ERROR] InnoDB: Tablespace 5975 was
  • MySQL查看表的最后一个ID的常见方法
    在MySQL中,id字段通常被用作主键,尤其是自增主键(AUTO_INCREMENT)。自增主键的特性是每次插入新记录时,id值会自动递增。因此,最后一个
  • Mysql中的用户管理

    Mysql中的用户管理
    13. 用户管理 为什么不能只用 root:出于安全考虑,不应该所有操作都由 root 执行。 MySQL 的用户信息存储位置:mysql.user表。 13.1 用户 ???? 1
  • Redis迷你版微信抢红包

    Redis迷你版微信抢红包
    全部代码:https://github.com/ziyifast/ziyifast-code_instruction/tree/main/redis_demo/redpacket_demo 1 思路分析 抢红包是一个高并发操作,且我们需要保证其原
  • Python虚拟环境终极(含PyCharm的使用教程)

    Python虚拟环境终极(含PyCharm的使用教程)
    一、为什么需要虚拟环境? 场景 问题表现 虚拟环境解决方案 多项目依赖冲突 项目A需要Django 3.2,项目B需要Django 4.1 隔离不同项目的依赖版
  • Python中的魔术方法__new__介绍

    Python中的魔术方法__new__介绍
    一、核心意义与机制 1.1 构造过程原理 1.2 与 __init__ 对比 特性 __new__ __init__ 方法类型 静态方法 实例方法 返回值 必须返回实例对象 无返回值
  • 本站所有内容来源于互联网或用户自行发布,本站仅提供信息存储空间服务,不拥有版权,不承担法律责任。如有侵犯您的权益,请您联系站长处理!
  • Copyright © 2017-2022 F11.CN All Rights Reserved. F11站长开发者网 版权所有 | 苏ICP备2022031554号-1 | 51LA统计