目录

Mysql用法

导出

1
mysqldump -uroot -pdbpasswd dbname test1 test2 test3>db.sql

合并

表达式

COALESCE是一个函数, (expression_1, expression_2, …,expression_n)依次参考各参数表达式,遇到非null值即停止并返回该值。如果所有的表达式都是空值,最终将返回一个空值。使用COALESCE在于大部分包含空值的表达式最终将返回空值。

示例:

1
select coalesce(success_cnt, 1) from tableA

当success_cnt 为null值的时候,将返回1,否则将返回success_cnt的真实值

1
select coalesce(success_cnt,period,1) from tableA

当success_cnt不为null,那么无论period是否为null,都将返回success_cnt的真实值(因为success_cnt是第一个参数),当success_cnt为null,而period不为null的时候,返回period的真实值。只有当success_cnt和period均为null的时候,将返回1。

强制索引

force index

1
2
3
4
5
6
select customer,count(1) c  
from upv_1  force index(idx_created)  
where created between "2015-07-06" and "2015-07-07"  
group by customer   
having c > 15  
order by c desc

重建索引

1
alter table T engine=InnoDB。

排序 过滤

过滤 is_buy=0的值

1
2
3
4
5
6
7
8
9
SELECT
 * 
FROM
 mall.m_store_sort 
ORDER
BY
 is_buy=0
,is_buy 
ASC

索引策略

  1. 独立的列

索引列不能是表达式的一部分,也不能是函数的参数

  1. 前缀索引和索引选择性

索引的选择性: 不重复的索引值和数据表的记录总数的比值,索引的选择性越高查询效率越高。

对于BLOB/TEXT或者很长的VARCHAR类型的列,必须使用前缀索引。因为Mysql不允许索引这些列的完整的长度

诀窍在于要选择足够长的前缀以保证较高的选择性,同时又不能太长。

如何创建:

1
ALTER TABLE sakila.city_demo ADD KEY (city(7));

缺点:

Mysql无法使用前缀索引做ORDER BY和GROUP BY,也无法使用前缀做覆盖扫描

  1. 多列索引

当出现服务器对多个索引做相交操作时(通常有多个AND条件),通常意味着需要一个包含所有相关列的多列索引,而不是多个独立的单列索引

  1. 选择合适的索引列的顺序 (适用于B-TREE索引)

当不需要考虑排序和分组时,将选择性最高的列放在前面通常是很好的,这时候的索引的作用只是用于优化where条件的查找

  1. 聚簇索引

聚簇索引并不是一种单独的索引类型,而是一种数据的存储方式

优点:

  • 可以把相关数据保存在一起。例如实现电子邮件时,可以根据用户ID来聚集数据,这样只需要从磁盘读取少数的数据页就能获取某个用户的全部邮件。如果没有使用聚族索引,则每封邮件都可能导致一次磁盘I/O;
  • 数据访问更快。聚族索引将索引和数据保存在同一个B-Tree中,因此从聚族索引中获取数据通常比在非聚族索引中查找更快。
  • 使用覆盖索引扫描的查询可以直接使用节点中的主键值。

缺点:

  • 聚簇数据最大限度的提高了I/O密集型应用的性能,但如果数据全部都放在内存中,则访问的顺序就没有那么重要了,聚簇索引也就没有那么优势了;

  • 插入速度严重依赖于插入顺序。按照主键的顺序插入是加载数据到InnoDB表中速度最快的方式。但如果不是按照主键顺序加载数据,那么在加载完成后最好使用OPTIMIZE TABLE命令重新组织一下表。

  • 更新聚簇索引列的代价很高,因为会强制InnoDB将每个被更新的行移动到新的位置。

基于聚簇索引的表在插入新行,或者主键被更新导致需要移动行的时候,可能面临“页分裂”的问题。当行的主键值要求必须将这一行插入到某个已满的页中时,存储引擎会将该页分裂成两个页面来容纳该行,这就是一次分裂操作。页分裂会导致表占用更多的磁盘空间。

  • 聚簇索引可能导致全表扫描变慢,尤其是行比较稀疏,或者由于页分裂导致数据存储不连续的时候。

  • 二级索引(非聚簇索引)可能比想象的要更大,因为在二级索引的叶子节点包含了引用行的主键列。

  • 二级索引访问需要两次索引查找,而不是一次。

InnoDB的二级索引的叶子节点中存储的不是“行指针”。而是主键值,并以此作为指向行的“指针”。这样的策略减少了当出现行移动或者数据页分裂时二级索引的维护工作。

使用InnoDB时应该尽可能的按照按键顺序插入数据,并且尽可能的使用单调增加的聚簇键的值来插入新行。

  1. 覆盖索引

定义:

如果一个索引包含所有需要查询的字段的值,我们称之为覆盖索引。

优点:

  • 索引条目通常远小于数据行大小,所以如果只需要读取索引,那MySQL就会极大地减少数据访问量。这对缓存的负载非常重要,因为这种情况下响应时间大部分花费在数据拷贝上。覆盖索引对于I/O密集型的应用也有帮助,因为索引比数据更小,更容易全部放入内存中(这对于MyISAM尤其正确,因为MyISAM能压缩索引以变得更小)。
  • 因为索引是按照列值顺存储的(至少在单个页内是如此),所以对于I/O密集型的范围查询会比随机从磁盘读取每一行数据的I/O要少得多。对于某些存储引擎,例如MyISAM和Percona XtraDB,甚至可以通过OPTIMIZE命令使得索引完全顺序排列,这让简单的范围查询能使用完全顺序的索引访问。
  • 一些存储引擎如MyISAM在内存中只缓存索引,数据则依赖于操作系统来缓存,因此要访问数据需要一次系统调用。这可能会导致严重的性能问题,尤其是那些系统调用占了数据访问中的最大开销的场景。
  • 由于InnoDB的聚簇索引,覆盖索引对InnoDB表特别有用。InnoDB的二级索引在叶子节点中保存了行的主键值,所以如果二级主键能够覆盖查询,则可以避免对主键索引的二次查询。

MySQL只能使用B-Tree索引做覆盖索引

  1. 使用索引扫描来做排序

如果EXPLAIN出来的type列的值为“index”,则说明Mysql使用了索引扫描来做排序

只有当索引的列顺序和ORDER BY子句的顺序完全一致,并且所有列的排序方向(倒序或正序)都一样时,MySQL才能够使用索引来对结果做排序。如果查询需要关联多张表,则只有当ORDER BY子句引用的字段全部为第一个表时,才能使用索引做排序。OEDER BY子句和查找型查询的限制是一样的:需要满足索引的最左前缀的要求;否则,MySQL都需要执行排序操作,而无法利用索引排序。

有一种情况下ORDER BY子句可以不满足索引的最左前缀的要求,就是前导列为常量的时候。如果WHERE子句或者JOIN子句中对这些列制定了常量,就可以“弥补“索引的不足。

即使OEDER BY子句不满足索引的最左前缀的要求,也可以用于查询排序,这是因为索引的第一列被指定为一个常数

  1. 前缀压缩索引

MyISAM使用前缀压缩来减少索引的大小,从而让更多的索引可以放入内存,这在某些情况下能极大的提高性能。默认值压缩字符串,但通过参数设置也可以对整数做压缩。

压缩使用更少的空间,待见是某些操作可能更慢。因为每个值的压缩前缀都依赖前面的值,所以MyISAM查找时无法在所言块中使用二分查找而只能从头开始扫描。正序的扫描速度还不错,但如果时倒序就是很好了。测试表明,对于cpu密集型应用,因为扫描需要随机查找,压缩索引使得MyISAM在索引查找上要慢好几倍。压缩索引的倒序扫描就更慢了。压缩索引需要在cpu内存资源与磁盘之间做平衡。压缩索引可能只需要十分之一大小的磁盘空间,如果是I/O密集型应用,对某些查询带来的好处会比成本多很多。

可以在create table语句中指定PACK_KEYS参数来控制索引压缩的方式。

  1. 冗余和重复索引

重复索引是指在相同的列上按照相同的顺序创建的相同类型的额索引。应该避免这样创建索引,发现以后也应该立即移除。

如果创建了索引(A,B),再创建索引(A)就是冗余索引,因为这只是前一个索引的前缀索引。

一般来说。增加索引将会导致INSERT/UODATE/DELETE等操作的速度变慢,特别是当新增索引后导致了内存瓶颈的时候

  1. 索引和锁

索引和锁可以让查询锁定更少的行。如果你的查询从不访问那些不需要访问的行,那么就会锁定更少的行,从两个方面来看这对性能都有好处。首先,虽然innodb的行锁效率很高,内存使用也很少,但是锁定行的时候仍然会带来额外的开销,其次,锁定超过需要的行会增加锁竞争,并减少并发性。

innodb只有在访问行的时候才会对其加锁,而索引能够减少innodb访问的行数,从而减少锁的数量。但只有当innodb在存储引擎能够过滤掉不需要的行时才有效。如果索引无法过滤掉无效的行,那么在innodb检索到数据并返回给服务器层以后,MySQL服务器才能应用WHERE子句。这时候,已经无法避免锁定行了:inno代表可以在服务器端过滤掉行后就释放锁,但是在早期的MySQL版本中,innodb只有在事务提交后才能释放锁。

查询优化

优化数据访问

是否向数据库请求了不需要的数据

  • 查询不需要的记录:加limit
  • 多表关联时返回全部列
  • 总是取出全部列
  • 重复查询相同的数据:做数据缓存

查询执行的基础

  • 客户端发送一条查询给服务器。
  • 服务器先检查查询缓存,如果命中缓存,则立刻返回存储在缓存中的记过。否则进入下一阶段。
  • 服务器进行SQL解析,预处理,再由优化器生成对应的执行计划。
  • MYSQL根据优化器生成的执行计划,调用存储引擎的API来执行查询。
  • 将结果返回给客户端。

mysql客户端和服务器之间的通信协议

是“半双工”的,这意味着,在任何一个时刻要么是由服务器向客户端发送数据,要么是由客户端向服务器发送数据,这两个动作不能懂事发生。所以我们也无需将一个消息切成小块独立来发送。

这种协议让mysql通信简单快速,但也从很多地方限制了mysql。一个明显的限制是,这意味着没法进行流量控制。一旦一段开始发生消息,另一端要接受完整个消息才能响应它。这就像是来回抛球的游戏:在任何时刻,只有一个人能够控制球,而且只有控制球的人才能将消息抛回去(发送消息)。

客户端用一个单独的数据包将查询传给服务器。这也是为什么当查询语句很长的时候,参数max_allowed_packet就非常重要了。一旦客户端发送了请求,它能做的事情就只是等待结果了。

相反的,一般服务器响应给用户的数据通常很多,由多个数据包组成。当服务器开始响应客户端请求时,客户端必须完整地接受整个返回结果,而不能简单地只取前几条结果,然后让服务器停止发送数据。这种情况下,客户端若接受完整的结果,然后取前面几条需要的结果,或者接收完几调结果后就粗暴地断开链接,都不是好主意。这也是在必要的时候一定要在查询中加上limit限制的原因。

换一种方式解释这种行为:当客户端从服务器取数据时,看起来是一个拉数据的过程,但实际上是mysql在向客户端推送数据的过程。客户端不断地接收从服务器推送的数据,客户端也没法让服务器停下来。客户端像是“从消防水管喝水”。

多少连接mysql的库函数都可以获得全部结果集并缓存到内存里,还可以朱行获取需要的数据。默认一般是获得全部结果集并缓存在内存中。mysql通常需要等所有的数据都已经发送给客户端才能释放这条查询所占用的资源,所以接受全部结果并缓存通常可以减少服务器的压力,让查询能够早点结束、早点释放相应资源。

当使用多数链接mysql的库函数从mysql获取数据时,其结果看起来都像是从mysql服务器获取数据,二实际上都是从这个库函数的缓存获取数据。多数情况下没什么问题,但是如果需要范湖一个很大的结果集的时候,这样做并不好,因为库函数会花很多时间和内存来存储所有的结果集。如果能够尽早开始处理这些结果集,就能大大减少内存的消耗,这种情况下可以不适用缓存来记录结果而是直接处理。这样做的缺点是,对于服务器来说需要查询完成后才能释放资源,所以在客户端交互的整个过程中,服务器的资源都是被这个查询锁占用的。

查询缓存

在解析一个查询语句之前,如果查询缓存是打开的,那么mysql会优先检查这个查询是否命中查询缓存中的数据。这个检查是通过一个对大小写敏感的哈希查找实现的。查询和缓存中的查询即使只是一个字节不同,那也不会匹配缓存结果,这种情况下查询就会进入下一阶段的处理。

如果当前的查询恰好命中了查询缓存,那么在返回查询结果之前mysql会检查一次用户权限。这仍然是无需解析查询SQL语句的,因为在查询缓存中已经存放了当前查询需要访问的表信息。如果权限没有问题,mysql会跳过所有其他阶段,直接从缓存中拿到结果并返回给客户端。这种情况下,查询不会被解析,不用生成执行计划,不会被执行。

change buffer的使用场景

普通索引的所有场景,使用 change buffer 都可以起到加速作用吗?

因为 merge 的时候是真正进行数据更新的时刻,而 change buffer 的主要目的就是将记录的变更动作缓存下来,所以在一个数据页做 merge 之前,change buffer 记录的变更越多(也就是这个页面上要更新的次数越多),收益就越大。

因此,对于写多读少的业务来说,页面在写完以后马上被访问到的概率比较小,此时change buffer 的使用效果最好。这种业务模型常见的就是账单类、日志类的系统。

索引选择和实践

这两类索引在查询能力上是没差别的,主要考虑的是对更新性能的影响。所以,我建议你尽量选择普通索引。

尽量使用普通索引,然后把 change buffer 尽量开大,以确保这个“历史数据”表的数据写入速度。

普通索引和唯一索引,应该怎么选择?

查询过程

对于普通索引来说,查找到满足条件的第一个记录 (5,500) 后,需要查找下一个记录,直到碰到第一个不满足 k=5 条件的记录。

对于唯一索引来说,由于索引定义了唯一性,查找到第一个满足条件的记录后,就会停止继续检索。

更新过程

当需要更新一个数据页时,如果数据页在内存中就直接更新,而如果这个数据页还没有在内存中的话,在不影响数据一致性的前提下,InooDB 会将这些更新操作缓存在 changebuffer 中,这样就不需要从磁盘中读入这个数据页了。在下次查询需要访问这个数据页的时候,将数据页读入内存,然后执行 change buffer 中与这个页有关的操作。通过这种方式就能保证这个数据逻辑的正确性。

change buffer,实际上它是可以持久化的数据。也就是说,change buffer 在内存中有拷贝,也会被写入到磁盘上。

什么条件下可以使用change buffer呢?

唯一索引的更新就不能使用 change buffer,实际上也只有普通索引可以使用。

change buffer 的大小,可以通过参数 innodb_change_buffer_max_size 来动态设置。这个参数设置为 50 的时候,表示 change buffer 的大小最多只能占用 buffer pool 的 50%。

如果要在这张表中插入一个新记录 (4,400) 的话,InnoDB 的处理流程是怎样的?

  1. 这个记录要更新的目标页在内存中。这时,InnoDB 的处理流程如下:

对于唯一索引来说,找到 3 和 5 之间的位置,判断到没有冲突,插入这个值,语句执行结束;

对于普通索引来说,找到 3 和 5 之间的位置,插入这个值,语句执行结束。

  1. 这个记录要更新的目标页不在内存中。这时,InnoDB 的处理流程如下:

对于唯一索引来说,需要将数据页读入内存,判断到没有冲突,插入这个值,语句执行结束;

对于普通索引来说,则是将更新记录在 change buffer,语句执行就结束了。

将数据从磁盘读入内存涉及随机 IO 的访问,是数据库里面成本最高的操作之一。changebuffer 因为减少了随机磁盘访问,所以对更新性能的提升是会很明显的。

Change buffer和redo log

redo log 主要节省的是随机写磁盘的 IO 消耗(转成顺序写),而 change buffer 主要节省的则是随机读磁盘的 IO 消耗。

索引下推

使用ICP的情况下,查询过程:

  1. 存储引擎读取索引记录(不是完整的行记录);
  2. 判断WHERE条件部分能否用索引中的列来做检查,条件不满足,则处理下一行索引记录(+1)
  3. 条件满足,使用索引中的主键去定位并读取完整的行记录(就是所谓的回表);
  4. 存储引擎把记录交给Server层,Server层检测该记录是否满足WHERE条件的其余部分。

最左前缀原则

当你创建了一个联合索引,该索引的任何最左前缀都可以用于查询

mysql会一直向右匹配直到遇到范围查询(>、<、between、like)就停止匹配,比如a = 1 and b = 2 and c > 3 and d = 4 如果建立(a,b,c,d)顺序的索引,d是用不到索引的,如果建立(a,b,d,c)的索引则都可以用到,a,b,d的顺序可以任意调整。

前缀索引

使用前缀索引,定义好长度,就可以做到既节省空间,又不用额外增加太多的查询成本。 我们在建立索引时关注的是区分度,区分度越高越好。因为区分度越高,意味着重复的键值越少。因此,我们可以通过统计索引上有多少个不同的值来判断要使用多长的前缀。

怎么确定前缀长度?

  1. 计算出列上有多少个不同的值
1
Select count(distinct email) as L from SUSer;
  1. 依次选取不同长度的前缀来看这个值
1
2
3
4
Select
count(distinct left(email,4)) as L4
count(distinct left(email,5)) as L5
from SUSer;

要预先设定一个可以接受的损失比例,比如 5%。然后,在返回的 L4~L5 中,找出不小于 L * 95% 的值

前缀索引对覆盖索引的影响

使用前缀索引就用不上覆盖索引对查询性能的优化了,这也是你在选择是否使用前缀索引时需要考虑的一个因素。

基于主键索引和普通索引的查询有什么区别?

如果语句是 select * from T where ID=500,主键查询方式,则只需要搜索 ID 这棵B+ 树;

如果语句是 select * from T where k=5,普通索引查询方式,则需要先搜索 k 索引树,得到 ID 的值为 500,再到 ID 索引树搜索一次。这个过程称为回表。

索引的类型

主键索引(聚簇索引):主键索引的叶子节点存的是整行数据

非主键索引(二级索引):非主键索引的叶子节点内容是主键的值

哪些场景应该使用自增主键?

自增主键的插入数据模式,正符合了我们前面提到的递增插入的场景。每次插入一条新记录,都是追加操作,都不涉及到挪动其他记录,也不会触发叶子节点的分裂。主键长度越小,普通索引的叶子节点就越小,普通索引占用的空间也就越小。

有些业务的场景需求是这样的:1. 只有一个索引;2. 该索引必须是唯一索引。此时更适合用业务字段作为主键

Mysql为什么有时候会选错索引?

优化器的逻辑

扫描行数是怎么判断的?

MySQL 在真正开始执行语句之前,并不能精确地知道满足这个条件的记录有多少条,而只能根据统计信息来估算记录数。

MySQL 是怎样得到索引的基数的呢?

InnoDB 默认会选择 N 个数据页,统计这些页面上的不同值,得到一个平均值,然后乘以这个索引的页面数,就得到了这个索引的基数。

当变更的数据行数超过1/M 的时候,会自动触发重新做一次索引统计。

在 MySQL 中,有两种存储索引统计的方式,可以通过设置参数 innodb_stats_persistent的值来选择:

设置为 on 的时候,表示统计信息会持久化存储。这时,默认的 N 是 20,M 是 10。

设置为 off 的时候,表示统计信息只存储在内存中。这时,默认的 N 是 8,M 是 16。

重新统计索引信息:

1
analyze table t

索引选择异常和处理

  • 采用 force index 强行选择一个索引。
  • 我们可以考虑修改语句,引导 MySQL 使用我们期望的索引。
  • 在有些场景下,我们可以新建一个更合适的索引,来提供给优化器做选择,或删掉误用的索引。