理解 DB2 中列组统计信息 - 王朝网络宽屏版

简介DB2 SQL 优化器（后文简称为优化器）可以估计每个备选访问计划的执行成本，并根据其估计结果选择一个最佳访问计划。一个访问计划可以指定用来解析一条 SQL 语句的操作次序。为正确地确定每种访问计划的成本，DB2 优化器需要准确的基数估计值。基数估计是这样一种过程：在应用了谓词或执行了聚集之后，优化器使用统计信息确定部分查询结果的大小。对于访问计划的每个操作符，优化器将估计该操作符的基数输出。一个或更多谓词的应用可以减少输出流基数。在计算谓词对于基数估计值的组合过滤效果时，通常会假设这些谓词彼此之间是独立的。然而，这些谓词可以在统计方面彼此关联。单独地处理它们通常会导致优化器低估基数值。而基数值的低估又会导致优化器选择一个次优的访问计划。对于至少应用了至少两个本地等式谓词的 SQL 语句，优化器将考虑使用多列统计信息来检测统计关联，并更加准确地估计多个谓词组合的过滤效果。同样对于连接两个或更多表的 SQL 语句，以及在一对表间至少使用了两个等式连接谓词的连接，优化器也会使用多列统计信息。一个本地等式谓词是一个应用于单个表的等式谓词，其描述如下所示：

COLUMN = literal

其中 literal 可以是以下任一内容：一个常量值；一个参数标记或一个主变量；一个专用寄存器（例如，CURRENT DATE）一个等式连接谓词的描述如下所示，它用于表 1 和表 2 间的连接：

T1.COLUMN = T2.COLUMN

DB2 V8.2 使用下面的多列统计信息：索引 keycard 统计信息：FIRST2KEYCARD、FIRST3KEYCARD、FIRST4KEYCARD 和 FULLKEYCARD 列组统计信息：列组基数值这些统计信息描述了包含两个或更多列的列集中不同分组的数量。在 DB2 V8.2 出现之前，只能使用索引 keycard 统计信息，并且要受下列条件约束：索引必须是完全限定的。假如键中的所有列都可以被等式谓词引用（连接谓词或本地谓词，但不是两者的混合），那么这个索引就是完全限定的。对于连接谓词，索引也必须是惟一的。在 DB2 V8.2 中，通过考虑到所有索引 keycard 统计信息而不要求索引完全限定，DB2 SQL 优化器进一步扩展了多列统计信息的使用。它还考虑到了用户收集的任何列组统计信息。本文讨论了优化器如何利用这些统计信息，以及用户如何识别要收集的列组统计信息。多个本地等式谓词的统计相关性DB2 SQL 优化器试图检测多个本地等式谓词间的统计相关性。示例 1：假设有一个表 SHOW_LISTINGS，它包含如下列：

表 1. SHOW_LISTINGS 表的描述

列名

描述

SHOW_ID

表外键，包含关于各演出清单的信息

CHANNEL_ID

表外键，包含关于播放演出的每个频道的信息

STATION_ID

表外键，包含和频道相关的每个电视台的信息

CITY_ID

表外键，包含关于上演该演出的每个城市的信息

DAY

演出播放的日期

TIME

演出播放的当天的时间

描述了演出清单的其他属性

由于演出只在某个电视台的某个频道播出，在一天的特定时间内，这些列（SHOW_ID，CHANNEL_ID，STATION_ID 和 TIME）彼此之间不是互相独立的。DAY 列独立于 TIME 列，但是它不独立于所有演出清单的 SHOW_ID。设想一条应用了以下谓词的 SQL 语句：P1: SHOW_ID = ?

P2: CHANNEL_ID = ?

P3: STATION_ID = ?

P4: TIME = ?

假如存在这样一个索引，其中的键包含谓词 P1-P4 引用的所有列，或者键中的前四列包含所引用的列，优化器将使用 FIRST4KEYCARD 索引统计信息（假如收集了索引统计信息的话），来检测谓词 P1-P4 之间的统计相关性。在应用了这四个谓词之后，优化器将计算一个更准确的基数估计值。例如，下面的任何一个索引可以用来检测这四个谓词间的统计相关性：IX1 ON SHOW_LISTINGS(SHOW_ID, CHANNEL_ID, STATION_ID, TIME)

IX2 ON SHOW_LISTINGS(SHOW_ID, CHANNEL_ID, STATION_ID, TIME, CITY_ID)

IX3 ON SHOW_LISTINGS(SHOW_ID, CHANNEL_ID, STATION_ID, TIME, DAY, CITY_ID)

优化器使用 IX1 的 FULLKEYCARD 和 FIRST4KEYCARD 统计信息来检测所有四个谓词的相关性。类似地，它也可以使用 IX2 和 IX3 的 FIRST4KEYCARD。不能使用如下所示的索引：IX4 ON SHOW_LISTINGS(CITY_ID, SHOW_ID, CHANNEL_ID, STATION_ID, TIME)

由于每个 keycard 统计信息都将包含 CITY_ID 列，因此该列上未定义本地等式谓词。假如不存在具有所需键的索引，那么可以在 SHOW_ID、CHANNEL_ID、STATION_ID 和 TIME 上收集列组统计信息。优化器使用这些列组统计信息，运用与处理索引的 FIRST4KEYCARD 统计信息相同的方式检测这四个谓词间的统计相关性。DB2 优化器同样也会考虑具有谓词子集的索引或者列组统计信息。例如，看下面所示的索引：IX5 ON SHOW_LISTINGS(SHOW_ID, STATION_ID, CITY_ID, CHANNEL_ID)

该索引不能使用 FIRST2KEYCARD 来检测谓词 P1 和 P3 的统计相关性。尽管只是部分纠正了谓词 P1-P4 间的统计相关性，但已足以答应优化器选择一个优秀的查询执行计划。此外，尽管索引 IX5 中的完整键包含 CHANNEL_ID 列，仍然不能使用 FULLKEYCARD 统计信息来检测与 P2 的相关性，因为它包含的 CITY_ID 列没有在谓词中引用。多个等式连接谓词的统计相关性DB2 SQL 优化器同样尝试检测两个表中的多个等式连接谓词间的统计相关性。示例 2：考虑示例 1 中描述的 SHOW_LISTINGS 表，另外，RATINGS 表包含如下列：

表 2. RATINGS 表的描述

列名

描述

SHOW_ID

表外键，包含关于各演出清单的信息

CHANNEL_ID

表外键，包含关于播放演出的每个频道的信息

STATION_ID

表外键，包含和频道相关的每个电视台的信息

CITY_ID

表外键，包含关于上演该演出的每个城市的信息

DAY

播放演出的日期

TIME

播放演出的时间

RATING

在一天的某个时间，在特定城市中，某个电视台频道的演出清单的收视率

RATINGS 表包含描述不同城市演出清单的收视率信息，用户可能需要查询 RATINGS 表和 SHOW_LISTINGS 表的连接以检索这两个表的属性。一个查询在该连接上应用的谓词集包含以下内容：P1: SHOW_LISTINGS.SHOW_ID = RATINGS.SHOW_ID

P2: SHOW_LISTINGS.CHANNEL_ID = RATINGS.CHANNEL_ID

P3: SHOW_LISTINGS.STATION_ID = RATINGS.STATION_ID

P1-P3 这三个谓词可能不是互相独立的；优化器试图使用任何可用的多列统计信息来检测谓词之间的相关性。优化器只能检测和说明每一对连接表上的多个连接谓词间的统计相关性。例如，假如一条 SQL 语句包含如下谓词：P1: T1.A = T2.A

P2: T1.B = T2.B

P3: T1.C = T3.C

优化器只尝试检测 P1 和 P2 间的统计相关性，因为它们只应用于相同的两个表的连接，T1 和 T2。P3 应用于 T1 和 T2 的连接；那是一个不同的连接。假如添加了第四个谓词，例如：P4: T1.D = T2.D

优化器将进一步尝试检测 P3 和 P4 间的统计相关性。为了说明等式连接谓词间的统计相关性，优化器使用连接所涉及的两表之一的多列统计信息；这个表被视为连接的父表。因此只需要在连接的父表中收集列组统计信息。连接的另一个表被指定为子表。假如父表不能确定，那么优化器就不能使用多列统计信息来检测连接谓词间的统计相关性。附录 B 提供了优化器如何确定两个连接表中的父表和子表的具体示例和描述。对连接中的父表进行标识，或者判定连接中是否有父表，这对于避免收集无用的列组统计信息是非常有用的。假如尚无合适的索引可用，那么在连接中的每个表上收集列组统计信息即可。收集多列统计信息优化器考虑使用所有可用的索引 keycard 统计信息。假如具有统计相关性的谓词所引用的列集中，索引 keycard 统计信息不可用，可以使用 RUNSTATS 命令收集列组统计信息。下面是从 DB2 V82 提取的语法。注重：对于 DB2 9，请在 Info Center 的 DB2 9 文档中查看语法。. >>-RUNSTATS--ON TABLE--table name--+-USE PROFILE------------+--->

'-| Statistics Options |-'

Statistics Options:

.-ALLOW WRITE access-.

|--+--------------------------+--+--------------------+--------->

'-| Table Object Options |-''-ALLOW READ ACCESS--'

Table Object Options:

|--+-FOR--| Index Clause |----------------------------------+---|

'-+-------------------------+--+-----------------------+-'

'-| Column Stats Clause |-''-AND--| Index Clause |-'

Column Stats Clause:

|--+-ON--| Cols Clause |------------------------------+---------|

'-+---------------------+--| Distribution Clause |-'

'-ON--| Cols Clause |-'

On Cols Clause:

.-ON ALL COLUMNS-------------------------------------------------.

| .-,-------------.|

| V ||

|--+-ON--+----------------------+--COLUMNS--(----Column Option-+--)-+--|

| '-+-ALL-+--COLUMNS AND-'|

| '-KEY-'|

'-ON KEY COLUMNS-------------------------------------------------'

“ON COLUMNS” 子句答应您指定一个列的列表，为它们收集统计信息。假如您指定了一组列，则会收集该组中惟一值的数量。未列出的列的统计信息非常明确。您可以在 “on-cols-clause” 和 “on-dist-cols-clause” 中使用这个子句。注重：目前还不支持为一组列收集分布统计信息。注重：假如启用了 automatic runstats 并使用 RUNSTATS 命令收集了列组统计信息，automatic runstats 将覆盖这些统计信息，并丢弃列组统计信息。 AUTO_RUNSTATS 数据库配置设置表明是否启用了 automatic runstats：Automatic runstats (AUTO_RUNSTATS)=ON

假如设置为 “ON”，则启用 automatic runstats。AUTO_RUNSTATS 默认情况下使用 “具有所有分布和示例的具体索引” 的 RUNSTATS 选项。您可以使用统计信息配置文件来覆盖默认的 RUNSTATS 选项。您可以将希望收集的任意列组统计信息添加到此配置文件中，以避免 automatic runstats 覆盖它们。“统计信息配置文件” 提供了关于统计信息配置文件的具体资料。对于数据库分区特性（database partitioning feature，DPF）环境，automatic runstats 总是在目录分区上收集统计信息。假如表不存在于这个目录节点上，将使用表驻留的节点组的第一个分区。将使用 RUNSTATS 命令的 “ON COLUMNS” 选项收集列组统计信息。例如，使用 SHOW_LISTINGS 表收集 SHOW_LISTINGS.SHOW_ID、SHOW_LISTINGS.CHANNEL_ID 和 SHOW_LISTINGS.STATION_ID 中的列组统计信息，执行如下 RUNSTATS 命令：RUNSTATS ON TABLE schema_name.SHOW_LISTINGS ON COLUMNS ((SHOW_ID, CHANNEL_ID,

STATION_ID))

假如只在 DAY 列收集列统计信息以及收集 SHOW_ID、CHANNEL_ID、STATION_ID 和 TIME 列的列组统计信息，则执行以下的 RUNSTATS 命令：RUNSTATS ON TABLE schema_name.SHOW_LISTINGS ON COLUMNS ((SHOW_ID, CHANNEL_ID,

STATION_ID, TIME), DAY)

注重：列统计信息是在列组中列出的所有列上收集的。在上面的命令中，列统计信息同样是在每一个列中收集的（SHOW_ID、CHANNEL_ID、STATION_ID 和 TIME）。为了收集所有列的统计信息以及在 SHOW_ID、CHANNEL_ID、STATION_ID 和 TIME 中收集列组统计信息，执行下面的 RUNSTATS 命令：RUNSTATS ON TABLE schema_name.SHOW_LISTINGS ON ALL COLUMNS AND ON COLUMNS

((SHOW_ID, CHANNEL_ID, STATION_ID, TIME))

要收集多个多列统计信息，可以提供一个组集。下面的 RUNSTATS 命令在组（SHOW_ID、CHANNEL_ID 和 STATION_ID）和组（SHOW_ID、CHANNEL_ID、STATION_ID 和 TIME）中收集多列统计信息，同样也在 DAY 列上收集了列统计信息：RUNSTATS ON TABLE schema_name.SHOW_LISTINGS ON COLUMNS ((SHOW_ID,

CHANNEL_ID, STATION_ID), (SHOW_ID, CHANNEL_ID, STATION_ID, TIME), DAY)

注重：对于索引统计信息来说，将为索引键的前两个列、前三列和前四列收集多个多列统计信息，而一个列组基数统计信息是为指定的各列组收集的。确定何时收集列组统计信息确定何时收集列组统计信息以及要收集哪些列组统计信息是比较困难的。这一节将为您介绍一些方法，帮助您确定何时需要列组统计信息。本节的示例使用了 SAMPLE 数据库，可以通过执行 “db2sampl” 创建，此数据库使用 db2level：Informational tokens are "DB2 v8.1.1.120", "s060801", "U808888", and FixPak "13".

示例 3：本地等式谓词创建了 SAMPLE 数据库后，并没有在表上收集统计信息。首先，需要在 EMPLOYEE 表中收集统计信息：RUNSTATS ON TABLE SCHEMA_NAME.EMPLOYEE WITH DISTRIBUTION;

考虑 SAMPLE 数据库中 EMPLOYEE 表上的如下查询：SELECT EMPNO, FIRSTNME, LASTNAME, WORKDEPT, SEX, JOB, SALARY

FROM EMPLOYEE

WHERE JOB='ANALYST';

该查询从 EMPLOYEE 表返回两条记录：EMPNOFIRSTNME LASTNAMEWORKDEPT SEX JOBSALARY

------ ------------ --------------- -------- --- -------- -----------

000130 DOLORESQUINTANAC01F ANALYST 23800.00

000140 HEATHERNICHOLLSC01F ANALYST 28420.00

2 record(s) selected.

看一下为此查询选择的查询执行计划。为此，使用 EXPLAIN 工具，它要求 EXPLAIN 表存在。为了创建 EXPLAIN 表，执行以下代码： db2 -tvf $DB2PATH/misc/EXPLAIN.DDL

创建了 EXPLAIN 表之后，像下面这样对查询进行 EXPLAIN 处理： SET CURRENT EXPLAIN MODE EXPLAIN;

SELECT EMPNO, FIRSTNME, LASTNAME, WORKDEPT, SEX, JOB, SALARY

FROM EMPLOYEE

WHERE JOB='ANALYST';

SET CURRENT EXPLAIN MODE NO;

使用 db2exfmt 工具查看查询执行计划： db2exfmt -d <DBNAME> -1 -g -o <FILENAME>

使用您喜爱的文本编辑器，您应看到像下面这样的查询执行计划： 2

TBSCAN

( 2)

30.8464

TABLE: SKAPOOR

EMPLOYEE

基数估计值 2 符合实际结果。为这个查询添加几个冗余的等式谓词： SELECT EMPNO, FIRSTNME, LASTNAME, WORKDEPT, SEX, JOB, SALARY

FROM EMPLOYEE

WHERE JOB='ANALYST' AND SEX='F' AND WORKDEPT='C01';

此查询返回和上面相同的结果集。但是看一下 EXPLAIN 工具生成的查询执行计划，基数估计值并不符合实际结果：0.0761719

TBSCAN

( 2)

31.4115

TABLE: SKAPOOR

EMPLOYEE

DB2 优化器假设这三个谓词是彼此独立的，因为不存在相关的索引或列组统计信息。在 JOB、WORKDEPT 和 SEX 列中收集列组统计信息。 RUNSTATS ON TABLE <SCHEMA_NAME>.EMPLOYEE ON ALL COLUMNS AND COLUMNS

((JOB, WORKDEPT, SEX)) WITH DISTRIBUTION;

使用这三个列的列组统计信息，DB2 优化器计算出一个更准确的基数估计值： 1.77778

TBSCAN

( 2)

31.4214

TABLE: SKAPOOR

EMPLOYEE

与单一谓词查询计算出的结果不同，所计算出的基数估计值并不是 2，这是因为列组统计信息是一个一致分布统计信息。示例 4：等式连接谓词这个示例集中关注表 ORG 和 STAFF 的连接。首先，需要在这两个表上收集统计信息。现在，已经收集好了基本的统计信息。RUNSTATS ON TABLE <SCHEMA_NAME>.ORG;

RUNSTATS ON TABLE <SCHEMA_NAME>.STAFF;

下面的查询连接 ORG 和 STAFF 表：SELECT STAFF.NAME, ORG.DEPTNUMB, ORG.DEPTNAME, STAFF.SALARY

FROM ORG, STAFF

WHERE ORG.MANAGER = STAFF.ID AND ORG.DEPTNUMB = STAFF.DEPT

ORDER BY ORG.DEPTNUMB;

这个查询返回 8 个记录：NAMEDEPTNUMB DEPTNAME SALARY

--------- -------- -------------- ---------

Molinare10 Head Office 22959.20

Hanes 15 New England 20659.80

Sanders 20 Mid Atlantic18357.50

Marenghi38 South Atlantic17506.75

Plotz 42 Great Lakes 18352.80

Fraye 51 Plains21150.00

Lea 66 Pacific 18555.50

Quill 84 Mountain19818.00

8 record(s) selected.

使用 EXPLAIN 工具查看查询执行计划： 1

TBSCAN

( 2)

33.2225

SORT

( 3)

33.151

HSJOIN

( 4)

33.0248

/-----+-----

358

TBSCAN TBSCAN

( 5) ( 6)

17.233415.3736

358

TABLE: SKAPOORTABLE: SKAPOOR

STAFF ORG

这个示例使用了收集列组统计信息的简单方法。附录 B 包含一些示例，对判定连接中的父表做了进一步的分析。对 STAFF 表的 ID、DEPT 列和 ORG 表的 MANAGER、DEPTNUMB 列做了连接，所以要在这两组列中收集列组统计信息： RUNSTATS ON TABLE <SCHEMA_NAME>.STAFF ON ALL COLUMNS AND COLUMNS ((ID, DEPT));

RUNSTATS ON TABLE <SCHEMA_NAME>.ORG ON ALL COLUMNS AND COLUMNS ((MANAGER, DEPTNUMB));

DB2 优化器使用收集到的列组统计信息正确地估计了基数： 8

TBSCAN

( 2)

33.5658

SORT

( 3)

33.4243

HSJOIN

( 4)

33.0363

/-----+-----

358

TBSCAN TBSCAN

( 5) ( 6)

17.233415.3736

358

TABLE: SKAPOORTABLE: SKAPOOR

STAFF ORG

示例 5：查看多列统计信息优化器利用两种类型的多列统计信息：索引 keycard 统计信息和列组统计信息。这个示例提供了查看表中可用多列统计信息的步骤。选项 1. 使用 db2look 工具 db2look 工具用来生成 DDL 语句，从而重新创建数据库中定义的对象。可以使用 -m 选项来显示为这些对象收集的统计信息。在 ORG 表中收集列组统计信息和索引统计信息： CREATE INDEX IX1 ON ORG (DEPTNUMB, DEPTNAME, MANAGER);

RUNSTATS ON TABLE <SCHEMA_NAME>.ORG ON ALL COLUMNS

AND COLUMNS ((DEPTNUMB, DEPTNAME, MANAGER, DIVISION, LOCATION))

WITH DISTRIBUTION AND INDEXES ALL;

使用 db2look 工具查看 ORG 表的统计信息： db2look -d sample -e -a -m -t ORG -o org.ddl

注重：使用 -h 选项查看关于 DB2look 工具的信息。在 org.ddl 文件中查看输出。它应该包含如下用于列组统计信息的 UPDATE 语句： UPDATE SYSSTAT.COLGROUPS SET colgroupcard = 8

WHERE colgroupid IN (SELECT colgroupid

FROM SYSCAT.COLGROUPCOLS