Вот моя таблица с ~ 10000000 строк данных
CREATE TABLE `votes` (
`subject_name` varchar(32) COLLATE utf8_unicode_ci NOT NULL,
`subject_id` int(11) NOT NULL,
`voter_id` int(11) NOT NULL,
`rate` int(11) NOT NULL,
`updated_at` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP,
PRIMARY KEY (`subject_name`,`subject_id`,`voter_id`),
KEY `IDX_518B7ACFEBB4B8AD` (`voter_id`),
KEY `subject_timestamp` (`subject_name`,`subject_id`,`updated_at`),
KEY `voter_timestamp` (`voter_id`,`updated_at`),
CONSTRAINT `FK_518B7ACFEBB4B8AD` FOREIGN KEY (`voter_id`) REFERENCES `users` (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COLLATE=utf8_unicode_ci;
Вот показатели кардинальности
Поэтому, когда я делаю этот запрос:
SELECT SQL_NO_CACHE * FROM votes WHERE
voter_id = 1099 AND
rate = 1 AND
subject_name = 'medium'
ORDER BY updated_at DESC
LIMIT 20 OFFSET 100;
Я ожидал, что он использует индекс, voter_timestamp
но MySQL предпочитает использовать это вместо:
explain select SQL_NO_CACHE * from votes where subject_name = 'medium' and voter_id = 1001 and rate = 1 order by updated_at desc limit 20 offset 100;`
type:
index_merge
possible_keys:
PRIMARY,IDX_518B7ACFEBB4B8AD,subject_timestamp,voter_timestamp
key:
IDX_518B7ACFEBB4B8AD,PRIMARY
key_len:
102,98
ref:
NULL
rows:
9255
filtered:
10.00
Extra:
Using intersect(IDX_518B7ACFEBB4B8AD,PRIMARY); Using where; Using filesort
И я получил время запроса 200-400 мс.
Если я заставлю это использовать правильный индекс как:
SELECT SQL_NO_CACHE * FROM votes USE INDEX (voter_timestamp) WHERE
voter_id = 1099 AND
rate = 1 AND
subject_name = 'medium'
ORDER BY updated_at DESC
LIMIT 20 OFFSET 100;
Mysql может вернуть результаты в 1-2 мс
и вот объяснение:
type:
ref
possible_keys:
voter_timestamp
key:
voter_timestamp
key_len:
4
ref:
const
rows:
18714
filtered:
1.00
Extra:
Using where
Так почему же MySQL не выбрал voter_timestamp
индекс для моего исходного запроса?
То , что я пытался это analyze table votes
, optimize table votes
, падение этого индекса и добавить его снова, но MySQL до сих пор использует неправильный индекс. не совсем понимаю в чем проблема.
(voter_id, updated_at)
. Другой индекс будет (voter_id, subject_name, updated_at)
или (subject_name, voter_id, updated_at)
(без ставки).
subject_name='medium' and rate=1
)
LIMIT
или даже ORDER BY
если только индекс сначала не удовлетворит всю фильтрацию. То есть без полных четырех столбцов он соберет все соответствующие строки, отсортирует их все, а затем выберет LIMIT
. С индексом в 4-столбца, запрос может избежать сортировки и остановки после прочтения только те LIMIT
строки.
subject_name = "medium"
часть, она также может выбрать правильный индекс, нет необходимости индексироватьrate