Перейти к основному содержимому
Перейти к основному содержимому

Мониторинг в Cloud Console ClickHouse

Сервисы в ClickHouse Cloud включают готовые компоненты мониторинга с панелями мониторинга и уведомлениями. По умолчанию доступ к этим панелям мониторинга есть у всех пользователей в Cloud Console.

Панели мониторинга

Состояние сервиса

Панель мониторинга состояния сервиса можно использовать, чтобы мониторить общее состояние сервиса. ClickHouse Cloud собирает и хранит метрики для этой панели мониторинга из системных таблиц, чтобы их можно было просматривать, когда сервис бездействует.

Использование ресурсов

Панель мониторинга Infrastructure предоставляет подробную информацию о ресурсах, используемых процессом ClickHouse. ClickHouse Cloud собирает и хранит метрики, отображаемые на этой панели мониторинга, из системных таблиц, чтобы их можно было просматривать, когда сервис бездействует.

Память и CPU

Графики Выделенный CPU и Выделенная память показывают общий объем вычислительных ресурсов, доступных для каждой реплики в вашем сервисе. Эти значения можно изменить с помощью масштабирования в ClickHouse Cloud.

Графики Использование памяти и Использование CPU показывают оценку того, сколько CPU и памяти фактически используется процессами ClickHouse в каждой реплике, включая запросы и фоновые процессы, такие как слияния.

Снижение производительности

Если использование памяти или CPU приближается к выделенному объему памяти или CPU, вы можете столкнуться со снижением производительности. Чтобы это исправить, рекомендуем:

  • Оптимизировать запросы
  • Изменить партиционирование таблиц
  • Добавить сервису больше вычислительных ресурсов с помощью масштабирования

Ниже приведены соответствующие метрики из системных таблиц, отображаемые на этих графиках:

ГрафикИмя соответствующей метрикиАгрегацияПримечания
Выделенная памятьCGroupMemoryTotalMax
Выделенный CPUCGroupMaxCPUMax
Используемая памятьMemoryResidentMax
Используемый CPUСистемная метрика CPUMaxClickHouseServer_UsageCores через конечную точку Prometheus

Передача данных

Графики отображают входящий и исходящий трафик данных в ClickHouse Cloud и из него. Подробнее см. в разделе передача данных по сети.

Расширенная панель мониторинга

Эта панель мониторинга представляет собой измененную версию встроенной расширенной панели мониторинга обсервабилити, в которой каждый ряд показывает метрики для отдельной реплики. Эта панель мониторинга может быть полезна для мониторинга и устранения неполадок, специфичных для ClickHouse.

Расширенная панель мониторинга в ClickHouse Cloud
Примечание

ClickHouse Cloud собирает и хранит метрики, отображаемые на этой панели мониторинга, из системных таблиц, чтобы их можно было просматривать, даже когда сервис находится в бездействующем состоянии. Доступ к этим метрикам не отправляет запрос к базовому сервису и не выводит бездействующие сервисы из состояния idle.

В таблице ниже каждому графику на расширенной панели мониторинга сопоставлены соответствующая метрика ClickHouse, исходная системная таблица и тип агрегации:

ГрафикИмя соответствующей метрики ClickHouseСистемная таблицаТип агрегации
Запросы/секProfileEvent_Querymetric_logSum / bucketSizeSeconds
Выполняющиеся запросыCurrentMetric_Querymetric_logAvg
Выполняющиеся слиянияCurrentMetric_Mergemetric_logAvg
Выбранные байты/секProfileEvent_SelectedBytesmetric_logSum / bucketSizeSeconds
Ожидание IOProfileEvent_OSIOWaitMicrosecondsmetric_logSum / bucketSizeSeconds
Ожидание чтения из S3ProfileEvent_ReadBufferFromS3Microsecondsmetric_logSum / bucketSizeSeconds
Ошибки чтения из S3/секProfileEvent_ReadBufferFromS3RequestsErrorsmetric_logSum / bucketSizeSeconds
Ожидание CPUProfileEvent_OSCPUWaitMicrosecondsmetric_logSum / bucketSizeSeconds
Использование CPU ОС (пользовательское пространство, нормализованное)OSUserTimeNormalizedasynchronous_metric_log
Использование CPU ОС (ядро, нормализованное)OSSystemTimeNormalizedasynchronous_metric_log
Чтение с дискаProfileEvent_OSReadBytesmetric_logSum / bucketSizeSeconds
Чтение из файловой системыProfileEvent_OSReadCharsmetric_logSum / bucketSizeSeconds
Память (отслеживаемая, байты)CurrentMetric_MemoryTrackingmetric_log
Общее количество частей MergeTreeTotalPartsOfMergeTreeTablesasynchronous_metric_log
Макс. количество частей для партицииMaxPartCountForPartitionasynchronous_metric_log
Чтение из S3ProfileEvent_ReadBufferFromS3Bytesmetric_logSum / bucketSizeSeconds
Размер файлового кэшаCurrentMetric_FilesystemCacheSizemetric_log
Запросы записи на диск S3/секProfileEvent_DiskS3PutObject + ProfileEvent_DiskS3UploadPart + ProfileEvent_DiskS3CreateMultipartUpload + ProfileEvent_DiskS3CompleteMultipartUploadmetric_logSum / bucketSizeSeconds
Запросы чтения с диска S3/секProfileEvent_DiskS3GetObject + ProfileEvent_DiskS3HeadObject + ProfileEvent_DiskS3ListObjectsmetric_logSum / bucketSizeSeconds
Доля попаданий в кэш FSsum(ProfileEvent_CachedReadBufferReadFromCacheBytes) / (sum(ProfileEvent_CachedReadBufferReadFromCacheBytes) + sum(ProfileEvent_CachedReadBufferReadFromSourceBytes))metric_log
Доля попаданий в кэш страницgreatest(0, (sum(ProfileEvent_OSReadChars) - sum(ProfileEvent_OSReadBytes)) / (sum(ProfileEvent_OSReadChars) + sum(ProfileEvent_ReadBufferFromS3Bytes)))metric_log
Полученные по сети байты/секNetworkReceiveBytesasynchronous_metric_logSum / bucketSizeSeconds
Отправленные по сети байты/секNetworkSendBytesasynchronous_metric_logSum / bucketSizeSeconds
Одновременные TCP-подключенияCurrentMetric_TCPConnectionmetric_log
Одновременные MySQL-подключенияCurrentMetric_MySQLConnectionmetric_log
Одновременные HTTP-соединенияCurrentMetric_HTTPConnectionmetric_log

Подробную информацию о каждой визуализации и о том, как использовать их для устранения неполадок, см. в документации по расширенной панели мониторинга.

Query insights

Функция Query Insights упрощает работу со встроенным журналом запросов ClickHouse благодаря различным визуализациям и таблицам. Таблица ClickHouse system.query_log — ключевой источник информации для оптимизации запросов, отладки, мониторинга общего состояния кластера и его производительности.

После выбора сервиса пункт Monitoring на левой боковой панели навигации раскрывается и показывает подпункт Query insights:

Query Insights UI Overview

Основные метрики

Статистические карточки вверху показывают базовые метрики запросов за выбранный период времени. Под ними графики временных рядов отображают объём запросов, задержку и частоту ошибок с разбивкой по виду запроса (select, insert, other). График задержки можно настроить для отображения задержек p50, p90 и p99:

График задержки Query Insights

Последние запросы

В таблице отображаются записи лога запросов, сгруппированные по нормализованному хешу запроса и пользователю в пределах выбранного временного окна. Последние запросы можно фильтровать и сортировать по любому доступному полю, а таблицу можно настроить так, чтобы отображать или скрывать дополнительные поля, такие как таблицы, задержки p90 и p99:

Таблица последних запросов в Query Insights

Детализация запроса

При выборе запроса из таблицы последних запросов откроется выезжающая панель с метриками и информацией по выбранному запросу:

Query Insights UI Query Drill down

Все метрики на вкладке Query info являются агрегированными, однако метрики отдельных запусков также можно просматривать на вкладке Query history:

Query Insights UI Query Information

В этой панели можно развернуть элементы Settings и Profile Events для каждого запуска запроса, чтобы увидеть дополнительную информацию.