clickhouse-(06)-基于Grafana监控

利用Grafana与系统表监控ClickHouse查询

前言

我们往往需要关心数据库的查询执行情况,特别是慢查询。本文简述配置ClickHouse查询监控的一种傻瓜方法。

开启查询日志

打开各个ClickHouse实例的users.xml,在当前使用的profile(如default)中加入:

<log_queries>1</log_queries>

再去各个ClickHouse实例的config.xml中检查一下查询日志的配置,以下是默认启用的配置:

<query_log>
    <database>system</database>
    <table>query_log</table>
    <partition_by>toYYYYMM(event_date)</partition_by>
    <flush_interval_milliseconds>7500</flush_interval_milliseconds>
</query_log>

<trace_log>
    <database>system</database>
    <table>trace_log</table>
    <partition_by>toYYYYMM(event_date)</partition_by>
    <flush_interval_milliseconds>7500</flush_interval_milliseconds>
</trace_log>

<query_thread_log>
    <database>system</database>
    <table>query_thread_log</table>
    <partition_by>toYYYYMM(event_date)</partition_by>
    <flush_interval_milliseconds>7500</flush_interval_milliseconds>
</query_thread_log>

其中,partition_by表示查询日志表的分区列,语法与普通建表时相同,默认按月分区。flush_interval_milliseconds则表示日志刷入表中的周期,默认7.5秒。按需修改后,重启ClickHouse实例,就会自动在system库中创建对应的系统表,并写数据。

关于查询日志表(以及其他系统表)中各列的含义,可参见官方文档,非常详细。

创建分布式表、设定TTL

在集群中执行以下语句,创建query_log的分布式表query_log_all,这样才能正确统计所有节点的查询日志。

CREATE TABLE IF NOT EXISTS system.query_log_all
ON CLUSTER sht_ck_cluster_pro
AS system.query_log
ENGINE = Distributed(sht_ck_cluster_pro,system,query_log,rand());

查询日志表没有自动过期功能,为了防止日志太多占用大量磁盘空间,可以手动为每张query_log表设定TTL。建议也给其他系统日志表配置上TTL。

ALTER TABLE system.query_log
MODIFY TTL event_date + INTERVAL 15 DAYS;

下载、安装、启动Grafana

wget https://dl.grafana.com/oss/release/grafana-6.7.4-1.x86_64.rpm
yum -y localinstall grafana-6.7.4-1.x86_64.rpm
service grafana-server start

访问<grafana_ip>:3000即可。

安装与添加ClickHouse DataSource

ClickHouse DataSource是由Vertamedia开发的第三方插件(这家公司也开源了负载均衡组件CHProxy)。直接用grafana-cli安装之。

grafana-cli plugins install vertamedia-clickhouse-datasource

然后在Grafana中添加数据源。

clickhouse-(06)-基于Grafana监控

配置Grafana Dashboard

以慢查询为例。先添加一个Query,指定库名、表名、日期列和时间列。

clickhouse-(06)-基于Grafana监控

然后点击Go to Query按钮,写入如下SQL语句。

SELECT
  query,
  avg(query_duration_ms) AS duration_avg,
  max(query_duration_ms) AS duration_max,
  count() AS query_count
FROM $table
WHERE $timeFilter
AND type = 2
AND positionCaseInsensitive(query,'%system.%') = 0
GROUP BY query
ORDER BY duration_max DESC
LIMIT 10

$table和$timeFilter都是ClickHouse DataSource预置的宏,可以参见上面给出的传送门。然后,将Format as选项设定为Table,就可以看到指定时间段内的慢查询top 10了。截图会涉及到敏感业务数据,就不贴了。

再举个例子,绘制QPS的折线图,SQL语句如下。

$rate(count() AS q)
FROM $table
WHERE $timeFilter
AND type = 2
AND positionCaseInsensitive(query,'%system.%') = 0

$rate是什么鬼?这个是ClickHouse DataSource提供的内置函数,上面的SQL语句在实际请求时会转化成以下的语句。

SELECT t, q / runningDifference(t / 1000) qRate FROM (   SELECT (intDiv(toUInt32(event_time), 5) * 5) * 1000 AS t,   count() AS q   FROM system.query_log_all   WHERE event_date >= toDate(1592905770)   AND event_time >= toDateTime(1592905770)    AND type = 2   AND positionCaseInsensitive(query,'%system.%') = 0   GROUP BY t   ORDER BY t)

可见是先以5秒步长分组并统计查询数,再借助runningDifference()函数推导出两行之间时间的增量,进而得到QPS。在Grafana面板中可以通过调整"Resolution"参数来修改步长,如设定为1/4,步长就是20秒。

The End

作者:LittleMagic
链接:https://www.jianshu.com/p/6ffd403c249a
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

上一篇:Zabbix、Grafana、Prometheus等监控系统实现电话、短信、邮件、微信告警


下一篇:Docker搭建zabbix+grafana监控系统