博客
clickhouse几个常见问题处理
- 2020年7月14日
- 作者: 茹憶
- 分类目录 Clickhouse
分布式DDL某数据节点的副本不执行
问题:使用分布式ddl执行命令create table on cluster xxxx 某个节点上没有创建表,但是client返回正常,查看日志有如下报错。
<Error> nebula_dc.dc_test1: Retrying createReplica(), because some other replicas were created at the same time
解决办法:重启该不执行的节点,目前根本原因还不清楚。
数据副本表和数据不一致
问题:由于某个数据节点副本异常,导致两数据副本表不一致,某个数据副本缺少表,需要将两个数据副本调整一致。
解决办法:
- 在缺少表的数据副本节点上创建缺少的表,创建为本地表,表结构可以在其他数据副本通过show crete table xxxx获取。
- 表结构创建会clickhouse会自动从其他副本同步该表数据,验证数据量是否一致即可。
副本节点全量恢复
问题:某个数据副本异常无法启动,需要重新搭建副本。
处理流程:
- 清空异常副本节点的metadata和data目录。
- 从另一个正常副本将metadata目录拷贝过来(这一步之后可以启动数据库,但是只有表结构没有数据)。
- 执行sudo -u clickhouse touch /data/clickhouse/flags/force_restore_data
- 启动数据库。
数据副本启动缺少zk表
问题:某个数据副本表在zk上丢失数据,或者不存在,但是metadata元数据里存在,导致启动异常,报错:Can’t get data for node /clickhouse/tables/01-02/xxxxx/xxxxxxx/replicas/cluster01-02-2/metadata: node doesn’t exist (No node): Cannot attach table xxxxxxx
解决办法:
- metadata中移除该表的结构文件,如果多个表报错都移除
mv metadata/xxxxxx/xxxxxxxx.sql /tmp/
- 启动数据库
- 手工创建缺少的表,表结构从其他节点show create table获取。
- 创建后会自动同步数据,验证数据是否一致。
ZK table replicas数据未删除,导致重建表报错
问题:重建表过程中,先使用drop table xxx on cluster xxx ,各节点在clickhouse上table已物理删除,但是zk里面针对某个clickhouse节点的table meta信息未被删除(低概率事件),因zk里仍存在该表的meta信息,导致再次创建该表create table xxx on cluster, 该节点无法创建表(其他节点创建表成功),报错:Replica /clickhouse/tables/01-03/xxxxxx/xxx/replicas/cluster01-03-2 already exists..
目前解决办法:
- 从其他数据副本cp该table的metadata sql过来.
- 重启节点。
Clickhouse节点意外关闭
问题:模拟其中一个节点意外宕机,在大量insert数据的情况下,关闭某个节点。
现象:数据写入不受影响、数据查询不受影响、建表DDL执行到异常节点会卡住,报错:Code: 159. DB::Exception: Received from localhost:9000. DB::Exception: Watching task /clickhouse/task_queue/ddl/query-0000565925 is executing longer than distributed_ddl_task_timeout (=180) seconds. There are 1 unfinished hosts (0 of them are currently active), they are going to execute the query in background.
处理:启动异常节点,期间其他副本写入数据会自动同步过来,其他副本的建表DDL也会同步。
版权声明:本文为DBARUN原创文章,如需转载请注明本站作者及本文链接,DBARUN保留一切法律解释权。
本文链接:http://www.dbarun.com/clickhouse/clickhouse-trouble/
作者: 茹憶
