ClickHouse-Kafka引擎,数据重新刷新,重新写回所有数据的操作步骤

ClickHouse-Kafka引擎,数据重新刷新,重新写回所有数据的操作步骤

假如在Clickhouse-Kafka引擎中丢失了数据,需要重读Kafka数据,如何重刷数据呢?或者说丢失某天的数据如何重新消费呢?《ClickHouse-Kafka引擎,数据重新刷新,重新写回所有数据的操作步骤》

基于:

ClickHouse-Kafka引擎,kafka to clickhouse详细教程

一、首先关闭Kafka消息使用

二、清空Kafka数据存储表

三、在Kafka主题的订阅使用者组中重置分区偏移量

位移重设策略:

四、重新激活Kafka消息的使用

五、等待消息处理完毕,重新查询数据

六、结合复制表引擎ReplicatedReplacingMergeTree,去重即可得到最新的完整数据记录集

去重注意事项:

  • 使用ORDER BY 排序键作为判断数据是否重复的唯一键
  • 只有在合并分区时才会触发删除重复数据的逻辑
  • 只能在相同分区的数据去重,跨分区不会去重。即使使用OPTIMIZE TABL也不会垮分区去重
  • 数据去重策略,如果没有设置ver版本号,则保留同一组重复数据的最后一行;如果设置了ver版本号,则保留同一组重复数据中ver字段取值最大的那一行。

ClickHouse-Kafka引擎,数据重新刷新,重新写回所有数据的操作步骤》,有参阅ClickHouse和相关文献,by: cpp.la

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注