更新时间:2025-09-17 GMT+08:00
ntpdate修改时间导致HDFS出现大量丢块
问题描述
- 用ntpdate修改了集群时间,修改时未停止集群,修改后HDFS进入安全模式,无法启动。
- 退出安全模式后启动,hfck检查丢了大概1 TB数据。
原因分析
- 查看NameNode原生页面发现有大量的块丢失。
图1 块丢失
- 查看原生页面Datanode Information发现显示的DataNode节点数和实际的相差10个节点。
图2 查看DataNode节点数
- 查看DataNode运行日志“/var/log/Bigdata/hdfs/dn/hadoop-omm-datanode-主机名.log”,发现如下错误信息。
重要错误信息Clock skew too great
图3 DataNode运行日志错误
处理步骤
- 修改在原生页面查看不到的10个数据节点的时间。
- 在Manager页面重启对应的DataNode实例。
父主题: 使用HDFS