加入收藏 | 设为首页 | 会员中心 | 我要投稿 梅州站长网 (https://www.0753zz.cn/)- 行业物联网、云备份、数据工具、云计算、智能推荐!
当前位置: 首页 > 站长资讯 > 传媒 > 正文

一套很专业的监控方案

发布时间:2021-05-05 17:46:09 所属栏目:传媒 来源:互联网
导读:统。 HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。在大数据生态圈中,HDFS是最重要的底层分布式文件系统,它的稳定性关乎整个生态系统的健康。 本文介绍了HDFS相关的重要监控指标,分享指标背后的思考。 一、HDFS监控挑战 HDFS是Hadoop生

统。

HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。在大数据生态圈中,HDFS是最重要的底层分布式文件系统,它的稳定性关乎整个生态系统的健康。

本文介绍了HDFS相关的重要监控指标,分享指标背后的思考。

一、HDFS监控挑战

HDFS是Hadoop生态的一部分,监控方案不仅需适用HDFS,其他组件如Yarn、Hbase、Hive等,也需适用

HDFS API提供的指标较多,部分指标没必要实时采集,但故障时需能快速获取到

Hadoop相关组件的日志,比较重要,如问题定位、审计等

监控方案不仅能满足监控本身,故障定位涉及指标也应覆盖

二、Hadoop监控方案

Hadoop监控数据采集是通过HTTP API,或者JMX。实际中,用到比较多的产品主要有:CDH、Ambari,此外,还有部分工具,如Jmxtrans、HadoopExporter(用于Prometheus)。

CDH是一款开源的集部署、监控、操作等于一体的Hadoop生态组件管理工具,也提供收费版(比免费版多提供数据备份恢复、故障定位等特性)。CDH提供的HDFS监控界面在体验上是非常优秀的,是对HDFS监控指标深入发掘之后的浓缩,比如HDFS容量、读写流量及耗时、Datanode磁盘刷新耗时等。CDH,或者Ambari进行HDFS监控,也存在实际问题:

  • 对应的Hadoop及相关组件版本不能自定义
  • 不能很好的满足大规模HDFS集群实际监控需求

其他工具,如Jmxtrans目前还不能很好适配Hadoop,因此,实际的监控方案选型为:

  • 采集:HadoopExporter,Hadoop HTTP API(说明:HDFS主要调用http://{domain}:{port}/jmx)
  • 日志:通过ELK来收集、分析
  • 存储:Prometheus
  • 展现:Grafana,HDFS UI,Hue
  • 告警:对接京东云告警系统DFS主要监控指标概览

    2、黑盒监控指标

    基本功能

    文件整个生命周期中,是否存在功能异常,主要监控创建、查看、修改、删除动作。

    查看时,需校对内容,有一种方式,可以在文件中写入时间戳,查看时校对时间戳,这样,可以根据时间差来判断是否写超时

    切记保证生命周期完整,否则,大量监控产生的临时文件可能导致HDFS集群垮掉

    3、白盒监控指标

    1)错误

    Block丢失数量

    采集项:MissingBlocks

    如果出现块丢失,则意味着文件已经损坏,所以需要在块丢失前,提前预判可能出现Block丢失风险(通过监控UnderReplicat

(编辑:梅州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读