监测Linux系统 10条最佳成功经验在IT界享有多年成功经验的Hyperic Inc的CTO Javier Soltero总结了以下10条系统监测的最佳实践。

网络整理 - 08-09

　　在IT界享有多年成功经验的Hyperic Inc的CTO Javier Soltero总结了以下10条系统监测的最佳实践。
　　1. 定义所获得的“生产”资源的含义 - 一个服务器，一个应用或一种服务。

　　2. 找出满足此生产需求的监测方式。

　　3. 执行监测可能性，可以通过手动方式也可以借助开源工具，比如Nagios或其它商业工具。

　　4. 定义那些 “损坏、不存在、警惕” (broken/unavailable/on fire) 的含义 - 通常也被称之为警告、出错、危险 (warn/error/critical)。

　　5. 在你的监测系统中执行警报以捕捉这些阈值。

　　6. 定义不同的警报级别所对应的处理流程。

　　7. 确保你的警报处理流程是与那些提示处理流程相符的。

　　8. 为各团队创建角色和责任来分摊与他们工作特性相符的警报、控制和细节操作。聚焦于个人通常意味着为他们的区域提供更好的绩效。

　　9. 为你整个系统中的警报、监测协议、角色等指定少数超级用户，以确保他们按照单一蓝本(blueprint)执行。

　　10. 如需要，则进行修正、清理和重复。

　　我在LinuxWorld 2007大会前的一次预访中从Javier Soltero那里获得了以上10点提示。在这次采访的另外一段摘录中- 虚拟化为推动Linux带来新气象-他谈到了Linux和虚拟化之间的协同，管理多重操作系统环境，以及识别和追踪虚拟机所面临的问题。Javier同时对其它论题也提出了独到的见解，详见我们的文章 “2007 LinuxWorld及下一代数据中心大会”。( 负责编辑：李亚 )