运维人员必须随时掌握服务器的运行状况,除常规的服务器配置资源占用情况等信息外,业务在运行时会产生大量的日志异常告警状态报告等,我们统称为事件通常每台服务器每个时刻都会产生大量这样的事件,在有数万台服务器的场合下,每天产生的事件数量是数亿级的,存储量可能是TB级别的在过去,我们通常采用的方法是将日志保留在本地,当发现问题时,会登录出问题的服务器查看日志排查故障,通过sardmesg等工具查看历史状态监控Agent或者脚本也会将部分状态数据汇报到类似于监控软件中,集中进行监控和告警当服务器规模越来越大时,如何统一自动化处理这些事件的需求就越来越强烈,毕竟登录服务器查看日志这种方式效率很低,而成熟的