OpsRamp Blog

ファースト・レスポンス・ポリシーでアラートノイズを軽減する

自動アラート抑制で中断を減らし、生産性を向上させる

現代のハイブリッド、マルチクラウド、クラウドネイティブ環境は、企業の IT チームに管理の複雑さをもたらしています。動的で分散したアプリケーション、インフラ、およびビジネスに不可欠なサービスは、メトリクス、イベント、アラートの形でより多くのデータを常に生成しています。絶え間なく続くアラート通知の流れは、IT サポートチームの燃え尽きやアラートへの反応を鈍らせる事態を招き、「アラート疲れによる破滅」につながる可能性があります。IT 運用チームが絶え間ないアラートの嵐に先んじて、重要なインシデントの場合のみ通知を受けるにはどうすればよいのでしょうか?

OpsRamp の自動アラート抑制管理は、不要なアラートノイズを排除し、オペレーターが繰り返しのアラートに溺れることを防ぎます。動的なアラート抑制により、DevOps チームは、対応できない大量のアラートを安全に無視し、冗長なアラートに振り回されることなく、インシデント対応を優先させることができます。自動アラート抑制は、ファースト・レスポンス・ポリシーを使用して既知のアラートと予想されるアラートを検出するため、IT 管理者は動的な IT 環境全体でアラートの過負荷に悩まされることはありません。

有意義で実用的なアラートのための機械学習の活用

学習ベースの自動アラート抑制機能は、何百もの重複した無関係なアラートに振り回されるのではなく、インシデント対応チームが、影響の大きいイベントと影響の小さい問題を簡単に区別することで、ノイズからシグナルを分離するのに役立ちます。手動で手間のかかるプロセスですべてのアラートに対処するのではなく、自動アラート抑制ポリシーは、頻繁に発生する不要なアラートに対するファースト・レスポンスのメカニズムとして機能します。

OpsRamp の 2019年夏リリースでは、ノイズの多い反復的なアラームを自動的に処理するアラート管理のためのファースト・レスポンス・ポリシーが導入されているため、IT 担当者は毎日何千ものアラートを手動でふるいにかける必要がなくなりました。OpsRamp は、プロアクティブなイベント検出を確実に行い、イベントの過負荷を防ぐファースト・レスポンス・ポリシーを構成するための 2つのオプションを提供します。

  • 時間ベースの抑制(季節的・周期的なアラートを抑制)
    機械学習ポリシーは、全体的なイベント行動を理解し、特定の時間間隔で季節的に発生する IT イベントを抑制します。季節的なアラートは、通常、パブリッククラウドサービスからの自動スケーリングイベントやピーク時のトランザクション数の多さなど、反復的な IT 運用プロセスによって発生します。
  • 属性ベースの抑制(特定の特性に一致するアラートを抑制)
    百戦錬磨の IT チームは、本番環境を全体的に理解しているため、一刻を争うインシデントの際にアラートが重要かどうかを迅速に判断できます。IT 担当者は、抑制する必要のある必須属性を定義した CSV ファイルをアップロードすることで、OpsRamp の機械学習アルゴリズムをトレーニングして、これらの固有の運用パターンを検出することができます。学習ベースの自動抑制は、一致する基準を使用して操作手順に由来するアラートを認識し、IT チームが冗長なアラートに時間を浪費しないようにします。

季節や属性ベースのアラートを手動で介入せずに抑制する図1 - 季節や属性ベースのアラートを手動で介入せずに抑制する

絶えず変化する IT 環境に合わせてアラートルールを頻繁に更新するのではなく、機械学習ベースの動的なアラート抑制がイベントパターンを認識し、取るに足らないアラートをフィルタリングします。OpsRamp のファースト・レスポンス・ポリシーは、不要な季節的および属性ベースのイベントを抑制するための効果的なメカニズムを提供し、恒常的な消火活動を減らし、プロアクティブなインシデントレスポンスを確保することで、運用効率を向上させます。

自動アラート抑制管理により、アラート氾濫の分析、承認、および処理に無駄な時間を費やす必要がなくなります図2 - 自動アラート抑制管理により、アラート氾濫の分析、承認、および処理に無駄な時間を費やす必要がなくなります

Written by Prasad Dronamraju
本記事は、OpsRamp の Web サイトにて公開されたブログを翻訳して掲載しています。