OpsRamp Blog

AIOps がアラートを 90% 以上削減する方法

OpsRamp が顧客データを分析した結果、AIOps はアラートボリュームを 90% 以上削減できることがわかりました。

IT 組織では、アラートのノイズが過去最高に達しています。異なるツールやテクノロジーからのアラート量は、IT 組織がサービスやアプリケーションを適切に管理し、安全性を確保し、最適化する能力を大きく損なうほど膨大になっています。DEJ の AIOps に関する最近の調査によると、組織は現在、文脈に基づかないアラートやアクション不能なアラートの結果として回避可能なインシデントのエスカレーションに年間 127万ドルを費やしていることが明らかになりました。これは、多くの面でビジネスを脅かし、企業の IT の信頼性と実用性を損なっています。

しかし同時に、このアラートの混乱の背後にあるテクノロジー変革の進展を遅らせることは誰も望んでいません。クラウドネイティブサービス、リアルタイム分析、およびソフトウェア定義のインフラは、IT がビジネスを強化し、新たな意味のある方法で顧客を支援するための大きな勢いを生み出しています。したがって、このデータを管理し、ビジネスと顧客のイニシアチブをサポートするためのコスト効率の高い方法を見つける必要があります。これが OpsRamp のミッションです。

ほとんどのデジタルオペレーションチームにとって、アラートをフィルタリングし、緊急の注意が必要なものを見分けることは、非常に労力のかかるプロセスです。これを考慮して、機械学習アルゴリズムが AIOps として知られるソリューションに発展し、アラートを迅速にフィルタリングし、相関付けを行うことで、オペレーターが重要な問題にはるかに早く集中できるようになりました。場合によっては、AIOps ツールは、推奨されるオペレーションを提案したり、ポリシーによっては自動的に問題を修正するケースもあります。

たとえば、Zebra Technologies では、OpsRamp を使用してアラートのノイズを減らし、さらに重要なことに、エンドユーザーのパフォーマンス問題に対処するためのスタッフの時間を改善することに成功しました。 Zebra のサービスデリバリーオペレーション担当マネージャーである Tommy Eurick 氏は、次のように述べています。「アラートが多すぎると、人々はアラートを無視しようと考えるようになり、ちょっとした問題がやがて大きな問題に発展します。OpsRamp を使用することで、私のチームが受け取るアラートは、より意味のあるものになり、実行可能なものになります。」

OpsRamp は最近、顧客データの分析を実施し、OpsRamp の最新の IT オペレーション管理(ITOM)プラットフォームを使用することで、企業がどのような成果を得ることができるかを明らかにしました。OpsRamp の分析では、6ヶ月間の期間で 100以上の顧客環境にまたがる 56.8万件のアラートのデータセットを対象に、アラートの重複排除によるアラート量の削減、アラートの重要度の変化、相関関係に焦点を当てました。

まず、定義を簡単に紹介します

  1. 重複排除とは、重複または冗長なアラートを削減または排除するプロセスです。
  2. アラートの重要度の変化とは、警告値から重要値へ、またはその逆の場合に、類似のメトリックの様々な段階でしきい値違反の間に複数のアラートが生成されるシナリオです。
  3. 機械学習ベースの相関は、パターン検出、学習されたパターン、共有された属性に基づいた推論に関連するアラートをグループ化するプロセスです。このようなアラートは、以下のように依存するインフラリソースから発生する可能性があります。
    • シナリオ 1:複数のリソースにまたがる複数のメトリックアラート
    • シナリオ 2:1つのリソース内の複数のメトリックアラート
    • シナリオ 3:複数のリソースにまたがる単一のメトリックアラート

アプローチ

当社のデータサイエンスチームは、多数の顧客データセットにわたって OpsRamp の現在のアラートトレンド相関モデルのパフォーマンスを測定しました。彼らは重複排除モデル単体の効果を測定し、重複排除モデルと相関関係を組み合わせた効果を測定しました。これらの方法は、追加の相関基準を追加することで、モデルの性能をわずかに減衰させていました。したがって、我々が測定した結果は、相関モデルの性能の上限を示すものです。

OpsRamp のアラート相関カテゴリ
  • クラスタリング
    類似性を分析し、異なるアラートを 1つのアラートに相関させることで、属性に基づいてイベントをクラスタリングします。
  • 相関
    アラートのシーケンスパターンを分析してアラートを相関させ、インシデントの根本原因を特定します。トポロジーマップを使用すると、適切な状況コンテキストと影響分析を使用して、インシデントの根本原因アラートを特定することができます。

OpsRamp が行った手順は次のとおりです

    1. ネイティブソースおよびサードパーティソースからの生のアラートを OpsRamp のアラート濃縮モデルに通し、重複を排除します。
    2. 正規化されたデータは OpsQ エンジンに供給され、機械学習を使用してデータのパターンを認識し、先行実装の経験値データやアラートスペックを閲覧して相関ルールを導き出し、モデルをトレーニングして推論を作成します。
    3. 推論を作成した後、モデルを介して送信されたアラートの数と相関関係を得たアラートの数を用いて、アラート量削減ポテンシャルを算出します。

[注意:モデルのパフォーマンスに影響を与える変数には、データセット内のアラート数、アラートのタイムスパン、アラート量の密度が含まれます。]

Inference Stats短期間のアラート統計 - ある顧客の 2020年の初めから現在までのアラート統計

結果

重複排除モデルとOpsRamp の高度な相関モデルを組み合わせることで、生のアラートのインジェスト量を 92% 削減しました。これは、OpsRamp OpsQ の AI と機械学習が、現代の IT 環境における真の問題に対処する力を実証しています。 アラート量を減らすことで、スタッフの貴重な時間を節約し、スタッフは重要なビジネスサービスをサポートするインシデントの特定と解決に集中できるようになります。このテクノロジーの最終的な目標は、単にアラートを相関させてノイズを減らすだけではなく、どのアラートが重要なビジネスサービスに関連しており、悪影響を与えている可能性があるかを発見することです。この情報は、IT チームがまず重要な問題に集中し、可能な限り最高のパフォーマンスと可用性を顧客に提供できるようにするためのコンテキストを提供します。

Alert Volume Reduction上のグラフでは、重複排除によるアラートボリューム削減の割合が赤で示され、重複排除の上に相関関係がある場合のアラートボリューム削減の割合が青で示されています。各クライアントのバー全体が、重複排除と相関による全体的なアラートボリューム削減の可能性を示しています。

始めてみましょう

OpsRamp のすべての顧客は、ネイティブイベント管理ソリューションの一部としてアラートの重複排除機能を利用できます。ユーザーは、機械学習ベースの相関関係を有効にするかどうかを選択することができ、平均してアラート量をさらに 51% 削減することができます。 OpsRamp には Observed ModeRecommend Mode もあり、これはユーザーが機械学習の信頼性を構築できるようにする機能です。

インテリジェント・アラート・エスカレーションについては、こちらの記事もご覧ください。

Written by Prasad Dronamraju
本記事は、OpsRamp の Web サイトにて公開されたブログを翻訳して掲載しています。