IT 組織では、アラートのノイズが過去最高に達しています。異なるツールやテクノロジーからのアラート量は、IT 組織がサービスやアプリケーションを適切に管理し、安全性を確保し、最適化する能力を大きく損なうほど膨大になっています。DEJ の AIOps に関する最近の調査によると、組織は現在、文脈に基づかないアラートやアクション不能なアラートの結果として回避可能なインシデントのエスカレーションに年間 127万ドルを費やしていることが明らかになりました。これは、多くの面でビジネスを脅かし、企業の IT の信頼性と実用性を損なっています。
しかし同時に、このアラートの混乱の背後にあるテクノロジー変革の進展を遅らせることは誰も望んでいません。クラウドネイティブサービス、リアルタイム分析、およびソフトウェア定義のインフラは、IT がビジネスを強化し、新たな意味のある方法で顧客を支援するための大きな勢いを生み出しています。したがって、このデータを管理し、ビジネスと顧客のイニシアチブをサポートするためのコスト効率の高い方法を見つける必要があります。これが OpsRamp のミッションです。
ほとんどのデジタルオペレーションチームにとって、アラートをフィルタリングし、緊急の注意が必要なものを見分けることは、非常に労力のかかるプロセスです。これを考慮して、機械学習アルゴリズムが AIOps として知られるソリューションに発展し、アラートを迅速にフィルタリングし、相関付けを行うことで、オペレーターが重要な問題にはるかに早く集中できるようになりました。場合によっては、AIOps ツールは、推奨されるオペレーションを提案したり、ポリシーによっては自動的に問題を修正するケースもあります。
たとえば、Zebra Technologies では、OpsRamp を使用してアラートのノイズを減らし、さらに重要なことに、エンドユーザーのパフォーマンス問題に対処するためのスタッフの時間を改善することに成功しました。 Zebra のサービスデリバリーオペレーション担当マネージャーである Tommy Eurick 氏は、次のように述べています。「アラートが多すぎると、人々はアラートを無視しようと考えるようになり、ちょっとした問題がやがて大きな問題に発展します。OpsRamp を使用することで、私のチームが受け取るアラートは、より意味のあるものになり、実行可能なものになります。」
OpsRamp は最近、顧客データの分析を実施し、OpsRamp の最新の IT オペレーション管理(ITOM)プラットフォームを使用することで、企業がどのような成果を得ることができるかを明らかにしました。OpsRamp の分析では、6ヶ月間の期間で 100以上の顧客環境にまたがる 56.8万件のアラートのデータセットを対象に、アラートの重複排除によるアラート量の削減、アラートの重要度の変化、相関関係に焦点を当てました。
当社のデータサイエンスチームは、多数の顧客データセットにわたって OpsRamp の現在のアラートトレンド相関モデルのパフォーマンスを測定しました。彼らは重複排除モデル単体の効果を測定し、重複排除モデルと相関関係を組み合わせた効果を測定しました。これらの方法は、追加の相関基準を追加することで、モデルの性能をわずかに減衰させていました。したがって、我々が測定した結果は、相関モデルの性能の上限を示すものです。
[注意:モデルのパフォーマンスに影響を与える変数には、データセット内のアラート数、アラートのタイムスパン、アラート量の密度が含まれます。]
短期間のアラート統計 - ある顧客の 2020年の初めから現在までのアラート統計
重複排除モデルとOpsRamp の高度な相関モデルを組み合わせることで、生のアラートのインジェスト量を 92% 削減しました。これは、OpsRamp OpsQ の AI と機械学習が、現代の IT 環境における真の問題に対処する力を実証しています。 アラート量を減らすことで、スタッフの貴重な時間を節約し、スタッフは重要なビジネスサービスをサポートするインシデントの特定と解決に集中できるようになります。このテクノロジーの最終的な目標は、単にアラートを相関させてノイズを減らすだけではなく、どのアラートが重要なビジネスサービスに関連しており、悪影響を与えている可能性があるかを発見することです。この情報は、IT チームがまず重要な問題に集中し、可能な限り最高のパフォーマンスと可用性を顧客に提供できるようにするためのコンテキストを提供します。
上のグラフでは、重複排除によるアラートボリューム削減の割合が赤で示され、重複排除の上に相関関係がある場合のアラートボリューム削減の割合が青で示されています。各クライアントのバー全体が、重複排除と相関による全体的なアラートボリューム削減の可能性を示しています。
OpsRamp のすべての顧客は、ネイティブイベント管理ソリューションの一部としてアラートの重複排除機能を利用できます。ユーザーは、機械学習ベースの相関関係を有効にするかどうかを選択することができ、平均してアラート量をさらに 51% 削減することができます。 OpsRamp には Observed Mode と Recommend Mode もあり、これはユーザーが機械学習の信頼性を構築できるようにする機能です。
インテリジェント・アラート・エスカレーションについては、こちらの記事もご覧ください。
Written by Prasad Dronamraju
本記事は、OpsRamp の Web サイトにて公開されたブログを翻訳して掲載しています。