昨年の感謝祭とブラックフライデーのホリデーシーズン中、Costco の北米の eコマース・ウェブサイトは、16時間以上にも及ぶクラッシュに見舞われ、ホリデーシーズン中に 1,100万ドル近くの損失が発生しました。テクノロジーの停止に伴うリスク(売上の損失、風評被害、顧客の不満)を考えて、企業はサービスが中断しないよう先回りし、デジタル体験の質を維持するために、AIOps ツールの導入を急いでいます。
AIOps ソリューションは、機械学習とビッグデータ技術を組み合わせて、IT インシデント管理のためのリアルタイムのインサイトと影響分析を提供します。機械学習アルゴリズムの精度と解釈可能性に自信を持って頼ることができれば、予測可能なインサイトによってアラートの嵐を制御し、恒常的な消火活動を減らすことができます。
2019年に OpsRamp は、ライブ・イベント・ストリームにシャドーのアラート推論を表示する OpsQ Observed Mode を導入しました。Observed Mode により、本番環境で実際に AIOps を有効にする前に、OpsQ イベント管理エンジンの威力をプレビューすることができます。Observed Mode は、エンタープライズ IT チームがインシデント分析のための機械学習アルゴリズムの精度と有用性を評価するための安全でリスクの少ないオプションです。
2019年には、周期的なアラートノイズや学習済みのアラートノイズを自動的に抑制するファースト・レスポンス・ポリシーも導入しました。機械学習のインサイトがここに登場することで、IT 運用チームは、反復的で冗長なアラートにそれぞれ対応する必要がなくなります。Observed Mode は、アラート・エスカレーション・ポリシーとファースト・レスポンス・ポリシーに適用することができ、インシデントのルーティング、優先順位付け、分類に関する即時の推奨を可能にします。
機械学習アルゴリズムは、IT 運用チームが頻繁に発生する問題に積極的に対処し、自動提案されたアクションで解決する手助けとなるのでしょうか?通常、IT 担当者は、突然のサービス障害の背後にある重要な状況を理解するために、数え切れないほどの時間を費やしています。インシデント対応者は、障害の背後にある具体的な状況を十分に把握した上で、迅速に問題に対処できる適切な保守チームにインシデントを即座に誘導する必要があります。
OpsRamp の 2020年冬リリースでは、機械学習ベースの提案をファースト・レスポンス・ポリシーに提供する Recommend Mode(OpsQ Bot 搭載)が導入されています。Recommend Mode は、アラート・エスカレーション・ポリシーの明確な次のステップを提供し、推奨されたアクションをワンクリックで実行することで、インシデント対応を高速化します。IT 担当者は、インシデント診断のために何百ものアラートを調べる必要がありますが、Recommend Mode は、問題を解決するための適切なアクションを提案します。OpsQ Recommend Mode は、予測分析機能を搭載しており、IT 担当者が動的なイベント管理のためのアルゴリズムによる推奨事項を理解するのを支援します。
デジタル・オペレーション・チームは、Recommend Mode を有効にすることで、OpsQ Bot が OpsRamp のネイティブアラートとサードパーティ製アラートの両方に関連する次のステップをタグ付けすることができます。提案されたアクションには、アラートの自動抑制や、関連するメタデータを使用したインシデントチケットの作成などを含めることができます。Recommend Mode は、アラートの履歴を表示し、過去に同様の問題に取り組んだことがある人を表示することで、インシデント管理のための適切な状況的コンテキストを提供します。IT チームは、最初の対応としてマシンベースの提案を受け入れることも、必要な場合には推奨を上書きすることもできます。
図1 - ファースト・レスポンス・ポリシーの Recommend Mode を使用して、アラートのノイズを除去し、オペレータが反復的なアラートに溺れることを防ぎます
図2 - アラート・エスカレーション・ポリシーの Recommend Mode を使用することで、より迅速に障害を修正することができます
Written by Prasad Dronamraju
本記事は、OpsRamp の Web サイトにて公開されたブログを翻訳して掲載しています。