仮想化、クラウド化の流れで増え続けた IT 監視ツールが引き起こした、IT サービス健全性の可視性低下や IT 運用全体効率低下への解決策
最近の 451 Research の調査結果では、回答した企業の 69% がハイブリット又はマルチクラウド環境で IT を運用しています。個々のプラットフォームに最適化された監視ツールは、そのプラットフォーム内では有効ですが、IT インフラやサービスをプラットフォームを横断して一段、二段上から俯瞰して可視化するのは不得意です。
IT 運用チームは、毎月平均 1200 ものインシデントを処理していると言われています。しかしその内クリティカルインシデントは 5つだけと言われています。本当に重要な情報やインシデントだけに注意し対処する仕組みがないと、運用チームはアラート洪水で飽和して、機能不全に陥ります。
ほとんどのビジネスがデジタル化され進む今日、セキュリティの脆弱性は取返しの付かない結果を招きます。既存の古いの監視ツールでは、脆弱性管理やリモートコンプライアンスには対応できません。
OpsRamp が、AIOps のアプローチを用いて、どのように IT 運用管理をシンプルにするのかを紹介します。
運用管理対象となる IT リソースは、日々進化。OpsRamp は SaaS 型だから、企業が導入している IT 技術・サービス、トレンドの進化と共にリアルタイムで機能拡張されていきます。
企業が管理する IT リソースから出力されるデータは、3V(Volume、Velocity、Variety)の特徴を持ち、まさにビッグデータです。今後ますますこの流れは加速していき、IT 運用監視のプラットフォームには、3V に対応できるスケーラビリティが要求されます。 SaaS 型のプラットフォームでは、こうした高い負荷に対しても柔軟に対応できます。
OpsRamp は、ハイブリッド、マルチクラウド環境上にあるアプリケーション、サーバー、ネットワーク、ストレージやデータベースのパフォーマンスや動作を捉える、数百もの IT インフラモニタリングテンプレートを標準で用意しています。
モダン IT オペレーション管理チームは、 AIOps の技術を使いプロアクティブな IT オペレーション管理やインシデントへの即応の為に、既存の監視ツールとカスタム監視ツールの両方を活用することができます。
サーバー
Windows や Linux サーバーを監視できる数百のテンプレートを使って各種 KPI を監視
ストレージ
ハイブリッドストレージインフラのステータス、容量やパフォーマンスを監視
ネットワーク
パフォーマンス問題を物理や SDN のネットワークインフラのパフォーマンスを監視
仮想化
ホストとゲスト VM の同時監視で仮想マシン間の連鎖障害を検知
クラウド
Azure、AWS、GCP などのパブリッククラウド上でホストしているサービスの動作状況やパフォーマンスを監視
コンテナ
コンテナインスタンスから重要なメトリックスを取得・集約し、複雑性を可視化
シンセティック
多拠点からのアプリケーション性能を監視し、適切な顧客体験をサポート
アプリケーション
アプリケーションとインフラの関係性を可視化
AI を使って異常を判断・検知し、大量発生するアラートを相関判断し根本原因のアラートだけに集約し、自動修復を実行すると共に最適な担当者へインシデントをエスカレーションします。これら AIOps 技術を使うことで、IT イベント管理作業における人間が行う作業時間を最大 95 % 削減します。
深層学習・機械学習技術を用いてインシデントとなりうる判断を自動化します。OpsQ を用いると、しきい値設定を動的に行うことができ、障害予測や変化点検知などの方法を使い障害を自動判断します。
時間軸、類似する属性、リソース間の関係性から垂直、水平方向に連鎖する障害の根本原因を探ります。根本原因を判断できた場合、二次発生的なアラートは抑制し、根本原因への対応を支援します。
作業自動化により時間・コストを削減し、障害復旧までの時間を最小化します。また、適切な担当者へインシデント情報を自動エスカレーションすることによりサービス復旧を迅速化します。
"We’ve seen alert volumes reduce by over 90% due to effective correlation by OpsQ, improving our ability to provide first-to-know outcome-driven services to our customers."
"OpsRamp takes the chaos out of infrastructure."
Amazon Web Services, Microsoft Azure, Google Cloud Platform など 100 を超えるクラウドサービスでリソース自動検出を行うことができ、瞬時にリソース状況を可視化します。
Amazon CloudWatch, Azure Monitor, Google Stackdriver と標準機能で連携でき、重要インシデントが発生する前に、パフォーマンス問題を特定します。
ビジネス部門、クラウドプロバイダーやITサービス毎にクラウドの消費傾向を分析。事前設定した予算額を超えそうと予測されたときは、タイムリーに通知します。
サービストポロジーマップで動的に配置されるハイブリッド IT リソースを追跡。リアルタイムで、リソース間の依存性に基づいて問題を解決。
APIベースの検出プロファイルとオペレーショナルダッシュボードを使い、ポリシーベースで、ワークロードの自動スケーリングにも対応します。
Kubernetes クラスターやサーバーレスファンクションを横断して、問題を検出、監視、診断、アラートと復旧を支援します。
能動的なシステム正常性監視へ
ミッションクリティカルなアプリケーションのパフォーマンスと応答性を最適化
ネットワークパフォーマンスを最適化
ログモニタリングでエラー検知し、障害を修復
ソフトウェア・デファインド環境にビジネス観点のインサイトを提供
即座に障害情報を提供し、タイムリーなサポートを実現
リアルタイム診断でダウンタイムを最小化