OpsRamp Blog

リモートコンソールでグローバル NOC のインシデント解決をサポート

企業は、プロアクティブな監視、調整された対応、継続的な可視性を実現するために、主要な地域にネットワーク・オペレーション・センター(NOC)を構築し、スタッフを配置し、維持しています。グローバル NOC は、状況認識の向上と効率性の向上のための「いつでも、どこでも」サポートにより、重要な IT サービスの可用性とパフォーマンスを管理します。

グローバル NOC では、社内の従業員がさまざまな場所で企業サービスにアクセスし、監視し、トラブルシューティングを行うことになります。また、外部のマネージド・サービス・プロバイダー(MSP)やテクノロジーベンダーが、ハイブリッドインフラスタック全体で専用またはオンデマンドのインシデントサポートを提供している場合もあります。

グローバル NOC は、信頼性が高く可用性の高い IT システムを維持するのに最適ですが、最新のデジタル・オペレーション・コマンド・センターの一部として、共有 IT エコシステムの中で対処しなければならない付帯的な複雑さがあります。

  • 社内チームと外部サービスプロバイダーの間で、安全でスケーラブルな運用を維持するには?
  • グローバルに分散した IT 環境において、重要な障害の根本原因を特定するには?
  • 異なる技術チーム間で効果的にトレーニングを行い、ベストプラクティスを共有するには?

リモートコンソール : グローバル・エンタープライズ・オペレーションのための強大な力

例えば、NOC チームがパロアルト、ダブリン、マニラに分散している場合、誰がインフラにアクセスしているのか、どの時点でどのような変更を行っているのかを追跡するのは容易ではありません。また、サービスの中断時には、従業員(またはコンサルタント)が実際に問題を修正したのか、そもそもインシデントの原因となったのかを確認するのも非常に困難な作業です。

OpsRamp のリモートアクセスおよび監査機能により、グローバル NOC チームはハイブリッドインフラワークロードにアクセスし、ターゲットリソース上で安全にタスクを実行することができます。リモートコンソールは、企業が重要な IT インフラへのアクセスを体系的に管理し、コンプライアンスのための信頼性の高い監査証跡を提供するのに役立ちます。

  • リモートコンソールを介した、さまざまな OS(Windows および Linux サーバー)とネットワーク(スイッチ、ルーター、ファイアウォール、ロードバランサー)のインフラへのアクセス。
  • すべての管理者セッション(すべてのマウスクリックとキーストロークを含む)の自動記録と再生。
  • ロールベースのアクセス制御と保存されたクレデンシャルを使用した安全で認可されたアクセス。
  • Secure Shell (SSH)、Remote Desktop Protocol (RDP)、Telnet、Virtual Network Computing (VNC)、Remote Shell (RSH) など、さまざまなプロトコルを使用したワークロードアクセス。

リモートコンソール 1

リモートコンソール 2図 1 - リモートコンソールを起動して、セキュアなグローバルインフラへのアクセスを実現する

リモートコンソールは、スタッフやパートナーのためのオンデマンドのセキュアなアクセスにより、平均解決までの時間を短縮するのに役立ちます。新入社員には、インシデントのトリアージのためのビデオ再生機能を使ってトレーニングを行うことができ、常に上級スタッフにエスカレーションする必要はありません。さらに、運用コンプライアンスのために、過去 6ヶ月間のセッション録画にアクセスすることができます。

ここでは、グローバル NOC チームのコンプライアンスとコントロール、インシデント管理、インシデント解決トレーニングを推進するためにリモートコンソールを使用する 3つの方法を紹介します。

  1. 定義された時間制限でアクセスを管理する
    あなたの環境で一回限りの活動を行っているベンダーはいませんか?パートナーに IT インフラへの恒久的なアクセスを提供するのを止めたいとお考えではありませんか?OpsRamp では、特定のアクセス時間間隔(30分、60分、120分)を設定することで、サードパーティベンダーのインフラアクセスを管理できます。インフラへのオンデマンドアクセスを提供し、タイムウィンドウが経過すると自動的にアクセスを取り消すことができます。また、これらのパートナーはリモートコンソールを介してインフラに接続するため、パートナーが実行したすべてのアクションをキャプチャすることができます。

    定義された時間制限でアクセスを管理する図2 - サードパーティのアクセスのための特定の時間枠を作成する

  2. 根本原因分析
    最近、異なるチームがアプリケーションにアクセスして、大規模な障害が発生したことはありませんか?この障害の原因を迅速に把握するにはどうすればよいでしょうか?何千ものログファイルを調べてインシデントの根本原因を特定するのではなく、リモートコンソールを使用して、そのアプリケーション上のすべてのスタッフの行動を完全に視覚的に監査してみましょう。キーストロークセッションの記録で実際に何が起こったのかを明確に把握し、豊富なイベントコンテキストで問題を迅速に解決することができます。

    根本原因分析図 3 - 重要な IT システムに監査可能なイベントコンテキストを提供

  3. ユーザートレーニング
    上級技術スタッフが、常にサポートからのエスカレーションに時間を取られていませんか?分散したチームが顧客の要求を解決できるだけのトレーニングを受けていないために、「一次解決率(FCR)」の指標が低下していませんか?リモートコンソールは、最も経験豊富なチームメンバーが使用しているインシデントトリアージプロセスを録画して再生することで、グローバルに分散したチームをトレーニングする費用対効果の高い方法を提供します。経験豊富なスタッフと話すことなくサービスを復旧できるように、セッション録画を使用して最新のチームメンバーのスキルアップを図ることができます。

    ユーザートレーニング図 4 - ビデオ再生を使用して、新しいスタッフのトレーニングセッションを配信

Written by Prasad Dronamraju
本記事は、OpsRamp の Web サイトにて公開されたブログを翻訳して掲載しています。