• 1

エンタープライズスイッチ「CF FIBERLINK」の共通障害分類とトラブルシューティング方法

スイッチはネットワーク構築において非常に一般的に使用されます。同時に、日常業務においてスイッチ故障の現象は多様であり、故障の原因も多様です。 CF FIBERLINK は、スイッチをハードウェア障害とソフトウェア障害に分割し、対象を絞った分析を行い、カテゴリーごとに排除します。

640

スイッチ障害の分類:

スイッチ障害は一般に、ハードウェア障害とソフトウェア障害に分類できます。ハードウェア障害は主に、スイッチの電源、バックプレーン、モジュール、ポート、その他のコンポーネントの障害を指し、次のカテゴリに分類できます。

(1)停電:
外部電源の不安定、送電線の老朽化、静電気、落雷などにより電源が破損したり、ファンが停止したりして正常に動作できなくなります。電源が原因で機械の他の部分が損傷することもよくあります。このような障害を考慮して、まず外部電源を適切に機能させ、独立した電源を提供するために独立した電力線を導入し、瞬間的な高電圧または低電圧現象を回避するために電圧レギュレーターを追加する必要があります。一般に電力供給には2つの方法がありますが、諸事情によりスイッチごとに2つの電源を供給することができません。 UPS (無停電電源装置) を追加すると、スイッチの通常の電源供給を確保できます。電圧安定化機能を備えた UPS を使用するのが最適です。さらに、スイッチへの落雷による損傷を避けるために、機械室に専門的な避雷対策を講じる必要があります。

(2) ポート障害:
これは、ファイバ ポートであってもツイスト ペア RJ-45 ポートであっても、最も一般的なハードウェア障害です。コネクタの抜き差し時には注意が必要です。ファイバプラグが誤って汚れると、ファイバポートが汚染され、正常に通信できなくなる可能性があります。理論的には問題ありませんが、コネクタを差し込むだけで済む人がたくさんいますが、これによりポート障害の発生率も誤って増加します。取り扱い中に不注意にすると、ポートに物理的な損傷が生じる可能性があります。クリスタルヘッドのサイズが大きいと、スイッチ挿入時にポートを破壊しやすくなります。さらに、ポートに接続されているツイストペアの一部が外部に露出している場合、ケーブルに落雷があった場合、スイッチ ポートが損傷したり、さらに予期せぬ損傷が発生したりすることがあります。一般に、ポート障害は 1 つまたは複数のポートの損傷です。したがって、ポートに接続されているコンピュータの障害を取り除いた後、接続されているポートを交換して、ポートが損傷しているかどうかを判断できます。このような場合は、電源を切った後、ポートをアルコール綿などで清掃してください。ポートが実際に損傷している場合は、ポートの交換のみが行われます。

(3) モジュール障害:
スイッチは、スタッキング モジュール、管理モジュール (制御モジュールとも呼ばれます)、拡張モジュールなどの多くのモジュールで構成されています。これらのモジュールが故障する可能性は非常に低いですが、一度問題が発生すると、多大な経済的損失を被ります。このような障害は、モジュールが誤って接続されている場合、スイッチが衝突している場合、または電源が安定していない場合に発生する可能性があります。もちろん、上記の 3 つのモジュールはすべて外部インターフェイスを備えており、特定が比較的簡単で、モジュールのインジケータ ライトによって障害を特定できるものもあります。たとえば、スタックされたモジュールには平らな台形のポートがあり、一部のスイッチには USB のようなインターフェイスがあります。管理モジュールには、ネットワーク管理コンピュータに接続するための CONSOLE ポートがあり、管理が容易です。拡張モジュールがファイバー接続されている場合、ファイバー インターフェイスのペアが存在します。このような障害のトラブルシューティングを行う場合は、まずスイッチとモジュールの電源が供給されていることを確認し、次に各モジュールが正しい位置に挿入されているかどうかを確認し、最後にモジュールを接続するケーブルが正常であるかどうかを確認します。管理モジュールを接続する場合は、指定された接続速度を採用しているか、パリティ チェックの有無、データ フロー制御の有無なども考慮する必要があります。拡張モジュールを接続する場合は、全二重モードか半二重モードかなどの通信モードに適合しているかどうかを確認する必要があります。もちろん、モジュールに欠陥があることが確認された場合、解決策は 1 つだけです。それは、直ちにサプライヤーに連絡してモジュールを交換することです。

(4) バックプレーンの障害:
スイッチの各モジュールはバックプレーンに接続されます。環境が濡れている場合、回路基板が湿気を帯びてショートした場合、または高温、落雷などの要因によりコンポーネントが損傷した場合、回路基板は正常に動作できなくなります。たとえば、放熱性能が低い場合や周囲温度が高すぎる場合、その結果として機械内部の温度が上昇し、コンポーネントが焼損する可能性があります。通常の外部電源の場合、スイッチの内部モジュールが正常に動作しない場合は、バックプレーンが故障している可能性があります。この場合、バックプレーンを交換するしか方法はありません。ただし、ハードウェアのアップデート後は、同じ名前の回路プレートでもさまざまな異なるモデルが存在する可能性があります。一般に、新しい回路基板の機能は、古い回路基板の機能と互換性があります。ただし、旧モデルの基板の機能と新基板の機能には互換性がありません。

(5) ケーブルの故障:
ケーブルと分配フレームを接続するジャンパは、モジュール、ラック、および機器を接続するために使用されます。これらの接続ケーブルのケーブルコアやジャンパーに短絡、断線、誤接続が発生すると、通信システムに障害が発生します。上記のいくつかのハードウェア障害の観点から、機械室の劣悪な環境はさまざまなハードウェア障害を引き起こしやすいため、病院は機械室の建設において、まず雷保護接地、電源、室内温度、室内湿度、電磁干渉防止、静電気防止などの環境構築を行い、ネットワーク機器の正常な動作に良好な環境を提供します。

スイッチのソフトウェア障害:

スイッチのソフトウェア障害とは、システムとその構成の障害を指し、次のカテゴリに分類できます。

(1)システムミス:
プログラムのバグ: ソフトウェア プログラミングに欠陥があります。スイッチ システムはハードウェアとソフトウェアの組み合わせです。スイッチの内部には、このスイッチに必要なソフトウェア システムを保持する更新可能な読み取り専用メモリがあります。当時の設計上の理由により、いくつかの抜け穴があり、条件が適切な場合、スイッチのフルロード、バッグの紛失、間違ったバッグなどの状態につながります。このような問題を解決するには、デバイス メーカーの Web サイトを頻繁に閲覧する習慣を身に付ける必要があります。新しいシステムまたは新しいパッチがある場合は、適時に更新してください。

(2) 不適切な構成:
スイッチ構成が異なるため、ネットワーク管理者がスイッチを構成するときに構成エラーが発生することがよくあります。主なエラーは次のとおりです。 1. システム データ エラー: ソフトウェア設定を含むシステム データは、システム全体を定義するために使用されます。システムデータに誤りがあれば、システム全体の障害を引き起こし、為替局全体に影響を及ぼします。ビューロー データ エラー: ビューロー データは、為替ビューローの特定の状況に従って定義されています。権威データが間違っている場合には、交換局全体にも影響が及びます。ユーザー データ エラー: ユーザー データは、各ユーザーの状況を定義します。ユーザーデータが正しく設定されていない場合、特定のユーザーに影響を及ぼします。4、ハードウェア設定が適切ではありません。ハードウェア設定は、回路基板の種類を減らし、スイッチのグループまたは複数のグループがオンに設定されています。回路基板は、回路基板の動作状態またはシステム内の位置を定義するために、ハードウェアが正しく設定されていない場合、回路基板が正しく動作しなくなります。この種の失敗は見つけるのが難しい場合があり、ある程度の経験の蓄積が必要です。構成に問題があるかどうか判断できない場合は、工場出荷時のデフォルト構成に戻してから、段階的に実行してください。設定を行う前に説明書を読むことをお勧めします。

(3) 外部要因:
ウイルスやハッカーの攻撃の存在により、ホストがカプセル化ルールを満たさない大量のパケットを接続ポートに送信する可能性があり、その結果、スイッチ プロセッサがビジー状態になり、パケットが遅すぎる可能性があります。転送するため、バッファリークやパケットロス現象が発生します。もう 1 つのケースはブロードキャスト ストームで、ネットワーク帯域幅を大量に消費するだけでなく、CPU 処理時間も多く消費します。ネットワークが大量のブロードキャスト データ パケットによって長時間占有されると、通常のポイントツーポイント通信が正常に行われなくなり、ネットワーク速度が低下したり麻痺したりすることがあります。

つまり、ソフトウェアの障害はハードウェアの障害よりも発見するのが難しいはずです。問題を解決するとき、あまりお金をかける必要はないかもしれませんが、より多くの時間が必要です。ネットワーク管理者は、日常業務の中でログを保存する習慣を身に付ける必要があります。障害が発生するたびに、障害現象、障害分析プロセス、障害解決、障害分類の要約などの作業をタイムリーに記録し、自らの経験を蓄積します。それぞれの問題を解決した後、問題の根本原因と解決策を慎重に検討します。このようにして、私たちは常に自分自身を改善し、ネットワーク管理という重要なタスクをより適切に完了することができます。


投稿日時: 2024 年 5 月 15 日