図面 (/)

この項目の情報は公開日時点(1998年12月8日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (8)

課題

エラープロセッサ報告するより効率のよいシステムを提供すること。

解決手段

エラーが検出されたとき、分散コンピュータ・システムのハードウェア要素によってエラー・メッセージが生成される。次いで、このエラー・メッセージがハードウェア要素から分散コンピュータ・システムの1つまたは複数の指定処理ノード転送される。ハードウェア要素には、たとえば検出されたエラーを報告するように適合された交換要素または通信アダプタが含まれる。

概要

背景

通常、分散コンピュータ・システム相互接続ネットワークによって互いに結合されたいくつかのプロセッサを含んでいる。プロセッサのうち1台はコンピュータ・システム内の装置障害監視するタスクを有する。たとえば、心拍プロトコルは、システム内の各装置を定期的にポーリングして、それが依然として活動状態にあるかどうか判定する。かつて活動状態にあった装置がもはや活動状態にない場合、プロセッサは装置を検査して、エラーが発生したかどうか突きとめる。すべての装置をポーリングするのに要する時間は、システムのサイズが増大するのに比例して増加する。

障害が検出されると、プロセッサは障害装置通信して障害の原因を決定し、かつ適当な回復スキームを開始する必要がある。たとえば、相互接続ネットワーク内で障害が発生した場合、プロセッサはそのネットワークと通信して、相互接続ネットワークが捕捉した障害情報を取り出し、かつ適切な回復措置を開始する必要がある。しかし、相互接続ネットワークとプロセッサの間に直接接続が存在する保証はないので、この通信には一般に代替機構が使用される。

概要

エラーをプロセッサに報告するより効率のよいシステムを提供すること。

エラーが検出されたとき、分散コンピュータ・システムのハードウェア要素によってエラー・メッセージが生成される。次いで、このエラー・メッセージがハードウェア要素から分散コンピュータ・システムの1つまたは複数の指定処理ノード転送される。ハードウェア要素には、たとえば検出されたエラーを報告するように適合された交換要素または通信アダプタが含まれる。

目的

効果

実績

技術文献被引用数
0件
牽制数
2件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

分散コンピュータ・システムハードウェア要素によりエラー報告するシステムであって、エラーが検出されたとき、エラー・メッセージを生成するように適合された、前記分散コンピュータ・システムのハードウェア要素を備え、前記ハードウェア要素がさらに、前記ハードウェア要素から前記分散コンピュータ・システムの第1の指定処理ノードに前記エラー・メッセージを転送するように適合されている、システム。

請求項2

前記ハードウェア要素が交換要素または通信アダプタを備える、請求項1に記載のシステム。

請求項3

前記ハードウェア要素がさらに、前記エラー・メッセージを前記ハードウェア要素から前記分散コンピュータ・システムの第2の指定処理ノードに送るように適合されている、請求項1に記載のシステム。

請求項4

前記ハードウェア要素がさらに、前記エラー・メッセージと前記第1の指定処理ノードへの経路とを含むサービスパケットを作成するように適合されている、請求項1に記載のシステム。

請求項5

前記ハードウェア要素がさらに、前記経路を使って前記エラー・メッセージを前記第1の指定処理ノードに送るように適合されている、請求項4に記載のシステム。

請求項6

前記エラー・メッセージを前記第1の指定処理ノードが受け取ったとの指示を前記ハードウェア要素が受け取る前に、前記ハードウェア要素がさらに、追加のエラーを収集するように適合されている、請求項1に記載のシステム。

請求項7

前記ハードウェア要素がさらに、前記指示の受信を確認するように適合され、前記追加のエラーに関する追加のエラー・メッセージを、前記分散コンピュータ・システムの前記第1の指定処理ノードおよび第2の指定処理ノードの少なくとも一方に転送するように適合されている、請求項6に記載のシステム。

請求項8

前記ハードウェア要素が通信アダプタを備え、前記通信アダプタが、前記エラー・メッセージを生成する前に前記通信アダプタの現在の動作を中断するように適合されている、請求項1に記載のシステム。

技術分野

(8)前記ハードウェア要素通信アダプタを備え、前記通信アダプタが、前記エラー・メッセージを生成する前に前記通信アダプタの現在の動作を中断するように適合されている、上記(1)に記載のシステム

背景技術

0001

本発明は一般に分散コンピュータ・システムに関し、詳細にはこうしたシステムのハードウェア構成要素を使ってそれらのハードウェア構成要素が検出したエラーを報告することに関する。

0002

通常、分散コンピュータ・システムは相互接続ネットワークによって互いに結合されたいくつかのプロセッサを含んでいる。プロセッサのうち1台はコンピュータ・システム内の装置障害監視するタスクを有する。たとえば、心拍プロトコルは、システム内の各装置を定期的にポーリングして、それが依然として活動状態にあるかどうか判定する。かつて活動状態にあった装置がもはや活動状態にない場合、プロセッサは装置を検査して、エラーが発生したかどうか突きとめる。すべての装置をポーリングするのに要する時間は、システムのサイズが増大するのに比例して増加する。

発明が解決しようとする課題

0003

障害が検出されると、プロセッサは障害装置通信して障害の原因を決定し、かつ適当な回復スキームを開始する必要がある。たとえば、相互接続ネットワーク内で障害が発生した場合、プロセッサはそのネットワークと通信して、相互接続ネットワークが捕捉した障害情報を取り出し、かつ適切な回復措置を開始する必要がある。しかし、相互接続ネットワークとプロセッサの間に直接接続が存在する保証はないので、この通信には一般に代替機構が使用される。

課題を解決するための手段

0004

プロセッサを使用して、このような形で障害情報を探索して取り出し、さらに代替機構を使用して、相互接続ネットワーク内でエラーが発生したときに、障害情報を取り出すのは、望むほど効率がよくない。したがって、対処のためエラーをプロセッサに報告するより効率のよい方法が求められている。詳細には、プロセッサに障害情報を探索させて取り出させる代りに、たとえば相互接続ネットワーク自体が報告を行う機構が求められている。

0005

分散コンピュータ・システムにおけるエラーを報告するシステムを提供することにより、従来技術の欠点が克服され、追加の利点が提供される。このシステムは、エラーが検出されたとき、エラー・メッセージを生成するように適合された、前記分散コンピュータ・システムのハードウェア要素を含んでいる。このハードウェア要素はさらに、このハードウェア要素から分散コンピュータ・システムの第1の指定処理ノードにそのエラー・メッセージを転送するように適合されている。

0006

本発明の他の実施形態では、ハードウェア要素は、交換要素または通信アダプタを含んでいる。

0007

本発明の他の実施形態では、ハードウェア要素はさらに、エラー・メッセージを第1の指定処理ノードが受け取ったとの指示をハードウェア要素が受け取る前に、追加のエラーを収集するように適合されている。

0008

さらに別の例では、ハードウェア要素はさらに、ハードウェア要素からコンピュータ・システムの第2の指定処理ノードにエラー・メッセージを送るように適合されている。

0009

本発明のエラー報告機能により、障害があるかどうか装置を監視する必要がなくなり、経路または経路区間争奪が軽減される。さらに、本発明のエラー報告機能により、システムが後続のエラー・パケット混雑することが防止され、システムの残りの部分が正常に動作できるようになる。本発明のエラー報告機能は、ソフトウェアまたは任意のプロセッサ論理ではなくシステム内部のハードウェアを使って実施される。

0010

本発明の技術によってその他の特徴および利点も実現される。本発明のその他の実施形態および態様は本明細書に詳しく記載してあり、特許請求される発明の一部と見なされる。

0011

本発明の原理によれば、分散コンピュータ・システムのハードウェア要素がコンピュータ・システムの指定された処理ノードエラー状態を報告する。ハードウェア要素は、ソフトウェアやプロセッサ論理を必要とせずにエラーを報告する。

0012

本発明の報告機能を組み込みそれを使用する分散コンピュータ・システムの一例を図1に示す。一実施形態においては、分散コンピュータ・システム100は、インターナシナルビジネスマシーンズ・コーポレイションから提供されるRISCシステム/6000スケーラブルPOWERパラレル・システムであり、相互接続ネットワーク104に結合された複数の処理ノード102を含んでいる。処理ノードおよび相互接続ネットワークの一例については下記に説明する。

0013

処理ノードは、たとえば、インターナショナル・ビジネス・マシーンズ・コーポレイションから提供されるRS/6000プロセッサなどのプロセッサ106と、たとえばシステム入出力バス109を介してプロセッサに結合された通信アダプタ108とを含む。通信アダプタは、システム内のあるプロセッサから別のプロセッサに、または相互接続ネットワークからプロセッサに通信を行う際に使用される入出力装置である。通信ネットワークの一例は、下記で図6に関してさらに詳しく説明する。

0014

処理ノード102は、相互接続ネットワーク104に結合され、相互接続ネットワーク104は、たとえばインターナショナル・ビジネス・マシーンズ・コーポレイションから提供されるスケーラブルPOWERパラレル交換機(SP交換機)を含む。相互接続ネットワークの一実施形態については下記で説明するが、デリック・ガーマイヤ(Derrick Garmire)著の白書「IBM POWERparallel Technology Briefing: Interconnection Technologies for High-Performance Computing (RS/6000 SP)」(1996年6月6日)、および同じくデリック・ガーマイヤ著「The RS/6000 SP High-Performance Communication Network」(1996年6月6日)にも記載されている。

0015

相互接続ネットワークは、各プロセッサが同時にメッセージを送受できるように分散コンピュータ・システムのプロセッサを互いに接続する。一実施形態では、相互接続ネットワーク104は、1台または複数の交換機110を含み、各交換機は処理ノードまたは別の交換機あるいはその両方に結合される。たとえば、図1において、交換機#1はここでは1次ノードと称する第1処理ノードと、他の1つまたは複数の処理ノードに接続されている。これはさらに、システムのスケーラビリティを高めるために交換機#2に接続されている。交換機#2は、交換機#1と他の少なくとも1つの処理ノード102に接続されている。

0016

さらに大きな構成では、システムのスケーラビリティをさらに高めるために、追加レベルの中間交換機をも含めることができる(図2参照)。図2に示した例では、中間交換機200はフレーム204内に位置する交換機202に接続されている。各フレームは、交換機202の他に、たとえば2〜16個の処理ノードを含む。中間交換機は交換機を他の交換機に接続するものであって、交換機を処理ノードに接続することはしない。図2に示すように、処理ノードへの接続は、中間交換機200ではなく交換機202によって行われる。

0017

図1に戻ると、一例では、各交換機101は複数(たとえば8個)の交換要素112を含み、それらは、それに接続された各ノードの接続点および他の交換要素の接続点を提供する。この交換要素の構成により、処理ノード間に複数の経路が得られ、単一の経路または素子が障害を起こしてもノードが相互に分離されなくなる。具体的には、各処理ノードは交換要素への接続を2つ有し、各接続は入出力接続である。

0018

本発明の原理によれば、各交換要素112は、たとえば分散コンピュータ・システム100内の指定された処理ノード(たとえば1次ノード)からその交換要素に転送される交換機初期設定パケットを使って初期設定される。一実施形態では、初期設定サービス・パケットは、このパケットが交換機初期設定パケットであり、したがって交換ネットワーク内の次の段に渡されないことを示すコマンドと、システムの第1の指定処理ノード(たとえば1次ノード)への経路を示す1次経路と、第1の指定処理ノードへの第2の経路または第2の指定処理ノード(たとえばバックアップ・ノード)への経路を示す2次経路と、交換要素の識別子と、その交換要素に関する、本発明では論じる必要のないその他の様々な初期設定データを含んでいる。

0019

一例では、各交換要素112は単一CMOSチップ上に集積された8チャネル−8チャネル・パケット経路指定ユニットである。そのようなチップの一実施形態は、米国特許第5546391号に詳しく記載されている。

0020

交換要素112の一実施形態(たとえば交換チップ)についてはまた図3に関して詳しく説明する。一例では、交換要素112は、交換要素の各入力ポートごとに1個ずつ、複数の受信モジュール302(たとえば8個のモジュール)と、交換要素の各出力ボードごとに1個ずつ、複数の送信モジュール304(たとえば8個のモジュール)とを含む。

0021

交換要素112はまた、指定された出力ポート使用可能なとき、パケットが受信モジュールから送信モジュールに直接移動できるようにする、バッファのないクロスバー306を含む。さらに、バッファ付き時間多重化8方向ルータを実施した中央待ち行列308をも含む。この中央待ち行列308は、当該の出力ポートが使用中のとき、受信モジュールからメッセージを受け取って格納する。その後、その当該の送信モジュールから要求があったとき、中央待ち行列308はメッセージをその送信モジュールに渡す。

0022

さらに、交換要素112は、その動作中に使用されるハードウェア・サービス論理310を含む。具体的には、ハードウェア・サービス論理310は受信ポートからメッセージを受け取って処理し、交換機の送信モジュールを介してシステムの処理ノードにメッセージを送ることにより動作を確認する。さらに、本発明によれば、ハードウェア・サービス論理310は本発明のエラー報告機能を提供する。

0023

本発明のエラー報告機能に使用されるハードウェア・サービス論理の一実施形態を図4に関して詳細に説明する。一例では、下記に述べる機能はハードウェア状態機械を使って実施される。

0024

図4を参照すると、最初に、たとえばパリティ・エラー、巡回冗長検査CRC)エラー、順序エラーなどのエラーを交換要素が検出したかどうか判定する(照会400)。たとえば、交換要素内の状態機械の現状態を検査して、それが予想される状態にあるかどうか判定することによって、交換要素は順序エラーがあるかどうか検査する。それが予想される状態にない場合は、エラーが発生した訳である。しかし状態が適正な場合は、順序エラーはない。

0025

エラーが検出されなかったときは、流れは照会400に戻り、予め選択した時間間隔で判定を行うことができる。一方、エラーが検出された場合は、下記に述べるように処理が続行する。

0026

エラー・メッセージが既に送られたかどうか判定を行う(照会402)。たとえば、エラーを含むエラー・サービス・パケットが既に交換要素によって指定の処理ノードに送られたかどうか検査を行って判定する。一例では、この判定は、エラー・サービス・パケットが送られたかどうかを示す交換要素内のビットを検査して行う。

0027

エラー・サービス・パケットが送られていないときは、パケットを送るためにたとえば2つのポート、1次ポートおよび2次ポートのアクセスを要求する(ステップ406)。ポートの指定は、前述のように初期設定時に交換要素に提供される。アクセスが要求されると、各ポートは肯定応答送り返し、最初に受信されたポートがメッセージを送出するのに使用される最初のポートとなる。たとえば、1次ポートが肯定応答を送り返した最初のポートである場合(照会408)、第1の指定処理ノード(たとえば1次ノード)宛のエラー・サービス・パケットが生成される(ステップ410)。

0028

一例では、エラー・サービス・パケットは、開始制御文字、交換要素の初期設定中に提供される、第1の指定処理ノードへの経路、エラーが発生したことを示すコマンド、初期設定中に提供される交換要素の識別子、どのエラー・ビットが活動状態であるかを示すエラー・データ、データが壊れていないことを確認するために第1の指定ノードにある通信アダプタが使用する検査パターンを含む、巡回冗長検査、および終了制御文字を含んでいる。開始制御文字および終了制御文字は、パケットの開始位置および終了位置を定義し、したがってハードウェアがパケット長やその他類似のタイプの情報を記録する必要はない。

0029

エラー・サービス・パケットの作成に続いて、パケットは標準の送信技術を用いて第1の指定処理ノードに送り出される。第1の指定処理ノードでは、通信アダプタがパケットを受信し、それをバッファし、その処理ノードのプロセッサに渡す。

0030

パケットを1次ポートから送出した後、そのパケットが両方のポートから送出されたかどうか検査して判定する(照会412)。パケットが両方のポートから送出されていないときは、流れは、ステップ406「ポート間で調停する」に戻る。このとき、交換機は、既にパケットを1次ポートから送出したことを知っており、したがってバックアップ・ポートを選択する(照会414)。

0031

その後、エラーを第2の指定処理ノード(たとえば、バックアップ・ノード)に報告するためのエラー・サービス・パケットが生成される(ステップ410)。このパケットは、指定経路が1次処理ノードではなくてバックアップ処理ノード宛である点を除き、最初のパケットに関して上述したものと同じ情報を含んでいる。

0032

パケットが両方のポートから送出されると(照会412)、流れは照会400「エラーを検出したか」に戻る。

0033

照会402「エラー・パケットが既に送られたか」に戻ると、エラー・パケットが既に送られているときは、そのエラーに対するリセット・サービス・パケットを交換要素が受け取ったかどうか判定が行われる(照会418)。一実施形態では、この判定は交換要素が着信サービス・パケットのコマンドを検査することによって行う。

0034

そのコマンドが、リセット・サービス・パケットを受け取っていないことを示すときは、システムがエラー・メッセージであふれないように追加のエラーが収集される(ステップ420)。具体的には、リセット・サービス・パケットを受け取るまで、他のエラー・サービス・パケットは交換要素から転送されない。次いで処理は照会400「エラーを検出したか」に戻る。

0035

照会418に戻って、送られたエラー・サービス・パケットに対するリセット・サービス・パケットを受け取った場合は、処理は図5に進む(ステップ422)。一実施形態では、図5の機能はハードウェア状態機械を使って実施される。

0036

図5を参照すると、一例では、エラー・パケットを受信した指定ノードの少なくとも1つがリセット・サービス・パケットを生成する。一例では、リセット・サービス・パケットは、それがリセット・パケットであることを示すコマンドおよびリセット・データを含む。リセット・サービス・パケットを生成した後、その指定ノードはエラー・サービス・パケット中で識別された交換要素にそのパケットを送信し、その交換要素はリセット・パケットを受け取ったことを検出する。(ステップ500)。

0037

リセット・サービス・パケットの受信に続いて、交換要素はそのリセット・データを使って(たとえば、エラー・ビットをリセットすることにより)エラーをリセットし、さらにエラー報告機能をリセットして、別のエラー・パケットが送られるのを禁止する(ステップ502)。一例では、この機能は対応するビットをリセットすることによってリセットされる。

0038

次に、リセット・パケットをどのポートに送信するか選択が行われる(ステップ504)。1次ポートが最初に選択された(すなわち、最初に要求に肯定応答する)場合(照会506)、肯定応答サービス・パケットが生成される(ステップ508)。一実施形態では、肯定応答サービス・パケットは、第1の指定処理ノードに対するエラー・サービス・パケットについて上述したのと同じ情報を含んでいる。ただし、エラー・データはステップ420(図4)で収集されたすべてのエラーを含む。具体的には、肯定応答サービス・パケットは、開始制御文字、1次ノードへの経路、それがエラーであることを示すコマンド、交換要素の識別子、収集されたエラー・データのすべて、CRC、および終了制御文字を含む。生成された肯定応答サービス・パケットは1次処理ノードに送信される。

0039

パケットが両方のポートから送出されてはいない場合(照会510)、処理はステップ504「ポート間で調停する」に進む。このときは、2次ポートが選択され(照会512)、次いで第2の指定処理ノードに対する肯定応答サービス・パケットが生成される(ステップ514)。この場合も、このパケットは、指定経路がバックアップ・ノード宛である点を除き、1次ノードに対する肯定応答について上述したように生成される。

0040

パケットが両方のポートから送出されると、処理は、最後のリセット・パケットに含まれる新しいエラー・メッセージについての照会418「リセット・パケットが受信されたか」に進む(ステップ516)。

0041

上記の実施形態では、エラー/肯定応答が2つの処理ノードに報告される。これは一例にすぎない。別の実施形態では冗長性が除去され、1つの処理ノードだけにエラー/肯定応答が送られる。さらに別の実施形態では、パケットは必ずしも別の処理ノードに送られず、別の経路を通って同じ処理ノードに送られる。これらの変形形態もその他の実施形態もすべて本発明の範囲および趣旨に含まれる。

0042

上記では、交換要素が分散コンピュータ・システムの1つまたは複数の指定処理ノードに検出済みエラーを報告するための機構について述べたが、別の実施形態では、エラー情報が失われた場合、処理ノードは交換要素にエラー状況パケットを要求することができる。

0043

本発明の別の実施形態では、やはり分散コンピュータ・システムのハードウェア構成要素である通信アダプタがエラーを検出し、1つまたは複数の指定処理ノードに報告する。

0044

通信アダプタの一例については図6に関して詳細に説明し、通信アダプタの報告機能に関連する論理の一実施形態については図7に関して詳細に説明する。

0045

図6を参照すると、一例では、通信アダプタ600は、バスインターフェースハードウェア論理602、送信メッセージ・バッファ604、受信メッセージ・バッファ606、送信リンク・ハードウェア論理608、610、および受信リンク・ハードウェア論理612、614を含む。そのそれぞれについて下記で説明する。

0046

バス・インターフェース・ハードウェア論理602は、通信アダプタの残りの構成要素とシステム・バスの間のインターフェースをとる。このシステム・バスは通信アダプタを処理ノード上の対応するプロセッサに接続する。システム・バスは、他のアダプタ構成要素またはプロセッサからエラー情報を受け取りクリティカルなエラーが検出されたとき、チェック停止エラー信号を送出する。

0047

バス・インターフェースは送信メッセージ・バッファ604に結合される。これはバス・インターフェース・ハードウェア論理602からメッセージを受け取る。送信メッセージ・バッファ604はパケット化されていないメッセージを後で送信するために一時記憶し、エラーを検出した場合はそれをバス・インターフェース・ハードウェア論理602に報告する。

0048

送信メッセージ・バッファ604は、送信リンク・ハードウェア論理608および610に結合される。これらは、相互接続ネットワークにメッセージを送信する際に使用される二重ポートである。各送信リンク・ハードウェア論理は、メッセージをパケット化し、バッファし、所与リンクから相互接続ネットワークに送出する。さらに検出したエラーをバス・インターフェース・ハードウェア論理602に報告する。送信リンク・ハードウェア論理が活動状態のチェック停止信号を受信したときは、現状態(たとえば状態機械に記憶されている)に割り込んで、下記で詳しく説明するように、エラー・サービス・パケットを送る。その後、リセットを受け取るまでリンク論理は遊休状態となる。

0049

二重ポート送信リンクに加えて、通信アダプタは、二重ポート受信リンク、すなわち受信リンク・ハードウェア論理612および614をも含む。受信リンク・ハードウェア論理は、通信アダプタを相互接続ネットワークに接続するリンクからメッセージ・パケットを受け取る。この論理は、受信データを受信メッセージ・バッファ606に渡し、エラーをバス・インターフェース・ハードウェア論理602に報告する。さらに、チェック停止信号が活動状態の場合、動作を停止する。

0050

受信リンクは受信メッセージ・バッファ606に結合され、後者はリンクからデータを受け取り、バス・インターフェース・ハードウェア論理602に渡す。また、エラーを検出した場合はそれをバス・インターフェース・ハードウェア論理602に報告する。

0051

本発明の原理によれば、通信アダプタは、それに対応するローカル・プロセッサによって初期設定される。たとえば、ローカル・プロセッサは、指定処理ノードへの経路、アダプタの識別子、および初期設定に必要な他の情報を提供する。アダプタがそれらの情報を受け取ると、それはアダプタのハードウェア記憶エレメントに記憶される。

0052

上述のように、通信アダプタは、クリティカルなエラーを検出した場合それを自発的に1つまたは複数の指定処理ノードに報告し、したがって処理ノードが通信アダプタをポーリングして、エラーが発生したかどうか判定する必要はない。本発明の原理による、このようなエラーを報告するのに使用されるハードウェア論理について、図7に関してさらに説明する。一例では、下記に述べる機能は、通信アダプタの異なる構成要素のハードウェア状態機械を使って実施される。

0053

図7を参照すると、最初に、通信アダプタがクリティカルなエラーを検出したかどうか判定を行う(照会700)。この判定は、交換要素によるエラーの検出と類似の形で行われる。クリティカルなエラーが検出されなかったときは、再度検査が行われる(照会700)。しかし、クリティカルなエラーが検出されたときは、通信アダプタが、オフラインになる(たとえば割込み状態に入る)ことによって現動作に割り込む(ステップ702)。

0054

続いて、エラー・サービス・パケット(チェック停止パケットとも呼ばれる)が生成され、1つまたは複数の指定処理ノードに送られる(ステップ704)。一例では、第1の指定処理ノードに対してエラー・サービス・パケットが生成され、第2の指定処理ノードに対して別のパケットが生成される。各エラー・パケットは、交換要素が生成するエラー・サービス・パケットについて前述したのと同様の情報を含む。たとえば、それぞれ開始制御文字、1次ノードまたは2次ノードへの経路、エラー・コマンド、アダプタ識別子、エラー・データ、巡回冗長検査、および終了制御文字を含む。

0055

パケットが生成された後、第1の指定処理ノード宛のパケットが指定された1次ポートから送出され、第2の指定処理ノード宛のパケットが指定された2次ポートから送出される(ステップ706)。2つのポートの使用により、パケットの1つがシステムを通過して指定ノードの1つに到着する確率、または指定経路の1つを通過する確率が増大する。

0056

その後、通信アダプタは、それ以上エラーが伝播するのを防止するためにリセットされるまで遊休状態に留まる(ステップ708)。アダプタがその対応するプロセッサによってリセットされると(照会710)、流れは照会700「エラーが検出されたか」に戻る。

0057

上記の実施形態では、クリティカルなエラーは指定処理ノードに報告される。アダプタによって検出されたクリティカルでないエラーはローカル・プロセッサにのみ報告される。しかし、別の実施形態では、すべてのエラーが指定処理ノードに報告される。

0058

別の実施形態では、交換機構の場合と同様に、エラー・パケットを2つのポートから送出する必要はない。その上、パケットを2つ(以上)の経路を通って同一の処理ノードに送ることもできる。これらその他の実施形態は、特許請求される本発明の範囲および趣旨に含まれる。

0059

本発明のエラー報告機能は、障害がないかどうか装置を監視する必要がなく、その結果、経路または経路区間に対する争奪が軽減される。エラーが検出されると、交換要素またはアダプタによりサービス・パケットを介して報告される。交換要素は追加のエラーを収集するだけで、リセット・サービス・パケットを受信するまではそれを報告しないので、追加のエラー・パケットでシステムがあふれることはない。アダプタはオフラインになり、したがって、システムは後続のエラー・パケットであふれることはなく、システムの残りの部分は正常に機能することができる。

0060

本発明の機構はさらに、障害のある構成要素が報告経路の1つ中にある場合、高度のフォールトトレラント性を提供する。

0061

本明細書で述べた分散コンピュータ・システムは一例にすぎない。本発明の報告機能は、本発明の趣旨から逸脱することもなく、他のシステム内に組み込むことができ、または他のシステムと共に使用することができ、あるいはその両方が可能である。たとえば、本発明の趣旨から逸脱することなく、異なるアーキテクチャまたはハードウェア構成要素あるいはその両方を使用することができる。さらに、状態機械以外のハードウェア構成要素を使って本発明のハードウェア論理を実施することもできる。

0062

上記のことに加えて、別の実施形態では、検出されたエラーは、エラーの発生回数閾値に達した後に初めて報告される。閾値に達したとき、本発明の原理に従ってエラーが報告される。

0063

本明細書に示した流れ図は例示的なものにすぎない。それらの図に述べた図やその中に示されたステップ(または動作)には、本発明の趣旨から逸脱せずに、多数の変形例があり得る。たとえば、各ステップを異なる順序で実行することもでき、またステップを追加し、あるいは変更することもできる。これらの変形例はすべて、特許請求される本発明の一部分と見なされる。

0064

まとめとして、本発明の構成に関して以下の事項を開示する。

図面の簡単な説明

0065

(1)分散コンピュータ・システムのハードウェア要素によりエラーを報告するシステムであって、エラーが検出されたとき、エラー・メッセージを生成するように適合された、前記分散コンピュータ・システムのハードウェア要素を備え、前記ハードウェア要素がさらに、前記ハードウェア要素から前記分散コンピュータ・システムの第1の指定処理ノードに前記エラー・メッセージを転送するように適合されている、システム。
(2)前記ハードウェア要素が交換要素または通信アダプタを備える、上記(1)に記載のシステム。
(3)前記ハードウェア要素がさらに、前記エラー・メッセージを前記ハードウェア要素から前記分散コンピュータ・システムの第2の指定処理ノードに送るように適合されている、上記(1)に記載のシステム。
(4)前記ハードウェア要素がさらに、前記エラー・メッセージと前記第1の指定処理ノードへの経路とを含むサービス・パケットを作成するように適合されている、上記(1)に記載のシステム。
(5)前記ハードウェア要素がさらに、前記経路を使って前記エラー・メッセージを前記第1の指定処理ノードに送るように適合されている、上記(4)に記載のシステム。
(6)前記エラー・メッセージを前記第1の指定処理ノードが受け取ったとの指示を前記ハードウェア要素が受け取る前に、前記ハードウェア要素がさらに、追加のエラーを収集するように適合されている、上記(1)に記載のシステム。
(7)前記ハードウェア要素がさらに、前記指示の受信を確認するように適合され、前記追加のエラーに関する追加のエラー・メッセージを、前記分散コンピュータ・システムの前記第1の指定処理ノードおよび第2の指定処理ノードの少なくとも一方に転送するように適合されている、上記(6)に記載のシステム。

--

0066

図1本発明の報告機能を組み込みそれを使用する分散コンピュータ・システムの一例を示す図である。
図2本発明の原理による、中間交換機を含む図1の分散コンピュータ・システムの相互接続ネットワークの一実施形態を示す図である。
図3本発明の原理による交換要素の一例を示す図である。
図4本発明の原理による、図3の交換要素によって検出されたエラーを報告する際に使用されるハードウェア・サービス論理の一実施形態を示す図である。
図5本発明の原理による、リセット・サービス・パケットの受信を図3の交換要素によって確認し、追加のエラーを転送する際に使用されるハードウェア・サービス論理の一実施形態を示す図である。
図6本発明の原理による、図1の分散コンピュータ・システムの通信アダプタの一例を示す図である。
図7本発明の原理による、図6の通信アダプタによって検出されたエラーを報告する際に使用されるハードウェア・サービス論理の一実施形態を示す図である。

0067

100分散コンピュータ・システム
102処理ノード
104相互接続ネットワーク
106プロセッサ
108通信アダプタ
109 システム入出力バス
110交換機
112交換要素
302受信モジュール
304送信モジュール
306クロスバー
308 中央待ち行列
310ハードウェア・サービス論理

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • カンブリコン テクノロジーズ コーポレーション リミテッドの「 チップ装置および関連製品」が 公開されました。( 2020/10/29)

    【課題・解決手段】本開示は、チップ装置および関連製品を提供する。チップ装置は、メインユニットと、メインユニットと通信する複数の基本ユニットとを備える。メインユニットの機能は、計算予定データブロックと演... 詳細

  • 富士通株式会社の「 情報管理装置及び情報管理プログラム」が 公開されました。( 2020/10/29)

    【課題】ログの保管に用いられるディスクサイズの見積もりの労力を削減する情報管理装置及び情報管理プログラムを提供する。【解決手段】ログ情報収集部11は、収集設定にしたがって動作履歴が取得される管理対象装... 詳細

  • ローム株式会社の「 ウォッチドッグタイマ」が 公開されました。( 2020/10/29)

    【課題】適切に周波数異常を検出する。【解決手段】ウォッチドッグタイマ173は、トリガ型の第1周波数異常検出部173aと、通信断絶検知型の第2周波数異常検出部173bと、Q&A型の第3周波数異常検出部1... 詳細

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ