2019年02月04日

会社サーバーのRAIDの件

日、会社で予告なく電気工事されまして、電気工事業者が認識する停電は起こりませんでしたが、瞬電は起こったみたいで、サーバーやらなんやら全部止まってました。
これには管理会社とか家主に報告入れたら、「停電してない!」って豪語してた現場作業の業者の偉い人も謝りに来ました。
もう取り壊す(たぶん)ビルになんの電気工事をしてるのか分かりませんけど…いやもしかしたら改装するのかもしれんけど…。

 ただのタイミングなんでしょうけど、タイムカード用のPCがコンデンサ不良を引き起こしていて起動不能に。(http://namba-reading.seesaa.net/article/463905269.html

 ファイルサーバーはRAIDがつながらない状態に戻りました。
今日の記事はこのファイルサーバーのお話です。

 こちらは再起動させるとMarvell社製 88SE9128搭載 SATA インターフェースカード(以下、SATAカードと表記)につながったRAIDディスクのみ解除させMD128とかいうRAIDディスクを勝手に作ってくれます。このような不具合を起こしていたので、再起動をちゅうちょしていたんですよ。で再起動したときは以下のコマンドで復旧させていたのですがねぇ。

RAIDをストップ
# mdadm --misc --stop /dev/md1
# mdadm --misc --stop /dev/md2
片肺で動かす
# mdadm --assemble /dev/md1 --run /dev/sdd1
# mdadm --assemble /dev/md2 --run /dev/sdd2
ディスクを追加
# mdadm --manage /dev/md1 --add /dev/sde1     
# mdadm --manage /dev/md2 --add /dev/sde2

 しかし今回はできませんでした。
 2台目のRAIDのMD2に限って、not large enough to join array が表示されディスクの追加ができないのです。
この表示があるときはシステムを再起動させて、OSに正しいディスク容量を認識させるといいのですが、再起動にまつわる不具合が便乗して混乱させられましたし、ほかの要因もありました。列挙してみましょう。

 1 前にはんだ不良を疑いためしにチップを半田ごてで温めたところ、こてに残った半田のせいで微妙にショートしてた(笑)
 2 再起動の際、CMOSクリアを実行しないとSATAカードを認識しないことが多い。
 3 追加するRAIDディスクのパーティションはパーティションを切ってからファイルタイプをLinuxRAIDにしておかないといけないかもしれない(フォーマットはしない)。

 ちなみにこのPCサーバーのマザーボードはGA-H81M-DS2 (rev. 2.0)(以下GIGABYTEと表記)というものです。

 因果関係はいまとなってはさっぱり分かりませんが、以下のことを行い復旧しました。

 とりあえずSATAカードのBIOSやらファームウェアを最新版にアップデート。
以下のサイトからMV91xxに対応する最新版をダウンロードします。なおプログラムにはファームウェアとBIOSという二つの領域を更新する必要があるようです。ご注意を!

rufusというツールで作った、FreeDOSが起動するUSBメモリーに、ダウンロードして展開したファイルをファルダ―付きでコピー。
それで、このUSBメモリーから起動させてBIOS等を更新するんですが、最新版に更新した当たりからSATAカードを認識しなくなりました。
因果関係は分かりません(笑)

 このPCではなぜか認識がおかしいので、自宅に帰って別のデスクトップマシンでやろうと、カードを外して持って帰りました。

 自宅のデスクトップはこのブログでもおなじみのMSI-P35 NEO-Fマシン10年稼働しています。前に不具合が発生したとブログで書きましたが、ウィンドウズの更新ミスだったようで、OSの再インストールで直りました。現在絶好調です。

 これにカードを載せて、USBメモリーから起動させアップデートプログラムを走らせると、カードがないとか言われます。
えっこっちでも認識しないのか…!?

2019-02-01 11.03.44.jpgMarvell社製 88SE9128搭載 SATA インターフェースカードhttps://www.kuroutoshikou.com/product/interface/ata_sata/sata3-pcie-i2/

このチップのなにが、あかんの?!

よくカードを観察、おかしなところありませんか? あれ? チップの足がブリッジしていませんか? 適当に再半田しすぎです。
だとしてもなんで今まで動いていたの? 分かりません。

とりあず、フラックスを塗ったり、はんだを盛ったり、吸い取り線で吸ったり、なんとかブリッジをルーペで見える品質の範囲でなくしました。
あと手あたり次第、ほかの部品も再半田しておきました。

再び取り付けて、確認! 
はっはは、認識した。無事に最新版を確認して、ファームウェアとBIOSをアップデートできました。

日曜日をはさみ本日、会社のGIGABYTEに載せて起動! 

はあ…HDD見えへんわ(笑)

ためしにCMOSをクリアしてみようと思い立ち、クリアして起動すると、HDDが見えております! つぎ普通に再起動! 見えません…。CMOSクリア起動! あー見えました!

…BIOSとの相性が悪いんでしょうかね。
CMOSの電池が切れかかっている可能性も考えましたが、時計も狂っていませんしね。

 RAIDを再度構築しなおし、not large enough to join array が表示されても、CMOSクリアして再起動させれば無事に構築できました。しかも、再起動してもRAIDが解除されないような気がします。

 結論的には、再半田の失敗と、マザーボードBIOSとの相性問題という二つの原因がありました。
その他の部品の再半田も意味があるのか分かりませんが、調子がいいようです。いまはRAIDの追加したHDDの同期中ですので、同期が終わったら再起動(CMOSクリア込)させて、どうなるかです。
同期後、再起動(CMOSクリア込)で正常に動きました。

2019年2月19日 京都のそこかしこで停電が起こり、それに巻き込まれ…。CMOSをクリアして再起動したのですが…。もとに戻りません(笑)

2019年5月20日追記 上記のあとすぐにRAIDカードを新しく購入して取り替えました。ANBE SATA 3.0 SATA 6Gb/s 拡張カード 1540円の激安カードです。再起動しても、HDDの認識はしっかりしております。いまのところ問題なく運用できております。これで壊れていたのはRAIDカードであると判明しました。なにがどうなって壊れているかは分かりませんが、どこかの接触不良なんでしょうね。
posted by 難波鷹史 at 19:41| 京都 ☁| Comment(0) | 日記 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。
※ブログオーナーが承認したコメントのみ表示されます。