うちのサーバは、FUJITSU(富士通)のPrimergyのTX200S3です。
以前、構築に苦しんだのを延々と3年間使っています。
最近のディスクが弱いのか、Hotspareを入れた直後に、別のディスクが調子を崩してしまわれました。
具体的には、以下のようなエラーです。
# megasasctl
a0 MegaRAID SAS 8300XLP encl:1 ldrv:1 batt:FAULT, module missing, pack missing, charge failed
a0d0 1TiB RAID 5 1x7 optimal
hot spares : a0e248s0
a0e248s0 279GiB hotspare
a0e248s1 279GiB a0d0 online
a0e248s2 279GiB a0d0 online
a0e248s3 279GiB a0d0 online
a0e248s4 279GiB a0d0 online
a0e248s5 279GiB a0d0 online
a0e248s6 279GiB a0d0 online errs: media:1 other:0
a0e248s7 279GiB a0d0 online
ハードエラーは出てないのですが、怖いディスクは早めに取り替えるということで、交換を依頼を出したら、ハードエラーでないと抜きづらいということで、コマンドラインで操作をしてみました。
ちなみにエラーが出ているのは、「a0e248s6」というディスク
頭の「a0」はアダプターID、「e248」がエンクロージャーID、「S6]がディスクのIDだと思われる。
参考にしたサイトは、「DELL PERC5/i Integrated (LSI Logic MegaRAID)– Emergency Cheat Sheet –」というページの「8 Walkthrough: Change/replace a drive」の章。
# MegaCli -PDOffline -PhysDrv[248:6] -a0
Adapter: 0: EnclId-248 SlotId-6 state changed to OffLine.
Exit Code: 0x00
これによって、以下のような状態になります。
# megasasctl -v
a0 MegaRAID SAS 8300XLP bios:MT25 fw:2.02.01-0156 encl:1 ldrv:1 rbld:80% batt:FAULT, module missing, pack missing, charge fa
iled/0mV/0C
a0d0 1TiB RAID 5 1x7 DEGRADED
row 0: *a0e248s0 a0e248s1 a0e248s2 a0e248s3 a0e248s4 a0e248s5 a0e248s7
unconfigured : a0e248s6
a0e248s0 SEAGATE ST3300655SS 279GiB a0d0 rebuild
a0e248s1 SEAGATE ST3300655SS 279GiB a0d0 online
a0e248s2 FUJITSU MBA3300RC 279GiB a0d0 online
a0e248s3 FUJITSU MBA3300RC 279GiB a0d0 online
a0e248s4 FUJITSU MBA3300RC 279GiB a0d0 online
a0e248s5 FUJITSU MBA3300RC 279GiB a0d0 online
a0e248s6 FUJITSU MBA3300RC 279GiB ready errs: media:1 other:0
a0e248s7 FUJITSU MBA3300RC 279GiB a0d0 online
HotSpareだった「a0e248s0」が「rebuild」状態になり、エラーがでていた「a0e248s6」が「ready」状態となります。
次に、「a0e248s6」にミッシングマークを付けます。
# MegaCli -PDMarkMissing -PhysDrv[248:6] -a0
Adapter: 0: Failed to change PD state at EnclId-248 SlotId-6.
FW error description:
The specified device is in a state that doesn't support the requested command.
Exit Code: 0x32
これはアダプタが対応していなかったようです。
このままディスクを取り外します。
# MegaCli -PDPrpRmv -PhysDrv[248:6] -a0
Prepare for removal Success
Exit Code: 0x00
コマンド実行から、1分程度時間がかかりましたが、正常終了
# megasasctl -v
a0 MegaRAID SAS 8300XLP bios:MT25 fw:2.02.01-0156 encl:1 ldrv:1 rbld:80% batt:FAULT, module missing, pack missing, charge failed/0mV/0C
a0d0 1TiB RAID 5 1x7 DEGRADED
row 0: *a0e248s0 a0e248s1 a0e248s2 a0e248s3 a0e248s4 a0e248s5 a0e248s7
unconfigured : a0e248s6
a0e248s0 SEAGATE ST3300655SS 279GiB a0d0 rebuild
a0e248s1 SEAGATE ST3300655SS 279GiB a0d0 online
a0e248s2 FUJITSU MBA3300RC 279GiB a0d0 online
a0e248s3 FUJITSU MBA3300RC 279GiB a0d0 online
a0e248s4 FUJITSU MBA3300RC 279GiB a0d0 online
a0e248s5 FUJITSU MBA3300RC 279GiB a0d0 online
a0e248s6 FUJITSU MBA3300RC 279GiB ready errs: media:1 other:3
a0e248s7 FUJITSU MBA3300RC 279GiB a0d0 online
こんな感じで状態は変化してないですね。「other」のエラーが3個増えていますけど。。。
あとは、SEさんにHDDのエラーランプが表示されていることを確認していただいて、交換ですね。