今年に入ってからftp.jaist.ac.jpがすごく遅かったり、落ちていたりすることが増えています。その原因はストレージのトラブルや設計ミスですが、もうすぐ収束する予定です。
最初のトラブルは1月5日に置きました。2組のRAID-Z2のうち一方で3本のHDDが故障して、ストレージが使えなくなったのです。もともと故障したHDDが複数あったのを、ストレージの負荷が高すぎてresilverが終わらないので、あえて放置してありました。ところが、この日にHDDが1本見えなくなりとどめを刺されました。
このとき同時にL2ARCのSSDも4本全部見えなくなったので、これはSAS HBAの一時的な不具合ではないかと考えコールドスタートしたところ、見えなかったHDDが復活してサービスを再開できました。SSDも復活しました。
サービスは再開したものの、resilverが走り出したためストレージの性能低下が続きます。1月22日には別のトラブルで2時間半ほどサービスが中断しました。L2ARCのSSDのうち1本が故障した際に、ZFSがこれを切り離すのに失敗してpoolごと死んでしまったためです。
もちろん、何の手をこまねくことなく故障したHDDを抱えたストレージを放置したわけではありません。学内のサービスからiSCSIのボリュームを借りて、ストレージのレプリカをすでに作ってありました。それを利用して放置してあった代替機への移行を行い、その後に新しいHDDでストレージを組み直す計画でした。この計画を進めずにいた結果、瀬戸際まで追い詰められてしまいました。
追い詰められたところで、ようやく代替機を投入することになったのが1月26日のことです。ところが、iSCSIを利用したストレージの設計に問題があって、こちらでも性能が出ない日々が続くことになります(続く)。
0 件のコメント:
コメントを投稿