2017年3月9日木曜日

Intel SSD 750が壊れました

このエントリーをはてなブックマークに追加
今朝の10時30分ごろに、ftp.jaist.ac.jpからほとんどデータが流れてこなくなったので様子を見たところ、Intel SSD 750が壊れていました。

iostatを取ったところ、書き込みは2MB/s程度しか書けず、読み込みはほとんど止まっていました。負荷(%b)は100%から400%を超える数字を示すこともありました。とても正常とは言いがたい状態でした。
$ iostat -xM blkdev0 1
                 extended device statistics
device     r/s    w/s   Mr/s   Mw/s wait actv  svc_t  %w  %b
blkdev0    3.0   19.0    0.1    2.1  0.0 42.1 1916.8   0 100
                 extended device statistics
device     r/s    w/s   Mr/s   Mw/s wait actv  svc_t  %w  %b
blkdev0    0.0   21.0    0.0    2.0  0.0 38.7 1842.5   0 100
                 extended device statistics
device     r/s    w/s   Mr/s   Mw/s wait actv  svc_t  %w  %b
blkdev0    0.0   19.0    0.0    2.0  0.0 33.1 1742.2   0 100
                 extended device statistics
device     r/s    w/s   Mr/s   Mw/s wait actv  svc_t  %w  %b
blkdev0    0.0   15.0    0.0    1.9  0.0 32.6 2173.8   0 100
                 extended device statistics
device     r/s    w/s   Mr/s   Mw/s wait actv  svc_t  %w  %b
blkdev0    4.0   21.0    0.4    2.4  0.0 36.9 1473.2   0 407
                 extended device statistics
device     r/s    w/s   Mr/s   Mw/s wait actv  svc_t  %w  %b
blkdev0    0.0   24.0    0.0    2.0  0.0 32.9 1372.6   0 100
                 extended device statistics
device     r/s    w/s   Mr/s   Mw/s wait actv  svc_t  %w  %b
blkdev0    0.0   19.0    0.0    2.0  0.0 41.1 2161.2   0 100
                 extended device statistics
device     r/s    w/s   Mr/s   Mw/s wait actv  svc_t  %w  %b
blkdev0    0.0   16.0    0.0    2.0  0.0 43.3 2708.1   0 100
                 extended device statistics
device     r/s    w/s   Mr/s   Mw/s wait actv  svc_t  %w  %b
blkdev0    0.0   11.0    0.0    1.4  0.0 44.2 4016.5   0 100
                 extended device statistics
device     r/s    w/s   Mr/s   Mw/s wait actv  svc_t  %w  %b
blkdev0    5.0   15.0    0.4    1.1  0.0 69.5 3475.5   0 458
zpool statusを見たところ、SSDからエラーはまったく検出されていませんでした。これでは自動的にL2ARCから切り離されることは期待できません。

SMARTを見たところ、Critical Warningが8になっていました。NVMeの仕様書によると「The media has been placed in read only mode.」とのことです。SSDは書き換え回数が上限に達するとread only modeに入るように設計されているので、寿命を迎えたようです。read onlyなのにiostatを見ると書けているのが謎ではありますが。

ちなみに、Percentage Usedは105%で、書き込んだ容量は1.06PBでした。メーカー保障が127TBであることを考えると大健闘です。使い始めたのが去年の3月3日だったので、1年と6日の寿命でした。

[2017/3/10 0:20 修正]
Critical Warningの8の意味を「Volatile memory backup device has failed.」としていましたが、正しくは「The media has been placed in read only mode.」でした。キャパシタの異常ではなく本当に寿命だったので、それに合わせて本文を修正しました。