2017年3月9日木曜日

Intel SSD 750が壊れました

このエントリーをはてなブックマークに追加
今朝の10時30分ごろに、ftp.jaist.ac.jpからほとんどデータが流れてこなくなったので様子を見たところ、Intel SSD 750が壊れていました。

iostatを取ったところ、書き込みは2MB/s程度しか書けず、読み込みはほとんど止まっていました。負荷(%b)は100%から400%を超える数字を示すこともありました。とても正常とは言いがたい状態でした。
$ iostat -xM blkdev0 1
                 extended device statistics
device     r/s    w/s   Mr/s   Mw/s wait actv  svc_t  %w  %b
blkdev0    3.0   19.0    0.1    2.1  0.0 42.1 1916.8   0 100
                 extended device statistics
device     r/s    w/s   Mr/s   Mw/s wait actv  svc_t  %w  %b
blkdev0    0.0   21.0    0.0    2.0  0.0 38.7 1842.5   0 100
                 extended device statistics
device     r/s    w/s   Mr/s   Mw/s wait actv  svc_t  %w  %b
blkdev0    0.0   19.0    0.0    2.0  0.0 33.1 1742.2   0 100
                 extended device statistics
device     r/s    w/s   Mr/s   Mw/s wait actv  svc_t  %w  %b
blkdev0    0.0   15.0    0.0    1.9  0.0 32.6 2173.8   0 100
                 extended device statistics
device     r/s    w/s   Mr/s   Mw/s wait actv  svc_t  %w  %b
blkdev0    4.0   21.0    0.4    2.4  0.0 36.9 1473.2   0 407
                 extended device statistics
device     r/s    w/s   Mr/s   Mw/s wait actv  svc_t  %w  %b
blkdev0    0.0   24.0    0.0    2.0  0.0 32.9 1372.6   0 100
                 extended device statistics
device     r/s    w/s   Mr/s   Mw/s wait actv  svc_t  %w  %b
blkdev0    0.0   19.0    0.0    2.0  0.0 41.1 2161.2   0 100
                 extended device statistics
device     r/s    w/s   Mr/s   Mw/s wait actv  svc_t  %w  %b
blkdev0    0.0   16.0    0.0    2.0  0.0 43.3 2708.1   0 100
                 extended device statistics
device     r/s    w/s   Mr/s   Mw/s wait actv  svc_t  %w  %b
blkdev0    0.0   11.0    0.0    1.4  0.0 44.2 4016.5   0 100
                 extended device statistics
device     r/s    w/s   Mr/s   Mw/s wait actv  svc_t  %w  %b
blkdev0    5.0   15.0    0.4    1.1  0.0 69.5 3475.5   0 458
zpool statusを見たところ、SSDからエラーはまったく検出されていませんでした。これでは自動的にL2ARCから切り離されることは期待できません。

SMARTを見たところ、Critical Warningが8になっていました。NVMeの仕様書によると「The media has been placed in read only mode.」とのことです。SSDは書き換え回数が上限に達するとread only modeに入るように設計されているので、寿命を迎えたようです。read onlyなのにiostatを見ると書けているのが謎ではありますが。

ちなみに、Percentage Usedは105%で、書き込んだ容量は1.06PBでした。メーカー保障が127TBであることを考えると大健闘です。使い始めたのが去年の3月3日だったので、1年と6日の寿命でした。

[2017/3/10 0:20 修正]
Critical Warningの8の意味を「Volatile memory backup device has failed.」としていましたが、正しくは「The media has been placed in read only mode.」でした。キャパシタの異常ではなく本当に寿命だったので、それに合わせて本文を修正しました。

2016年12月31日土曜日

Intel SSD 750の耐久テスト(その2)

このエントリーをはてなブックマークに追加
ftp.jaist.ac.jpでは、Intel SSD 750 1.2TBをZFSのL2ARCとして使用しています。前回に今年のクリスマスに寿命が尽きると予想しましたが、さいわいなことに外れました。以下に、書き込み量とPercentage Usedの推移をプロットしたものを示します。
今日の時点で、書き込んだ量は849TBでPercentage Usedは88%です。夏を境に書き込み量が減ったため、寿命の減り方が遅くなりました。この調子ですと寿命が尽きるのは3月半ば、1年持ちそうですね。

書き込み量が減ったのは、sourceforge.netのトラフィックが減ったからです。7月の第一週は6.7TB/日あったのが、9月の第一週には3.2TB/日と半分以下になりました。台湾のミラーが復活して、アクセスが分散されるようになったからだと思います。

L2ARCは、ARCからこぼれそうになったデータをSSDに書き込む仕掛けになっています。いろんなファイルにアクセスのあるsourceforge.netの流量が減ると、キャッシュからデータがこぼれにくくなり、書き込み量が減ることになります。


2016年7月31日日曜日

Intel SSD 750の耐久テスト

このエントリーをはてなブックマークに追加
ftp.jaist.ac.jpでは、Intel SSD 750 1.2TBをZFSのL2ARCとして使用しています。このSSDの寿命が今日で残り半分になりました。NVMeのSSDの寿命は、SMARTのPercentage Usedという項目でわかります。この値が今日50%に達しました。
このグラフは書き込み量とPercentage Usedの推移をプロットしたものです。今日までにSSDに書き込んだ量は509.6TBです。Intel SSD 750で保障されている総書き込み量は127TBですが、ずっと多く書けています。

書き込み量とPercentage Usedは比例しているので、Percentage Usedが100%に達するまでには1PB以上書けそうです。実際には100%を超えても書けるはずなので、運用に支障をきたさない範囲で利用を続けるつもりです。

SMARTの記録を取り始めたのが3月9日で、その日にPercentage Usedが1%になりました。Percentage Usedは運用日数に対してほぼ線形に増加しているので、今年のクリスマスには100%に到達します。運用を開始したのは3月3日でしたので、10か月ともたないことになります。

一日の書き込み量は3.4TBと、SSDの容量の3倍近くを書きこんでいます。こういう使い方をする場合は、コンシューマー向けの製品を使うべきではありません。それを承知の上で、ftp.jaist.ac.jpでは耐久テストを兼ねて使っているわけですが。

[2016-08-02] 書き込み量とPercentage Usedの推移を示すグラフを追加しました。

2016年3月5日土曜日

キャッシュのヒット率を改善しました

このエントリーをはてなブックマークに追加
サーバーを交換して以来、キャッシュのヒット率が低くストレージの負荷が高くなっていましたが、メモリを192GBから256GBに増量したことと、L2ARCをチューニングしたことにより、キャッシュのヒット率が上がりストレージの負荷を大幅に減らすことができました。