2016年2月25日木曜日

ようやくサーバーを交換したのですが

このエントリーをはてなブックマークに追加
前述したように、故障したHDDを抱えて性能が低下したストレージとSun Fire T2000の組み合わせを、iSCSIのストレージを接続した別のサーバーに切り替える作業を1月26日に行いました。サーバーのハードウェアは以前紹介したものです。OSは、性能とZFSの安定運用の観点からSolaris 11のx86版を選択しました。

これでftp.jaist.ac.jpの性能が改善するかと思いきや、iSCSIのストレージの性能が低くかったため逆に悪化してしまいました。ストレージの性能が低かったのは、諸般の事情でiSCSIのボリュームを束ねてRAID-Z2を組んでいたからです。RAID-Zはレイテンシの一番大きなデバイスに足を引っ張られるので、レイテンシのばらつきの大きい仮想化ストレージで組んではいけません。負荷テストをして大丈夫だったからとのことなのですが…

あわててL2ARCを導入したのですが、ヒット率が25%程度であまりストレージの負荷が下がりません。Solaris 10のころはL2ARCのヒット率は70%を超えていました。Solaris 11.3でL2ARCがpersistentになったのですが、その際に実装が大きく変わったらしく、ftp.jaist.ac.jpのワークロードに合わなくなったようです。

今度は、故障したHDDの入っていたSASエンクロージャーの中身を、あらかじめ購入してあった4TBのHDDに入れ替えて、こちらに移行を進めることになります。 一部のコンテンツをHDDに移動した段階でiSCSI側の負荷が下がって、2月4日からようやくまともな性能が出るようになりました。

それから22日夕方まではHDDとiSCSIの両方を使っていましたが、22日の夕方に最後に残ったsourceforgeを移動して、HDDのみの運用に入りました。sourceforgeを移動する前のHDDの負荷はピーク時で30%程度でしたが、移動後には60%程度に上がっています。今後は、キャッシュを増強して負荷を下げていく予定です。

1 件のコメント:

  1. 旧サーバ時代は、ARCヒット率が約91%、L2ARCヒット率は約75%、なので、トータルのミス率は9%*25%=2.25%。一方で新しくなってからは、ARCヒット率が約97%、L2ARCヒット率は約25%、なので、トータルのミス率は3%*75%=2.25%。

    実はほぼ同じぐらいなんですよね。というわけで、もしかしたらL2ARCアルゴリズムの変更の影響は無くて、単にもともとのワークロード的にこれが限界だったという可能性もあります。今後、チューニングを進めていきたいと思います。

    ちなみに、ARCヒット率が向上したことや、CPU的には余裕綽々になったことにより、瞬間最大スループットは大幅に向上しています。太い回線をお持ちの方は、ご体験ください。:)

    返信削除