четверг, 24 октября 2013 г.

О надёжности рейдов

Неожиданно обнаружилось, что в блоге нет очень важной заметки про надёжность RAID разных уровней.

http://blog.aboutnetapp.ru/archives/975

"RAID-5 на 7 дисках данных (7d+1p) почти в четыре тысяч раз менее надежен, чем RAID-6, на тех же 7 дисках данных (7d+2p)!"

Почему RAID-5 — «mustdie»?

Почему RAID5 — «must have»?
Но тут следует читать скорее как "почему raid-6 лучше чем raid-10", помня про оочень долгое время перестроения у raid-5 и существенное снижение производительности, в отличии от той же 10, где надо отзеркалировать только 1 диск, вообще без вычислений, и существенный рост нагрузки на оставшиеся диски, с шансом "добить" еще диск и гарантированно потерять весь массив.
Ну и про write hole помним.

1 комментарий:

  1. Вот еще статья на ту же тему: http://true-system.blogspot.ru/2013/04/mtbf-afr-uer-raid.html
    Или один из первоисточников от Hitachi, на который ссылается автор первой статьи на Хабре: http://maillist.ru/archives/26691/1130852/3945955_pdf
    Автор статьи Почему RAID5 — «must have», хоть и вспоминает про BER, но в итоге пытается сравнить теплое с мягким.
    Вот best practice вкратце:
    Не использовать RAID-5 на больших дисках (например, из-за BER получаем вероятность потери данных при ребилде группы 8x3ТБ порядка 16%, а для десктопных дисков на группах больше 12 приближается к единице).
    Не использовать длинные группы в RAID-6, а делать RAID-60 из подгрупп по 8-12 дисков, не больше.
    Математика очень простая: после вылета диска из RAID-5 начинается ребилд (чтение со всех дисков, генерация новых парити), во время которого мы можем словить тот самый Bit Error и получить битые данные (к нам регулярно обращаются несчастные пользователи RAID-5 с вопросом "а что это за сообщение про bad stripe от контроллера?"), и это помимо повышения вероятности отказа других дисков из-за повышенной нагрузки. В RAID-6 после вылета одного диска мы уже не боимся BER, а боимся только полного вылета второго диска в сочетании с последующим BE - итоговая вероятность остается на уровне сотых долей процента для Nearline дисков и небольших RAID-групп, но в худших случаях (для десктопных HDD, групп по 12-16-24 диска и высокого после пары лет работы AFR) - уже порядка 1-2%.

    ОтветитьУдалить