среда, 2 января 2013 г.

Особенности хостинга в облаке selectel

К сожалению, их облако имеет довольно серьезные баги, приводящие к зависанию машин. А их оправдания "это баги линукса" выглядят нелепо, учитывая что те же дистрибутивы на реальном железе и всяких вдс работают годами без зависаний, а чуть загрузишь их машины и они виснут... Как будто они специально их портят, чтобы сваливать всё на "баги линукса", тем более что при этом проц ест на 100% и им дополнительный профит, а без АПИ даже автоматическую перезагрузку не сделать. Поэтому ВСЕГДА используйте системы мониторинга типа той же яндекс.метрики, ибо оно любит падать.

Пример:
3 сервера на дебиане, разом упали.

selectel: Здравствуйте. Ваша машина 123 зависла, на консоль выводила трейс ядра. Машина перезапущена с помощью принудительного выключения (операция доступна на вкладке «Управление» по ссылке «Опасные операции») с последующим включением.
Сбоев в работе облачной инфраструктуры, на которой был запущен этот сервер, зафиксировано не было. Подобные дедлоки возникают из-за ошибок в коде выполняющихся внутри виртуальной машины программ, ядра операционной системы или его модулей.

мы: Судя по тому, что легли все сервера, сбой таки был.
И потом, там дебиан, а он на пустом месте не падет никогда, что подтверждает, что проблемы с вашей стороны были.

selectel: сбои в инфраструктуре никогда не вызвают последствий, описанных в Вашем вопросе выше - при наличии внешнего сбоя либо становится недоступным диск машины, либо перезагружается весь сервер.
Трассировка, вызванная работой сервера является нормальным явлением, вызванным ошибкой в коде или недостатком ресурсов и проявляется аналогичным и на физических серверах.

---
При этом баги такого рода встречались _исключительно_ у них. Что на фоне их более чем адекватного саппорта вызывает недоумение, зачем они используют эти детские отмазки и почему машины могут работать месяцами, но стоит подать на них нагрузку, и они падают в течении суток-двух, а потом и под нагрузкой работают по несколько недель.

5 комментариев:

  1. Выбрал их VPS хостинг исключительно из-за декларированной возможности монтировать облачное хранилище папкой через fuse и использовать для раздачи статики. Так как статики у меня под террабайт (фотобанк), выглядело неплохо. Однако хранилище виснет регулярно, причем mount показывает, что все нормально, а при обращении к папке виснет весь шелл и соответственно наскоро написанный скрипт проверки доступности ресурса, который должен был автоматически перемонтировать хранилище в случае чего ... Аналогичные проблемы, если верить google, у других клиентов Selectel. Короче, сырое это облако, сырое. Да и вообще подход к его запуску довольно странный: ни внятного ресурса, где могли бы разбираться детали настройки и решения проблем, даже модуль fuse в их debiane, который можно автоматом развернуть на новом vps, отсутствует, хотя именно эту функцию они рекомендуют использовать ... Такое впечатление, что исполнители вообще не заинтересованы в стабильной работе сервиса, если не сказать саботируют ее.

    ОтветитьУдалить
    Ответы
    1. Мдуль fuse не имеет никакого отношения к селектелу, это просто один из возможных способов использования хранилища (причем не самый лучший). Вам надо было использовать загрузку файлов в хранилище через API или supload, а раздачу напрямую из него с помощью привязки поддомена к контейнеру.

      И покажите где это селектел рекламировал такой способ использования хранилища?

      Удалить
  2. Вам все правильно написали, подумайте хорошенько как устроена виртуализация. И расскажите как мог сбой на хост сервере или еще где-то вызвать kernel panic ВНУТРИ виртуальной машины? Причем только одной вашей ВМ.
    Если по сути, попробуйте добавить swap для увеличения виртуального адресного пространства, а также увеличить объем поддерживаемой свободной памяти в настройках ВМ. Это актуально для нагруженных ВМ, в которых часто происходят скачки потребления памяти.

    ОтветитьУдалить
    Ответы
    1. Упс, не заметил про три сервера сразу. Вероятно, на все три резко увеличилась нагрузка, и мог не успеть отработать modd. Или если они все используют одинаковый софт, мог проявиться какой-то редкий баг. Стоит подробно изучить трейс, может даже написать в рассылку xen-users

      Удалить
    2. Конечному юзеру не важно, что там происходит внутри и что вообще в основе, будь то KVM, xen, hyper-v.. ему нужно, чтобы его машины работали. А обеспечить эту работу, отловить этот баг и отрепостить в тот же xen-users именно задача хостера, юзер ему за это и платит. Тем более, дебиан у вас был в списке рекомендованных. А даже если у вас такого нет - нет пометки "глючный, использование на свой страх и риск". Да и с центосью было не всё гладко.

      И у юзера возникает вопрос, почему на реальном железе эти дистрибутивы работают хорошо, а тут такое. Значит проблема не в самом линуксе, а в системе виртуализации, а эта область целиком и полностью ответственность хостера и при проблемах он должен не отмахиваться, а пытаться понять что произошло и что сделать, чтобы такого не происходило.

      Падали машины кстати не сразу, а спустя некоторое не такое и малое время, сутки-двое это не 30 секунд.

      Удалить