Эксперты: количество отказов серверов не увеличивается при повышении температуры

При повышении температуры не увеличивается количество отказов серверов

Исследователи из Университета Торонто проанализировали данные по отказам IT-оборудования в дата-центрах компании Google, национальной лаборатории в Лос-Аламосе и канадского консорциума SciNet HPC. «Изучив данные, собранные в более чем двенадцати дата-центрах трех разных организаций, мы обнаружили, что влияние высоких температур, при которых работает оборудование ЦОД, на надежность работы систем меньше, чем это обычно предполагается, — пишут авторы в своей статье. — Для некоторых изученных нами проблем, а именно: для отказов компонентов оперативной памяти DRAM и приостановок работы серверных узлов, мы не обнаружили никаких свидетельств корреляции с периодами повышения рабочих температур».

В тех же случаях, когда корреляция наблюдалась (ошибки и отказы дисков), она была гораздо меньше, чем ожидалось. При температурах до 50°C количество ошибок росло с ростом температуры линейно, а не экспоненциально, как это предполагается в существующих моделях.

Результаты исследования важны для тех операторов вычислительных площадок, которые хотели бы снизить энергопотребление своих систем охлаждения и перейти к более широкому использованию решений для охлаждения наружного воздуха (fresh air cooling). В большинстве дата-центров для охлаждения оборудования подается воздух с температурами в 20-22°C, а в некоторых эта температура доходит до 13°C. По некоторым оценкам, увеличение этой базовой температуры приводит к экономии 4% электроэнергии в расчете на каждый градус. Такие компании, как Google, Microsoft и Intel, уже повысили эту температуру до 27°C, но опросы показывают, что лишь немногие крупные компании следуют этому примеру.

Есть несколько причин такой осторожности. Прежде всего, изменять настройки термостатов могут себе позволить только операторы, имеющие детальное представление о температурах, при которых функционируют их IT-инфраструктуры. Кроме того, необходимо перенастраивать кулеры оборудования — при повышении базовой температуры они начинают работать более интенсивно, что сводит на нет возможные результаты.

Исследование также показало, что в значительно большей степени отказоустойчивость оборудования страдает от резких изменений рабочих температур.

Источник: ServerNews.ru

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *