Я занимаюсь технической поддержкой и сопровождением в компании «Онланта». Сегодня в блоге ЛАНИТ я расскажу о решении реального кейса по замене ОЗУ (оперативной памяти) в СХД Huawei.    

Согласно рекомендациям и техническим руководствам вендоров, когда в контроллере возникают неисправности, рекомендуется выполнять его замену, оставляя без изменений установленные внутри компоненты. Такой подход помогает минимизировать время простоя оборудования, а также снизить риски некорректной диагностики.

Однако на практике при детальной диагностике зачастую можно выявить конкретный неисправный компонент — например, модуль оперативной памяти (ОЗУ) — и заменить только его. Это позволяет значительно сократить затраты по сравнению с заменой всего контроллера, стоимость которого может быть в разы выше стоимости отдельных комплектующих.

Преимущества замены ОЗУ

Снижение стоимости ремонта. Модуль ОЗУ стоит значительно дешевле, чем замена контроллера.

Доступность компонентов. Современные модули ОЗУ — стандартизированные компоненты, которые легко приобрести и заменить даже в условиях ограниченного доступа к оригинальным запчастям от вендора.

Сокращение времени простоя. Диагностика и замена одного модуля памяти занимает меньше времени, чем оформление заказа, доставка и установка нового контроллера.

Таким образом, хотя вендоры рекомендуют заменить контроллер для обеспечения надежности, при диагностике замена только неисправного модуля ОЗУ — экономически и технически оправданная альтернатива. Именно она позволяет снизить затраты без рисков для стабильности работы системы.

Затронутые линейки оборудования

СХД Dorado, все модели OceanStor.

Ошибки, симптоматика

Проблема с ОЗУ может быть причиной как постоянных перезагрузок контроллера, так и разовой перезагрузки. На примере ниже контроллер постоянно перезагружался для восстановления.

При этом в event-логе не фиксировались сообщения о проблеме с ОЗУ, появлялись лишь сообщения о ремонте контроллера.

При детальном анализе логов с проблемного контроллера можно обнаружить большое количество ошибок по ОЗУ подобного вида.

Проблема с постоянной перезагрузкой контроллера была решена заменой проблемной памяти.

В некоторых случаях в event-логе может появиться сообщение об ошибках (без перезагрузки контроллера) на какой-либо планке памяти подобного вида:

58828809    2025-08-07 14:05:21    0xF00ED000E    Fault    Warning    Unrecovered    None    A correctable error occurred on memory (controller enclosure CTE1, controller A, controller BOM 03059103, controller SN 210305910310M3000174, slot DIMM130).

Особенности, замечания

В контроллерах для одинаковой модели характеристики ОЗУ могут различаться как частотами, так и ранками. Важно проверять характеристики на затронутом контроллере. 

Для детальной диагностики потребуются полные логи (нажать

  > Export Data > в области System Log > выбрать All logs).

Замена модуля памяти: инструкция

1. Подключиться к сервис порту патчкордом: он отмечен значком 

 Dorado 5000/6000 V6
 Dorado 5000/6000 V6

2. Добавить массив в установленный SmartKit, нажать на Devices -> Add.

3. После успешного добавления массива в SmartKit перейти в раздел Parts Replacement, выбрать устройство, затем — замену затронутого контроллера. В примере ниже неисправных компонентов нет, снята галочка с пункта Show faulty parts only, поэтому отображаются все контроллеры.

4. Выбрать нужный компонент для замены и согласиться со всеми пунктами, пока у вас не будет активна кнопка Replaced. Нажимать ее следует только после проведения замены.

5. Когда кнопка стала а��тивна, нужно немного извлечь контроллер для его отключения.

6. Затем необходимо извлечь кабели (подписать расположение), а также установленные модули, нажав на кнопку (1) и потянув на себя.


7. Полностью извлечь контроллер, открыв защелки на рычагах с обеих сторон контроллера и тянуть рычаги на себя, чтобы извлечь контроллер.

8. Снять крышку и выполнить замену проблемного модуля памяти, предварительно сверив нумерацию.

Расположение модулей памяти:

9. Установить контроллер, открыв рычаги, вставить контроллер как можно дальше.

10. Установить модули, подключить кабели.

11. Нажать на рычаги и вставлять контроллер, пока он полностью не войдет в слот (I/O модули должны быть установлены, на примере отсутствуют).

12. После установки нажать Replaced. Далее необходимо будет подождать, пока контроллер включится и пройдет проверку. Если все было сделано правильно, то в Device Manager появится исправный контроллер.

Таким образом, при точной диагностике и следовании указанным выше этапам заменить проблемную планку памяти не составит труда, а стоимость и время закупки будут значительно сокращены.

Комментарии (0)