Я занимаюсь технической поддержкой и сопровождением в компании «Онланта». Сегодня в блоге ЛАНИТ я расскажу о решении реального кейса по замене ОЗУ (оперативной памяти) в СХД Huawei.
Согласно рекомендациям и техническим руководствам вендоров, когда в контроллере возникают неисправности, рекомендуется выполнять его замену, оставляя без изменений установленные внутри компоненты. Такой подход помогает минимизировать время простоя оборудования, а также снизить риски некорректной диагностики.
Однако на практике при детальной диагностике зачастую можно выявить конкретный неисправный компонент — например, модуль оперативной памяти (ОЗУ) — и заменить только его. Это позволяет значительно сократить затраты по сравнению с заменой всего контроллера, стоимость которого может быть в разы выше стоимости отдельных комплектующих.

Преимущества замены ОЗУ
Снижение стоимости ремонта. Модуль ОЗУ стоит значительно дешевле, чем замена контроллера.
Доступность компонентов. Современные модули ОЗУ — стандартизированные компоненты, которые легко приобрести и заменить даже в условиях ограниченного доступа к оригинальным запчастям от вендора.
Сокращение времени простоя. Диагностика и замена одного модуля памяти занимает меньше времени, чем оформление заказа, доставка и установка нового контроллера.
Таким образом, хотя вендоры рекомендуют заменить контроллер для обеспечения надежности, при диагностике замена только неисправного модуля ОЗУ — экономически и технически оправданная альтернатива. Именно она позволяет снизить затраты без рисков для стабильности работы системы.
Затронутые линейки оборудования
СХД Dorado, все модели OceanStor.
Ошибки, симптоматика
Проблема с ОЗУ может быть причиной как постоянных перезагрузок контроллера, так и разовой перезагрузки. На примере ниже контроллер постоянно перезагружался для восстановления.

При этом в event-логе не фиксировались сообщения о проблеме с ОЗУ, появлялись лишь сообщения о ремонте контроллера.

При детальном анализе логов с проблемного контроллера можно обнаружить большое количество ошибок по ОЗУ подобного вида.

Проблема с постоянной перезагрузкой контроллера была решена заменой проблемной памяти.
В некоторых случаях в event-логе может появиться сообщение об ошибках (без перезагрузки контроллера) на какой-либо планке памяти подобного вида:
58828809 2025-08-07 14:05:21 0xF00ED000E Fault Warning Unrecovered None A correctable error occurred on memory (controller enclosure CTE1, controller A, controller BOM 03059103, controller SN 210305910310M3000174, slot DIMM130).
Особенности, замечания
В контроллерах для одинаковой модели характеристики ОЗУ могут различаться как частотами, так и ранками. Важно проверять характеристики на затронутом контроллере.
Для детальной диагностики потребуются полные логи (нажать

> Export Data > в области System Log > выбрать All logs).

Замена модуля памяти: инструкция
1. Подключиться к сервис порту патчкордом: он отмечен значком


2. Добавить массив в установленный SmartKit, нажать на Devices -> Add.

3. После успешного добавления массива в SmartKit перейти в раздел Parts Replacement, выбрать устройство, затем — замену затронутого контроллера. В примере ниже неисправных компонентов нет, снята галочка с пункта Show faulty parts only, поэтому отображаются все контроллеры.

4. Выбрать нужный компонент для замены и согласиться со всеми пунктами, пока у вас не будет активна кнопка Replaced. Нажимать ее следует только после проведения замены.
5. Когда кнопка стала а��тивна, нужно немного извлечь контроллер для его отключения.
6. Затем необходимо извлечь кабели (подписать расположение), а также установленные модули, нажав на кнопку (1) и потянув на себя.

7. Полностью извлечь контроллер, открыв защелки на рычагах с обеих сторон контроллера и тянуть рычаги на себя, чтобы извлечь контроллер.

8. Снять крышку и выполнить замену проблемного модуля памяти, предварительно сверив нумерацию.


Расположение модулей памяти:

9. Установить контроллер, открыв рычаги, вставить контроллер как можно дальше.

10. Установить модули, подключить кабели.

11. Нажать на рычаги и вставлять контроллер, пока он полностью не войдет в слот (I/O модули должны быть установлены, на примере отсутствуют).

12. После установки нажать Replaced. Далее необходимо будет подождать, пока контроллер включится и пройдет проверку. Если все было сделано правильно, то в Device Manager появится исправный контроллер.
Таким образом, при точной диагностике и следовании указанным выше этапам заменить проблемную планку памяти не составит труда, а стоимость и время закупки будут значительно сокращены.