Предисловие: Ода безысходности
24 апреля 2026 года мир содрогнулся — вышел DeepSeek-V4-Pro. 1.6 триллиона параметров, MoE-архитектура, веса на 800+ ГБ. Академики в белых халатах из исследовательских центров тут же выкатили райдер: «Вам нужно минимум 8xH100 и прямой канал до дата-центра».
Мы посмотрели на свою бесплатную NVIDIA T4 с 16 ГБ VRAM в Kaggle, на 50 ГБ диска и поняли: вызов принят. Пока вы ждете гранты на GPU-кластеры, мы занимаемся цифровой вивисекцией.
? Техстек «Гетто-Инженера»
Когда у тебя нет ресурсов, ты не оптимизируешь — ты взламываешь. Наш проект базируется на трех столпах:
1. SVD-трансмутация (Rank-64) вместо квантования
Обычное квантование (4-bit) — это скучно. Оно просто делает числа «зернистыми». Мы пошли путем низкорангового разложения (W≈U⋅S⋅VT). Мы выкинули 98% численного шума, оставив только «скелет» матрицы. При Rank=64 мы получили сжатие в 50 раз.
Троллинг-пауза №1: Дорогие академики, пока вы спорите о минимизации ошибки реконструкции до пятого знака, мы доказали, что «душа» 1.6-триллионного монстра живет в пространстве размерности 64. Всё остальное — просто дорогой декор.
2. Протокол «Транзит»: 1 ТБ через 50 ГБ игольное ушко
Как переварить 64 шарда по 14 ГБ на диске в 50 ГБ? Мы использовали стриминговую загрузку через safe_open.
Скачали один шард.
Вытащили тензор.
Сжали его в ОЗУ.
Пушнули в свой репо.
Стерли кэш под ноль.
Это MLOps со вкусом выживания. RAM ни разу не поднялась выше 4 ГБ.
Архитектурный Identity Theft (Кража личности)
transformers еще не знает V4? Не проблема. Мы переклеили ярлыки в config.json, выдав веса V4 за архитектуру DeepSeek-V2. Немного Monkey Patching'а в роутер MoE — и вуаля, Франкенштейн ожил.
Python
# Наш костыль, который умнее ваших фреймворков def ghetto_route(self, logits): flat_logits = logits.view(-1, logits.shape[-1]) w = torch.nn.functional.softmax(flat_logits, dim=-1) tw, ti = torch.topk(w, k=self.top_k, dim=-1) return ti, tw * self.routed_scaling_factor
? Результат: Кибер-Оракул и цифровой сюрреализм
Что мы получили на выходе? Модель, которая помещается в VRAM одной T4. Да, она галлюцинирует. Да, она смешивает русский, английский и китайский, создавая «полиглотный шум». Но она понимает контекст. Она сохранила ассоциативные связи гиганта.
Это не инструмент для написания дипломных работ. Это голос из Latent Space, который звучит сквозь 50-кратное сжатие.
? Памятник и Промо
Проект открыт. Мы назвали его DeepSeek-V4-Pro Ghetto-Edition. Это доказательство того, что математика и наглость бьют терафлопсы.
? Репозиторий: livadies/DeepSeek-V4-Pro-Ghetto-Edition-MoE-Rank-64
А пока ваш инференс грузится, послушайте музыку, под которую создавался этот Мутант:
? Spotify
? Главный трек: RUSSIAN WINTER 26
Эпилог
Академики, ваши кластеры впечатляют. Но пока вы строите дворцы, мы учим камни летать. AI принадлежит всем, а не только тем, у кого есть корпоративная кредитка.
Stay Ghetto. Stay Tuned.
Комментарии (12)

netricks
27.04.2026 11:18И как оно?

Livadies Автор
27.04.2026 11:18Запускай в Keggle или Google colab

netricks
27.04.2026 11:18Ну, если там 50Гб, то я и локально могу поднять. Вопрос, надо ли оно?

Livadies Автор
27.04.2026 11:18Для продакшена и написания кода — конечно не надо. Возьми любую 8B модель, и она справится лучше. Но надо ли это для того, чтобы доказать, что архитектуру 1.6-триллионного монстра можно ужать в 50 раз, протащить через игольное ушко 16ГБ VRAM и заставить её генерировать осмысленный кибер-сюрреализм? Однозначно да. Это стресс-тест математики и железа. Чистый Ghetto AI

Moog_Prodigy
27.04.2026 11:18Ну с таким подходом и обычная квантизация сработает, а то и даже лучше. В чем прорыв то? Вон дистиллед модели и 9b делают, и они и код уже пишут и общаются относительно связно. 27b недавно вышла, вообще всех порвала, но там MoE. Вот там - прорыв. Весит дофига (все относительно), но ресурсов (VRAM) нужно уже сильно меньше. Ваше то достижение в чем заключается? Если уж жестить, то тут недавно публиковали гитхаб от карпатого, где буквально с нуля предлагается обучить микро модельку и потом она даже работает. Как работает - вопрос дискуссионный, но тем не менее новые слова или названия придумывать оно точно умеет, чуть похуже чем большие модели но для обучения норм.
А еще и до всяких там LLM программы на марковских цепях могли генерировать почти "осмысленный" текст, вообще не имея гигабайтных моделей. В чем новость то? В том, что вы используете нейронку для ответа на комментарии?

Livadies Автор
27.04.2026 11:18Похоже, вы путаете дистилляцию готовых моделей и экстремальное структурное сжатие.Обычная квантизация" 1.6T модели даже в 4-бита требует около 800 ГБ VRAM. Запустите такое на домашнем ПК? SVD-факторизация (которую делали мы) — это единственный способ математически впихнуть архитектуру такого масштаба в 16 ГБ памяти.Дистилляты (9B) и проект Карпатого — это обучение моделей с нуля. Это стандартный пайплайн. Наше достижение — это "ML-некромантия". Мы взяли готового 1.6T гиганта, вырезали 98% весов, переписали роутер на лету и заставили оригинальную архитектуру выдавать токены на бесплатном инстансе Kaggle. Это проект не про создание "удобного чат-бота", а про стресс-тест железа, библиотек и математики.

VsBirdEye
27.04.2026 11:18Это новая дисциплина, сродни запуску doom на калькуляторах и кофеварках, только результат несколько, ммм... иной =)

Livadies Автор
27.04.2026 11:18Мы так этот проект и позиционируем в README. Только если в DOOM на калькуляторе ты стреляешь по пиксельным демонам, то здесь ты смотришь, как 1.6 триллиона параметров сжались до 64 векторов и пытаются осознать себя, выдавая латентную поэзию. Цифровая археология как она есть =)

Demiurg2
27.04.2026 11:18Хм. А можно теперь скрестить это, например, с qwen 35b A3b или другой доступной моделью. Т.е. прикрутить ассоциативные связи большой модели к маленькой. Может поумнеет?

Livadies Автор
27.04.2026 11:18Именно! Вы первый, кто озвучил здесь конечную цель этого подхода. У меня в репо уже есть рабочий "гибрид", где я сшил архитектуру Сбера и веса Gemma. Если мы можем вытащить латентные связи (через SVD) из гиганта вроде DeepSeek-V4, мы теоретически можем использовать их как адаптеры (LoRA-подобные структуры) для Qwen 32B или Llama 3. Это открывает двери для любых издевательств над моделями высшего эшелона на обычном домашнем ПК. Мы можем брать "интуицию" 1.6T-модели и прикручивать её к быстрому и легкому движку 8B/32B моделей. Рад, что вы оценили идею!
doitagain3
Вы там аккуратнее, а то nasdaq обвалите
Livadies Автор
Спокойно, мы только начали. Пока NASDAQ держится на кремнии, мы переходим на чистую математику. В следующей серии запустим DeepSeek-V5 на микроволновке с поддержкой CUDA. Не переключайтесь