Почти тридцать лет назад, когда Google только выходил на свою победную тропу, у её основателей почти не было железа.

Компания, сначала известная как Backrub и работающая на кампусе Стэнфорда, держала свой первый экспериментальный сервер в коробе из кубиков Duplo — это такие «лего для великанов». Сервер вмещал 40 гигабайт данных. Позже, благодаря пожертвованиям от IBM и Intel, удалось перейти на скромную серверную стойку. А в 2025 году весь поиск Google уже невозможно уместить даже в одном дата‑центре — и так давно.

И всё же, если включить смекалку и вложить немало труда, можно собрать нечто почти сравнимое с современным Google — на машине, по размеру близкой к тому самому первому серверу. И даже разместить её… в собственной прачечной.

Делегируйте рутинные задачи вместе с BotHub! По ссылке вы можете получить 100 000 бесплатных капсов и приступить к работе с нейросетями прямо сейчас.


Именно туда Райан Пирс и определил свой новый поисковик — бодрый Searcha Page, у которого есть и версия, делающая ставку на приватность, — Seek Ninja. Зайдёте на эти сайты — и окажетесь на сервере, стоящем буквально рядом с его стиралкой и сушилкой. По результатам поиска, впрочем, этого не скажешь.

«Сейчас у меня в прачечной памяти больше, чем у Google в 2000 году, — говорит Пирс. — И это просто крышесносно».

Самодельный поисковик Пирса почти не использует облако. Верхняя машина собрана из старых серверных деталей и охлаждается кустарным вентилятором, выдувающим тепло. Нижний компьютер добавляет системе немного стабильности
Самодельный поисковик Пирса почти не использует облако. Верхняя машина собрана из старых серверных деталей и охлаждается кустарным вентилятором, выдувающим тепло. Нижний компьютер добавляет системе немного стабильности

Почему именно прачечная? Причины две: жара и шум. Сначала сервер стоял в спальне Пирса, но грелся так сильно, что спать там стало невозможно. У него отдельная спальня от жены — из‑за проблем со сном, — и её настойчивые советы заставили его признать: пора перебираться. Так сервер оказался в кладовке: Пирс просверлил стену под сетевой кабель, и теперь, между циклами стирки, именно там живут его поисковики. «Жара несмертельная, но если дверь долго держать закрытой, начинается беда», — признаётся он.

Кроме лёгкой задержки в выдаче (и то за последние недели ситуация заметно улучшилась), трудно найти, в чём его система отстаёт. Результаты часто оказываются лучше ожидаемых. Всё потому, что Searcha Page и Seek Ninja работают на базе колоссальной базы данных — 2 миллиарда документов. «Думаю, через полгода будет уже 4 миллиарда», — говорит он.

Для сравнения: оригинальный Google, пока оставался в Стэнфорде, имел 24 миллиона страниц в базе в 1998-м и 400 миллиардов к 2020-му — это стало известно в 2023 году, во время антимонопольного процесса United States v. Google LLC.

По нынешним меркам Google 2 миллиарда страниц — капля в море. Но капля эта весьма внушительная.

Не такой уж секретный ингредиент: ИИ

Масштабы, на которых работает Пирс, поражают воображение — особенно если учесть, что всё это крутится на фактически списанном серверном железе. А секрет успеха прост: большие языковые модели.

«По сути, я делаю очень традиционный поиск, — говорит Пирс. — То, что Google делал лет двадцать назад. Единственная фишка в том, что я использую ИИ для расширения ключевых слов и для понимания контекста. А вот это — самая сложная часть».

Поисковики Пирса отличает минималистичный дизайн — и жажда честной обратной связи от пользователей
Поисковики Пирса отличает минималистичный дизайн — и жажда честной обратной связи от пользователей

ИИ давно встроен в ДНК поисковых систем. Без него, например, невозможен обратный поиск по картинкам. Задолго до того, как мы узнали про клей на пицце, Google уже внедрял искусственный интеллект в работу поиска — пусть и более тонкими способами, например добавив RankBrain около десяти лет назад. А в 2019-м топ‑менеджеры Microsoft на конференции по маркетингу поиска признались: 90% выдачи Bing формируется машинным обучением — задолго до появления чата в интерфейсе поисковика.

И теперь становится ясно: ИИ — это великолепный инструмент для того, чтобы построить и масштабировать поисковик, даже если за проектом стоит всего один человек.

Масштабирование «по‑дешёвке»

Во многом Пирс опирается на идею, которая в последние годы набрала особую популярность, — самохостинг. Многие энтузиасты ограничиваются мини‑ПК или Raspberry Pi. Но если замахнулся построить собственного «гугла», то мощности, умещающейся в ладонь, явно не хватит.

Любопытство к тому, каково это — собрать свой поисковик, не давало Пирсу покоя. И вот недавно он решился: скупил партию старого серверного железа, достаточно мощного, чтобы держать сотни параллельных сессий. Получилось даже мощнее, чем у Google на первых порах.

«Миниатюризация сделала это по‑настоящему доступным», — говорит он.

Здесь работает принцип, который можно назвать «арбитражем апгрейда»: сверхмощные, но устаревшие машины (особенно те, что предназначались для рабочих станций и серверов) резко падают в цене и становятся лакомым кусочком для охотников за выгодой. Многие IT‑отделы обновляют парк каждые три года, так что на рынке полно бывшего в употреблении железа. И если покупатель готов мириться с повышенным энергопотреблением, он получает массу вычислительной силы за копейки.

Процессор, на котором держится система, 32-ядерный AMD EPYC 7532, ярко показывает, как стремительно летит прогресс. В 2020-м за один этот чип просили свыше 3000 долларов. А сейчас на eBay его можно взять меньше чем за 200 — и Пирс ухватил ещё и тестовый экземпляр, сэкономив ещё больше.

«Я мог бы взять другой чип за те же деньги, у которого потоков вдвое больше, но он бы выжигал слишком много тепла», — объясняет Пирс.

Облачный поисковик Уилсона Лина работает на векторной базе данных и выводит краткие резюме каждого поста, написанные LLM, разной длины
Облачный поисковик Уилсона Лина работает на векторной базе данных и выводит краткие резюме каждого поста, написанные LLM, разной длины

Конечно, дёшевым такой проект не назвать: вся система обошлась в 5000 долларов, из которых около 3000 ушли на хранилище. Но это в десятки раз дешевле, чем если бы покупать то же самое новое (полтерабайта оперативки стоит недёшево). При этом, хотя кое‑что приходится держать «вне дома», сам поисковик крутится именно на этой коробке. Она больше хлебницы, но куда меньше облака.

Сегодня большинство разработчиков решают подобные задачи иначе. Например, амбициозный экспериментатор Уилсон Лин недавно написал в блоге о том, как строил собственный поисковик, но пошёл путём, противоположным Пирсу. Он создал свои технологии парсинга данных, чтобы снизить стоимость работы поисковика буквально до копеек, и при этом задействовал минимум девять разных облачных сервисов.

«Это выходит гораздо дешевле, чем Amazon Web Services, — и разница ощутимая, — говорит Лин. — К тому же такой мощности хватает, чтобы проект жил на вполне вменяемом бюджете».

Сблизиться с Google разработчику помогает LLM.

Догоняя с помощью LLM

Если нужно собрать массив данных без обильных внешних ресурсов, LLM становятся ключевым инструментом: они помогают и масштабироваться, и находить контекст.

Пирс, за плечами у которого и корпоративное ПО, и геймдев, не упустил шанс использовать возможности LLM. Интересно, что он строит поисковик буквально по кусочкам, собирая его из частей, характерных для традиционной поисковой модели. Сейчас его кодовая база насчитывает около 150 тысяч строк.

«И большая часть работы — это снова и снова переписывать, — говорит он. — Если вдуматься, я, наверное, перебрал уже строк 500 тысяч».

«LLM однозначно снизили планку входа, — говорит Лин о роли языковых моделей в DIY‑поисковиках. — На мой взгляд, единственный реальный барьер, чтобы конкурировать с Google и построить альтернативный поисковик, — это не технологии, а рыночные силы».

Seek Ninja, более приватный из двух поисковиков Пирса, не сохраняет ваш профиль и не использует геолокацию — отличный вариант для режима инкогнито
Seek Ninja, более приватный из двух поисковиков Пирса, не сохраняет ваш профиль и не использует геолокацию — отличный вариант для режима инкогнито

Сложность LLM такова, что это одно из немногих, что Пирс не может реализовать прямо у себя в прачечной. Searcha Page и Seek Ninja используют сервис SambaNova, который даёт быстрый доступ к модели Llama 3✶.

Энни Ши Векессер, директор по маркетингу SambaNova, отмечает: дешёвые модели становятся всё более важными для одиночек вроде Пирса. Компания, по её словам, «даёт разработчикам инструменты, чтобы запускать мощные ИИ‑модели быстро и недорого — будь то домашняя среда или полноценное продакшн‑развёртывание».

Есть у Пирса и то преимущество, которого у Сергея Брина и Ларри Пейджа тридцать лет назад не было: доступ к репозиторию Common Crawl. Эта открытая коллекция веб‑данных, важный (и спорный) двигатель генеративного ИИ, помогла ему построить собственного краулера. Правда, в какой‑то момент Common Crawl его даже заблокировал, когда он чересчур увлёкся экспериментами.

«Я им реально благодарен. Хотел бы что‑то вернуть, может, когда вырасту, — говорит он. — Это классная организация, и мне хочется меньше от неё зависеть».

Малый масштаб, большие амбиции

Были моменты, когда Пирсу приходилось слегка умерять аппетиты. К примеру, сперва он собирался строить поисковик на основе векторной базы данных, которая связывает близкие по смыслу элементы с помощью алгоритмов.

«Но это полностью провалилось, — признаётся он. — Наверное, дело в недостатке навыков. Поиск‑то работал, но… результаты были слишком артистичные, скажем так».

Векторный поиск, конечно, возможен. Именно его применяет поисковик Лина, построенный на собственном инструменте CoreNN. Результаты там выглядят совсем иначе, чем у Пирса: система использует LLM для краткого пересказа содержимого страницы и связи его с запросом, а не полагается на метаописания, как большинство сайтов.

«Когда я реально начал, понял, что всё куда глубже, — говорит Лин. — Это не один‑единственный модуль, где ты пишешь какой‑то кусок кода. Это куча областей сразу: и машинное обучение, и обработка естественного языка, и ещё вопрос — как построить приложение, чтобы оно было плавным и с минимальными задержками».

Searcha Page удивительно хорошо справляется с локальным поиском — например, помогает быстро найти ближайшие кафе или рестораны по вашей геолокации
Searcha Page удивительно хорошо справляется с локальным поиском — например, помогает быстро найти ближайшие кафе или рестораны по вашей геолокации

Есть и другой вариант: сосредоточиться на поиске по небольшим сайтам, как это делает некоммерческий проект Marginalia, который намеренно отдаёт предпочтение «малышам» против гигантов. Именно с такой идеи и начинал Пирс, и он надеется вернуться к ней, когда закрепит нынешний, более широкий подход.

Тем временем появляются запросы, которых он и вообразить не мог.

«Мне написал парень из Китая… Думаю, он хотел нецензурируемый поисковик, чтобы прогонять его через свою LLM — как поискового агента», — рассказывает Пирс.

Расширяться за пределы английского сейчас нереально: это и дополнительные расходы, и фактически необходимость собирать новые датасеты с нуля. Но сам факт интереса намекает, насколько мощна его затея. И, учитывая, где стоит сервер, Пирс буквально слышит её мощь.

Он понимает, что рано или поздно поисковик придётся вынести за пределы дома. Чтобы скопить на это, он уже пробует лёгкую аффилиат‑рекламу. «Если выйду за определённый порог трафика — буду размещаться у хостера, — говорит Пирс. — В прачечной он точно вечно стоять не будет».

Llama — проект компании Meta Platforms Inc., деятельность которой запрещена на территории Российской Федерации.

Комментарии (2)


  1. anonymous
    12.09.2025 20:19


  1. Geologist5330
    12.09.2025 20:19

    Я иногда пользуюсь нишевыми поисковиками (Marginalia, Kagi)

    Несколько месяцев как полностью перешел на Kagi и обратно в Google вообще не хочется ☺️