Когда я писал статью про китайских шагающих роботов, переносящих целый квартал, то обратил внимание на то, как сложно искать информацию по китайским компаниям. Понятно, что для внешних поисковых систем ссылки на китайские источники крайне ограничены, но внутренний поиск по тому же Baidu также выглядит скупым и как будто цензурированным. Позже мне попалась статья о массовом исчезновении китайских ссылок периода 1998-2005 года, что только укрепило желание покопаться в этом феномене поподробнее.

Итак, предыстория: китайский блоггер Хэ Цзяянь решил написать статью, посвященную Джеку Ма - опальному основателю Алибаба и Алипэй. Он задал временные рамки 1998-2005 годов и получил ровно один результат, и то отнесенный к этому периоду ошибочно. Изумленный (давайте использовать это слово) Хэ лезет в Google и получает чуть больше результатов, но все равно их катастрофически мало (важное уточнение: поиск идет по иероглифам 马云, тогда как английское написание дает кратно большую выдачу). Хэ Цзяянь пишет об этом целое эссе, которое исчезает через 20 часов. 

А был ли мальчик?

Если верить источниками, в 1998 г. в Китае существовало 2 миллиона пользователей, а к 2005 году это число выросло до 111 миллионов. Джек Ма в период 1998-2005 годов как раз активно строил свою империю, не сходил со страниц прессы и был своего рода ролевой моделью для начинающих бизнесменов. Короче говоря, о нем много писали внутри Китая. Кажется. Потому что электронных следов осталось мало.

Как пишет пользователь giovanni1313 в своем ЖЖ (да, есть некоторая ирония, в том, что анализ недоступности исторических данных в переводе на русский, ведется в сервисе, о котором давно забыли), сперва Хэ Цзяянь решил, что ссылки на Джека Ма были подчищены из-за его опальности. Но поиск руководителя «Tencent» Пони Ма (马化腾, однофамилец Джека Ма), затем руководителя «Сяоми» Лэя Цзюня (雷军), интернет-предпринимателя Ло Юнхао (罗永浩) и тайваньского поп-идола того времени Джей Чоу ((周杰伦) также не привел к результатам. Согласно Baidu в период так называемого традиционного интернета про этих людей не писали.

Иллюстрация из оригинальной статьи Хэ Цзяянь
Иллюстрация из оригинальной статьи Хэ Цзяянь

В выдаче google.com поиском по имени на китайском находится 2610 результатов (часть из них также ошибочно датирована этим же периодом)

Тогда как англоязычный поиск выдает 94 тысячи упоминаний. Лучше, но тоже не очень похоже на упоминание популярной личности. В любом случае внутри китайского интернета этих упоминаний должно быть на порядок больше. Должно быть, но их нет.

Что это было?

Сам Хэ Цзяянь объясняет это двумя факторами. Первый — экономический. Некогда популярные старые платформы, типа NetEase, Sohu, всевозможные Champus BBS, Xici Hutong, Kaidi Maoyan и Tianya Forum умирают, поэтому держать их серверы включенными слишком дорого (мы как хостер с этим скорее не согласны — хранение данных без видео не является слишком уж дорогим, а в эпоху обучения ИИ так и вовсе может приносить доход, но сегодня не об этом). В итоге данные пользователей просто исчезают.

Иллюстрация получает двойной смысл, учитывая “смерть” отдельных сервисов
Иллюстрация получает двойной смысл, учитывая «смерть» отдельных сервисов

Второй фактор, по версии Хе являющийся основным — политический. В эпоху динамически изменяющейся политики Партии Китая проще удалить старые высказывания, чем ждать, пока они пойдут вразрез с требованиями правительства. Ну или какие‑то доброхоты найдут «крамольные» высказывания и начнут ими размахивать. Поэтому компании и сервисы просто стирают свои старые материалы, так сказать, от греха.

Словно в подтверждении этого пункта, статья блогера была удалена с платформы WeChat спустя 22 часа, что тут же обеспечило ей популярность и цитирование за пределами Китая.

Дальше пошло интереснее. Вдохновленные исследователи полезли смотреть, а как вообще сохраняется китайский интернет. Во‑первых, выяснилось, что тот же WeChat удаляет все данные, кроме текста, старше 7 дней:

В Телеграмме замолчавший эккаунт живет год, файлы кешируются на серверах тоже невесть как надолго. Мы привыкли. А в КНР, когда я стал пользоваться Вичатом — я с изумлением узнал, что там все, кроме текста чата, через неделю удаляется с концами, и настроить это на больший срок просто невозможно. Китай то ли по воле партии, то ли по собственной воле живет, как поп‑психологи только мечтать могут — в потоке, в моменте. Прошлого нет, и похоже, никому оно в миллиардной аудитории и не интересно.

Во‑вторых, в Китае отсутствует аналог Internet Archive. Точнее даже не так — архивация китайского интернета является централизованной государственной функцией и выполняется Национальной Библиотекой Китая в рамках проекта WICP (Web Information Collection and Preservation Project). С 2003 года Национальная библиотека ведет работу по сбору и архивации китайских веб‑ресурсов, имеющих национальную культурную и историческую ценность, при этом архив Национальной библиотеки лишь частично доступен онлайн (где представляет тематическую подборку отобранных событий), тогда как основной массив — это внутренний ресурс для исследователей, академиков и государственных учреждений.

А как дела с сохранением истории за пределами Китая?

И здесь интересно задаться вопросом: если убрать из уравнения особую политическую ситуацию в Китае, то каков «естественный» процент потерь информации в сети? Если верить этим исследованиям: то 38% веб‑страниц, существовавших в 2013 году, спустя десятилетие больше недоступны, а каждая 5-я страница новостных сайтов содержит одну нерабочую ссылку. То есть. данные активно пропадают и естественным путем.

Чтобы добавить немного сюра, вспомним вот эту новость, где граждан Великобритании попросили активнее стирать старые письма и фотографии, потому что их хранение требует охлаждения водой, а воды в городах и так немного.

При этом в Европе существует понятие «об обязательном экземпляре» — в традиционном издательстве есть обязанность бесплатно передавать один или несколько экземпляров своих произведений в специально назначенные депозитарные учреждения государства. После того как это понятие расширили и на Интернет, национальные библиотеки получили право, делать виртуальные копии сайтов и теперь с периодичностью 1–4 года автоматически собирают контент в национальных доменах верхнего уровня типа.fr,.uk,.de и принудительно ускоряются в случае каких‑то важных событий. Доступ к полученной информации где‑то закрыт: к примеру, Британия говорит, что так они защищают копирайт и персональные данные — а по сути, попробуй найти 3 отличия от Китая. А где‑то он открыт полностью — как в Португалии или Исландии.

Важно отметить, что национальные архивы чаще всего не синхронизируются. Поэтому мы получаем ситуацию — когда какие‑то события сохраняются во множестве экземпляров, а какие‑то исчезают вместе с закрытием очередного проекта. Так что хорошо, что существуют организации и сервисы, архивирующие данные без оглядки на бюрократию и национальные домены.

Помимо уже упомянутого Internet Archive (и помимо их самого известного инструмента Wayback Machine) стоит также упомянуть активистов из Archive Team — они мобилизуются, когда какая‑либо популярная интернет‑платформа (как Geocities, Yahoo! Video, Google+) объявляет о закрытии. С помощью волонтеров и скриптов они пытаются спасти как можно больше контента перед его окончательным удалением и затем загружают его в Internet Archive. Прямо сейчас они архивируют ссылки умершего в августе URL‑сокращателя Goo.gl. Кстати, оформление сайта этих ребят — тоже своего рода способ вернуться лет на 20 назад.

В России, где традиционно больше полагаются на Wayback Machine, также имеются собственные хранители интернет‑культуры — часто неожиданные. Например, некий активист 15 лет собирал папку с мемами и перестал только в 2024 году. И тут либо интернет начал деградировать, либо он, наконец, дождался момента, когда мемы начали повторяться.

Мемы из папки за октябрь 2010
Мемы из папки за октябрь 2010

И что же в итоге?

Компании закрываются, серверы выключаются, цензоры работают, а в результате целые пласты недавней истории растворяются, как будто их никогда не было. Случай с исчезнувшим Джеком Ма не только показывает, насколько хрупкой оказалась наша цифровая память, но и наглядно демонстрирует, что, в общем-то, это мало кого волнует. 

Годы существования сети привели не только к созданию моря, океана, лавины информации, но и к ее обесцениванию. С одной стороны, у нас все еще есть Internet Archive, который десятки лет скрупулезно собирает миллиарды копий страниц на петабайты данных. С другой — огромное количество материала безвозвратно тонет, в то время как мы бежим дальше, особо не оглядываясь.

Как тот цыган из анекдота, который раздумывал, глядя на своих грязных детей: «этих отмыть или новых наделать?», мы, по ощущениям, в большинстве своем скорее зададим ИИ задачу быстро склепать обзор из выловленных в море информации остатков новую статью, чем станем тратить массу сил, денег, времени на архивацию и сохранение, содержание и каталогизацию имеющихся данных.

Комментарии (0)


  1. Shaman_RSHU
    17.09.2025 07:21

    У них там в открытый доступ попало около 600 ГБ данных, связанных с работой Великого китайского файрвола (GFW, Great Firewall of China), применяемого для фильтрации интернет-трафика в КНР


  1. Tzimie
    17.09.2025 07:21

    Переписать, упомянуты нелица


  1. Astroscope
    17.09.2025 07:21

    Компании закрываются, серверы выключаются, цензоры работают, а в результате целые пласты недавней истории растворяются, как будто их никогда не было.

    Вечного ничего нет. Что-то хранится дольше, например некоторые надписи на некоторых камнях или сами камни вроде Стоунхенжа или египетских пирамид. Но и у этого есть свой предел, который однажды наступит. А интернеты, большая их часть, это все равно как архивировать треп толпы на базарной площади в дионтернетную эпоху - очень много информации, но какова ее ценность вне момента, вне контекста общения пары или группы по какому-то неочевидному для стороннего наблюдателя вопросу? Нулевая? Да, скорее всего нулевая.

    Случай с исчезнувшим Джеком Ма не только показывает, насколько хрупкой оказалась наша цифровая память, но и наглядно демонстрирует, что, в общем-то, это мало кого волнует.

    Мир в целом перестраивается на рельсы одноразовости. Копроэкономика с ее одноразовыми товарами - очевидный по заметности и один из наболее значимых по важности факторов такой перестройки. Чего уж говорить про виртуальную информацию, если реальные вещи обесценены. Конечно, ничего удивительного, что это мало кого волнует. Тем более что качество этой одноразовой информации как бы предполагает, что любые, самые ничтожные усилия по ее сохранению, неадекватно велики против ценности самой информации. Можно ли найти вкрапления чего-то ценного в мусоре, в просто шуме? Наверняка. Кто, за чей счет и ради чего станет искать и сохранять? И, куда как важнее, а кто устанавливает критерии ценности?


  1. mantiscorp
    17.09.2025 07:21

    Копроэкономика с ее одноразовыми товарами - очевидный по заметности и один из наболее значимых по важности факторов такой перестройки

    тоскуете по старым добрым временам, когда стирали и повторно использовали старые пакеты? а какие холодильники делали...у всех есть прекрасно работающий холодильник "ЗиЛ", но он работает почему-то где-то на даче, подальше от глаз людских


  1. kenomimi
    17.09.2025 07:21

    Не только Поднебесная этим балуется. У меня есть пара знакомых, у которых на момент начала СВО магически пропали из гугл-фото все фоточки из Киева, Харькова и окрестностей, коих там было 100500. Поддержка запрос на восстановление просто игнорила. И так же магически всё появились обратно в 2024.

    А уж сколько полезного в сети убили копирасты с торгашами - так любой политик нервно курит в сторонке.


  1. woodiron
    17.09.2025 07:21

    А я как-то вспомнил, что в больше всего боевых вылетов в 2010 в Ливии против Каддафи сделали мирные норвежцы, решил снова почитать - фиг, не было такого. Не знаю как сейчас, может и есть информация.


    1. agat000
      17.09.2025 07:21

      на Вики есть. Кратко. И кое что по ссылка оттуда же

      По словам представителя норвежской армии полковника Петтера Линдквиста (Petter Lindqvist), за время своего участия в военной операции в Ливии Норвегия осуществила 589 полетов над территорией страны. Как отмечалось ранее, на долю истребителей F-16 ВВС Норвегии пришлось около 10% авиаударов, нанесенных авиацией НАТО по Ливии.

      Недавно как раз освежал в памяти эту бучу


    1. WTFLEO
      17.09.2025 07:21

      ИИ:

      Норвежские самолёты совершили 588 боевых вылетов. Это составляет от 15% до 18% от всех боевых вылетов.


  1. Wolframium13
    17.09.2025 07:21

    Это печально, плюс усиливается переходом с форумов на мессенджеры, где всё уходит в небытие.


  1. Hlad
    17.09.2025 07:21

    Автор исходного исследования точно не путает физическое исчезновение страниц и прекращение их индексации / исчезновение удобного доступа? Потому что многие поисковики тупо не индексируют очень старые форумы. Или ещё отличным примером является реддит: найти там пост хотя бы пятилетней давности очень сложно, притом, что если пройти по прямой ссылке, то пост будет на месте.


  1. domix32
    17.09.2025 07:21

    Пишешь винни-пуха или тяньмэнь в случайном месте китернета и через час уже пол сайта выносит.


    1. Yuriy_krd
      17.09.2025 07:21

      Проверим наш хабр через полчаса :)


      1. domix32
        17.09.2025 07:21

        с каких пор хабр стал частью китайнета? тут более вероятно НЛО прилетит и сделает атата.