Этот вопрос может показаться простым, но на самом деле требует долгого путешествия по теории информации и молекулярной биологии

Вам нравится теория информации? Вам нравится молекулярная биология? Вам нравится идея объединить их и посмотреть, что из этого получится? Если да, то вот вам вопрос: сколько информации содержится в вашей ДНК?
Когда я впервые заинтересовался этим вопросом, я думал, что ответ прост:
Человеческая ДНК содержит около 3,1 миллиарда пар оснований.
Каждая пара оснований может принимать одно из четырёх значений (A, T, C или G).
Для кодирования одного из четырёх возможных значений (00, 01, 10 или 11) требуется 2 бита.
Таким образом, ДНК человека содержит 6,2 миллиарда битов.
Просто, правда? Конечно, за исключением следующего:
У вас есть две версии каждой пары оснований, по одной от каждого из ваших родителей. Следует ли считать обе?
Все люди имеют почти идентичную ДНК. Имеет ли это значение?
ДНК можно сжать. Следует ли рассматривать сжатое представление?
Неясно, какая часть нашей ДНК действительно выполняет полезную функцию. Внутри ваших клеток царит бардак из взаимодействующих «хаков» и «костылей», предназначенных для поддержания работы даже в условиях постоянных мутаций, которые нарушают структуру самой ДНК. Следует ли учитывать только «полезные» части?
Такие вопросы быстро доходят до пределов знаний как биологии, так и информатики. Чтобы ответить на них, нам нужно понять, что именно мы подразумеваем под «информацией» и как это связано с тем, что происходит внутри клеток. В попытке ответить на эти вопросы я проведу вас через увлекательное путешествие по теории информации и молекулярной биологии. Мы встретимся с некоторыми странными персонажами, включая алгоритмы сжатия генома на основе глубокого обучения, ретротранспозоны и колмогоровскую сложность.
В конечном итоге я докажу, что интуитивное представление об информации в геноме лучше всего описывать через новое определение «бита» — неизвестное нам на нынешнем уровне научных знаний.
О подсчёте
Что такое «информация»? Это не только педантичный вопрос, поскольку на самом деле существует несколько различных математических определений «бита». Часто различия не имеют значения, но для ДНК они оказываются очень важными, поэтому давайте начнём с самого простого.
Если говорить о хранилище информации, бит — это «слот», в котором можно хранить одно из двух возможных значений. Если какой-либо объект может представлять 2 n возможных паттернов, то он содержит n битов, независимо от того, какой паттерн фактически находится в хранилище.
Итак, вот вопрос, на который мы можем дать точный ответ: сколько информации может хранить ваша ДНК?
Несколько напоминаний: ДНК — это полимер. Это длинная цепочка из фрагментов по ~40 атомов, называемых «нуклеотидами». Существует четыре различных фрагмента, обычно обозначаемых буквами A, T, C и G. У человека ДНК состоит из 23 фрагментов разной длины, называемых «хромосомами». Люди являются «диплоидными», то есть у нас есть две версии каждой хромосомы. Мы получаем по одной хромосоме от каждого из наших родителей, каждая из которых формируется путём случайного соединения участков двух хромосом, которые они получили от своих родителей.
По крайней мере, это верно для первых 22 хромосом. Что касается последней, то у женщин есть две хромосомы «X», а у мужчин — одна хромосома «X» и одна хромосома «Y». Они не смешиваются, поэтому мужчины передают одну из них своим детям практически без изменений.[1]

Хромосомы 1-22 содержат в общей сложности 2,875 миллиарда нуклеотидов; Х-хромосома содержит 156 миллионов, а Y-хромосома — 62 миллиона. Исходя из этого, мы можем рассчитать общий объём памяти в вашей ДНК. Помните, что каждый нуклеотид имеет 4 варианта, что соответствует 2 битам. Таким образом, если вы женщина, ваш общий объём памяти составляет:
(2×2875 + 2×156) миллионов нуклеотидов
× 2 бита / нуклеотид
= 12,12 миллиарда бит
= 1,51 ГБ.
Если вы мужчина, общее пространство для хранения составляет:
(2×2875 + 156 + 62) миллионов нуклеотидов
× 2 бита / нуклеотид
= 11,94 миллиарда бит
= 1,49 ГБ.
Для сравнения: стандартный однослойный DVD-диск может хранить 37,6 миллиарда бит или 4,7 ГБ. Код вашего тела, каким бы великолепным он ни был, занимает столько же места, сколько примерно 40 минут видео стандартного разрешения.
Таким образом, в принципе, ваша ДНК может представлять около 212 000 000 000 различных паттернов. Но подождите. Учитывая общее происхождение человека, пара хромосом, полученная вами от матери, почти идентична той, которую вы получили от отца. И даже если игнорировать это, в вашей ДНК есть длинные последовательности нуклеотидов, которые повторяются снова и снова, и их достаточно, чтобы составить значительную часть общего объёма. Кажется странным считать все эти повторяющиеся элементы. Поэтому, возможно, нам нужно более тонкое определение «информации».
О сжатии
Строка из 12 миллиардов нулей намного длиннее этой статьи. Но большинство людей (я надеюсь) согласятся, что эта статья содержит больше информации, чем строка из 12 миллиардов нулей. Почему?
Одной из фундаментальных идей теории информации является определение информации с точки зрения сжатия. Грубо говоря, «информация» в какой-либо строке — это длина кратчайшего возможного сжатого представления этой строки.
Так насколько можно сжать ДНК? Ответы на этот вопрос разнятся. Некоторые утверждают, что её можно сжать более чем на 99%, а другие — что современные технологии позволяют сжать её только на 25%. Это расхождение объясняется разными определениями «сжатия», которые, как оказывается, соответствуют разным понятиям «информации».
Если выбрать двух случайных людей на Земле, почти вся их ДНК будет абсолютно одинаковой. Часто говорят, что люди на 99,9% генетически идентичны, но это неверно — этот показатель измеряет только замены и не учитывает такие вещи, как вставки, удаления и транспозиции. Если учесть все эти факторы, то, по самым точным оценкам, мы идентичны на ~99,6%. [2]
Тот факт, что мы имеем столько общего ДНК, является ключом к тому, как некоторые алгоритмы могут сжимать ДНК более чем на 99%. Они делают это, сначала сохраняя эталонный геном, который включает в себя всю ДНК, общую для всех людей, и, возможно, наиболее распространённые варианты для участков ДНК, в которых люди различаются. Затем для каждого отдельного человека эти алгоритмы сохраняют только различия от эталонного генома. Поскольку этот эталон нужно сохранять только один раз, он не учитывается в сжатом представлении.
Это отлично, если вы хотите запихнуть как можно больше геномов своих друзей на жёсткий диск. Но это странное определение, если вы хотите измерить «информационное содержание ДНК». Оно подразумевает, что любой геномный контент, который не меняется между людьми, не достаточно важен, чтобы считаться «информацией». Однако из эволюционной биологии мы знаем, что зачастую именно наиболее важная ДНК изменяется меньше всего именно потому, что она так важна. Наследуемость, как правило, ниже для генов, более тесно связанных с репродукцией.
Лучшая степень сжатия без эталона, по-видимому, составляет около 25%. (Я ожидаю, что со временем это число немного возрастёт, поскольку новейшие методы используют глубокое обучение, а исследования продолжаются). Это не очень большая степень сжатия. Однако эти алгоритмы оцениваются по тому, насколько хорошо они сжимают геном, который включает только одну копию каждой хромосомы. Поскольку ваши две хромосомы почти идентичны (по крайней мере, если не учитывать Y-хромосому), я полагаю, что вы могли бы представить другую половину почти бесплатно, что означает степень сжатия около 50% + 1/2 × 25% ≈ 62%.
Об информации
Итак, если сжать ДНК с помощью алгоритма с эталонным геномом, её можно сжать более чем на 99%, до менее чем 120 миллионов бит. Но если сжать её без эталонного генома, лучший результат, которого можно достичь, — 62%, что означает 4,6 миллиарда бит.
Какой из этих вариантов правильный? Ответ: оба могут быть правильными. В теории информации существует два разных определения «бита», которые соответствуют разным типам сжатия.
В определении колмогоровской сложности, названном в честь выдающегося советского математика Андрея Николаевича Колмогорова, бит является свойством определённой последовательности единиц и нулей. Количество битов информации в последовательности равно длине самой короткой компьютерной программы, которая выводит эту последовательность.
В определении информации Шеннона, названном в честь также выдающегося американского учёного-энциклопедиста Клода Шеннона, бит снова является свойством определённой последовательности единиц и нулей, но он определяется только относительно некоторого большого набора возможных последовательностей. В этом определении, если данная последовательность имеет вероятность возникновения p, то она содержит n битов для любого значения n, удовлетворяющего условию 2 n =1/p. Или, что эквивалентно, n = — log2 p.
Определение колмогоровской сложности явно связано со сжатием. Но как насчёт определения Шеннона?
Допустим, у вас есть три любимых домашних кролика: Пушистик, Мармеладка и Искорка. И у вас есть по одной фотографии каждого из них, каждая из которых после сжатия занимает 1 МБ. Чтобы держать меня в курсе того, как вы себя чувствуете, вы любите присылать мне эти же фотографии снова и снова, с разными питомцами для разных настроений. Вы присылаете фотографию Пушистика в половине случаев, Мармелада — в четверти случаев, и Искорка — в оставшейся четверти случаев. (Вы общаетесь только с помощью фотографий кроликов, никогда с помощью текста или изображений.)
Но затем вы решаете взлететь на космическом корабле, и стоимость передачи данных значительно возрастает. Однако вам очень важно обеспечить непрерывную передачу изображений — так какой же способ будет самым дешёвым? Лучше всего будет договориться, что если вы пошлёте мне 0, я должен вывести изображение Пушистика, а если вы пошлёте 10, я должен вывести Мармелад, а если вы пошлёте 11, я должен вывести Спарклпафф. Это недвусмысленное кодирование: если вы посылаете 0011100, это означает Пушистик, затем снова Пушистик, затем Искорка, затем Мармеладка, затем ещё раз Пушистик.
Всё работает. «Длина кода» для Пушистика — это число n, такое что 2 n =1/p:
кролик |
вероятность p |
код |
длина кода n |
2n |
1/p |
---|---|---|---|---|---|
Пушистик |
1/2 |
0 |
1 |
2 |
2 |
Мармеладка |
1/4 |
10 |
2 |
4 |
4 |
Искорка |
1/4 |
11 |
2 |
4 |
4 |
Интуитивно, идея заключается в том, что если вы хотите отправить как можно меньше битов за определённый период времени, то вам следует присваивать короткие коды высоковероятным паттернам и длинные коды низковероятным паттернам. Если вы сделаете это оптимально (в том смысле, что вы отправите наименьшее количество битов за определённый промежуток времени), то окажется, что лучшим вариантом будет кодировать паттерн с вероятностью p примерно n битами, где 2 n =p. (В общем случае всё не работает так гладко, но вы понимаете идею.)
В сценарии с Пушистиком определение колмогоровской сложности будет гласить, что каждое из изображений содержит 1 МБ информации, поскольку это минимальный размер, до которого можно сжать каждое изображение. Но согласно определению информации Шеннона, изображение Пушистика содержит 1 бит информации, а изображения Мармеладки и Искорки — 2 бита. Это довольно большая разница!
Теперь вернёмся к ДНК. Здесь определение колмогоровской сложности в основном соответствует наилучшему возможному алгоритму сжатия без эталона. Как мы видели выше, лучший из известных на сегодняшний день алгоритмов может сжать информацию на 62%. Таким образом, согласно определению колмогоровской сложности, ДНК содержит не более 12 миллиардов × (1-0,62) ≈ 4,6 миллиарда бит информации.
Между тем, согласно определению информации Шеннона, можно предположить, что распределение всех человеческих геномов известно. Информация в вашей ДНК включает только биты, необходимые для реконструкции вашего генома. По сути, это то же самое, что сжатие с помощью эталона. Таким образом, согласно определению информации Шеннона, ваша ДНК содержит менее 12 миллиардов × (1-0,01) ≈ 120 миллионов бит информации.
Хотя ни одно из этих определений не является «неверным» для ДНК, я предпочитаю определение колмогоровской сложности, поскольку оно лучше всего отражает ДНК, которая кодирует черты и функции, общие для всех людей. В конце концов, если вы пытаетесь измерить, сколько «информации» наша ДНК несёт из нашей эволюционной истории, вы наверняка захотите включить ту информацию, которая сохранилась повсеместно.
О биологии
В какой-то момент ваш школьный учитель биологии, вероятно, рассказывал вам (или расскажет) эту историю о том, как устроена жизнь:
Сначала ваша ДНК транскрибируется в соответствующую РНК.
Затем эта РНК транслируется в белок.
Затем белок выполняет функции белка.
Если бы всё было так просто, мы могли бы легко рассчитать плотность информации ДНК, просто посмотрев, какая часть вашей ДНК когда-либо становится белком (только около 1 процента). Но всё не так просто. Остальная часть вашей ДНК выполняет другие важные функции, такие как регулирование производства белков. Часть ДНК, похоже, существует только для того, чтобы копировать себя. Часть ДНК может ничего не делать, а может выполнять важные функции, о которых мы ещё даже не знаем.
Позвольте мне рассказать вам эту историю ещё раз, немного подробнее:
Вначале ваша ДНК находится в состоянии покоя в ядре.
Некоторые части вашей ДНК, называемые промоторами, устроены таким образом, что если рядом находятся определённые белки, они прилипают к ДНК.
Если это происходит, то появляется небольшой, но мощный фермент, называемый «РНК-полимеразой», который разрывает две нити ДНК и начинает транскрибировать нуклеотиды с одной стороны в «предшественник матричной РНК» (пре-мРНК).
В конце концов, по одной из нескольких причин, фермент решает, что пора прекратить транскрипцию, и пре-мРНК отсоединяется и уплывает в ядро. На этом этапе она имеет длину в несколько тысяч или несколько десятков тысяч нуклеотидов.
Затем любимый мною лично макромолекулярный комплекс, «сплайсосома», захватывает пре-мРНК, отрезает большую её часть и выбрасывает эти части. Участки ДНК, которые кодируют сохраняемые части, называются экзонами, а участки, которые кодируют выбрасываемые части, называются интронами.
Затем другой фермент, называемый «РНК-гуанилтрансферазой» (не все могут быть красивыми), добавляет «шапку» к одному концу, а фермент, называемый «поли(А) полимеразой», добавляет «хвост» к другому концу.
Теперь пре-мРНК полностью сформировалась и превратилась в обычную мРНК. На этом этапе её длина составляет несколько сотен или несколько тысяч нуклеотидов.
Затем некоторые белки замечают, что мРНК имеет хвост, захватывают его и выбрасывают из ядра в цитоплазму, где скрывается благородная рибосома.
Рибосома захватывает мРНК и превращает её в белок. Она делает это, начиная с одного конца и рассматривая по три нуклеотида за раз, называемые «кодонами». Когда она видит определённый «стартовый» паттерн, она начинает переводить каждый фрагмент в одну из 20 аминокислот и продолжает, пока не увидит фрагмент со «стоп-паттерном».[3]
Полученный белок живёт долго и счастливо.
Считается, что около 1% вашей ДНК составляют экзоны, а около 24% — интроны. А что делает остальная часть?
Ну, пока происходит вышеописанный танец, другие участки ДНК «регулируют» его. Энхансеры — это участки ДНК, к которым может присоединяться определённый белок и вызывать физическое изгибание ДНК, так что какой-то промотор в другом месте (обычно в пределах миллиона нуклеотидов) с большей вероятностью активируется. Силенсеры делают противоположное. Изоляторы блокируют влияние энхансеров и силенсеров на области, на которые они не должны влиять.
Хотя это может показаться сложным, мы только разогреваемся. Одна и та же область ДНК может быть как интроном, так и энхансером и/или силенсером. Правильно, в середине ДНК, которая кодирует какой-то белок, эволюция любит помещать ДНК, которая регулирует какой-то другой, отдалённый белок. Когда она не регулирует, она транскрибируется в (вероятно, бесполезную) пре-РНК, а затем отрезается и перерабатывается сплайсосомой.
Существует также структурная ДНК, необходимая для физического манипулирования хромосомами. Центромеры — это «точки прикрепления», используемые при копировании ДНК во время деления клеток. Теломеры — это «лишняя» ДНК на концах хромосом.[4]
Ещё больше усложняют эту картину многие участки ДНК, которые кодируют РНК, которая никогда не транслируется в белок, но всё же выполняет определённые функции. Некоторые участки производят тРНК, задача которой — доставлять аминокислоты к рибосоме. Другие участки производят рРНК, которая объединяется с некоторыми белками, образуя рибосому. Есть миРНК, микроРНК и piРНК, которые взаимодействуют с произведённой мРНК. А ещё есть scaРНК, snoРНК, rРНК, lncРНК и mrРНК. В будущем наверняка будет определено ещё много типов, как потому, что трудно с уверенностью сказать, транскрибируется ли ДНК, так и потому, что трудно понять, какие функции может выполнять РНК, а также потому, что у учёных есть серьёзные стимулы для изобретения всё более точных подкатегорий.
Есть также псевдогены. Это участки ДНК, которые почти производят белки, но не совсем. Иногда это происходит из-за отсутствия промотора, поэтому они никогда не транскрибируются в мРНК. В других случаях у них может отсутствовать стартовый кодон, поэтому после того, как их мРНК попадает в рибосому, она никогда не начинает производить белок. Есть также случаи, когда ДНК имеет ранний стоп-кодон или мутацию «сдвига рамки считывания», что означает, что выравнивание РНК в блоки по три молекулы нарушается. В этих случаях рибосома часто обнаруживает, что что-то не так, и зовёт на помощь, чтобы уничтожить белок. В других случаях синтезируется короткий белок, который ничего не делает.[5]
О беспорядке
Почему? Почему всё так запутано? Почему так сложно сказать, выполняет ли данный участок ДНК какую-либо полезную функцию?
Биологи ненавидят вопросы «почему». Мы не можем повторить эволюцию, так как же мы можем сказать «почему» эволюция поступила так, а не иначе? Лучше сосредоточиться на том, как на самом деле работают биологические системы. Это, вероятно, мудро. Но поскольку я не биолог (и не мудрец), я выскажу свою теорию: клетки работают так, потому что ДНК подвергается постоянным атакам мутаций.
Мутации чаще всего возникают во время репликации клеток. Ваша ДНК состоит из около 250 миллиардов атомов. Создать идеальную копию всех этих атомов очень сложно. Ваш организм обладает удивительными наномашинами со множеством резервных механизмов, которые пытаются исправить ошибки, и, по оценкам, частота ошибок составляет менее одной на миллиард нуклеотидов. Но когда у вас есть несколько миллиардов нуклеотидов, мутации всё же происходят.
Существуют также источники мутаций, связанные с окружающей средой. Ультрафиолетовый свет несёт больше энергии, чем видимый. Если он попадает на вашу кожу, эта энергия может выбить атомы с их места. То же самое происходит, если вы подвергаетесь воздействию радиации. Некоторые химические вещества, такие как формальдегид, бензол или асбест, также могут вызывать мутации или мешать механизмам исправления ошибок в вашем организме.
Наконец, мы возвращаемся к огромной части вашей ДНК (~50-60%), которая повторяет одни и те же последовательности. Частично это вызвано «проскальзыванием» механизма при создании копии, что приводит к потере или повторению части ДНК. Существуют также небольшие участки ДНК, называемые «транспозонами», которые как бы обманывают ваш механизм, заставляя его создавать ещё одну копию этих участков, а затем вставлять их в другое место генома.[6][7]
Мутации в ваших обычных клетках повлияют только на вас, но мутации в вашей сперме/яйцеклетках могут повлиять на все будущие поколения. Эволюция помогает управлять этим через отбор. Допустим, у вас есть 10 плохих мутаций, и у меня есть 10 плохих мутаций, но эти мутации находятся в разных местах. Если у нас будут дети, некоторые из них могут получить 13 плохих мутаций, а некоторые — только 7, и последние дети с большей вероятностью передадут свои гены.
Но помимо отбора, клетки, похоже, созданы так, чтобы быть чрезвычайно устойчивыми к такого рода ошибкам. Вместо того, чтобы полагаться только на отбор, существует множество резервных механизмов, которые позволяют без особых проблем переносить такие ошибки.
И помните, эволюция работает как безумец. Если она решит потерпеть какую-то мутацию, всё остальное будет оптимизировано против неё. Так что даже если мутация изначально вредна, эволюция может позже найти способ её использовать.
Ещё раз об информации
Итак, как в теории мы должны определять «информационное содержание» ДНК? Я предлагаю определение, которое я называю «фенотипическая колмогоровская сложность».[8] Грубо говоря, это то, насколько короткой можно сделать ДНК и всё равно получить «человека».
«Фенотип» животного — это просто изысканный термин, обозначающий его «наблюдаемые физические характеристики и поведение». Таким образом, это определение, как и колмогоровская сложность, предлагает найти самое короткое сжатое представление ДНК. Но вместо того, чтобы получить в результате такую же ДНК, как у вас, этот вариант просто должен получать эмбрион, который будет выглядеть и вести себя так же, как и вы.

Идея заключается в следующем: возьмите одноклеточный человеческий эмбрион с вашей ДНК и представьте себе всевозможные способы модификации ДНК. Сюда входит не только удаление ненужных участков, но и перемещение элементов. Ограничьтесь изменениями, которые всё равно приведут к появлению «человека», который будет выглядеть как вы и обладать всеми вашими способностями. Теперь сжимайте каждое из этих представлений. Наименьшее сжатое представление и есть «информация», содержащаяся в вашей ДНК.[9]
Так каким же будет это число? По моим предположениям, вы могли бы уменьшить объём ДНК как минимум на 75%, но не более чем на 98%, что означает, что информационное содержание составляет:
12 миллиардов бит
× 2 бита / нуклеотид
× (от 2 до 25 процентов)
= от 480 миллионов до 6 миллиардов бит
= от 60 МБ до 750 МБ
Но на самом деле никто этого не знает. Мы до сих пор не имеем представления о том, какую роль (если вообще какую-либо) играет большая часть ДНК, и нам ещё далеко до полного понимания того, насколько её можно сократить. Вероятно, в ближайшее время никто этого и не узнает.
Примечания
Технически, в митохондриях также содержится небольшое количество ДНК. Это интересно, потому что вы получаете её от своей матери практически в неизменном виде, и поэтому учёные могут проследить мельчайшие мутации, чтобы увидеть, как были связаны между собой наши прапрапра...прабабушки. Если проследить достаточно далеко, все наши материнские линии ведут к одной женщине, митохондриальной Еве, которая, вероятно, жила в Восточной Африке 120 000–156 000 лет назад. Но митохондриальная ДНК очень мала, поэтому я больше не буду о ней упоминать.
Интересные факты: из-за этих удалений и вставок у разных людей количество ДНК немного различается. Фактически, каждая из ваших пар хромосом имеет ДНК немного разной длины. Когда ваше тело создаёт сперму/яйцеклетки, оно использует «безумную машину», чтобы выровнять хромосомы разумным образом, чтобы разные участки могли соединяться друг с другом, не создавая бессмыслицы. Кроме того, те же самые измерения схожести показывают, что мы на 96% идентичны нашим ближайшим живым родственникам, бонобо и шимпанзе.
Поскольку существует 4 вида нуклеотидов, существует 43=64 возможных фрагмента, в то время как ваше тело использует только 20 аминокислот. Поэтому рибосома, по логике вещей, присваивает некоторым аминокислотам (таким как лейцин) шесть различных кодонов, а другим (таким как триптофан) только один кодон. Также существует три разных стоп-кодона, но только один старт-кодон, и этот старт-кодон также является кодоном для метионина. Таким образом, все белки имеют метионин на одном конце, если только что-то другое не приходит и не удаляет его позже. Биология — это множество слоёв, состоящих из раздражающих сложностей, совершенно безразличных к вашему желанию понять её.
С возрастом теломеры укорачиваются. У организма есть механизмы для их удлинения, но в основном они используются только в стволовых и репродуктивных клетках. Люди, занимающиеся долголетием, заинтересованы в активации этих механизмов в других тканях для борьбы со старением, но это рискованно, поскольку организм, по-видимому, намеренно ограничивает восстановление теломер в качестве стратегии предотвращения неконтролируемого роста раковых клеток.
В более серьёзных случаях эти мутации могут сделать организм нежизнеспособным или привести к таким проблемам, как болезнь Тея-Сакса или муковисцидоз. Но это не будет считаться псевдогеном.
«ДНК-транспозоны» вырезаются и вставляются в другое место, а «ретротранспозоны» создают РНК, которая предназначена для обратной транскрипции обратно в ДНК в другом месте. Существуют также «ретровирусы», такие как ВИЧ, которые содержат РНК, которую они вставляют в геном. Некоторые люди выдвигают теорию, что ретротранспозоны могут эволюционировать в ретровирусы и наоборот.
Ретротранспозонам редко удаётся скопировать самих себя. Похоже, что вероятность их копирования во время деления клеток составляет всего 1 к 100 000 или 1 к 1 000 000. Но в зародышевой линии эта вероятность, возможно, в 10 раз выше, поэтому сперма пожилых мужчин с большей вероятностью содержит такие мутации.
Кто-то наверняка уже выдвигал эту гипотезу, но я не могу найти ссылку, как ни старался.
Это определение не совсем точное, потому что я не говорю, насколько точно должен совпадать фенотип. Даже если есть какой-то совершенно бесполезный участок ДНК и мы его удалим, это сделает все ваши клетки немного легче. Нам нужно допустить некоторую степень приближения. Идея заключается в том, что оно должно быть очень близким, но трудно дать точную оценку.
Комментарии (5)
RusikR2D2
30.08.2025 09:15А почему бы не предположить, что информация в ДНК уже сжата? Есть какие-то возможности отличить сжатую информацию от не сжатой? (на примере ДНК)
Moog_Prodigy
30.08.2025 09:15Конечно, в статье об этом даже указано. Методы очень просты - если вы видите повторяющиеся последовательности, значит информация не сжата (или сжата не полностью). Например, число Пи практически не поддается сжатию, хотя его специально никто не сжимал - оно само по себе такое.
alan008
ДНК это программа, но чтобы создать организм по этой программе нужен ещё "исполнительный блок" и некие "входные ресурсы", и есть ощущение, что в исполнительном блоке и входных ресурсах содержится на порядки больше информации, необходимой для создания живого человека, чем собственно в самОй программе (в ДНК).
Kanut
22 век. Учёные наконец-то смогли полностью раскодировать ДНК. Начали разбираться с ДНК человека. И дойдя до куска отвечающего за копчик обнаружили строчку "TODO: А вот эту ерундовину лучше убрать на фиг. Архангел Гавриил."
Radisto
И косвенно это подтверждается тем, что ДНК зиготы часто начинает работать при развитии зародыша относительно поздно. Млекопитающие - некоторое исключение, а многие другие животные начинают дробление и образование бластулы без задействования генома - машинерии, доставшейся от матери, на этом этапе достаточно