Центр непрерывного образования

факультет компьютерных наук НИУ ВШЭ

Биологи начали применять современные информационные технологии отнюдь не сегодня. Еще в конце XVIII века, за двести лет до секвенирования генома, великий Карл Линней использовал в своей работе картотеку — новую тогда систему организации информации.

Вскоре стало ясно, что любые данные можно структурировать, если хранить ее на отдельных карточках или листах бумаги. Принцип «одна карточка — одна единица информации» стали использовать для составления библиотечных каталогов и словарей, для организации деловой переписки и финансов.

Кульминацией этого принципа стало появление в конце XIX века перфокарты — носителя, которые позволял обрабатывать информацию не вручную, а с помощью специальных автоматических устройств.

Антон Басов @antonbasov, исследователь истории науки и техники, автор Центра непрерывного образования факультета компьютерных наук ВШЭ, рассказывает, как технология, созданная для переписей населения, железных дорог и банков, нашла применение в ботанике.

Антон Басов

Исследователь истории науки и техники, автор Центра непрерывного образования факультета компьютерных наук ВШЭ

В 1950 году Ботаническое общество Британских островов организовало конференцию, посвященную изучению географического распространения растений. Нетрудно установить, произрастает ли в вашей стране то или иное растение. Это же достаточно просто сделать и для области сравнительно большой площади. Однако ботаникам требуется знать ареал обитания растений гораздо точнее — только таким образом можно было определить скорость и направление распространения видов, изучить факторы, способствующие росту или, наоборот, подавляющие его.

Ботаник XIX века обходился простыми инструментами вроде лупы или набора для создания гербария. Картина «Ботаник» Альфреда Роннера, 1875 год. Источник.
Ботаник XIX века обходился простыми инструментами вроде лупы или набора для создания гербария. Картина «Ботаник» Альфреда Роннера, 1875 год. Источник.

До середины XX века Британские острова в ботанических целях подразделяли на 152 района (112 в Великобритании и 40 в Ирландии). На конференции 1950 года ботаник Артур Рой Клэпем предложил увеличить точность в двадцать раз: по его проекту предполагалось разделить всю территорию на 3 500 квадратов со стороной в десять километров (стандартная сетка на британских картах имела именно такой размер).

Ботаническое общество поддержало проект Клэпема; был создан особый комитет, который за четыре года изучил имеющийся опыт, нашел финансирование и разработал план. Составление нового атласа было чрезвычайно похоже на проведение переписи населения — переписчики должны были посетить каждый из 3 500 участков, отметить в стандартной форме все увиденные там растения и отправить ее ученым для анализа.

Ботаники решили, что перепись растений требует тех же методов, что и перепись людей — и обратились в компанию Powers-Samas, которая была одним из двух поставщиков оборудования для обработки перфокарт в Великобритании. Кстати, создателем этой компании был одессит Джеймс Пауэрс, эмигрировавший в США и устроивший первую в истории ИТ войну систем.

Как эмигрант из Российской империи создал конкурента IBM

В апреле 1954 года состоялась очередная конференция Ботанического общества, на которой была впервые продемонстрирована работа новой системы обработки данных: на глазах у собравшихся табулятор напечатал карту распространения ломоноса виноградолистного. Опыт был признан удачным и работа над атласом началась в полную силу.

Участники ботанической конференции наблюдают за печатью карты, 1954 год. Источник.
Участники ботанической конференции наблюдают за печатью карты, 1954 год. Источник.

Для начала нужно было собрать данные. Исследователи обратились к многочисленным гербариям и ботаническим справочникам. Парадоксально, но информацию о редких растениях оказалось найти проще — ботаники часто игнорировали более распространенные виды. Этот недостаток должны были исправить полевые исследования.

Образец заполненной формы; названия найденных растений вычеркнуты. Источник.
Образец заполненной формы; названия найденных растений вычеркнуты. Источник.

Здесь составители атласа полагались исключительно на добровольцев. Воззвания к ним опубликовали не только специализированные издания вроде Amateur Gardening или Gardening Illustrated, но и крупнейшие — газеты Times и Scotsman, журналы Country Life и Nature. Любовь англичан к садоводству и ботанике оказалась чрезвычайно сильной — на призыв исследователей откликнулись около трех тысяч человек (заполненные формы в итоге отправили около половины из них).

Создатели атласа воздавали соотечественникам должную хвалу:

Огромна заслуга британских ботаников… Вся работа проводилась ими исключительно на добровольных началах; участники жертвовали своим свободным временем и несли значительные расходы на проезд и проживание. Без их труда создать этот атлас было бы невозможно.

За пять лет добровольцы посетили 3 493 из 3 500 участков и собрали огромный объем информации — более полутора миллионов заполненных форм (каждый участок посещали несколько раз, чтобы собрать как можно больше сведений). Отдельная база данных также охватывала информацию о редких видах по данным гербариев и справочников.

Собранные сведения стекались в Кембриджский университет, где ее обрабатывала небольшая команда под руководством ботаников Макса Уолтерса и Фрэнка Перринга. Информация проходила через несколько ступеней анализа:

  • Полученные от добровольцев формы сортировались по участкам, которые они описывали.

  • Для каждого участка создавалась главная карточка, куда вписывали информацию обо всех найденных растениях.

  • На основании главной карточки при помощи перфоратора создавались перфокарты. Каждая из них содержала информацию об одном виде растения и квадрате, где оно произрастает.

Перфоратор Powers-Samas. Источник.
Перфоратор Powers-Samas. Источник.

Научная работа требует большой точности, поэтому исследователи применяли разные способы контроля. Например, один и тот же набор данных переносили на перфокарты два разных оператора. Затем можно было взять две карты, сложить их и посмотреть на просвет. Если отверстия не совпадали, значит один из операторов ошибся. Также можно было «распечатать» информацию с перфокарт в виде списка-табуляграммы. Так ученые могли сверить данные на входе и на выходе, чтобы избежать GIGO.

Сортировальная машина Powers-Samas. Источник.
Сортировальная машина Powers-Samas. Источник.

Сформированная таким образом база данных состояла из нескольких десятков тысяч записей, сопоставляющих участки с видами растений. Чтобы выбрать те перфокарты, которые относились к определенному квадрату или виду, использовалась сортировальная машина.

Финальным этапом проекта стало создание географических карт. Для этого при помощи сортировальной машины отбирали все перфокарты, соответствующие конкретному растению, независимо от места произрастания. Получившийся набор сортировался еще несколько раз. В итоге получались четыре группы, отсортированных по долготе (с запада на восток), внутри которых перфокарты располагались по широте (с севера на юг).

Сейчас для создания баз данных не нужны ни перфокарты, ни табуляторы — достаточно правильно установить фильтры в Excel или написать запрос на SQL. Если вы хотите узнать больше о том, как создать современную (без перфокарт!) базу данных и управлять ею при помощи SQL, приходите на бесплатный вебинар Центра непрерывного обучения ФКН ВШЭ «Первый шаг в аналитику или SQL для начинающих».

Табулятор Powers-Samas, переделанный для печати карт ботанического атласа. Источник.
Табулятор Powers-Samas, переделанный для печати карт ботанического атласа. Источник.

Сформированных группы перфокарт одну за другой загружали в табулятор — главную машину для обработки перфокарт. В обычных условиях табулятор считывал данные с карт и производил над ними арифметические операции; также он мог распечатывать данные каждой карты, промежуточные или итоговые результаты. Для работы над ботаническим атласом инженер компании Powers-Samas Рой Смит изменил конструкцию табулятора: теперь он считывал с перфокарт координаты участков, где встречалось конкретное растение, и отмечал их на карте (стоит отметить, что табулятор не печатал саму карту, а только ставил отметки на готовом шаблоне).

Скорость работы табулятора была достаточно высокой: на печать карты с одной тысячей участков уходило около двадцати минут, а карту с обозначением всех 3 500 участков можно было сделать за час. Ботаникам лишь оставалось вручную отметить некоторые участки из дополнительной базы данных (гербарии и справочники), после чего карты можно было отправлять в типографию. Аккуратность и точность работы табулятора позволили изготовить с карт фотографические клише и печатать атлас без дополнительных операций.

Печать карты на табуляторе. Источник.
Печать карты на табуляторе. Источник.

«Атлас британской флоры» (Atlas of the British Flora) вышел из печати в начале 1962 года. Он содержал информацию об ареалах произрастания 1 706 видов растений. Об успехе атласа свидетельствует хотя бы тот факт, что второй тираж вышел уже в следующем, 1963 году; после этого последовало второе издание, вышедшее тремя тиражами, затем третье… Сегодня «Новый атлас британской и ирландской флоры» (New Atlas of the British & Irish Flora) остается одним из ключевых справочников по ботанике Британских островов.

К моменту окончания работы над атласом компания Powers-Samas перестала существовать — она стала частью International Computers and Tabulators; сегодня ей наследует Fujitsu (интересно, что российская ИТ-компания ICL-КПО ВС тоже отчасти является «наследницей» Powers-Samas, впрочем это история для отдельной статьи). База данных на десятках тысяч перфокарт, а также переделанный для печати карт табулятор и прочее оборудование были переданы британскому Институту экологии Земли; сегодня их можно увидеть в экспозиции американского Музея компьютерной истории.

А ученые продолжают исследовать мир с помощью самых современных технологий, в том числе информационных.

Первые карты «Атласа британской флоры», показывающие ареалы обитания растений баранец обыкновенный и ликоподиелла заливаемая. Источник.
Первые карты «Атласа британской флоры», показывающие ареалы обитания растений баранец обыкновенный и ликоподиелла заливаемая. Источник.

Комментарии (0)