5. Атласы генофондов

В этом разделе рассматриваются технические вопросы создания всего множества карт, приведённых в книге. Описаны исходные данные для картографирования, указаны параметры построения разных видов карт, отмечены особенности различных Атласов.

§1. Атласы русского генофонда

БАНК ДАННЫХ «РУССКИЙ ГЕНОФОНД»
Создание геногеографических Атласов невозможно без предварительной разработки банков данных, содержащих исходную информацию. В ряду созданных нами банков, использованных в этой книге («GENEPOOL», «World Mitochondrial», «Палеолит Северной Евразии» и другие) банк данных «Русский генофонд»⁷ занимает особое место.
Этот Банк данных (информация на конец 2005 г.) содержит данные о русских популяциях (более 500), изученных по признакам генетики и антропологии (350 маркёров различного типа).
Для того чтобы стать не просто хранилищем самых разнообразных сведений о русском генофонде, а материальной основой для синтеза этой информации, Банк данных должен был решить задачу унификации данных. Вся информация дается в Банке по единой схеме и для генетических, и для антропологических данных. Именно единство формата позволяет отбирать любые данные по общим формальным признакам и комбинировать их.
Банк данных (БД) включает в себя десять разделов, объединяемых в три группы: А) информация, общая для всех тематических разделов БД; Б) тематические разделы; В)справочники.

A) ОБЩАЯ ИНФОРМАЦИЯ
1. Популяционный раздел.
Детальные описания каждой популяции - административная принадлежность, географические координаты, особенности сбора выборки, статус и т. д.
2. Библиографический раздел.
Сведения по тем источникам, откуда были взяты данные.

Б) ТЕМАТИЧЕСКИЕ РАЗДЕЛЫ
3. Соматологические признаки (3276 записей),
4. Дерматоглифические признаки (201 запись).
5. Классические генетические маркёры (2754 записей);
6. Аутосомные ДНК маркёры (962 записи);
7. Гаплогруппы митохондриальной ДНК (363 записи).
8. Гаплогруппы Y хромосомы (112 записей);

B) СПРАВОЧНИКИ
9. Административно-территориальная классификация
Перечень государств мира, областное деление стран СНГ до уровня областей, административное деление России на субъекты РФ и их подразделение на районы. Справочник позволяет каждой изученной русской популяции дать точную привязку к территории и административной единице.

10. Справочник маркёров и другие специальные справочники.

Основные задачи БД - обеспечить удобный ввод данных, проверку правильности их введения, возможность поиска (фильтрации) и любого комбинирования данных, выгрузку нужной комбинации данных в заданном виде, который «понимает» та или иная программа последующего анализа.
Банк данных обладает развитой системой поиска и отбора информации по различным параметрам и по запросам различного характера: группе популяций, набору маркёров, интервалу значений признаков, любому сочетанию этих условий и т. д. Фактически - благодаря использованию готовых иерархически организованных списков - не представляет затруднений быстро отобрать из всего массива данных сведения по интересующей пользователя популяции или группе популяций, причем по любому конкретному маркёру или их заданной группе.

ОТ БАНКА - К АТЛАСАМ
Информация из банка данных выгружалась в формат данных для картографирования, и с использованием нашего геногеографического программного пакета GGMAG создавались карты - как для отдельных признаков, так и синтетические карты.
Все карты Атласов русского генофонда построены при следующих постоянных параметрах:
- Число узлов ЦМ: 88x103;
- Параметры интерполяции: степень полинома 0. радиус 10, степень весовой функции 6;
- Построение трендовых карт: осреднением в плывущем окне постоянного (для данной карты) размера. Для разных карт использованы окна разной величины (см. ниже описания каждого отдельного Атласа).
- Шкалы: равномерные, как правило, семиинтервальные.
- Надёжная область: зона с вероятностью правильного прогноза более 95% при заданном уровне строгости.
Другие параметры (например, размер окна сглаживания, уровень строгости, мера расстояний) различались от Атласа к Атласу и указаны ниже при описании построения соответствующих карт.

АТЛАС СОМАТОЛОГИИ РУССКОГО НАРОДА
(рассмотрен в главе 4).
Атлас основан на информации базы данных «Соматология» (содержит 3 276 записей) банка данных «Русский генофонд». Сводка данных составлена проф. В. Е. Дерябиным по материалам Русской антропологической экспедиции под руководством В. В. Бунака и Т. И. Алексеевой [Происхождение ..., 1965], антропологической экспедиции М. В. Витова [Витов, 1964, 1997], а также по данным В. П. Алексеева [Алексееу и др., 1994]. При составлении сводки (включена информация только о мужчинах) В. Е. Дерябиным была проведена коннексия⁸ данных с учетом различий в методических приёмах измерений разных авторов. При невозможности коннексии по какому-либо признаку данные по этому признаку не включались в подраздел объединённых данных.
Атлас состоит из трёх разделов.

1. «ПРОСТЫЕ» КАРТЫ. ПЕРВЫЙ РАЗДЕЛ основывается на данных Русской антропологической экспедиции (РАЭ). Раздел включает в себя карты 30 антропологических признаков, изученных РАЭ в 107 русских популяциях.

Перечень признаков: длина тела, процент светлых глаз, поперечный диаметр головы, продольный диаметр головы, ширина носа, высота носа от бровей, горизонтальный профиль лица, рост бороды, скуловой диаметр, наименьший лобный диаметр, морфологическая высота лица, нижнечелюстной диаметр, высота носа от переносья, высота верхней губы, ширина рта, толщина губ, цвет глаз, цвет волос по Фишеру (средний балл), цвет волос по Бунаку (средний балл), рост волос на груди, рост бровей, высота переносья, частота вогнутой спинки носа, частота выпуклой спинки носа, положение кончика носа, положение основания носа, профиль верхней губы, складка верхнего века, наклон лба, развитие надбровья (средний балл).

2. «ПРОСТЫЕ» КАРТЫ. ВТОРОЙ РАЗДЕЛ включает как данные РАЭ, так и данные М.В. Витова по северным русским популяциям [Витов, 1964, 1997]. Этот раздел мы обозначаем как «АБВ» - от первых букв фамилий исследователей (Алексеева, Бунак, Витов). Раздел «АБВ», в отличие от раздела «РАЭ», включает меньше признаков, но зато основывается на данных о большем числе популяций (180 популяций). Раздел состоит из 18 карт, показывающих изменчивость основных антропологических признаков. Публикуются трендовые варианты карт, полученные осреднением в окне 5x5 узлов сетки.
Приведены значения этих 18 признаков в 180 русских популяциях: 107 изученных Русской антропологической экспедицией; 60 изученных М. В. Битовым; 13 изученных В. П. Алексеевым с соавторами. В 11 случаях обе экспедиции обследовали русское население одних и тех же районов. Однако, согласно концепции построения БД, эти популяции введены независимо, поскольку при совпадении этнической и административно-территориальной привязки популяций фактически были изучены разные выборки из одной генеральной совокупности.
Перечень признаков: длина тела, продольный диаметр головы, поперечный диаметр головы, наименьшая ширина лба, морфологическая высота лица, скуловой диаметр, нижнечелюстной диаметр, высота носа от бровей, ширина носа, цвет глаз, доля светлых волос, доля темных волос, рост бороды, горизонтальный профиль лица, доля вогнутых спинок носа, доля выпуклых спинок носа, положение кончика носа, профиль верхней губы.

3. ОБОБЩЁННЫЕ КАРТЫ. ТРЕТИЙ РАЗДЕЛ Атласа содержит обобщённые карты двух видов - карты канонических переменных и карты расстояний, а также карты надёжности. Все обобщённые карты построены в двух вариантах: РАЭ (см. первый раздел Атласа) и АБВ (см. второй раздел Атласа).
Карты канонических переменных являются аналогами карт главных компонент и показывают основные закономерности в изменчивости русских популяций. Карты канонических переменных: не вычислялись из карт исходных признаков, а картографированы «готовые» значения канонических переменных, рассчитанные В. Е. Дерябиным по 18 (АБВ) или 30 (РАЭ) признакам. Приводятся трендовые карты (размер окна сглаживания 5x5 узлов сетки).
Карты генетических расстояний показывают сходство каждой русской популяции со среднерусскими характеристиками⁹. Карта по данным РАЭ построена в трёх вариантах (главы 2 и 4), различающихся числом признаков и методом построения, в одном из вариантов степень весовой функции в виде исключения равнялась 10. Карта по данным АБВ показывает расстояния Махаланобиса, рассчитанные от усреднённой русской популяции до каждой из 180 популяций в программе DJ. Использованы данные по 16 признакам: признаки «доля темных волос» и «доля светлых волос» не использованы из-за отсутствия данных по их внутригрупповой корреляции с остальными признаками, а эти корреляции необходимы для расчёта по Махаланобису. Полученные величины расстояний картографированы аналогично отдельным признакам, приводится трендовая карта (окно 3x3).
Карты надёжности показывают, для какой территории картографирование (интерполяционный прогноз) является статистически надёжным. Созданы две карты надёжности - для данных РАЭ (уровень строгости 0.5) и для данных АБВ (уровень строгости 0.7). Все карты Атласа приводятся в границах «надёжной» зоны, т.е. территории, хорошо обеспеченной исходными данными.

4. ГЕНЕТИЧЕСКИЙ ДЕТЕКТИВ. Сложность работы по созданию Атласа проиллюстрируем лишь одним примером. Казалось бы, коль скоро разработаны сложнейшие программные пакеты для картографирования, создана база антропологических данных, проведена их коннексия, то задача картографирования данных уже решена - остаётся лишь определить географические координаты популяций. Однако даже столь частная задача (о которой мы, как правило, и не упоминаем) может превратиться в неразрешимую проблему. Обычная процедура определения координат проходит следующим образом: в компьютерном Атласе (например, [Большой атлас России..., 2002]) открывается карта той административной области, к которой принадлежит популяция. В ней по справочникам отыскивается заданная популяция. Далее она отыскивается на карте, определяются ее точные координаты, которые и заносятся в популяционный справочник Банка данных.
Однако проблема в том. что авторы далеко не всегда указывают точную привязку изученных популяций, часто дают им произвольные рабочие наименования или допускают ошибки в их названиях. Могут встречаться несколько популяций со сходными названиями, со временем меняются и названия популяций и административные границы регионов и т. д. И тогда уже ординарная процедура определения координат превращается в детективную историю.
Например, популяции, обследованные М. В. Битовым, указаны в списке под условными названиями, соответствующими административному району - это первый источник информации. На картах М. В. Витова для этих же популяций указаны конкретные названия обследованных населённых пунктов - это уже второй источник информации. Третий источник информации - Банк данных «Русский генофонд» - содержит справочник всех районов России, соотнесённых с её областным делением. Необходимо сопоставить эти три источника. При совпадении их информации можно предположить, к какой административной области относится искомая популяция, и далее определять координаты по обычной процедуре. Однако после этих сопоставлений и ряда специальных ухищрений осталось несколько неидентифицируемых популяций.

Например, среди популяций М. В. Витова (источник информации № 1) есть «Приозёрская», а Приозёрский район (согласно источнику информации № 3) существует только в Ленинградской области. Однако на карте М. В. Витова (источник информации № 2) в занимаемой этим районом части Ленинградской области не отмечено ни одной изученной популяции. С другой стороны, на карте есть несколько населённых пунктов, которым нет соответствия в списке названий популяций. Просмотрев эти населённые пункты и другую вспомогательную информацию (время, маршруты обследования и многое иное) мы предположили, что наиболее вероятным кандидатом для популяции «Приозёрский район» (источник информации № 1) может быть Конево (один из «беспризорных» пунктов источника информации № 2, т.е. не имеющий соответствий в источнике N° 1). Основания для гипотезы были очень хрупкие: Конево находится рядом с Плесецким (Плисецким у М. В. Витова) районом Архангельской области, изученным М. В. Битовым в этом же 1955 году (правда, наряду с ещё 15 районами Костромской, Вологодской и Архангельской областей). В настоящее время вблизи от Конево существуют два района - Плесецкий и Каргопольский. Проблема в том, что оба района изучены М. В. Битовым и значатся в источнике информации № 1.
Тогда - на следующем витке детективной истории - мы предположили: а вдруг ранее существовал и Приозёрский район, а теперь он поглощен Плесецким и Каргопольским? Хотя вероятность этого мала, мы все же стали звонить в различные администрации Архангельской области, надеясь получить ответы на свои вопросы. Администрация Плесецкого района решала проблемы «космического» масштаба, и более перспективным оказался поиск через Каргопольский район. О Приозёрском районе там ничего не знали. Но в результате поисков мы выяснили, что в настоящее время в составе района имеется Приозёрский сельсовет. Беда только в том, что Конево в него не входит. Мы решили все же продолжать поиск. Дозвонившись в Приозёрский сельсовет, мы узнали, что Конево входило в него! Ныне, после укрупнения районов и смене их границ, Конево отошло к другому - Плесецкому району. Но ранее всегда относилось к Приозёрскому району, затем ставшему Каргопольским. Таким образом, в результате этих розысков, мы смогли популяцию «Приозёрский район» правильно поместить в Архангельской, а не в Ленинградской области, связав с популяцией «Конево» на карте М. В. Витова.
Однако оставался также не идентифицированным, например, «Виноградовский район». На карте М. В. Витова (источник информации № 2) такого населённого пункта нет. Однако район со столь южным названием по нашему справочнику Банка данных (источник информации № 3) числится в Архангельской области. Ищем дополнительные сведения. Оказывается, что в перечне изученных в том же 1955 году популяций (источник информации № 1) рядом с «Виноградовским» перечислен и Шенкурский район. А недалеко от Шенкурска на карте М. В. Витова (источник информации № 2) указано село Семёновское, которое оказалось также «беспризорным» - его нет в списке изученных популяций (источник информации № 1). Сопоставив логически всю цепь данных, можно выдвинуть мало вероятную, но все же гипотезу: Семёновское - это и есть Виноградовский район.

Беда только в том, что такого населённого пункта в Виноградовском районе не оказалось! Оставалось пытаться все же выяснить этот вопрос в районном центре Виноградовского района. Им оказался посёлок Березняки. В результате долгих розысков и звонков мы выяснили, что «столица» Виноградовского района - Березняки - до 1960 года называлась «Семёновское»! Оказалось, что Семёновское, указанное на карте М. В. Битовым, через пять лет после антропологического обследования было переименовано. О прежнем названии сейчас не помнят даже жители села - лишь в архиве района мы смогли обнаружить эту информацию! Итак, в результате дедуктивного метода и долгих поисков информация всех трёх источников совпала: мы сумели «Виноградовский район» из списка популяций совместить с Семёновским карты М. В. Витова и п. Березняки современной карты России.
Не будем перечислять другие истории нашего «расследования» (например, «Кировский район» оказался Фирово Тверской области) - мы хотели лишь показать на этих примерах, что до момента появления на свет карты распространения признака приходится преодолевать множество самых непредсказуемых препятствий.

АТЛАС ДЕРМАТОГЛИФИКИ РУССКОГО НАРОДА
(рассмотрен в главе 4)
Атлас основан на информации базы данных «Дерматоглифика» (содержит 201 запись) банка данных «Русский генофонд». Сводка данных составлена сотрудником Института этнологии и антропологии РАН к.и.н. Н. А. Долиновой (часть этих данных опубликована в монографии Г. JI. Хить «Дерматоглифика народов СССР»). Составитель любезно предоставила нам эту сводку для картографирования в русском ареале.
Атлас основывается на значениях 7 ведущих некоррелированных дерматоглифических признаков в 28 русских популяциях, в основном из Центральной России. Имеющаяся в банке данных популяция № 29 (Крымская) не учитывается при картографировании, так как находится вне «исконного» ареала.
Перечень признаков: дельтовый индекс, положение осевого карпального трирадиуса, индекс Камминса (основных ладонных линий), дополнительные межпальцевые трирадиусы, узоры на тенаре (Th/I), узоры на гипотенаре, европеоидно-монголоидный комплекс.
«ПРОСТЫЕ» КАРТЫ. Построены карты семи ведущих дерматоглифических признаков, перечисленных в главе 4. Приводятся трендовые карты (окно 5x5).
ОБОБЩЕННЫЕ КАРТЫ. Главные компоненты рассчитаны по картам распространения шести отдельных признаков (исключен европеоидно-монголоидный комплекс, который является производным из частот остальных признаков) в ареале надёжного пространства. Приводятся трендовые карты (окно 9x9).
Карта надёжности построена при уровне строгости 0.5. Она одна для всех карт дерматоглифики - простых и обобщённых - поскольку все эти карты основаны на информации об одних и тех же 28 русских популяциях.

АТЛАС КЛАССИЧЕСКИХ МАРКЁРОВ РУССКОГО НАРОДА
(рассмотрен в главе 5)

Атлас основан на информации базы данных «Классические маркёры» (содержит 2 754 записей) банка данных «Русский генофонд». Данные собирались в течение ряда лет авторами этой книги и их коллегами (участвовавшими в создании БД «GENEPOOL») из многих источников. Некоторые публикации, надо полагать, не были нами найдены, но процент таких пропусков' в базе данных, как нам кажется, очень мал. Поэтому Банк данных можно рассматривать как практически полное собрание всех накопленных в науке данных о полиморфизме классических маркёров в русском населении.
Чтобы сделать эту информацию доступной широкому кругу специалистов, мы приводим её на сайте www.genofond.ru и в Приложении (раздел 6).
Банк данных содержит частоты 100 аллелей 33 локусов иммуно-биохимического и физиологического полиморфизма. Использованы данные о частотах генов в 290 русских популяциях. В среднем локус изучен в 26 популяциях, но изученность разных маркёров крайне неравномерна.

Перечень признаков: ABH, ABO, АСР, АК, СЗ, CER, СНЕ, CV, DI, ESD, F13B, FY, GC, GD, GLOl, HLA-A, HLA-B, HLA-C, HP, JK, KEL, KEL-KP, KM, LEW, LU, MNS, P, 6PGD, PGM1, PI, PTC, RH, TF

ИСХОДНЫЕ ДАННЫЕ представляют собой частоты классических маркёров в русских популяциях, географические координаты которых лежат в пределах от 43° до 70° северной широты и от 24° до 60° восточной долготы плюс популяция г. Асбест, включённая в порядке эксперимента из-за её хорошей изученности (результаты этого эксперимента описаны в главе 5). Таким условным способом были отобраны русские популяции «исконного ареала» и как можно видеть, ареал взят с большим «запасом» - фактически включена вся Европейская часть России.
Для рассматриваемого ареала в Банке данных имелись сведения о ряде русских популяций по 24 локусам из 33. Однако степень изученности этих локусов резко различалась - как по числу изученных популяций, так и по географии этих популяций (например, чтобы они не были сосредоточены лишь в одной половине ареала). Поэтому 24 локуса были разделены на три группы.

1) В первую группу маркёров вошли тридцать пять аллелей тринадцати локусов, изученных для русских популяций достаточно хорошо (ABO, АСР, ESD, GC, GLOl, HP, MN, 6PGD, PGM1, PI, РТС, RH-D, TF).
2) Во вторую группу маркёров вошли локусы, изученные не столь подробно: CV, KEL, LEW, а также HLA*B27. Для этих маркёров или число популяций было признано недостаточным (например, только 8 для системы HLA), или их география была неудовлетворительной (например, для цветовой слепоты в основном ограничена одним лишь центром исконного ареала).
3) В третью группу маркёров вошли слабоизученные локусы: АК, C3F, GD, HLA, КР, LU, Р
Картографированы были маркёры всех трёх групп. Однако анализ главных компонент проведён только по локусам первой группы (наиболее изученным), картографо-статистический анализ (табл. 5.2.1.) - для первой и второй групп, третья же группа генов для количественного изучения русского генофонда не использовалась - карты привлекались лишь для общего сравнения с остальными разделами Атласа.

«ПРОСТЫЕ» КАРТЫ. Раздел включает 66 карт, показывающих распространение каждого из картографируемых аллелей первой и второй групп: 44 карты аллелей, перечисленных в табл. 5.2.1. (для диаллельных локусов строились карты обоих аллелей) , а также 22 карты аллелей трёх локусов HLA.
Для 44 аллелей был проведён картографо-статистический анализ этих карт, в том числе построены корреляционные карты связи каждого из аллелей с географической долготой, широтой и множественной корреляции с географическими координатами (табл. 5.2.1). Приводятся трендовые карты (выбор размера окна зависел от степени изрезанности рельефа карты, чаще всего использовались окна 7x7 и 11x11).

Каждая карта первого раздела сопровождается своей картой надёжности (уровень строгости 0.3). В этом особенность Атласа по классическим маркёрам. Если в остальных Атласах все признаки изучены в одних и тех же популяциях, то каждый из классических маркёров изучен в различных популяциях: от 8 популяций по генам системы HLA до 182 популяций по системе АВ0. Соответственно, резко различаются площадь и очертания «надёжной» зоны для карт разных классических маркёров. На приводимых картах значения частоты аллеля показаны только в пределах «надёжной» зоны. Поэтому карты распространения одних маркёров показывают их изменчивость в пределах одной лишь Центральной России, тогда как другие маркёры картографированы в русском населении практически по всей Восточной Европе.
Понятно, что общее число карт надёжности (18 карт) соответствует числу локусов первой и второй групп, а не числу аллелей: все аллели локуса изучены в одних и тех же популяциях, поэтому их изученность описывается одной и той же картой надёжности.

ОБОБЩЁННЫЕ КАРТЫ представлены синтетическими картами главных компонент (и их трендами, полученными в окнах 9x9, 11x11, 15x15). Они обобщают 35 карт аллелей первой группы и рассчитаны только по «надёжному пространству» обобщённой карты надёжности. Для её построения все карты надёжности для локусов из первой и второй групп (кроме HLA), были усреднены, при этом каждая карта надёжности отдельного локуса выступала с весом, равным числу аллелей в этом локусе. Например, «вес» карты надёжности системы АВО был равен трем, глиоксалазы 1 - двум, а трансферрина - пяти.

АТЛАС ГАПЛОГРУПП Y ХРОМОСОМЫ РУССКОГО НАРОДА
(рассмотрен в главе 6)

Атлас основан на информации базы данных «Гаплогруппы Y хромосомы» (содержит 112 записей) банка данных «Русский генофонд». Информация представляет собственные данные авторов [Balanovsky et al., in print].
Атлас основан на данных о 14 русских популяциях, обследованных в ходе экспедиционной работы по изучению русского генофонда. Картографируются 8 гаплогрупп Y хромосомы, удовлетворяющих однопроцентному критерию полиморфизма: средняя частота в 14 популяциях выше 0.01.
Перечень признаков: гаплогруппы ЕЗЬ, Ila, lib, J2, N2, N3, Rla, Rib.
«ПРОСТЫЕ» КАРТЫ. Карты восьми гаплогрупп построены в пределах «надёжного» пространства русского ареала и использованы для создания карт главных компонент. В книге вместо этих «русских» карт приводятся карты распространения гаплогрупп на всей территории Европы (включая и надёжный русский ареал, очерченный серой линией). Создание «европейских карт» описано ниже.

ОБОБЩЁННЫЕ КАРТЫ. Синтетические карты главных компонент построены по восьми картам гаплогрупп в пределах надёжно изученного русского ареала. Приводится трендовая карта (окно 7x7).
Карта надёжности едина для всех простых и обобщённых карт (уровень строгости 0.3).

АТЛАС ФАМИЛИЙ РУССКОГО НАРОДА
(рассмотрен в главе 7)

Атлас основан на информации базы данных «ONOMA». Содержится информация о фамилиях 1 201 000 человек. Представлены 1166 популяций, относящихся к 107 районам одиннадцати административных областей. Общее число фамилий в базе данных превышает 67 тысяч. В алфавитном порядке первой стоит фамилия «Аабд», последней - «Ящуков». Исходно фамилии сгруппированы по населённым пунктам (или сельским объединениям), для которых указана их административная принадлежность. Это позволило рассчитывать частоту фамилии для любых заданных групп популяций.

ИСХОДНЫЕ ДАННЫЕ. Фамилии коренного сельского населения изучены главным образом в пределах «исконного» русского ареала. Для этого собирались данные по сельским поселениям, а также по тем небольшим городам, население которых сформировалось главным образом за счет жителей ближайших деревень. Население крупных городов игнорируется по той же причине, почему оно не изучается нами и по остальным маркёрам - чтобы минимизировать влияние недавних миграций. Единственное исключение сделано для фамилий Кемеровской области. Этот регион представляет «периферийное» русское население, далеко за пределами «исконного» ареала. И поскольку всё население - и сельское, и городское - сформировано мигрантами (из «исконного» ареала), то не было и смысла отсеивать «мигрантное» население городов.
Исходные данные представляют собой списочный состав населения изученного региона: перечень фамилий в каждом населённом пункте, где каждая фамилия соответствует одному человеку - её носителю. Очевидно, что одни и те же фамилии в этом списке могут повторяться многократно (родственники, однофамильцы). Программа «ONOMA» и создана для того, чтобы перейти от списка членов популяции к частотам фамилий в популяции, а затем провести необходимые расчёты.
Исходные данные могут дать информацию только о том, сколько раз та или иная фамилия встречена в данном населённом пункте. Этого достаточно для изучения структуры генофонда, а сама информация остаётся при этом анонимной - имеются данные не о людях, а лишь о частотах их фамилий.
Для статистического анализа использовалась вся база данных целиком, а для картографического - только данные о 75 фамилиях. Эта информация получена из двух источников.

1) Данные А. П. Бужиловой по частотам 75 русских фамилий в 55 популяциях уровня сельсоветов, представляющих 23 области Европейской части России. Средний объем выборки по масштабам, принятым в анализе фамилий, невелик - немногим более 300 человек.
2) Информация нашей базы данных «ONOMA» по тем же 75 фамилиям в 51 популяции уровня районов, представляющих 7 областей. Из 50 районов, используемых в статистическом анализе (см. табл. 7.2.1.) Репьёвский район Воронежской области не успел пока войти в картографический анализ, зато обширный Каргопольский район Архангельской области представлен как три популяции, что и дает в сумме 51 картографированную популяцию. Средняя выборка на район значительна - около 20 000 человек.
Сравнение этих двух источников показывает, что второй (наша база данных) основан на обширных выборках, но представляет только 7 областей, а у первого (данные А. П. Бужиловой) выборки невелики, зато география популяций очень хорошая. Поэтому для картографирования данные этих двух источников были объединены. По пяти районам (Холмогорский район Архангельской, Кашинский район Тверской, Кологривский и Вохомский районы Костромской, Велижский район Смоленской областей) имелись данные в обоих источниках. Для этих районов данные А. П. Бужиловой не использовались, и в этих точках картографировались только данные нашей базы данных. Таким образом, общее число опорных точек картографирования составило 101 популяцию: 50 популяций Бужиловой плюс 51 популяция нашей базы данных.
Кроме различия в уровне иерархии популяций (сельсоветы или же районы) между двумя источниками имеется и ещё одно - важнейшее - различие. Данные А. П. Бужиловой ограничены 75 фамилиями, которые оказались по её данным наиболее распространенными. В нашей же базе данных представлено не 75, а 14 000 «условно коренных» распространенных фамилий. Но поскольку для картографирования оба источника объединяются, то мы можем построить подробные «простые» карты лишь тех же 75 фамилий.

ПРЕОБРАЗОВАНИЕ ИСХОДНЫХ ДАННЫХ. В отличие от всех иных признаков, где преобразования от экспериментальных данных до частот признаков многократно описаны и общеизвестны, преобразования с данными о фамилиях не стандартизованы. Поэтому схематично приведем их.
1. «Маскулинизация» фамилий. В исходных данных присутствуют фамилии и мужчин, и женщин. Поэтому, чтобы одну и ту же фамилию не учитывать как две разные, все фамилии преобразуются к орфографии мужского рода. Например, список «Иванов, Смирнова, Иванова, Сидорова» превращается в «Иванов, Смирнов, Иванов, Сидоров». Надёжный алгоритм такого преобразования разработать не так просто (см. «Крик души» в конце параграфа).

2. Исключение неинформативных популяций. Как правило, в каждом районе есть несколько посёлков, где большинство жителей - недавние мигранты или их потомки. Такие поселения являются чуждыми включениями и не отражают изучаемую популяцию. К тому же они, как правило, недолговечны - их состав текуч, и сами они так же быстро исчезают с карты, как и появляются. Информация об уровне миграций в населённых пунктах собирается в ходе экспедиционного обследования. Разработана специальная методика: каждому населённому пункту местными экспертами проставляется степень его «мигрантности»
по пятибалльной шкале. Оценки обычно выставляют два эксперта, правила оценок стандартизованы, что, как мы надеемся, сводит к минимуму субъективный момент в определении уровня миграций. Программа выводит список населённых пунктов вместе с оценкой «мигрантности» и позволяет выбрать, какие из них необходимо исключить из анализа (пункты с высоким уровнем миграции).

3. Исключение неинформативных фамилий. Очевидно, что часть пришлых, «залётных» фамилий может встретиться и в тех населённых пунктах, где население в основном коренное. Поэтому мы исключаем фамилии, число носителей которых в изучаемом районе меньше заданного порога. Обычно мы пользуемся разработанным нами «демографическим» критерием: фамилия считается неинформативной, если она встречена менее чем у пяти человек в районе (см.раздел 7.3.). Программа «ONOMA» позволяет подразделить согласно этому критерию весь список фамилий на условно «коренные» и условно «пришлые». Условия их выделения (строгость критерия) можно выбрать разные. Все дальнейшие операции можно проводить с любыми выделенными группами фамилий - «коренными» (частыми), «пришлыми» (редкими) или по всей совокупности фамилий.

4. Расчёт частот фамилий. Каждая фамилия «прикреплена» в базе данных к тому населённому пункту, где она встречена. Однако мы не проводим анализ на уровне отдельных населённых пунктов¹¹. Нами принята организация данных на трёх других более высоких иерархических уровнях. Первый уровень — «популяция» (сельская администрация, волость, сельсовет), объединяющая несколько населённых пунктов. Второй уровень - «район». Он включает все популяции, относящиеся к данному району согласно современным административным границам. Третий уровень - «регион». Он соответствует области или нескольким соседним областям и включает все районы, которые были обследованы в этих областях. Программа работает последовательно с каждым из уровней. Сначала объединяются списки фамилий всех населённых пунктов, относящихся к данной популяции, и рассчитывается частота каждой фамилии в полученном списке. Это частоты на уровне популяций. Далее усредняются частоты фамилии во всех популяциях данного района, и записывается полученная частота фамилии в районе. Далее усредняются частоты фамилии во всех районах данного региона, и записывается полученная частота фамилии в регионе. На всех уровнях иерархии можно рассчитывать и взвешенные, и невзвешенные средние частоты, что определяется конкретной задачей. Программа обеспечивает анализ и на любых других уровнях иерархии - например, населённых пунктов, или же заданных групп районов, или же заданных областей, или, например, географически соседних районов разных областей.

5. Размещение в базе данных. Частоты каждой фамилии в каждой популяции, каждом районе и каждом регионе записываются в базу данных. Причём, частота фамилии в данной группе населения может быть рассчитана разными способами. Осуществляется целый веер расчёта частот. Фамилии могут быть «коренные», «пришлые» или любые. Частоты взвешенные или невзвешенные на том или ином уровне. Население может включаться только сельское или же и городское. Неинформативные популяции могут исключаться в разных вариантах или же включаться в анализ. То есть мы получаем несколько оценок частоты одной и той же фамилии в одной и той же группе населения. Чтобы избежать путаницы, они помещаются в разные разделы базы данных. Весь веер полученных частот для каждой популяции может храниться в БД и использоваться для дальнейшего анализа. Каждый из этих вариантов расчёта оптимален для решения своего круга задач.
6. Оценка случайного инбридинга. Традиционно в популяционной генетике фамилии используются для расчёта случайного инбридинга (см. раздел 7.6.). Инбридинг оценивается просто - методом изонимии (I). Он представляет вероятность случайного заключения брака между носителями одной фамилии (это справедливо при условии панмиксии). Соответственно, вероятность случайного инбридинга рассчитывается как четверть от суммы квадратов частот всех фамилий [Crow, Mange, 1965]. Программа «ONOMA» рассчитывает коэффициент изонимии (I) для популяций любого уровня и для частот фамилий, полученных разными способами.

Перечень признаков: Абрамов, Александров, Алексеев, Андреев, Анохин, Антонов, Афанасьев, Балашов, Белов, Борисов, Быков, Васильев, Веселое, Виноградов, Волков, Воробьёв, Воронин, Голубев, Горбачёв, Григорьев, Гуляев, Гусев, Денисов, Дружинин, Егоров, Ершов, Ефимов, Иванов, Ильин, Калинин, Киселёв, Ковалёв, Козлов, Костеров, Котов, Кротов, Крылов, Кудряшов, Кузьмин, Кузнецов, Курочкин, Лебедев, Макаров, Михайлов, Морозов, Никитин, Николаев, Новиков, Носков, Осипов, Павлов, Пестов, Петров, Поляков, Попов, Прокофьев, Романов, Савельев, Семёнов, Сидоров, Смирнов, Соколов, Соловьёв, Степанов, Тарасов, Тимофеев, Тихонов, Трифонов, Фёдоров, Филиппов, Цветков, Чернов, Чистяков, Щербаков, Яковлев.

«ПРОСТЫЕ» КАРТЫ включают 75 карт, построенных в пределах «надёжного» пространства и при минимальном сглаживании (окно 3x3).
ОБОБЩЁННЫЕ КАРТЫ включают карты главных компонент (тренд в окне 7x7), карты генетических расстояний и карты случайного инбридинга.
Карты главных компонент и генетических расстояний (от среднерусских частот фамилий) рассчитаны по 75 картам отдельных фамилий в пределах надёжного пространства (уровень строгости 0.5). Карты главных компонент обсуждаются в главе 7. Карта генетических расстояний не приводится, поскольку неравномерная изученность не позволяет рассматривать ее как надёжный результат, хотя её общий паттерн весьма напоминает карты расстояний, приводимые в соматологическом атласе.
Карта случайного инбридинга основана только на информации нашей базы данных по 49 районам. Поэтому эти карты построены по данным не о 75, а обо всех 14000 «коренных» фамилий. Расчёт оценок случайного инбридинга проводился в программе ONOMA в двух вариантах - на уровне популяций (сельсоветов) и на уровне районов. Приводится «районная» карта (тренд llxll).

КРИК ДУШИ
При описании программы или базы данных, чем понятней стараешься изложить механизмы их работы, тем проще кажется задача создания этих программных продуктов. Поэтому проиллюстрируем нелегкую работу программистов одним лишь примером. Он касается простейшей, казалось бы, задачи - приведения фамилий к орфографии мужского рода.
В действительности, нельзя создать алгоритм определения того, к мужскому или же к женскому роду относится фамилия, однозначно охватывающий все 100% фамилий. Фамилии, оканчивающиеся на «А», далеко не всегда оказываются женскими. Могут быть и мужские. Например, ДУБРАВА. Мало того, даже одна и та же фамилия, оканчивающаяся на «А», может включить в себя две разных фамилии, одна из которых мужского рода, а другая - женского. Например: ГОЛОВА. Это может быть как ГОЛОВА так и ГОЛОВА. В первом случае это и мужская и женская фамилия и изменять её нельзя. А во втором случае это женская фамилия и её надо превратить в мужскую - ГОЛОВ. Для программной обработки в таких случаях нет признака пола. И создать общий для всех популяций алгоритм, чтобы различить эти фамилии - нельзя.
Если женская фамилия оканчивается на «АЯ», то мужская фамилия равновероятно может оканчиваться на «ИЙ», «ОЙ», «ЫЙ». Если в списках присутствует только женская фамилия, то конвертировать её в мужскую без ошибки нет возможности. Гипотетический пример. В популяции встречаются две мужские фамилии ГОРСКИЙ и ГОРСКОЙ. Обе они дают одну женскую фамилию ГОРСКАЯ. Тогда обнаружив в списке женскую фамилию, не зная ударения, нельзя однозначно произвести из нее мужскую фамилию.
Утешает одно - таких случаев немного.
Учитывая это, после просмотра преобразования фамилий нескольких районов из разных областей и поиска ошибок, был принят следующий алгоритм трансформации фамилий в мужские.
1. В большинстве случаев фамилии с окончаниями ОВА, ЕВА, ИНА, ИВА, ЕНА, ЫНА являются женскими и их можно заменить на мужские, отбросив последнюю букву «А».
2. Для других фамилий оканчивающихся на «А» применить следующую методику.
2.1. Отбросить последнюю букву и запомнить трансформированную фамилию.
2.2. По этой трансформированной фамилии организовать её поиск по базе.
2.3. Если нет такой - считать, что фамилии "мужская".
2.4. Если такая находится, то значит это фамилия "женская" и её надо заменить на найденную мужскую.
3. Для окончаний «АЯ» искать трансформированные фамилии с окончаниями «ИЙ», «ОЙ», «ЫЙ». При положительном поиске произвести замену женской фамилии на найденную мужскую.

§2. Атласы генофондов Европы и Евразии

Атлас генофонда Восточной Европы рассматривается в главе 8 и состоит из пяти разделов: классические маркёры; аутосомные ДНК маркёры; митохондриальная ДНК; соматология; дерматоглифика. Фактически это отдельные атласы, но для целей нашей книги их удобнее рассмотреть все вместе. Перечень всех маркёров Атласа сведен в обобщающей таблице 8.1.1.

РАЗДЕЛ «КЛАССИЧЕСКИЕ МАРКЁРЫ ВОСТОЧНОЙ ЕВРОПЫ»

Карты основаны на информации Банка данных «GENEPOOL» (см. главу 1) о частотах 100 аллелей 30 классических генетических маркёров в популяциях Восточной Европы (в широком смысле, т.е. включая Урал и Северный Кавказ). Как и для карт классических маркёров в русском ареале, число изученных популяций резко варьирует: от 12 до.881 популяций по разным локусам. В сравнении с ранее проводившимся анализом [Балановская, Нурбаев, 1997; Рычков и др., 2002] данные пополнены информацией о популяциях русских и калмыков.

«ПРОСТЫЕ» КАРТЫ. По этим данным построены сто карт отдельных аллелей для ареала народов Восточной Европы.

ОБОБЩЁННЫЕ КАРТЫ включают три типа карт, построенных по 100 картам отдельных аллелей: карты главных компонент, карта гетерозиготности (средняя по 33 локусам) и карты генетических расстояний от средних частот генов в русских популяциях и от средних частот генов в популяциях белорусов.

Карты надёжности построены при уровне строгости 0.3 для каждого из локусов (30 карт надёжности). Общая карта надёжности создана на основе 30 различающихся карт следующим способом. На первом этапе каждая карта надёжности преобразована в балловую: значения менее 0.95 (низкая надёжность) заменены на значение «0»; значения выше 0.95 заменены на «1». Полученная карта принимает только два значения: в узлах с низкой надёжностью ноль, в узлах с высокой надёжностью - единица. Именно эти балловые карты были усреднены. (При усреднении взвешивание по числу аллелей не проводилось, чтобы обеспечить совместимость с аналогичной «среднебалловой» картой надёжности по ДНК маркёрам. Надёжными узлами полученной карты считались узлы со значением выше 0.5 (то есть те узлы, которые являются надёжными более чем для половины изученных локусов). Чтобы привести к обычному виду карты надёжности, значения в каждом узле были увеличены на 0.45, после этого надёжными, очевидно, являются узлы со значениями выше «обычного» порога 0.95. Необходимость такой «среднебалловой» карты (а не обычной средней карты, как например, в атласе классических маркёров для русских популяций) вызвана тем, что низкая надёжность в абсолютном значении является крайне малой, и единственная карта с низкой надёжностью на какой-либо территории дает на усреднённой карте надёжность ниже 0.95, даже если все остальные карты на этой территории высоко надёжны. В дальнейшем анализе при построении обобщённых карт использовались карты отдельных аллелей только в надёжном пространстве «среднебалловой» общей карты надёжности.

РАЗДЕЛ «АУТОСОМНЫЕ ДНК МАРКЁРЫ ВОСТОЧНОЙ ЕВРОПЫ»

Карты основаны на информации Банка данных «GENEPOOL» (см. главу 1). Картографический анализ проводился неоднократно в течение нескольких лет (по данным о четырех, семи и шести локусах), в главе 8 описывается вариант, выполненный по шести наиболее изученным локусам. Из них четыре ДНК маркёра относятся к микросателлитным: CAct685 (14 аллелей), DM (28 аллелей), DRPLA (23 аллеля), SCA1 (19 аллелей); один ДНК маркёр представляет класс минисателлитных маркёров: АроВ (28 аллелей); и один ДНК маркёр инсерционно-делеционного полиморфизма: CCR5del32 (2 аллеля).

«ПРОСТЫЕ» КАРТЫ. Раздел включает 114 карт распространения 114 аллелей 6 аутосомных ДНК маркёров.

ОБОБЩЁННЫЕ КАРТЫ. Раздел включает карты главных компонент, генетических расстояний и средней гетерозиготности.

Карты главных компонент (тренд 11x11) построены по 51 одной карте полиморфных аллелей - использованы карты только тех аллелей, средняя частота которых в Восточной Европе выше 1%.

Карты генетических расстояний построены по 114 аллелям (включая как 51 условно-полиморфный аллель, так и прочие редкие аллели, поскольку расстояния Нея позволяют совместное использование частых и редких аллелей). Созданы пять карт расстояний: от среднерусских частот, от средних частот в уральской семье, индоевропейской, алтайской и от средних частот в Восточной Европе. Расчёт средних частот, например, по уральской семье, проводился так: брались данные по частотам 114 рассматриваемых аллелей в популяциях уралоязычных народов, локализованных в Восточной Европе; рассчитывались сначала среднеэтнические частоты (по всем популяциям данного народа), и затем уже усреднением среднеэтнических получали средние частоты в популяциях уральской семьи. Средне-восточноевропейские значения получены усреднением частот во всех семьях. Такой иерархический расчёт средних частот выполнен в программе MEGERA 2.0. Карты генетических расстояний от каждой семьи строились сначала по каждому локусу отдельно, и затем усреднением шести карт получены итоговые карты. (Карта расстояний от русских основана на пяти локусах, поскольку CAct685 не изучен в русских популяциях). Приводятся трендовые варианты карт (окно 9x9).

Карты гетерозиготности построены для шести локусов (по 114 аллелям), и рассчитана средняя карта гетерозиготности. Приводится трендовая карта (окно 11x11).

Карты надёжности построены при уровне строгости 0.3 для каждого из локусов (6 карт надёжности). Обобщённая (среднебалловая) карта надёжности создана так же, как для восточноевропейского атласа классических маркёров.

РАЗДЕЛ «МИТОХОНДРИАЛЬНАЯ ДНК ВОСТОЧНОЙ ЕВРОПЫ»

Карты основаны на информации Банка данных «World Mitochondrial» по частотам гаплогрупп и гаплотипов мтДНК. Использована информация на 2003 год о 22 восточноевропейских популяциях.

«ПРОСТЫЕ» КАРТЫ. Раздел включает карты распространения в Восточной Европе 16 отдельных гаплогрупп (С, D, Н, HV, I, J, К, R, Т, U2, U3, U4, U5a, U5b, V, W), а также карту «бланка» (суммарной частоты всех прочих редких гаплогрупп).

ОБОБЩЁННЫЕ КАРТЫ. Раздел включает суммарные карты гаплогрупп и карты гаплотипического разнообразия (являющегося для однородительских маркёров аналогом средней гетерозиготности аутосомных маркёров).

Суммарная карта распространения восточно-евразийских гаплогрупп построена по данным о суммарной частоте гаплогрупп А, В, С, D, G, F, Y, Z.

Карты главных компонент построены по 17 картам отдельных гаплогрупп.

Карта общего гаплотипического разнообразия показывает географическое распределение уровня гаплотипического разнообразия, который был рассчитан по данным о частотах отдельных гаплотипов (линий). Приводится трендовая карта (окно 11x11).

РАЗДЕЛ «АНТРОПОЛОГИЯ ВОСТОЧНОЙ ЕВРОПЫ»

Подраздел «СОМАТОЛОГИЯ» описывает изменчивость 22 признаков соматологии в 253 популяциях Восточной Европы.

ОБОБЩЁННЫЕ КАРТЫ. Подраздел включает карты первой и второй канонических переменных изменчивости 22 антропологических признаков в популяциях восточноевропейских народов. В отличие от карт главных компонент в остальных атласах, эти карты строились не по картам отдельных признаков, а по значениям признаков в изученных популяциях. Расчёт значений канонических переменных выполнен В. Е. Дерябиным, и эти данные были затем нами картографированы.

Подраздел «ДЕРМАТОГЛИФИКА». Исходные данные о значениях шести ведущих нескоррелированных признаков в 72 популяциях Восточной Европы были предоставлены Н. А. Долиновой.
«ПРОСТЫЕ» КАРТЫ. Были построены шесть карт распространения ведущих признаков дерматоглифики в Восточной Европе.
ОБОБЩЁННЫЕ КАРТЫ представлены картами главных компонент (тренды в окне 15x15). Расчёт главных компонент проведён в двух вариантах - только по «надёжному» ареалу карты, и по всему пространству карты. Надёжный ареал при уровне строгости 0.5 состоит из обширной центральной зоны и нескольких отдельных «анклавов» по периферии Восточной Европы. Поскольку восприятие карты главных компонент в таком разорванном ареале может затруднить читателя, мы приводим карты главных компонент в «полном» ареале, то есть построенные без учета надёжности. Впрочем, изученность дерматоглифики достаточно высокая, и как «надёжные», так и «безнадёжные» карты выявляют одинаковые закономерности в географии главных компонент.

АТЛАС «ГАПЛОГРУППЫ Y ХРОМОСОМЫ В ЕВРОПЕ»
Карты основаны на сводке о частотах гаплогрупп Y хромосомы в населении Европы, составленной А. С. Пшеничновым по литературным данным, и включающей также наши неопубликованные данные по русским, украинским и белорусским популяциям. Для картографирования выбраны восемь гаплогрупп, которые наиболее часты в населении Европы: Е3b, J2, I1a, I1b, N2, N3, Rla, Rib.
Поскольку разные источники (оригинальные публикации) использовали разные схемы определения гаплогрупп, и типирование проводилось с разным уровнем филогенетического разрешения (дробности определения гаплогрупп), не для всех популяций было возможно определить частоты каждой из восьми гаплогрупп. В случае, если источник содержал информацию по парагруппе R1 (xRlb), эти частоты учитывались как относящиеся к гаплогруппе Rla. Число изученных популяций максимально для гаплогруппы Rla (К=148) и минимально для гаплогруппы N2 (К=74).
Большинство малочисленных выборок (N<40), имевшихся в сводке данных, не использовались для картографирования или были присоединены к более крупным выборкам. Такое объединение выборок проводилось только для географически близких популяций, принадлежащих к одному народу.

АТЛАС ГЕНОФОНДА ЕВРАЗИИ
(рассмотрен в главах 5, 6, 9)

Классические маркёры представлены четырьмя картами для генов групп крови АВО и резус ( глава 5, раздел 5.2). Аутосомные ДНК маркёры представлены картой гена CCR5 (глава б, раздел 6.1). В обоих случаях использована информация банка данных GENEPOOL. Но главным образом Атлас включает карты по митохондриальной ДНК (глава 9, раздел 9.2).

БАНК ДАННЫХ ПО МИТОХОНДРИАЛЬНОЙ ДНК. Источником исходных данных по мтДНК послужил банк данных World Mitochondrial. (Его последние версии обозначаются также MLJRKA database). Банк данных объединяет подавляющее большинство опубликованных данных по изменчивости митохондриальной ДНК в популяциях всех регионов мира. Объём банка данных на 2007 год превышает 67 ООО изученных образцов мтДНК. Создание банка велось под общим руководством первого автора этой книги: начальные версии составлялись другим автором, затем сбор данных осуществлял А. С. Пшеничное, а нынешняя версия банка данных в значительной мере пополнена В. В. Запорожченко, которым написана также программа автоматического отнесения образцов к гаплогруппам.

Для каждого образца содержится информация по ГВС1, а также (при наличии таких данных в оригинальных статьях) по ГВС2 и по информативным мутациям в кодирующем регионе мтДНК («ПДРФ маркёры»). В банк включены также сведения по изученным популяциям, включая их этническую (народ) и административную принадлежность (страна, провинция) и географические координаты.

ОПРЕДЕЛЕНИЕ ЧАСТОТ ГАПЛОГРУПП. Особенность всех митохондриальных баз данных в том, что информация содержится в формате «образец (из определённой популяции)- его гаплотип», а не в формате «популяция - частота аллеля (гаплогруппы)», обычном для популяционно-генетических баз данных. Соответственно, на первом этапе использования митохондриальной базы данных необходимо для каждого образца указать его гаплогруппу, и только потом можно рассчитать и картографировать частоты гаплогрупп. Однако определение гаплогруппы для огромного массива образцов, изученных разными авторами по различным наборам маркёров с использованием различающихся обозначений одних и тех же гаплогрупп, представляет собой сложную задачу.

Для создания Атласа митохондриальной ДНК Евразии (версия 2007 года) мы использовали следующий алгоритм. Для образцов, по которым имелись удовлетворительные данные о ПДРФ маркёрах кодирующей части мтДНК, гаплогруппы определялись по наличию характеристических мутаций в кодирующей части, то есть наиболее корректным путём. Для образцов, по которым имелись данные только по ГВС1 (или данные по обоим сегментам, и ГВС1, и ГВС2), гаплогруппа определялась по степени сходства данного гаплотипа со всеми гаплотипами, для которых надёжно известна гаплогруппа. В качестве такой референтной базы (обучающей выборки) использовались образцы, секвенированные полностью или подробно охарактеризованные по ПДРФ маркёрам. Например, если гаплотип данного образца по набору мутаций оказывался наиболее сходен с восемнадцатью другими гаплотипами, несомненно относящимся к гаплогруппе U4, то и рассматриваемый гаплотип мы относили к той же гаплогруппе. Такая операция проводилась программным путём (используя возможности MURKA database), при необходимости результаты проверялись и корректировались вручную (экспертная оценка). Такой способ достаточно эффективен и в большинстве случаев точен (как показано для похожего алгоритма [Behar et al., 2007]), но не гарантирует стопроцентное определение гаплогруппы. Действительно, если тестируемый образец сходен с двадцатью гаплотипами, относящимися к одной гаплогруппе, и с сорока гаплотипами другой гаплогруппы, то классифицировать наш гаплотип затруднительно. Во всех подобных случаях гаплогруппа не проставлялась (считалась неизвестной), и популяции, в которых доля таких неизвестных гаплогрупп превышала 1%, не включались в картографический анализ. Впрочем, для ряда гаплогрупп (тех, для которых общепринято выделение по ГВС1) такого исключения популяций не проводилось, поэтому карты разных гаплогрупп основаны на несколько различающихся наборах популяций.

Такой алгоритм позволил гарантировать высокую надёжность исходных картографируемых данных (частот гаплогрупп) и при этом использовать все имеющиеся данные: как из работ, включавших обязательное определение ПДРФ маркёров, так и данные из многочисленных исследований, в которых проводилось лишь секвенирование ГВС1 (например, публикации лабораторий судебно-медицинской экспертизы). Использованные для картографирования частоты гаплогрупп представлены на сайте www.genofond.ru (к моменту выхода книги представлены частоты 11 основных гаплогрупп в 136 популяциях Западной Евразии).
«ПРОСТЫЕ» КАРТЫ. Были построены 43 карты распространения отдельных гаплогрупп. Можно было построить карты для множества дробных гаплогрупп, но для целей этой книги мы выбрали 43 гаплогруппы, представляющие основное разнообразие митохондриальной ДНК в Евразии.
Перечень картографированных признаков: гаплогруппы А, А4, А5, А* В, С, D, F, Н, J, К, Ml, М3, М7, М7*, М7а, M7b, M7bl, М7Ь2, М7b3, M7b*, М7с, Т, Tl, Т2-Т5, Т2, Т* U2, U2* U2a, U2b, U2c, U2e, U4, U5a, U5b, V, W, X, XI, X2, X*,Z.

ОБОБЩЁННЫЕ КАРТЫ. Весь анализ проведён в пределах надёжного пространства, задаваемого картой надёжности (построенной по 278 популяциям при уровне строгости 0.2).
Суммарные карты западноевразийских и восточноевразийских гаплогрупп основаны на картах гаплогрупп H, J, К, Ml, М3, Т, Tl, Т2-Т5, Т2, Т* U2, U2* U2a, U2b, U2c, U2e, U4, U5a, U5b, V, W, X, XI, X2, X* (западноевразийские гаплогруппы) и A, A4, A5, А*, В, С, D, F, M7, M7*, M7a, M7b, M7bl, M7b2, M7b3, M7b*, M7c, Z (восточноевразийские гаплогруппы).
Карты главных компонент изменчивости генофонда построены по картам 20 гаплогрупп А, В, С, D, F, Н, J, К, Ml, М3, М7, Т, U2, U4, U5A, U5B, V, W, X, Z. Набор гаплогрупп сократился только за счет уменьшения их дробности - чтобы гаплогруппы со множеством субгаплогупп (например, многочисленные варианты М7 или U2) не смещали оценки главных компонент.

Карта генетических расстояний суммирует расстояния от средних частот тех же 20 гаплогрупп в русских популяциях.
Наконец, для построения карты гаплотипического разнообразия отдельной гаплогруппы (V) рассчитано разнообразие всех гаплотипов, входящих в гаплогруппу V (дополнение до единицы суммы квадратов частот всех гаплотипов), и полученные значения картографированы. «Карта прародины» получена перемножением карт разнообразия и карты частоты гаплогруппы V.

* * *
Созданные атласы русского генофонда обобщают практически всю информацию об изменчивости русских популяций, накопленную антропологией и генетикой. Восточно-Европейский атлас выявляет взаимодействие русского генофонда с соседями - опять-таки не только по ДНК маркёрам, но и по классическим генетическим маркёрам, а также по антропологическим признакам. А евразийский атлас показывает место русского генофонда в общей системе генофондов Евразии.
Авторы надеются, что эта книга послужит не памятником научным эпохам изучения русского народа по данным антропологии и классическим генным маркёрам, а инструментом при его дальнейшем исследовании в «ДНК-эру». Думается, что ценнейшим преимуществом «ДНК-эры» является её богатое наследство: уникальная возможность объективного сравнения новых результатов с итогами прошлых исследований. Такое сравнение выявляет и новые возможности, и новые промахи молекулярно-генетических исследований, позволяет прокладывать путь не по абрису, а по надёжной геногеографической карте.

⁷ Банк данных «Русский генофонд» (номер в Государственном регистре баз данных 022-030-9536) разработан в 2001-2005 годах несколькими программистами под руководством авторов данной книги. Основной вклад в программную реализацию внесен Иваном Борисовичем Горбацевичем. Основное финансирование поступило от Российского фонда фундаментальных исследований: проект РФФИ №01-07-90045в «Создание геоинфосистемы Русский генофонд», рук. Е. В. Балановская; проект РФФИ № 01-06-80085а «Комплексное геногеографическое изучение русского генофонда: антропология, дерматоглифика, генетика», рук. Е. В. Балановская.
⁸ Коннексия - преобразование данных из разных источников так, чтобы эти данные можно было включить в совместный количественный анализ. Этот процесс аналогичен пересчету температуры, измеренной по Фаренгейту, в шкалу Цельсия.
⁹ Для получения среднерусских характеристик оцениваются средние (невзвешенные по численности каждой русской популяции) значения по всем исследованным популяциям. Получается характеристика абстрактной «среднерусской» популяции, от которой и вычисляются генетические расстояния до всех точек карты.
¹⁰ HLA*B27 в виде исключения рассмотрен как аналог двуаллельного локуса: частота HLA*B27 (первый аллель) и единица минус частота HLA*B27 (второй «аллель»).
¹¹ Во многих деревнях встречаются лишь несколько фамилий. Поэтому слишком велики случайные колебания частот фамилий между отдельными населёнными пунктами. Колебания между соседними «волостями» (объединяющими несколько деревень) значительно меньше.

<<Назад Вперёд>>

Просмотров: 7436

загрузка...

Другие книги по данной тематике