2. Инструменты
Победа разума над сарсапарилой
О.Генри В главе 1 мы начали беглое рассмотрение инструментария геногеографии с главных инструментов, используемых в этой книге - генетических маркёров и карт. Однако в оркестре геногеографии постоянно, хотя и порой и незаметно, звучат и иные инструменты. Без них многое останется не озвученным и непонятным. §1. Анализ селективно-нейтральной изменчивостиМЕРЫ ИЗМЕНЧИВОСТИ ГЕНОФОНДА Чтобы оценить изменчивость генофонда, в популяционной генетике обычно пользуются FST-статистикой Райта. GST-статистикой Нея, разными мерами генетических расстояний. Все эти показатели оценивают различия между популяциями в пределах «большого», подразделённого генофонда. Эти меры подробно описаны во многих зарубежных руководствах по популяционной генетике. Из отечественных и переведенных монографий можно рекомендовать учебники [Ли, 1978; Вейр. 1995] В русскоязычных монографиях основные сведения о FST и GST-статистиках кратко, но очень емко освещены в работах Ю. П. Алтухова [Алтухов, 1983, 1989, 2003; Алтухов и др., 1997; Динамика популяционных генофондов..., 2004]. Оба показателя (FST ≈ GST) являются нормированной дисперсией частоты аллеля. Например, FST=σ2q/q(l-q), где σ2q=k-1Σ(qj-q)2, а средняя частота аллеля q в подразделённой популяции, состоящей из к субпопуляций (j=l,2, ..., k), рассчитывается как q=k-1Σqj. Неевская мера генетического разнообразия (GST-статистика) имеет на наш взгляд, некоторые преимущества перед другими: она концептуально проста и логична; её посылки и преобразования имеют ясный и точный биологический смысл, теория её элегантна, расчёты не громоздки. GST-статистика может быть выражена и в понятиях FST, блестяще разработанных теорией популяционной генетики, и в привычных ныне многим понятиям генетических расстояний (как угловых, так и неевских), а поэтому GST-статистика позволяет использовать модели и результаты, изложенных в терминах всех этих мер. Также крайне важно, что GST-статистика может успешно применяться для популяций, в которых нарушено равновесие Харди-Вайнберга, нет случайного скрещивания и действует естественный отбор [Nei, Roychoudhury, 1974: Nei, 1975]. АНАЛИЗ ИЕРАХИЧЕСКИХ (МНОГОУРОВНЕВЫХ) ПОПУЛЯЦИЙ Очень важное достоинство GST-статистик - возможность вести анализ иерархически соподчиненных популяций. Для этого разработан четкий алгоритм, позволяющий разложить генетическую изменчивость популяций огромного региона GST на её составляющие. Поясним этот механизм на примерах (детальное описание алгоритма и результатов его использования дано в [Рычков, Ящук (Балановская), 1980, 1983, 1986]). Каждый иерархический уровень популяций, начиная с самых «дробных» популяций и поднимаясь до уровня региона, обозначим цифрами 1, 2, 3 и т.д. Пусть первый уровень (1) - локальные популяции (села, веси, города). Второй уровень (2) - территориальные группы народа (например, казаки или поморы в пределах русского народа). Третий уровень (3) - этносы (то есть народы - например, русские, белорусы и украинцы). Четвертый уровень (4) - группы «родственных» народов (например, лингвистические ветви -славянская, романская). Пятый уровень (5) - население, говорящее на языках одной лингвистической семьи (индоевропейской или же уральской). И последний, верхний уровень (Т) - «тотально» население всего региона (например. Восточной Европы). С помощью GST - статистик мы можем оценить среднюю генетическую изменчивость популяций на каждом уровне популяционной системы. Тогда G12 - обозначает средние генетическиеразличия между локальными популяциями в пределах одной территориальной группы (например, между популяциями поморов); G23 - средние различия между территориальными группами в пределах одного народа (например, поморы, казаки и другие - в пределах русского народа); G34 - средние генетические различия между народами в пределах лингвистической ветви; G45 - средние различия между ветвями одной лингвистической семьи; G5T - различия между лингвистическими семьями региона. При этом соблюдается равенство GST=G12+G23+G34+G45+G5T. Все составляющие GST связаны аддитивно. Поэтому, если мы решим «миновать» какие-то уровни, это не создаст проблем. Например, у нас не для всех этносов региона есть генетические данные об их территориальных группах (удмурты и карелы представлены лишь одной группой популяций). Или нет сведений о генофондах разных ветвей лингвистической семьи (индоевропейская семья представлена только славянами). В этих случаях мы можем плохо представленные уровни просто «пропустить». Тогда у нас будет G13 - средние генетические различия между локальными популяциями в пределах одного народа (например, села и веси в пределах русского народа, минуя территориальные группы); G35 - средние генетические различия между народами в пределах лингвистической семьи (минуя лингвистические ветви); G5T - различия между лингвистическими семьями региона (здесь мы на самом деле миновали «суперсемьи», например, ностратическую). При этом будет соблюдаться равенство GST=G13+G35+G5T.. ДВЕ СОСТАВЛЯЮЩИЕ ИЗМЕНЧИВОСТИ: МЕЖДУ ПОПУЛЯЦИЯМИ И ВНУТРИ ПОПУЛЯЦИЙ В понятие GST - статистик входят не только сами GST и их составляющие (G12, G23, G13...), которые оценивают различия между популяциями, но также HT и HS, обращенные «внутрь» популяций. Показатель HT оценивает общее генетическое разнообразие, накопленное всей «тотальной» популяцией. Он включает в себя и различия между популяциями GST. и различия между индивидами внутри популяций HS. Показатель HS оценивает различия внутри популяции и потому называется показателем гетерозиготности популяции. Это и понятно - показатель HS оценивает, насколько генетически похожи друг на друга представители одной популяции. HS может оцениваться для любого уровня иерархии, но обычно рассчитывается только для самого нижнего уровня, каким бы мы его ни выбрали - то есть это может быть гетерозиготность локальных популяций или же этносов. Все GST-статистики связаны между собой следующими соотношениями: GST≈FST=DST/HT HT=DST+HS HT=1-∑q2i HS=1-∑q2ij где qij - частота i-того аллеля в j-той субпопуляции (j=l,2.....к), к - число субпопуляций; qi, — средняя частота i-того аллеля в тотальной популяции, а DST=(k-1)-1(qi-qij)2 представляет собой дисперсию частоты аллеля. DST,FST и GST - ЭТО ПО СУТИ ПОЧТИ ОДНО И ТО ЖЕ Однако сама дисперсия DST зависит от частоты аллеля в популяции. Поэтому всегда используют показатель GST. Он, как и FST, представляет собой дисперсию частот аллелей, нормированную на общее генетическое разнообразие HT, и не зависит от средней частоты аллеля. Для диаллельных генов равенство GST = FST выполняется строго, для мультиаллельных генов равенство выполняется лишь примерно: GST ~ FST, поскольку в расчёт FST входит и оценка ковариации между частотами аллелей, а для GST- не входит. Но это не мешает обоим этим показателям быть очень близкими по величине и взаимозаменяемыми: ведь размах ковариации между частотами аллелей обычно меньше той случайной ошибки, с которой и FST, и GST варьируют около истинной оценки различий между популяциями. Поэтому вся огромная литература о статистических свойствах FST распространяется и на свойства GST. И мы дальше используем GST и FST как синонимы, хотя сами величины межпопуляционных различий оценивали с помощью неевских GST статистик. §2. Анализ селективно-значимой изменчивостиКАК ОБНАРУЖИТЬ ДЕЙСТВИЕ ОТБОРА По результатам воздействия на оценку генетических различий между популяциями легко выделяются два основных типа отбора: при дифференцирующем типе отбора размах изменчивости между популяциями по данному гену выше (FST(i)>Fe) а при стабилизирующем отборе ниже (FST(i) ЕСЛИ БЫ ОТБОРА НЕ БЫЛО Предположим, что у нас имеется множество полиморфных селективно-нейтральных генов. Это значит, что при оценке различий между популяциями по этим генам можно пренебречь двумя из четырех факторов микроэволюции - отбором и мутациями. Останутся лишь два фактора - дрейф генов и миграции. Для одного и того же генофонда измерим различия между одними и теми же его популяциями по каждому i-тому гену (аллелю). Тогда мы получим ряд оценок - FST(i). Это и будут оценки межпопуляционной изменчивости генофонда по ряду i-тых селективно-нейтральных генов. При этом мы обнаружим, что все оценки FST(i) колеблются случайным образом около величины некоей средней величины Fe. Эта величина и есть искомая оценка дифференциации генофонда. Она не зависит от отбора (поскольку гены селективно-нейтральны) и задана только селективно-нейтральными факторами микроэволюции: соотношением миграций Мe и дрейфа генов Ne. В общем случае эти факторы одинаково воздействуют на все гены генофонда. И именно поэтому все оценки FST(i) лишь случайным образом и недостоверно отличаются как друг от друга, так и от истинного уровня дифференциации генофонда - Fe. Поэтому, если мы рассчитаем среднее значение FST, то и его отличия от истинного уровня дифференциации Fe будут недостоверны: то есть FST ~ Fe. КАК «СНЯТЬ» ВЛИЯНИЕ ОТБОРА Однако, возьмём теперь не гипотетические селективно-нейтральные гены, а обычные полиморфные генетические маркёры, с которыми приходится на практике работать популяционной генетике. Тогда мы обнаружим, что наряду с недостоверными отклонениями FST(i) от FST≈Fe, есть и иные отклонения - неслучайные и достоверные. Для каждого такого i-того гена достоверные отклонения FST(i) от величины Fe (истинной дифференциации данного генофонда) вызваны действием отбора на этот ген. Поэтому возникает вопрос - сколько таких генов, для которых действие отбора столь велико, что достоверно отклоняет его оценку межпопуляционной изменчивости FST(i) от истинной величины Fe? Как соотносятся между собой гены, близкие к селективно-нейтральным, и селективно-значимые гены? Мы обнаружили при изучении генофонда и всей ойкумены, и отдельных регионов мира, что к селективно-значимым можно отнести лишь треть полиморфных классических маркёров [Балановская, Нурбаев, 1997; 1998а,б,в.; 1999]. К такому же выводу пришли и авторы, использующие совершенно иные методические подходы и иную панель маркёров, чем мы [Bowcock et al, 1991; Sanchez-Mazas et al,. 1994]. Это указывает на объективность полученной оценки. Можно предположить, что столь большой (две трети генов) буфер относительно селективно-нейтральных генов и обеспечивает устойчивость равенства FST≈Fe. Именно благодаря тому, что буфер условно селективно-нейтральных генов столь велик, средние оценки FST оказываются не столь чувствительны к случайным колебаниям той или иной выборки генов, по которой мы рассчитали это среднее значение. Или иными словами - именно поэтому оценки FST Fe почти не зависят от того, каково в выборке соотношение генов, подверженных тому или иному типу отбора - стабилизирующего или же дифференцирующего (если, конечно же, выборка генов из генома велика и случайна по отношению к эффектам отбора). Поэтому и оказывается, что если рассчитать средние значения ( FST) по большой выборке генов, репрезентативно отражающей геном в целом, то получим искомый интегральный показатель генетического расхождения популяций вслед за возникновением в ходе их истории тех или иных границ. Благодаря случайности выборки генов из генома, такой показатель уже не зависит от неравной приспособленности аллелей к среде, а примерно соответствует ( FST=Fe) истинному показателю дифференциации генофонда Fe, зависящему только от исторически сложившихся параметров - генетически эффективного размера популяций Ne и генетически эффективных миграций Мe [Wright, 1943]: FST≈Fe=1/(4NeMe+1) Еще раз подчеркнём, что величина Fe указывает нам, какими должны быть различия между субпопуляциями в отсутствие отбора. Она отражает устойчивые демографические особенности данного генофонда - исторически сложившуюся структуру генных миграций Мe и размер популяций Ne. Таким образом, хотя на практике расчёт изменчивости генофонда проводится по генам, частично находящимся под действием отбора, но, включая в этот расчёт не один - два, а множество генов, удается «снять» действие отбора и оценить истинную дифференциацию генофонда. Эта средняя, объективная, селективно-нейтральная дифференциация генофонда уже не зависит от конкретных взятых в анализ генов, и задаётся не действием естественного отбора, а действием исторических факторов. Такой подход к «снятию» эффектов отбора тесно связан с концепцией «обобщённого гена». §3. Картографический арсеналВ этом разделе мы рассмотрим, из каких элементов состоит картографическая технология геногеографии. При этом мы окинем лишь общим взглядом те методы, которые позволяют проводить разные операции с картами, и расскажем, для чего и в каких случаях они могут понадобиться. Собственно методы, составляющие картографическую технологию, и их технические подробности описаны в следующем разделе 3. Но большинству читателей сама техника построения и анализа карт вряд ли интересна. Поэтому здесь мы дадим лишь общее, но вполне достаточное для понимания книги описание картографического арсенала. Иными словами, технические детали оставим для раздела 3, а здесь сделаем акцент на взаимосвязи между этими методами, на их назначении. Все картографические методы геногеографии можно подразделить на пять групп: 1) построение простой карты; 2) операции с отдельной картой; 3) операции с несколькими картами; 4) построение синтетических (обобщённых) карт; 5) построение и использование карт надёжности. ПОСТРОЕНИЕ ПРОСТОЙ КАРТЫ Построение карты отдельного признака - это первый, начальный этап. Термин «простая карта» удобен, так как он подчёркивает, что сначала строится карта отдельного признака, в противоположность сложным «обобщённым» (синтетическим) картам, которые создаются впоследствии из нескольких простых карт. Исходными данными для построения простой карты служит информация о значениях признака в опорных точках - непосредственно изученных популяциях. Результатом картографирования являются значения признака, рассчитанные для каждой точки карты, точнее, для каждого узла равномерной сети, покрывающей всю карту. Именно «невидимая» цифровая модель карты - то есть совокупность численных значений признака, рассчитанных для каждого узла сети - и является для геногеографии настоящей «картой», а вовсе не её наглядный образ, видимый человеческим глазом. Именно с цифровой моделью проводятся все дальнейшие операции и преобразования, весь картографо-статистический анализ. В том числе можно провести визуализацию карты и получить графическую карту - привычное картографическое изображение. На этом этапе мы уже можем «разглядывать» карту. Однако с графическим изображением никаких операций проводить уже нельзя. Любую карту можно и нужно визуализировать, чтобы посмотреть, что же она из себя представляет. Однако все расчёты, весь анализ, проводятся не с изображением - а всегда с цифровой моделью, с «настоящей картой», «невидимкой». Важно, что цифровая модель, полученная в результате картографирования, зависит от двух факторов: исходных данных в опорных точках и от параметров картографирования. На одних и тех же исходных данных можно получить различающиеся карты, в зависимости от выбранных параметров. В этом и состоит картографическое моделирование. Имея семейство карт, полученных на основе одних тех же исходных данных, мы можем увидеть, какие структурообразующие элементы карты являются устойчивыми, непреходящими, не зависящими от метода построения карты. А какие элементы карт эфемерны и возникают лишь в отдельных картографических моделях. Это свойство - множественность картографических моделей - важное достоинство компьютерных карт пакета GGMAG. ОПЕРАЦИИ С КАРТАМИ Итак, мы получили цифровую модель (простую карту) для одного или нескольких отдельных признаков. Далее эти простые карты можно преобразовывать и комбинировать самыми различными способами. При этом те или иные математические операции производятся с числовыми значениями, находящимися в узлах карты. Например, такая операция, как сложение двух карт, состоит в том, что числовое значение определённого узла из первой карты складывается с числовым значением, находящимся точно в том же узле второй карты, и записывается в точно такой же узел третьей, создаваемой карты. Когда такие действия проведены с каждым узлом, мы получаем итоговую карту, являющейся суммой двух исходных карт. ОПЕРАЦИИ С ОТДЕЛЬНОЙ КАРТОЙ Операций с отдельной картой (неважно - с простой картой или с результатом обобщения ряда карт) предусмотрено много, и их удобно разделить на три группы: операции, проводимые с каждым узлом независимо; операции в плывущем окне (с той или иной группой узлов карты); операции, проводимые со всей картой (со всеми узлами карты сразу). Рассмотрим по очереди эти три группы процедур. 1) ОПЕРАЦИИ С ОТДЕЛЬНЫМ УЗЛОМ. Примером простейшей операции, проводимой независимо с каждым узлом, будет дополнение карты до единицы. Для этого значение, находящееся в данном узле карты (допустим, частота аллеля, равная 0.3), вычитается из единицы (1 - 0.3) и в результате получается искомая величина дополнения до единицы (в нашем примере 0.7). Когда такая операция проведена с каждым узлом карты, мы получаем карту, дополняющую исходную карту до единицы. Смысл подобного преобразования станет ясен, если представить, что первая карта показывала распространение одного из аллелей двуаллельного гена. В этом случае вторая карта (дополнение до единицы) покажет распространение второго аллеля: ведь в каждой популяции, в каждой точке карты частота второго аллеля должна равняться единице минус частота первого аллеля! В результате мы получаем карты обоих аллелей, необходимые для дальнейших расчётов. Такой способ получения карты второго аллеля корректнее, чем независимое построение карты второго аллеля: лишь этот способ обеспечивает сумму частот равную единице в любой точке обеих карт. А это требование порой является необходимым для генетико-статистических расчётов. Кроме вычитания, с картой можно проводить любые другие арифметические или алгебраические действия. 2) ОПЕРАЦИИ С ГРУППОЙ УЗЛОВ. Самым частым случаем преобразований в плывущем окне является построение трендовой карты. В этом случае значение в узле новой карты зависит не только от значения того же узла исходной карты, но и от значений в соседних узлах. Например, значения во всех соседних узлах усредняются, и это усреднённое значение записывается в «центральный» узел создаваемой трендовой карты. Затем мы переходим к следующему узлу, теперь он на время становится «центральным». У него уже несколько иные соседи, и мы проводим с ним ту же операцию. В результате по всей карте как бы проплывает окно заданного размера. В рамках этого окна мы проводим усреднение, и каждый узел карты поочерёдно становится «центральным». Результирующая карта по сравнению с исходной выглядит сглаженной. Благодаря усреднению соседних значений, резкие локальные скачки значений признака выровнялись, сгладились, и мы видим основные черты рельефа карты, не затушёванные локальными всплесками. Степень сглаживания будет зависеть от размера окна. Если мы выберем окно размером 3x3 узла сетки (один «центральный» узел и по одному соседу с каждой стороны, то есть восемь ближайших соседей для каждого «центрального» узла), то сглаживание будет очень небольшим. Если же размер окна будет 15x15 узлов сетки карты, то вся карта предстанет существенно выровненной. В пакете GGMAG реализованы и много более сложные процедуры. Плывущее окно может быть не только постоянного, но и меняющегося размера. Например, мы можем задать минимальный размер окна 5x5 узлов, и для каждого узла этот размер будет автоматически увеличиваться до тех пор, пока число опорных точек, попавших в окно, не достигнет заданной величины. Тогда для разных узлов карты размер окна и соответственно степень сглаживания окажется разной, но в каждом случае вычисления будут проведены примерно с одной и той же степенью достоверности, поскольку результаты будут опираться хотя и на разное число интерполированных значений, но на одно и тоже число значений в опорных точках. Использование техники меняющегося окна необходимо, когда на карте есть и области с густым и разнообразным населением (например, Кавказ), и области с редким населением на огромных территориях (например, коренное население Сибири). Эта техника плывущего окна - как постоянного, так и меняющегося размера - может применяться далеко не только для построения трендовых карт. Ведь вместо усреднения мы можем проводить любые другие вычисления по значениям, попавшим в окно, - например, рассчитать их дисперсию. И действительно, наиболее перспективное применение техники меняющегося окна состоит в построении карт межпопуляционного разнообразия, когда для каждой точки карты рассчитывается значение межпопуляционной изменчивости в окрестностях этой точки. 3) ОПЕРАЦИИ СО ВСЕМИ УЗЛАМИ КАРТЫ. Особым случаем преобразования отдельной карты является моделирование трендов с использованием многочленов Чебышева. В этом случае анализируется вся совокупность значений карты, и результирующая карта представляет значения трендового признака, вид которого зависит от исходных значений карты и от выбранной степени многочлена. Анализ одновременно всех значений карты используется, например, и при расчёте корреляции карты с географическими координатами. В этом случае карта рассматривается как простая таблица, для каждой ячейки которой (узла) известна географическая долгота, широта и значение признака. По этим значениям вычисляется корреляция признака и географических координат. В зависимости от используемой формулы можно рассчитать обычный коэффициент корреляции, частную или множественную корреляцию. ОПЕРАЦИИ С НЕСКОЛЬКИМИ КАРТАМИ Этот тип преобразований карт очень похож на операции с отдельной картой. Разница заключается лишь в том, что проводится не операция вида «значение в узле карты и заданное значение», как для отдельных карт, а операция вида «значение в узле первой карты и значение в том же узле второй карты». Мы уже приводили пример дополнения карты до единицы. Аналогичным образом можно суммировать две или более карт, делить карты друг на друга и так далее - в зависимости от заданной нами математической формулы. Проводятся и более сложные преобразования сразу нескольких карт. Например, та же технология плывущего окна может быть применена и к расчёту корреляции между двумя картами. В этом случае рассчитывается корреляция между всеми значениями в группе попавших в окно узлов одной карты и группе аналогичных узлов второй карты, и значение заносится в очередной «центральный» узел результирующей карты. Таким образом, для каждого узла карты получается свое значение коэффициента корреляции, и полученная карта носит название корреляционной. Она показывает, какова теснота связи на разных территориях. А она зачастую различается не только по величине, но и по знаку! Рассчитать корреляцию между двумя картами можно и более простым способом: как корреляцию между всеми узлами первой и (ранжированными в том же порядке) узлами второй карты. В этом случае мы получаем не корреляционную карту, а единственное значение коэффициента корреляции между двумя нашими картами. Легко заметить, что операции с несколькими картами можно подразделить по тому же принципу, что и операции с отдельной картой: действия с каждым узлом независимо (например, суммирование карт); действия в плывущем окне (корреляционные карты); действия со всей совокупностью значений карты (расчёт коэффициента корреляции между двумя картами). ПОСТРОЕНИЕ СИНТЕТИЧЕСКИХ КАРТ По сути, этот тип преобразований ничем не отличается от только что рассмотренного анализа нескольких карт. Мы выделяем его как отдельный вид лишь потому, что этот анализ преследует особые цели и, к тому же. обычно использует более сложные математические формулы. Самым простым из них является построение карт гетерозиготности. Гетерозиготность рассчитывается по обычной формуле из частот каждого аллеля: HS=1-∑q(j)2. Только эти частоты q(j) берутся соответственно из карт распространённости этих j-тых аллелей, и расчёт проводится независимо для каждого узла карты. Для двуаллельного случая, чтобы получить карту гетерозиготности, нужно лишь перемножить карты двух аллелей - q и (1-q), а затем полученную карту умножить на два. Как видим, весьма несложно. Построение карт генетических расстояний основано на том же принципе, только формула чуть сложнее. В этом случае исследователь задаёт, во-первых, частоты аллелей в реперной популяции (то есть той популяции, генетические расстояния до которой мы хотим оценить), и, во-вторых, карты распространённости этих аллелей. Тогда для каждого узла карты программа (как и при расчёте гетерозиготности) берет частоты каждого аллеля в этом узле и по заданной формуле рассчитывает генетическое расстояние от этих частот до частот в реперной популяции. Как обычно, такая операция проводится независимо для каждого узла, и создается карта расстояний, показывающая степень генетической удаленности каждой точки карты от реперной популяции. Технически более сложным является расчёт карт главных компонент. В этом случае данные по всем узлам всех исходных карт анализируются совместно: вычисляются коэффициенты корреляции между картами и далее по обычному принятому в статистике алгоритму рассчитываются значения каждой из главных компонент для каждого узла карты. Результатом является серия карт главных компонент: в узлах этих карт содержатся значения соответствующей главной компоненты в этой точке карты. Важно отметить, что обобщённая карта, например карта главной компоненты, по своему формату ничем не отличается от простой карты распространения какого-либо признака: точно так же каждый узел карты содержит какое-либо численное значение. Это значит, что с обобщёнными картами (как и с корреляционными и вообще любыми), можно проводить все те же операции, что и с простыми картами - картами отдельных признаков. Например, часто строят карты трендов для главных компонент, можно построить корреляционную карту между картой генетических расстояний и картой гетерозиготности, или карту главной компоненты по картам главных компонент и так далее. Главное сформулировать задачу и подобрать оптимальный показатель - а картографическая технология GGMAG позволит легко реализовать его и построить требуемую карту. ПОСТРОЕНИЕ И ИСПОЛЬЗОВАНИЕ КАРТ НАДЕЖНОСТИ Карты надёжности занимают особое место в геногеографии. Они сродни простым картам тем, что строятся не на основании других карт, а на основании данных в опорных точках. Но для построения карт надёжности нужно знать лишь географическое расположение опорных точек (исходных популяций). Результатом будет оценка для каждого узла карты того, насколько этот узел удален от совокупности опорных точек. И, следовательно, насколько надёжна интерполяция значений в этом узле. Карты надёжности отвечают на главный вопрос интерполяционный процедуры: насколько надёжен наш прогноз, то есть рассчитанное нами интерполированное значение в данном узле карты, если для данной области карты нет ни одной непосредственно изученной популяции. Карта надёжности показывает степень достоверности интерполяции для каждого узла карты. И использование карты надёжности может быть двояким. Во-первых, полезно чисто визуальное сравнение карты надёжности и карты того признака, для которого она построена. Мы видим, что значениям, которые показывает карта признака, можно доверять, если они находятся в тех областях, которые карта надёжности показывает как достоверные, и следует относиться с осторожностью, если они находятся в областях ненадёжных, то есть мало обеспеченных исходными опорными точками. Второй способ использования карт надёжности состоит в том, чтобы вообще исключить «ненадёжные» значения из карты признака - в тех узлах, для которых величина надёжности ниже заданного порога. Наша карта какого-либо признака после такого применения карты надёжности приобретает «белые пятна» изученности: если раньше значения признака показывались в каждой точке, то теперь они показываются лишь для надёжных узлов, а остальные узлы остаются пустыми (белыми). Отметим, что карты надёжности двух разных признаков могут быть идентичными — в том случае, если эти признаки изучены в одних и тех же популяциях. Например, если мы анализируем совокупность многих признаков (пусть это будут русские фамилии), изученных в одних и тех же популяциях. В этом случае и для карты любой фамилии, и для любой производной или обобщённой карты фамилий будет подходить одна и та же карта надёжности. Однако если один из наших признаков изучен в одних популяциях, а другой в других, то карты надёжности этих признаков будут различаться. Например, при построении обобщённых карт это создаёт проблему - какая из карт надёжности отдельных признаков описывает надёжность всей совокупности признаков, то есть надёжность самой обобщённой карты? На практике пользуются разными методами объединения карт надёжности, с тем, чтобы получить общую, «усреднённую» карту надёжности. Области низкой надёжности именно «усреднённой» карты и будут «белыми пятнами» на обобщённой карте изучаемых признаков. АРСЕНАЛ Подведём итоги нашего осмотра картографического арсенала. Мы видели, по меньшей мере, дюжину разных методов, более или менее тесно переплетённых друг с другом. 1. Построение «простой» карты по данным в опорных точках при заданных параметрах картографирования. 2. Построение карты надёжности (по данным о расположении опорных точек). 3. Построение простой карты с учетом надёжности (ненадёжные узлы остаются пустыми и отображаются как «белые пятна»). 4. Визуализация карты (создание графического изображения по данным цифровой модели). 5. Преобразование отдельной карты (например, дополнение до единицы). 6. Преобразование совокупности карт (например, суммирование карт). 7. Построение трендовой карты (усреднение значений попавших в плывущее окно). 8. Построение трендовой карты с использованием многочленов Чебышева. 9. Построение карты межпопуляционной изменчивости или другого показателя, рассчитываемого по заданной формуле в плывущем окне постоянного или меняющегося размера. 10. Расчёт корреляции карты с географическими координатами. 11. Построение корреляционной карты. 12. Построение синтетических карт (главных компонент, гетерозиготности, генетических расстояний) по нескольким исходным картам. Напомним ещё раз, что к любым картам могут применяться любые из этих операций - например, можно построить трендовую карту не только для простой, но и для обобщённой карты, рассчитать корреляцию корреляционной карты с географическими координатами и так далее. |
загрузка...