Методы математического анализа из теории информации

Если морфометрию и биостатистику можно рассматривать как первый этап применения математических методов в ихтиологии, то в настоящее время развитие электронно-вычислительной техники дает возможности для применения более строгих и эффективных методов анализа признаков любой природы (Бартлетт, 1968; Блэ кит, 1968]. Применение современных методов математического анализа позволяет эффективно использовать ЭВМ как в таксономических, так и в зоогеографических исследованиях.

Эти методы е позволяют уплотнять исходный цифровой материал до легко обозримых форм, повышать мощность многомерных критериев различия, учитывать коррелятивные нелинейные связи между признаками, определять ценность отдельных признаков при выделении групп.

Математический анализ нашего материала проведен совместно " с В. Л. Андреевым, которому принадлежат выбор нужного математического метода, его ВІДОЗАПенеНІЯ ДІЯ целей нашего анализа. Все расчеты выполнены на ЭВМ «МИР-2», все исходные данные и расчеты можно найти в опубликованных работах [Андреев, Ре щетников, 1977, 1978а]. Остановимся па некоторых основных за дачах и результатах іх решения.
Структура коррелятивных связей признаков. Существование тесной коррелятивной связи меду признаками позволяет отбро сить некоторые из них. Поэтому часто при анализе целесообразно сначала выяснить, какие некоррелированные комбинации онреде ляют различия между особями. В качестве призера такого аналІІ за использованы морфометрические данные по сигу Чунозера, іс пользованы промеры 154 рыб размером от 15 до 45 см. Сигir Чун
озера — это некрутые рыбы, Достигающие возраста 13 лет и веса = 1 кг, созревают в возрасте 5— 13 лет при достигненні 28—30 см Длины и веса около 300 г.


В таблицах и на рисунках приняты следующие условные обо значення морфометрических признаков:

AC — длина тела по Смиттy, L; -- длина до конца чешуйного покрова, AD . антедорсальное расстояние, PD — постдорсальное расстояние, рl — длина хвостового стебля, Н — наибольшая высота тела, h — наименьшая высота тела, Ер — длина основанія СПІІнного плавника, hp — высота D, А — длина основания анального птавника, д — Высота анального плавника, lp -- длина грудного плавника, lу — длина брюшного плавника, с - длина головы, 0 - горизонтальный диаметр глаза, r- длина рыла, 2, — ширина рыла, hr — высота рыла, 1mx — длина верхнечелюстной костi, hmx - ее ширина, 1md — длина HIIжней челюсти. Меристические признаки: sp.br. — число жаберных Тычинок на первой левой дужке, li — число прободенных чешуй в боковой линии, D, 11 D2 — число соответственно неветвистых и ветвистых лучей в спинно І1.18ВНІIEKe, A A2 — соответственно часло неветвистых и ветвистых лучей в анальном плавнике.
Отметим, что весь исходный материал промерен автором лично на свежем материале. Это имеет немаловажное методическое значение.
Подсчет коэффициентов парной корреляции (KK) вели в двух системах: в системе непосредственно замеряемых значений (НЗЗ), т. е. самих промерах рыб в мм, и в системе индексов, т. е. в про центах от длины тела или длины головы. В первом случае учитывали 21 пластический признак и соответственно 210 значений КК, во втором — 20 признаков и 190 КК. Результаты расчетов представлены в виде одномерных распределений КК (рис. 11). Если в системе НЗЗ все корреляции являются высокими и достоверны ми (p>0,99), то в случае системы индексов, наоборот, доля зна чимых КК составляет всего лишь 9% и все они имеют сравнительно низкие значения (рис. 11).
Более детальное и наглядное представление о структуре связей можно получить при помощи специальных графиков — так называемых дендрограмм сходства, для построения которых в данном случае использован «взвешенный парногрупповой метод» (Бейли, 1970] (см. рис. 12).
Расчеты показали, что в системе Н33 корреляции признаков настолько жестко связанны, что, по существу, представляют собой единую группировку. В ней можно наметить три подгруппы: высо та спинного плавника (hp) тесно коррелирует с длиной грудного (IP) и брюшного (lv) плавников; размер глаза (0) тесно связан с длиной хвостового стебля (pl); наибольшая высота тела (H) коррелирует с высотой и длиной анального (?А, 1А) и длиной спин ного плавников; естественно, что высота рыла (hr) тесно коррелирует с его шириной (1). В то же время в системе индексов значения КК составляют множество ясно выраженных группировок, со держащих внутри себя слабо сцепленные подгруппы (рис. 13). По числу «ветвей» на дендрограмме можно выделить 3 плеяды: первая включает 11 признаков, в основном признаки головы и плавников (от й, до hp на рис. 13); вторая — всего один (lmх) и третья — 8 признаков. Корреляция индексов с размерами тела по казана на рис. 1.
Поскольку в практике ихтиологических работ для пластических

Распределение коэффициентов парной корреляции
Piне. 11. Распределение коэффициентов парной корреляции (KIК) в системе индексов (1) и в системе непосредственно замеряемых значений признаков (2) [Андреев, Решетников, 1977]


признаков нашла применение система Індексов, а це система Н33, то в дальнейшем все операции будут проводиться пено в системе индексов.
Сравнение нескольких популяций по многим признака,и. Обыч но в прежних Ихтио:Тогических работах было нринято попарное сравнение двух популяций или выборок по каждому признаку от дельно. В данном случае на примере 11 популяций мы покажем ные возможности. Фактически это будет одновременное сравне ние q-выборок (в нашем случае 11 популяций) в р-мерном про странстве (26-мерном) на примере п-особейі (612 экз.) без сущc ственной потери информации.
Для удобства изложения материала всем выборкам присвоена следующая нумерация: 1 — сиг Чунозера (154 экз.), 2 — малоты чинковый синг Охтозера (84 экз.), 3— многотычинковый сиг Охт озера (12 экз.), 4— многотычинковыіі сиг Чингльс-явра (15 экз.), 5 — малотычинковый сінг Чингльс-явра (17 экз.), 6 — многоэтычини ковый сиг Кензис-авра (12 экз.), 7— малотычінковый cnr Кен зис-явра (51 экз.), 8 — сиг 03. Тодішахтинского (31 экз.), 9 – сиг р. Воронья (360 экз.), 10 — c1г-Востряк р. Анадырь (120 экз.), 11 — сиг-горбун р, Анадырь (80 экз.). Среди анализируемых популяций есть мелкие сиги 24 — 26 см длиной и весом 200—250 г (популяции под номерами 4, 5, 6, 7); сиги 20 — 30 см Длиной весом (около 300 г (помер 1); более крупные озерные и полупроходные сиги
41
30—35 см длиной и весом 400 — 700 г (номера 3, 8, 9) и самые крупные сиги размером до 35—40 см и весом до 1 кг (номера 2, 10, 11). Все промеры сделаны автором на свежих рыбах. Первые девять выборок относятся к сигам Кольского полуострова, основ ные моменты биологии которых описаны ранее [Решетников, 1963а,б, 1964, 1966.


Дендрограмма сходства непосредственно замеряемых значений при знаков у сига Чунозера Пояснения в тексте

Рис. 12. Дендрограмма сходства непосредственно замеряемых значений при знаков у сига Чунозера Пояснения в тексте
Рис. 13. Значения коэффициентов корреляции индексов пластических признаков с данной те ла по Смитту (А) и дендрограмма сходства морфометрических признаков (Б) cura Чунозера [Андреев, Решетников, 1977]
21 плагаа я
Вверху: заштрихованные
• столбики — отрицательная корреляция; белые — поло жительная корреляция; пунктирная иння — 99 % - ный доверительный интер вал. Остальные обозначения те же, что и на рис. 12
Дендрограмма сходства 11 популяций сига

Рис. 14. Дендрограмма сходства 11 популяций сига А -- по меристическим признакам; Б — по пластическим признакам; в -- по всем признакам; г — гипотетическая схема генетической связи всех исследуемых сигов [Андреев, Решетников, 1977]. Номера выборок (популяций): 1 - Iунозеро; 2 — Охт озеро, малотычинковый сиг; 3 — О?тозеро, многотычинковый; 4 — Чинг.Iьс-явр, многотычинковый; 5 — Чингльс-Явр, малотычинковый; 6 — Кензис-явр, многотычин ковый; 7 — Кензис-вр, малотычинковый; 8 — 03. Подпахтинское; 9 — р. Воронья; 10 — р. Анадырь, сиг-востряк; 11 - р. Анадырь, сиг-горбун
Если признаки статистически независимы, то расчет дивергенции между двумя совокупностями (выборками) сильно упрощает ся и может быть выполнен вручную. Так, для одного признака выражение дивергенции а можно записать следующим образом:
 (5) 
-
Подсчет ее значения для всех признаков можно получить простым сложением дивергенций по всем признакам. Отметим некоторые дополнительные свойства формулы (5). Если дисперсии сравниваемых выборок равны, то


т. е. она отличается от квадрата критерия Стьюдента отсутствием множителя N-суммарной численности выборок, а от квадрата известного коэффициента CD Э. Майра [1971] — наличием в знаменателе усредненного значения дисперсий. В то же время при абсолютном равенстве средних арифметических значений признака дивергенции равна
 (7)

т. е. отличается от нуля, если Дисперсии сравниваемых выборок различны. Таким образом, значения дивергенции всегда положительны или равны нулю, причем равенство нулю достигается толь ко тогда, когда х=X, и огор“. Следовательно, увеличение числа признаков при сравнении выборок не уменьшает дивергенцию и не ухудшает распознавание объектов.
Отметим, что формула (6) является выражением для подсчета «расстояния Махаланобиса», которое Э. Майр | 1971] справедливо считает более точным, чем коэффициент сD. В этом плане «дивергенция» является показателем более точным, чем показатель «расстояние Махаланобиса», и включает последнее как частный случай.
Опуская описание построения матрицы дивергенции, представим полученные материалы в виде дендрограмм (см. рис. 14), построенных отдельно по пластическим, меристическим и, наконец, по всем признакам. При анализе только меристических признаков четко выделяется группа многотьчинковых сигов (6, 4, 3), четко обособляются и сиги Анадыря (10, 11). Все махотычинковые сиги Кольского полуострова по числу тычинок, числу чешуй в ll и числу лучей в плавниках образуют довольно однородную группу (рис. 14, а).
Анализ дендрограммы, построенной только по пластическим признакам, позволяет отметить зависимость близости популяций на дендрограмме от темпа роста: большое сходство наблюдается среди мелких медленнорастущих сигов (1, 7, 5), от них обособляются крупные быстрорастущие озерные и полупроходные сиги Кольского полуострова (2, 3, 8, 9). Самостоятельную группу образу ют мелкие многотычинковые сиги-планктофаги Чингльс-Явра и Кензис-Авра (4, 5). Крайнее положение на дендрограмме занимают крупные сиги Анадыря, причем при сравнении дендрограмм по пластическим и меристическим признакам сига-горбуна и сига востряка (10, 11) видно, что различия между ними обусловлены преимущественно пластическими признаками.
По своим показателям ближе всех находятся мелкие малоты чинковые сиги ((1, 7, 2, 5) при d=10—12. На более низком уровне при d=31 к этой группе присоединяются сиги из бассейна Баренцева моря (8, 9). Довольно четко среди всех выделяются сиги Анадыря, 11 совсем обособленную группу образуют многотычинковые сиги (3, 4, (5). Полученая дендрограмма сходства по всем 26 при знаками показывает хорошее соответствие с нашеи гипотетической схемои генетической связи всех исследуемых популяји і сиров (рис. 11, г).
Выделение биологически неоднородных группировок. В статистических исследованиях, каким и  являются и морфометрические исследования, даже сравнительно большие значения расхождений не дают основания с тать сувествование выделенных группировок доказанным. С другой стороны, при явно разных совокупностях морфологические признаки могут сильно трансгрессировать, и в этом случае ни по ОДИому из признаков невозможно получить достоверные различия между ними. Поэтому принадлежность ох ноіі взятоіі наугад особи і той 1.11 ноіl совокупности можно определить с большой ошибкой [Андреев, РешетII Hков, 1977].
В практике биoлогических исследовании часто возникают задачи выявления неоднородности некоторой группы объектов в рамках общей совокупности. Это и выделение стад среди общего улова рыб в море, разделение экологических форм среди рыб (); - ного В!! Да В водоеме, 20:3,1сление разных популяци прих совест1031 их обитаниІІ пт. д. Особенно трудно, когда все признаки трансгрес сируют II III П0 0ДІТому из исследуемых признаков эT II Две формы невозоко ТОЧо разделить. И менПо с такой ситуациеїї встрети лие, мы при изучении двух симпатріческіх форм cІІга р. Анадырь (сиг-востря 1; II сиг-горбун). ІІо внешнему виду они весьма схожи и только опытпыи Інсследовате, посте известной практики монет - рассортировать рыб із единоїй пробы. В связи с эти1А/ быта предпринята попытка пеноТьзовать при I{{IIIы формальної процедуры сот) тировки неоднородного материала при помощи высокоэффективных методов математического анализа. Подобного рода процедура xорошо известil в Кибернетике и носит название «алгоритм расu0 знавания без учителя» І.ІІІ «самообучение ЭВГ». 11с1ользование, некоторые одифікаци, предназначеные специаты! Я реше ния биологических задач.
Материна,ком поступили промеры 200 14:3, ситов 13 р. Ана 4Ы [9ь, резу.Тьтаты іоторых были предложены машине в B1,4е (общей выборки, без утiaзaя их принадлежности к тоіі ІЛи инои форме сига.
В данном случае на: Изируемая выборка может быть геометри чески преставлена как два II Оля точек; п — точек в 2-херцом пространстве признаков Rр. Схематически это можJ0 юяешить на рис. 15, на котором в пространстве координат двух признаков X, и Х. (вумерное пространство) исследуемые объекты представ лены в виде точек, оконтуренных двумя элинеали ІІ групп рассеивая. Если спроектировать коба эллипса на какую Із occ•й х, и Х., то в обоих случаях обнаруживается си,ная трансгрессия (зона перекрывання признаков). На оси X, эта зона равна отрезку cud, на оси X, — отрезку a,b. Однако если осін координат повер нуть в направ.тении наибольшего разброса точек, то их проекции на новое направление (ось х") не будут перекрываться, причем
Распределение двух группировок в пространстве двух признаков
Рис. 15. Распределение двух группировок в пространстве двух признаков Пояснения в тексте
Рис. 16. Проекция 200 выборочных точек сига-горбуна (кресты) и сига-востряка (точки) относительно двух главных направлений По оси абсцисс - значения первой главной компоненты, по оси ординат — второй главной команенты (по: Андреев, Решетников, 1978б]
для разделения двух совокупностей точек (кластеров) достаточно только одной оси х'. На практике это разделение идет не в двумерном пространстве, авп-мерном [Андреев, Решетников, 1978б].
На рис. 16 приведены проекции 200 точек в новое двумерное подпространство R, и таким образом выделены две четко разли чающиеся плеяды, которые, по предположению, соответствуют двум симпатрическим формам (востряку и горбуну). На этом рисунке крестиками обозначены те особи, которые при полевых сборах материала были отнесены автором к горбуну, а точками — к востряку. Как видно из рисунка, расхоякдения между определен нием ЭВМ и автора составили только две особи, которые машина определила как востряков, а автор отнес к горбунам. Причина расхождения, видимо, заключается в том, что машина рассматрива ла всего лишь 12 признаков. Однако во всех случаях полученные результаты позволяют утверждать, что, во-первых, вр. Анадырь обитают морфологически различимые две симпатрические формы сига и, во-вторых, что результаты их различения с помощью ЭВМ вполне сравнимы с результатами определений достаточно опытно го специалиста.
Опыт по отнесению особей неизвестного происхождения к одной из групп сига (на примере 11 популяций и их группировки в четыре подгруппы) показал, что во всех случаях «теоретические» ошибки распознавания не превышают 3%. Примечательно, что такие формы сига, как востряк и горбун, различались машиной
с ошибкои не более 2%. Причем машина позволила сократить число рассматриваемых признаков до шести. Была предложена простая формула с учетом линейной дискриминантной функции каждого из оставшихся признаков:
 (8)
При Le<0 исследуемая особь относится к сигу-горбуну, а при
L>0 — к сигу-востряку.
Здесь мы практически встречаемся с новой задачей ранжирование признаков или оценка удельного «веса» каждого признака при разделении внутривидовых форм сига.
Ранжирование признаков по их разделительной ценности, . Естествено, что при разделения в утрішBIIдовых форм синга раз
ные признак имеют разную ценность, поэтому может оказаться, что при данной задаче нецелесообразно измерять такие признаки, которые не несут добавочной информации при раздесни. Так, на практике установлено, что малоизденчивым II признаками у сигов являются число лучеи в грудном и брюшном плавниках:
их обычная формулa РІ 15 DI 10 с небольшими отклонениями “ повторяется у всех рыб. Поэтому эти признаки и не были включены нами в анализ 11 популяций cигa.
Несомнено, что раз. Пчная значимость «веса» в заданной системе признаков должна определяться объективно, с помощью * математической процедуры, позволяющей максимально усилить
степень обособления групы (Блэкт, 1968]. На примере 11 тону
ляци сгов значение каждого меристического II IIIастического се признака отределяли по доле віі. Тада каждого из них в дивергенцию между всеми пеядамII одновременно (табл. 6). . Оказалось, что наиболее значимыми признаками в порядке - убывания являются: жаберные тычинки, длина тела до конца че
шуи, число чешуи в ІІ, Іостдорсальное расстояние и т. д. Первые четыре признака (sp. br., L., li, PD) обеспечивают 54,4% всех различий, в то время как четыре последних (Di, l, A., hmx) -- всего лиші, 0,9 %. Резкое снижение дивергенции наблюдается при отбрасывали только первых шести признаков, а при дальнейшцем отбрасывании признаков се значение убывает гораздо медленнее. Расчеты оказали, что 6-8 первых признаков з табл. і являют ся вполне достаточными для разделения всех анализируемых групп сига с приемлемой ошибкои.
Заметим, что в общем случае приведенная процедура ранжи рования признаков оправдывается в какдой конкретної ситуации. Так, для разделения анадырских сигов порядок признаков был ины31. Поэтому в каждом конкретном случае ранжировка будет несколько отличаться. Чем больше будет взято исходных разных внутривидовых группировок, тем больше будет таксономическая значимость полученных данных при ранжировании признаков.
Таблица 6. Разделительная значимость морфометрических признаков при разделении 11 популяций сига (ранжирование признаков)

Разделительная значимость морфометрических признаков при разделении 11 популяций сига (ранжирование признаков)

Отметим, что в нашем случае с 11 популяциями (см. табл. 6) по лученные данные хорошо согласуются с известной практикой внутривидовой систематики сигов, когда решающее значение придается числу жаберных тычинок. И в нашем случае «вес» числа жаберных тычинок (0,208) почти вдвое превосходит «вес» всех других признаков. Из остальных счетных признаков большое значение имеет число чешуй в 21 (0,104), доля которого в разделении значительно превосходит число ветвистых (0,011--0,025) и неветвистых (0,001 -0,011) лучей в плавниках. Малозначимым признаком является и число позвонков. Уместно отметить, что дискриминационная полезность признака не обязательно соответствует величине критерия Стьюдента, поскольку последний не учитывает корреляции.
Возможности и ограничения математических методов. В практике ихтиологических исследований часто приходится иметь дело с установлением сходства и родства изучаемых таксономических категорий. Иногда более глубокие и четкие результаты могут быть получены с помощью перевода исходной информации на язык математики с использованием арсенала ее мощных средств. Применение ЭВМ позволяет более эффективно использовать исходную информацию, экономить время при обработке. Выше были рас смотрены лишь некоторые примеры такого использования новых методов анализа при исследовании внутривидовых группировок сига.
На основе методов теории множеств был проведен анализ состава пресноводной ихтиофауны Северо-Востока СССР (гл. VII). На конкретном материале собственных данных по составу ІІхтио фауны и по литературным данным мы пытались показать, что наряду со старыми приемами зоогеографического анализа можно успешно применять и новые методы. Математическая сторона этих вопросов более подробно изложена в соответствующих книгах.
и статьях [Бартлетт, 1968; Б.Экит, 1968; Беніли, 1970; Андреев, 1971; Семкин, 1973; Семкин, Двоііченков, 1973; Андреев, Решет ников, 1976, 1977, 1978а, 1978б, 1978в; и др.].
Наконец, сделаем несколько замечаний о долі субъективности и объективності при работе с ЭВМ. Окончательная оценка полу ценных данных проводится исследователем и зависит от того, какие признаки и какие гипотезы о структуре груіпі в многомер ном пространстве признаков были использованы. Независимо (
ОТ принципа отбора признаков и соблюдения ряда правил, на которые указывают систематики [Maiйр, 1971), все же окончательный ыбор признаков несет в себе «элемент субъективности», и поэтому полученные результаты следует считать в какой-то мере «субъек тивными». Вместе с тем при любой системе признаков получаемые варианты группировок объективно существуют в природе и чем выше опыт исследователя ІІ чем больше признаков самой разнои природы используется, тем больше будет приближение полученных выводов естественной системе. Пожалуй, главная трудность в этом плане заключается в получении добротных исходных дан ных, собранных по едіоіі методике и желательно одним опера тором.
Предлагаемые методы машинной обработки следует рассматривать как один із новых методов, которыи ни в коеті мере не за меняет других методов систематики и зоогеографии. Не следует переоценивать его возможностей, но не следует пигнорировать, Наш опыт работы с внутри Видовыми группировкам сигa не является призывом к «умеричесіоіі ІЛІ машинной систематике», свободной от субъективных оценок исследователей [Sokal, Sneat, 1963: Sokal, 1966]. Скорее применение ЭВМ означает качественц но новыіі этап в исследованиях по морфометр I рыб. Новые мето - «Ды не отрицают старых, проверенных практикои методов и прие хов таксономического анализа. Выбор какой-либо одной группы признаков приводит Іли к заведомо неверным выводам, или в ограниченности наших сужденци. В этом Јане и применение ЭВМ не разрешает всех трудных вопросов таксономІІІ сиговых рыб, но оказывается необходимым и мощным средством обобщения любой информации.

 

Смотрите также

Карта бассейна реки Енисей

 

Слабосоленый ленок

Из свежепойманного ленка или хариуса можно сделать прекрасную свежесоленую рыбу, будь то дома или в походе на рыбалке. Слабосоленая рыба готовится очень просто и легко и не требует специальных навыков.

 

Хе из ленка

Хе из ленка простое и незамысловатое, но очень вкусное блюдо, которые можно приготовить из свежепойманого ленка, очень просто за несколько часов в походных условиях.

 

Сагудай из омуля рецепт

Сагудай из омуля - один из самых распространенных и вкусных рецептов приготовления омуля. Готовится быстро и очень просто. Сагудай из омуля украсит любой праздничный стол и понравится всей семье.