18.3 Пример из области биологии
Дискриминантный анализ очень часто применяется для обработки данных из области биологии. В следующем типичном примере для некоторого количества индивидуумов принадлежность к группе уже известна, на основании чего и строится дискриминантная функция. Далее она используется для того, чтобы оценить принадлежность к определенной группе тех индивидуумов, для которых она ещё не известна.
В файле vogel.sav хранятся данные о половой принадлежности, длине крыла, длине клюва, размере головы, длине лап и весе 245 птиц определённого вида. Причём пол смогли определить только для 51 особи. Кодировка пола соответствует 1 = мужской и 2 = женский; отсутствие данных кодируется 9.
Если для перечисленных параметров Вы рассчитаете средние значения для самцов и самок, то для самок получите более высокие показатели. Исходя из этого, при помощи дискриминантного анализа можно попытаться определить пол тех особей, для которых этого нельзя было сделать ранее.
Откройте файл vogel.sav.
В диалоговом окне Discriminant Analysis (Дискриминантный анализ) переменной geschl (Пол) присвойте статус групповой переменной с пределами от 1 до 2, а переменным fluegel (Длина крыла), schnl (Длина клюва), kopfl (Размер головы), fuss (Длина лап) и gew (Вес) — статус независимых переменных. Выберите пошаговый метод.
В диалоговом окне Discriminant Analysis: Classify (Дискриминантный анализ: Классифицировать) активируйте Casewise results (Результаты для отдельных наблюдений) с ограничением в 40 наблюдений и Summary table (Сводная таблица).
Через выключатель Save... (Сохранить) при помощи активирования опций Predicted group membership (Прогнозируемая принадлежности к группе) и Probabilities of group membership (Вероятности принадлежности к группе) затребуйте генерирование соответствующих переменных.
Из всех результатов, приводимых в окне просмотра, в книге рассматриваются только статистики для каждого наблюдения. По классификационной таблице видно, что для 51 наблюдения с заранее известным полом 44 раза, т.е. в 86,3 % наблюдений, пол был спрогнозирован верно (см. следующую таблицу).
Если мы рассмотрим наблюдение 8, то здесь пол известен — женский и в результате прогноза получается женский пол, а вот для наблюдения 30 пол известен как мужской, но прогнозируется как женский. Наблюдения с нераспознанным полом приводятся в таблице как "ungrouped" (не группированные).
Для наблюдения 1, для которого пол оказался неизвестным, он прогнозируется как женский. Значение вероятности прогнозирования, 0,990, указывается в колонке "P(G=g | D=d)" под заголовком "Highest Group" (Старшая группа). Менее достоверным является прогноз пола для наблюдения 10, здесь вероятность прогнозирования составляет только 0,721.
Casewise Statistics
(Статистики для наблюдений) |
||||||||||||
Case Number (Номер случая) |
Actual Group (Факти-ческая группа) |
Highest Group (Старшая группа) |
Second Highest Group (Вторая по старшинству группа) |
Discri-minant Scores (Значе-ния диск-рими- нантной фун-кции) |
||||||||
Predicted Group (Прог-нози- руемая группа) |
P(D>d | e=g) |
P(G=9 I D=d) |
Squared Ma-hala-nobis Distance to Cent-raid (Квадрат рас-стояния Маха-ланобиса до цент-роида) |
Group (Груп-па) |
P(G=g |D=d) |
Squared Ма-halanobis Distance to Centraid (Квадрат рас-стояния Маха-ланобиса до центро-ида) |
Fun-ction 1 (Фун-кция 1 ) |
|||||
P |
df |
|||||||||||
Original (Пер- вона- чаль -но) |
1 |
ungrouped (не груп-пирова-нный) |
2 |
,222 |
1 |
,990 |
1,489 |
1 |
,010 |
10,679 |
2,304 |
|
2 |
ungrouped (не груп-пирова-нный) |
2 |
,063 |
1 |
,997 |
3,453 |
1 |
,003 |
15,254 |
2,942 |
||
3 |
ungrouped (не груп-пирова-нный) |
2 |
,064 |
1 |
,997 |
3,433 |
1 |
,003 |
15,213 |
2,937 |
||
4 |
ungrouped (не груп-пирова-нный) |
2 |
,245 |
1 |
,989 |
1,353 |
1 |
,011 |
10,307 |
2,247 |
||
5 |
ungrouped (не груп-пирова-нный) |
2 |
,126 |
1 |
,995 |
2,338 |
1 |
,005 |
12,792 |
2,613 |
||
6 |
ungrouped (не груп-пирова-нный) |
2 |
,319 |
1 |
,984 |
,995 |
1 |
,016 |
9,271 |
2,081 |
||
7 |
ungrouped (не груп-пирова-нный) |
2 |
,485 |
1 |
,971 |
,489 |
1 |
,029 |
7,543 |
1,783 |
||
8 |
2 |
2 |
,102 |
1 |
,996 |
2,673 |
1 |
,004 |
13,561 |
2,719 |
||
9 |
ungrouped (не груп-пирова-нный) |
2 |
,387 |
1 |
,980 |
,748 |
1 |
,020 |
8,482 |
1,949 |
||
10 |
ungrouped (не группирова-нный) |
2 |
,576 |
1 |
,721 |
,313 |
1 |
,279 |
2,213 |
,524 |
||
11 |
ungrouped (не груп-пирова-нный) |
2 |
,651 |
1 |
,954 |
,205 |
1 |
,046 |
6,248 |
1,536 |
||
12 |
ungrouped (не груп-пирова-нный) |
2 |
,140 |
1 |
,994 |
2,177 |
1 |
,006 |
12,411 |
2,559 |
||
13 |
ungrouped (не груп-пирова-нный) |
2 |
,435 |
1 |
,976 |
,609 |
1 |
,024 |
7,995 |
1,864 |
||
14 |
ungrouped (не группиро-ванный) |
2 |
,471 |
1 |
,973 |
,519 |
1 |
,027 |
7,662 |
1,804 |
||
15 |
ungrouped (не группиро-ванный) |
2 |
,764 |
1 |
,938 |
,090 |
1 |
,062 |
5,510 |
1,384 |
||
16 |
ungrouped (не группиро-ванный) |
2 |
,481 |
1 |
,972 |
,497 |
1 |
,028 |
7,576 |
1,789 |
||
17 |
ungrouped (не груп-пирова-нный) |
2 |
,172 |
1 |
,993 |
1,868 |
1 |
,007 |
11,658 |
2,451 |
||
18 |
2 |
2 |
,399 |
1 |
,979 |
,712 |
1 |
,021 |
8,359 |
1,928 |
||
19 |
ungrouped (не груп-пирова-нный) |
2 |
,705 |
1 |
,946 |
,143 |
1 |
,054 |
5,884 |
1,462 |
||
20 |
2 |
2 |
,969 |
1 |
,898 |
,002 |
1 |
,102 |
4,355 |
1,123 |
||
21 |
2 |
2 |
,249 |
1 |
,989 |
1,328 |
1 |
,011 |
10,238 |
_ 2,236 |
||
22 |
ungrouped (не груп-пиров-анный) |
2 |
,121 |
1 |
,995 |
2,407 |
1 |
,005 |
12,953 |
2,636 |
||
23 |
2 |
2 |
,071 |
1 |
,997 |
3,263 |
1 |
,003 |
14,853 |
2,890 |
||
24 |
ungrouped (не груп-пирова-нный) |
2 |
,367 |
1 |
,981 |
,815 |
1 |
,019 |
8,704 |
1,987 |
||
25 |
ungrouped (не груп-пиров-анный) |
2 |
,880 |
1 |
,857 |
,023 |
1 |
,143 |
3,598 |
,933 |
||
26 |
ungrouped (не груп-пирова-нный) |
2 |
,537 |
1 |
,966 |
,382 |
1 |
,034 |
7,103 |
1,702 |
||
27 |
ungrouped (не группиро-ванный) |
1 |
,640 |
1 |
,955 |
,218 |
2 |
,045 |
6,323 |
-1,431 |
||
28 |
2 |
2 |
,744 |
1 |
,806 |
,107 |
1 |
,194 |
2,960 |
,757 |
||
29 |
ungrouped (не груп-пирова-нный) |
2 |
,969 |
1 |
,883 |
,001 |
1 |
,117 |
4,035 |
1,045 |
||
30 |
1 |
2" |
,625 |
1 |
,749 |
,239 |
1 |
,251 |
2,428 |
,595 |
||
|
31 |
ungrouped (не груп-пирова-нный) |
2 |
,646 |
1 |
,760 |
,211 |
1 |
,240 |
2,521 |
,624 |
|
32 |
2 |
2 |
,173 |
1 |
,993 |
1,860 |
1 |
,007 |
11,636 |
2,448 |
||
33 |
1 |
2" |
,504 |
1 |
,970 |
,447 |
1 |
,030 |
7,378 |
1,753 |
||
34 |
ungrouped (не груп-пирова-нный) |
2 |
,544 |
1 |
,966 |
,368 |
1 |
,034 |
7,046 |
1,691 |
||
35 |
ungrouped (не груп-пирова-нный) |
2 |
,618 |
1 |
,958 |
,248 |
1 |
,042 |
6,480 |
1,582 |
||
36 |
ungrouped (не груп-пирова-нный) |
2 |
,727 |
1 |
,943 |
,122 |
1 |
,057 |
5,744 |
1,433 |
||
37 |
2 |
2 |
,458 |
1 |
,974 |
,551 |
1 |
,026 |
7,781 |
1,826 |
||
38 |
2 |
2 |
,362 |
1 |
,981 |
,829 |
1 |
,019 |
8,750 |
1,995 |
||
39 |
2 |
2 |
,814 |
1 |
,929 |
,055 |
1 |
,071 |
5,211 |
1,319 |
||
40 |
ungrouped (не груп-пирова-нный) |
2 |
,812 |
1 |
,930 |
,057 |
1 |
,070 |
5,222 |
1,322 |
** Misclassified case (** - Неверно классифицированный случай)
Для того, чтобы хотя бы частично сократить количество ошибочных значений для переменной пола, при анализе вы можете применять прогнозируемую групповую принадлежность только в тех случаях, для которых вероятность прогнозирования принимает некоторое минимально допустимое значение, к примеру, 0,9.
IF (dis_1 = 1 and disl_1 >= 0,9)
geschl=1
. IF (dis_1 = 2 and dis2_1 >= 0,9)
geschl=2.
EXECUTE.
Таким образом, в используемом примере можно присвоить половой показатель ещё 90-а птицам. Если вы снизите минимально допустимое значение вероятности прогнозирования, то это число станет ещё больше.
К файлу были добавлены три новые переменные:
dis_1: Прогнозируемая группа
disl_1: Вероятность принадлежности к группе 1
dis2_1: Вероятность принадлежности к группе 2.