SPSS - обработка статистической информации

18.4 Пример из области биологии (три группы)

В предыдущих примерах дискриминантный анализ всегда проводился при наличии лишь двух групп. В этой главе рассматривается пример, в котором групповая переменная имеет больше двух категорий, а именно три.

В файле kaefer.sav содержатся данные о длине и ширине грудной клетки трёх видов жуков (обозначенных как А, В и С). Если вы проведёте однофакторный дисперсионный анализ с последующими дополнительными тестами (Post-hoc-Tests), то увидите, что три разновидности жуков очень значимо различаются между собой как по длине, так и по ширине, поэтому вполне можно предположить, что этих жуков можно классифицировать между упомянутыми видами на основании их длины и ширины посредством дискриминантного анализа.

Откройте файл kaefer.sav.

Вы увидите, что 17 жуков из 30 не отнесены ни к иной из групп; поэтому классификация жуков по группам должна быть произведена при помощи дискриминантного анализа.

В диалоговом окне Discriminant Analysis (Дискриминантный анализ) переменной kaefer (Жук) присвойте статус групповой переменной с пределами от 1 до 3, а переменным laenge (Длина) и breite (Ширина) статус независимых переменных. Оставьте активной установку по умолчанию Enter independents together (Независимые переменные вводить одновременно).
В диалоговом окне Discriminant Analysis: Statistics (Дискриминантный анализ: Статистики) в разделе Descriptives (Дискриптивние статистики) активируйте опции: Means (Средние значения), Univariate ANOVAs (Одномерные тесты ANOVA) и в разделе Function Coefficients (Коэффициенты функции) опцию Unstandardized (He стандартизированные).
В диалоговом окне Discriminant Analysis: Classify (Дискриминантный анализ: Классифицировать) сделайте запрос на Case-wise results (Результаты для отдельных наблюдений) и Summary table (Сводную таблицу) и в разделе Plots (Графики) активируйте опцию Territorial map (Территориальная карта). Эта опция служит для построения классификационной диаграммы, так называемой территориальной карты (Territorial map). Построение этой диаграммы типично для случая с более чем двумя группами.
В заключение, в диалоговом окне Discriminant Analysis: Save (Дискриминантный анализ: Сохранить), активируйте все опции, находящиеся там, с целью создания соответствующих переменных в исходном файле.

Из всей гаммы приводимых результатов расчёта мы рассмотрим только самые важные. Из групповых статистик можно узнать, что в семейство А входят самые большие, а в семейство В самые маленькие жуки.

Group Statistics

(Статистики для групп)
KAEFEP (Жук)		Mean (Сред-нее значе-ние)	Std. Deviation (Станда-ртное отклоне-ние)	Valid N (listwise) (Действительные значения (по списку))
KAEFEP (Жук)		Mean (Сред-нее значе-ние)	Std. Deviation (Станда-ртное отклоне-ние)	Unweighted (Не взвеше-нное)	Weighted (Взвеше-нное)
1 (Семейство А)	LAENGE (Длина)	1 ,6226	5.968Е-02	42	42,000
1 (Семейство А)	BREITE (Ширина)	1 ,2607	4J54E-02	42	42,000
2 Семейство В)	LAENGE (Длина)	1 ,3089	7.634Е-02	45	45,000
2 Семейство В)	BREITE (Ширина)	1,0122	4.415Е-02	45	45,000
3 Семейство С)	LAENGE (Длина)	1,4788	6.029Е-02	26	26,000
3 Семейство С)	BREITE (Ширина)	1,1192	5.114Е-02	26	26,000
Total	LAENGE (Длина)	1,4646	,1535	113	113,000
Total	BREITE (Ширина)	1,1292	,1191	113	113,000

Статистика Лямбда Уилкса (>i) свидетельствует о том, что жуки очень значимо делятся на группы как по длине, так и по ширине.

Tests of Equality of Group Means (Тест на равенство средних значений групп)

	Wilks' Lambda (Лямбда Уилкса)	F	df1	df2	Sig. (Значимость)
LAENGE (Длина)	,187	239,154	2	110	,000
BREITE (Ширина)	,153	303,326	2	110	,000

Если насчитывается более двух классификационных групп, то можно образовать больше одной дискриминантной функции; при трёх группах, как в приведенном примере, их будет две. Следующая таблица свидетельствует о том, что обе дискриминантные функции дают значимые результаты для разделения между группами и, следовательно, могут быть использованы соответствующим образом. Однако, первая функция дает вероятность прогноза 98,7 %, а вторая только 1,3 %.

Eigenvalues (Собственные значения)

Function (Функция)	Eigenvalue (Собствен-ные значение)	% of Variance (% диспер-сии)	Cumulative % (Совокуп-ный %)	Canonical Correlation (Канони-ческая корре-ляция)
1	6,040а	98,7	98,7	,296
2	,078а	1,3	100,0	,269

a. First 2 canonical discriminant functions were used in the analysis (В этом анализе используются первые 2 канонические дискриминантные функции).

Wilks' Lambda (Лямбда Уилкса)

Test of Function(s) (Тест функции (й))	Wilks1 Lambda (Лямбда Уилкса)	Chi-square (Хи-квадрат)	df	Sig. (Значимость)
1 through 2 (1 до 2)	,132	221,900	4	,000
2	,928	8,202	1	,004

Затребованные нестандартизированные коэффициенты функций приводятся в следующей таблице.

Canonical Discriminant Function Coefficients

(Канонические коэффициенты дискриминантных функций)
	Function (Функция)
	1	2
LAENGE (Длина)	5,831	18,769
BREITE (Ширина)	14,891	-23,659
(Constant) (Константа)	-25,355	-,773

Unstandardized coefficients (Нестандартизированные коэффициенты)

Мы здесь опускаем вывод статистик для каждого отдельного случая. В результате расчетов Вы получаете соответствующие номера групп и вероятность прогнозирования под заголовком P(G = g|D = d). Прогнозирование осуществлено и для 17 неклассифицированных случаев.

На территориальной карте показано разделение на области, которые означают принадлежность к группе. При этом в пределах границ соответствующей области вероятность отнесения к данной группе выше, чем для других групп. На границах областей вероятности для граничащих групп одинаковы.

Значения обеих дискриминантных функций, на основе которых построена эта территориальная карта, Вы можете увидеть в редакторе данных под именами двух вновь созданных переменных: dis1_1 и dis2_1.

В заключение приводится обзор результатов классификации. По ним Вы можете заметить, что прогноз для групп А и В практически полностью был сделан верно и корректно классифицированы, в общей сложности, 91,2 % всех случаев.

Classification Results ^a

(Результаты Классификации)
		FUND (Семе-йство)	Predicted Group Membership			Total (Сум-ма)
		FUND (Семе-йство)	1 (Семей-ство А)	2 (Семей-ство В)	3 (Семей-ство С)	Total (Сум-ма)
Original (Перво-нача-льно)	Count (Коли-чество)	1 (Семейство А)	41	0	1	42
		2 (Семейство В)	0	43	2	45
		3 (Семейство С)	4	3	19	26
		Ungrouped cases (He груп-пирован-ные случаи)	7	6	4	17
	%	1 (Семейство А)	97,6	,0	2,4	100,0
		2 (Семейство В)	,0	95,6	4,4	100,0
		3 (Семейство С)	15,4	11,5	73,1	100,0
		Ungrouped cases (He груп-пирован-ные случаи)	41,2	35,3	23,5	100,0

а. 91,2% of original grouped cases correctly classified (91,2 % первоначально сгруппированных случаев были классифицированы корректно).

Символы, используемые втерриториальной карте
Символ	Группа	Метка
1 2 3	1 2 3	Семейство А Семейство В Семейство С
Маркировка		Центроиды групп

Наряду с уже упоминавшимися значениями обеих дискриминантных функции в редакторе данных были созданы: переменная dis_1, содержащая значение прогнозируемой группы и переменные disl_2, dis2_2 и dis3_2, которые содержат прогнозируемые вероятности отнесения к одной из трёх групп. Группа, которой соответствует наибольшая вероятность прогнозирования и есть прогнозируемая группа.

Новости

Выбор статистической процедуры

Нормальное распределение

Коэффициенты корреляции

Информация

Ispss
Улица Новомосковская 36
500003 Екатеринбург

E-mail: inform@