16.5 Мультиномиальная логистическая регрессия
Этот метод является вариантом логистической регрессии, при которой зависимая переменная не является дихотомической, как при бинарной логистической регрессии, а имеет больше двух категорий. В то время как, при бинарной логистической регрессии независимая переменная может иметь интервальную шкалу, то мультиномиальная логистическая регрессия пригодна только для категориальных независимых переменных, причём имеет значение, относятся ли они к шкале наименований или к порядковой шкале. Конечно же, не исключается возможность задания в качестве ковариат переменных, имеющих интервальную шкалу.
Начиная с 10 версии SPSS для независимых переменных, относящихся к порядковой шкале предусмотрен метод порядковой регрессии (см. гл. 16.6), который в данном случае является предпочтительным.
Для представления метода мольтиномиальной логистической регрессии был сначала взят простой пример с одной независимой переменной. Данные для этого примера "ыли взяты из ALLBUS (общий социологический опрос населения) 1998 года.
Откройте файл polein.sav, и при помощи выбора меню Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Frequencies... (Частоты)
достройте частотные таблицы для четырёх переменных, находящихся в этом файле:
Alter (Возраст)
|
Frequency (Частота) |
Percent (Процент) |
Valid Percent (Действи- тельный процент) |
Cumulative Percent (Совокупный процент) |
|
Valid (Действи- тельное значение) |
bis 45 Jahre (До 45 лет) |
1306 |
50,1 |
50,1 |
50,1 |
ueber 45 Jahre (Свыше 45 лет) |
1301 |
49,9 |
49,9 |
100,0 |
|
Total (Сумма) |
2607 |
100,0 |
100,0 |
|
Politische Links-Rechts-Einschaetzung (Политическая принадлежность к левым или правым)
|
Frequency (Частота) |
Percent (Процент) |
Valid Percent (Действи- тельный процент) |
Cumulative Percent (Совокупный процент) |
|
Valid (Действи- тельное значение) |
eher links (Скорее левый) |
740 |
28,4 |
28,4 |
28,4 |
Mitte (Центрист) |
1212 |
46,5 |
46,5 |
74,9 |
|
eher rechts (Скорее правый) |
655 |
25,1 |
25,1 |
100,0 |
|
Total (Сумма) |
2607 |
100,0 |
100,0 |
|
Schicht (Прослойка)
Frequency (Частота) |
Percent (Процент) |
Valid Percent (Действи- тельный процент) |
Cumulative Percent (Совокупный процент) |
||
Valid (Действи- тельное |
Unterschicht (Нижняя прослойка) |
879 |
33,7 |
33,7 |
33,7 |
значение) |
Mittelschicht (Средняя прослойка) |
1477 |
56,7 |
56,7 |
90,4 |
|
Oberschicht (Верхняя прослойка) |
251 |
9,6 |
9,6 |
100,0 |
|
Total (Сумма) |
2607 |
100,0 |
100,0 |
|
Schulbildung (Школьное образование)
Frequency (Частота) |
Percent (Процент) |
Valid Percent (Действи- тельный процент) |
Cumulative Percent (Совокупный процент) |
||
Valid (Действи- тельное значение) |
Hauptschule (Неполное среднее) |
1499 |
57,5 |
57,5 |
57,5 |
Mittlere Reife (Среднее) |
610 |
23,4 |
23,4 |
80,9 |
|
Abitur (Атестат зрелости) |
498 |
19,1 |
19,1 |
100,0 |
|
Total (Сумма) |
2607 |
100,0 |
100,0 |
|
Мы хотим рассмотреть переменную polire (Политическая принадлежность к левым или правым) как зависимую переменную, а три остальные — как независимые переменные (факторы). В первом примере в качестве независимой переменной мы возьмем только переменную "Alter" (Возраст). Прежде всего построим таблицу сопряженности для этих двух переменных.
Выберите в меню Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Crosstabs... (Таблицы сопряженности)
Переменной alter присвойте статус строчной переменной, a polire — столбцовой переменной, и через выключатель Cells... (Ячейки) активируйте вывод процентных показателей для ячеек.
Alter * Politische Links-Rechts-Einschfltzung Crosstabulation
(Возраст * Политическая принадлежность к левым или правым - таблица сопряженности)
|
Politische Links-Rechts-Einschfltzung (Политическая принадлежность к левым или правым) |
Total (Сумма) |
||||
eher links (Скорее левый) |
Mitte (Цент- рист) | eher rechts (Скорее правый) | ||||
Alter (Воз-раст) |
bis 45 Jahre (До 45 лет) |
Count (Коли- чество) | 446 |
615 | 245 |
1306 |
% of Total (% от возраста) | 34,2% |
47,1% | 18,8% |
100,0% |
||
ueber 45 Jahre (Свыше 45 лет) |
Count % of Total (Коли- чество) | 294 |
597 | 410 |
1301 |
|
(% от возраста) | 22,6% |
45,9% | 31,5% |
100,0% |
||
Total (Сум- ма) |
|
Count (Коли- чество) | 740 |
1212 | 655 |
2607 |
% of Total (% от возраста) | 28,4% |
46,5% | 25,1% |
100,0% |
Для младшей возрастной категории политическое самоопределение имеет тенденцию склонения симпатий к левым партиям, а для старшей — скорее к правым. Рассмотрим простую мультиномиальную логистическую модель, которая отражает взаимосвязь между политическим самоопределением и возрастом.
Так как политическое самоопределение, как зависимая переменная, включает три категории, то для определения вероятностей отнесения респондентов к этим трем категориям можно сформировать два недублированных логита, причём последняя категория "eher rechts" (скорее правый) будет использоваться как эталонная:
Нахождение коэффициентов b10, b11, b20 и b21 (называемых параметрическими оценками) и является основной задачей мультиномиальной логистической регрессии. Первая цифра индекса указывает на номер логита, а вторая на порядковый номер коэффициента в данном логите, причём цифра 0 на второй позиции индекса означает константу, за которой далее следует ровно столько коэффициентов, сколько независимых переменных (факторов) взято в рассмотрение. Коэффициентам последней (эталонной) категории присваивается значение 0.
Переменная Alter (Возраст), как единственная независимая переменная, имеет две категории, одна из которых рассматривается как эталонная, ее коэффициенты принимаются равными 0.
Выберите в меню Analyze (Анализ) Regression ...(Регрессия) Multinomial Logistic... (Мультиномиальная логистическая)
Откроется диалоговое окно Multinomial Logistic Regression (Мультиномиальная логистическая регрессия).
Переменную polire поместите в поле для зависимых переменных, а переменную alter (возраст) в поле для факторов и нажмите выключатель Statistics (Статистики).
Откроется диалоговое окно Multinomial Logistic Regression: Statistics (Мультиномиальная логистическая регрессия: Статистики)
Оставьте активированным вывод параметрических оценок с доверительным интервалом соответствующим 95 % и покиньте это диалоговое окно нажатием Далее и ОК.
Рис. 16.17: Диалоговое окно Multinomial Logistic Regression (Множественная логистическая регрессия)
Рис. 16.18: Диалоговое окно Multinomial Logistic Regression: Statistics (Множественная логистическая регрессия: Статистики)
Содержание таблицы результатов расчёта, выглядит следующим образом. Для не дублирующих категорий она содержит параметрические оценки, стандартную ошибку, проверку значимости при помощи статистики Вальда, значение экспоненциальной функции от параметрической оценки и его доверительный интервал.
Parameter Estimates (Оценки параметров)
Politische Links-Rechts-Einschaetzung (Политическая принадлежность к левым или правым) |
В |
Std. Error (Станда- ртная ошибка) |
Wald (Вальд) |
df (Сте-пень сво- боды) |
Sig. (Значи- мость) |
Ехр(В) |
95% Confidence Interval for Ехр(В) (95 % довери- тельный интервал для Ехр(В)) |
||
Lower Bound (Нижний предел) |
Upper Bound (Верхний предел) |
||||||||
eher links (Скорее левый) |
Intercept (Постоян- ное слага- емое) |
-,333 |
,076 |
18,938 |
1 |
,000 |
|
|
|
[ALTER= 1,00] |
,932 |
,110 |
71,353 |
1 |
,000 |
2,539 |
2,045 |
3,151 |
|
[ALTER= 2,00] |
Оа |
0 |
|
0 |
|
, |
|
|
|
Mitte (Цен-трист) |
Intercept (Постоян- ное слага-емое) |
,376 |
,064 |
34,320 |
1 |
,000 |
|
|
|
[ALTER= 1,00] |
,545 |
,099 |
30,198 |
1 |
,000 |
1,724 |
1,420 |
2,094 |
|
rALTER= 2,00] |
0" |
0 |
|
0 |
|
|
|
|
a. This parameter is set to zero because it is redundant (Данный параметр обнуляется, т.к. он является дублирующим)
Из таблицы можно взять следующие значения для b-коэффициентов:
b10 =-0,333
b11 (до 45 лет) = 0,932
b20 = 0,376
b21 (до 45 лет) = 0,545 1
Таким образом, для возрастной группы до 45 лет получим
g1 = -0,333 + 0,932 = 0,599
g2 = -0,376 + 0,545 = 0,921
и следовательно
Для дублирующего логита по правилам вычисления логарифма справедливо
К примеру, в возрастной категории до 45 лет вероятность быть более склонным к тевым течениям в 1,820 раз выше вероятности склонности к правым течениям. Такой же расчёт можно произвести и для другой возрастной категории; в данном случае будут отсутствовать коэффициенты b11 и b21, т.к. они приравниваются к нулю.
Следует отметить, что прямое определение вероятности для трёх категорий политической самооценки, интересней, чем соотношение этих вероятностей между собой. Для каждой i-ой категории зависимых переменных эта вероятность может быть вычислена по следующей формуле:
Здесь для большей удобочитаемости экспоненциальная функция обозначена как ехр. n указывает на число категорий (здесь n=3).
Для возрастной группы до 45 лет для трёх категорий политической самооценки получатся следующие вероятности:
Стало быть, для отдельного человека, принадлежащего к возрастной группе до 45 лет вероятность склонения политической самооценки в сторону левых составляет, 0,341 или 34,1 %, в сторону центристов 47,1 % и в сторону правых 18,8 %. Внимательный читатель может заметить, что эти числа соответствуют процентным показателям таблицы сопряженности для возраста и политической самооценки. Таким образом, в случае наличия лишь одной независимой переменной легко удостовериться в правдоподобности расчётов, производимых при мультиномиальной логистической регрессии.
Для возрастной группы свыше 45 лет расчёты будут выглядеть следующим образом:
g1 = - 0,333 + 0 = - 0,333
g2 = 0,376 + 0 = 0,376
gз=0
ехр (g1) - ехр (-0,333) = 0,717
ехр (g2). ехр (0,376) = 1,456
ехр (g3) = ехр (0) = 1
Если выразить полученные показатели в процентах, то и здесь так же наблюдается полное согласование с соответствующими процентными показателями таблицы сопряженности.
Следует отметить, что только в случае наличия лишь одной независимой переменной, как в приведённом примере, проведение расчёта с применением столь громоздкого метода, как многозначная логистическая регрессия, является достаточно бессмысленным — все соотношения могут быть выяснены проще, при помощи таблиц сопряженности. Поэтому мы введем в рассмотрение ещё одну дополнительную переменную — переменную schule (образование).
В диалоговом окне Multinomial Logistic Regression (Мультиномиальная логистическая регрессия) поместите переменную schule вместе с переменной alter в поле факторов.
В диалоговом окне Multinomial Logistic Regression: Statistics (Мультиномиальная логистическая регрессия: Статистики) активируйте дополнительные опции Cell probabilities (Вероятность по ячейкам) и Likelihood ratio test (Тест отношения правдоподобия) и начните расчёт вновь.
Таблица теста коэффициентов правдоподобия содержит изменения функции правдоподобия для случая, когда исключается соответствующий главный действующий фактор; эти изменения выражаются через соответствующие значения теста %2 (хи-квадрат). Выдаваемый уровень значимости р < 0,001 указывает на то, что оба фактора (возраст и школьное образование) оказывают очень значимое влияние на зависимую переменную (политическая самооценка).
Model Fitting Information (Информация о приближении, обеспечиваемой моделью)
Model (Модель) |
-2 Log likelihood (-2 логарифми- ческое правдопо- добие) |
Chi-square (Хи-квадрат) |
df (степень свободы) |
Sig. (Значи- мость) |
Intercept Only (Только постоянное слагаемое) |
252,208 |
|
|
|
Final (Оконча- тельно) |
93,429 |
158,779 |
6 |
,000 |
Likelihood Ratio Tests (Тест отношения правдоподобия)
(Результат) |
-2 Log Likelihood of Reduced Model (-2 логарифми-ческое правдоподобие для сокращённой модели) |
Chi-square (Хи-квадрат) |
df (Степень свободы) |
Sig. (Значи- мость) |
Intercept (Постоянное слагаемое) |
93,429 |
,000 |
0 |
• |
ALTER (Возраст) |
171,496 |
78,067 |
2 |
,000 |
SCHULE (Образо- вание) |
178,489 |
85,060 |
4 |
,000 |
The chi-square statistic is the difference in -2 tog-likelihoods between the final model :-~d a reduced model. The reduced model is formed by omitting an effect from the final model. The null hypothesis is that all parameters of that effect are 0 (Статистика хи-квадрат отображает различие -2 логарифмического правдоподобия между окончательной моделью и усеченной моделью. Суть расчёта усеченной модели сводится к тому, что из окончательной модели исключается один фактор влияния.
Нулевая гипотеза соответствует обнулению всех параметров параметрических оценок данного фактора влияния).
Таблица (b — коэффициентов) выглядит следующим образом.
Parameter Estimates (Оценки параметров) |
|||||||||
Politische Links-Rechts-Einschaetzung Политическая принадлежность к левым пли правым) |
В |
Std. Error (Стан- дартная ошибка) |
Wald (Вальд) |
df (Сте-пень сво-боды) |
Sig. (Значи- мость) |
Exp (В) |
95% Confidence Interval for Exp(B) (95 % довери- тельный интервал для Ехр(В)) |
||
Lower Bound (Ниж-ний пре-дел) |
Upper Bound (Верх-ний пре-дел) |
||||||||
eher links (Ско- рее левый) |
(Посто-янное слага-емое) |
-,129 |
,137 |
,8feO |
1 |
,345 |
|
|
|
[ALTER= 1,00] |
,952 |
,117 |
66,600 |
1 |
,000 |
2,591 |
2,061 |
3,256 |
|
ALTER= 2,00] |
Oa |
0 |
|
0 |
|
, |
, |
|
|
SCHULE= 1,00] |
-,179 |
,142 |
,592 |
1 |
,207 |
,836 |
,632 |
1,104 |
|
SHULE= 2,00] |
-,480 |
,158 |
9,249 |
1 |
,002 |
,619 |
,454 |
,843 |
|
[SHULE= 3,00] |
0" |
0 |
l |
0 |
|
, |
, |
|
|
Mine (Цент-рист) |
(Постоян-ное слага-емое) |
-,236 |
,137 |
2,982 |
1 |
,084 |
|
|
|
[ALTER= 1,00] |
,766 |
,106 |
52,174 |
1 |
,000 |
2,152 |
1,748 |
2,939 |
|
[ALTER= 2,00] |
Oa |
0 |
|
0 |
, |
|
|
|
|
[SCHULE= 1,00] |
,802 |
,141 |
32,539 |
1 |
,000 |
2,231 |
1,693 |
2,939 |
|
[SHULE= 2,00] |
,149 |
,155 |
,922 |
1 |
,337 |
1,161 |
,856 |
1,574 |
|
[SHULE= 3,00] |
Oa |
0 |
, |
0 |
, |
, |
, |
, |
a. This parameter is set to zero because it is redundant (Данный параметр обнуляется, так как он является дублирующим)
В качестве примера определим вероятности для политической самооценки отдельного человека, принадлежащего к возрастной группе свыше 45 лет с неполным средним образованием. Для этого по аналогии с предыдущим примером произведём следующие вычисления:
g1 = - 0,129 + 0 - 0,179= - 0,308
g2 = - 0,236 + 0 + 0,802 = 0,566
gз= 0
exp (g1) = 0,735
exp (g2) = 1,761
exp (g3) - 1
Если перевести данные результаты в процентные показатели, то они будут означать, что среди граждан в возрасте свыше 45 лет с неполным средним образованием 21,0 % симпатизируют левым политическим течениям, 28,6 % правым, а 50,4 % остаются по центру.
Нет необходимости вычислять процентные показатели вероятностей самостоятельно. Вы можете взять их из следующей таблицы, отображающей наблюдаемые и прогнозируемые частоты:
Observed and Predicted Frequencies (Наблюдаемые и прогнозируемые частоты) |
|||||||
Schulb-ildung (Образо- вание) |
Alter (Возраст) |
Politische Links-Rechts-Einschfltzung (Политическая левая или правая принадлежность) |
Frequency (Частота) |
Percentage (Процент) |
|||
Observed (Наблю-даемая) |
Predicted (Прогно-зируемая) |
Pearson Residual (Остаток Пирсона) |
Observed (Набл-юдаемый) |
Predicted (Прогно-зируемый) |
|||
Haupt- schule (Непол-ное среднее) |
bis 45 Jahre (До 45 лет) |
eher links (Скорее левый) |
143 |
157,488 |
-1,365 |
25,8% |
28,4% |
Mitte (Центрист) |
312 |
313,760 |
-,151 |
56,3% |
56,6% |
||
eher rechts (Скорее правый) |
99 |
82,752 |
1,937 |
17,9% |
14,9% |
||
ueber 45 Jahre(Свыше 45 лет) |
eher links (Скорее левый) |
213 |
198,512 |
1,157 |
22,5% |
21,0% |
|
Mitte (Центрист) |
478 |
476,240 |
,115 |
50,6% |
50,4% |
||
eher rechts (Скорее правый) |
254 |
270,248 |
-1,170 |
26,9% |
28,6% |
||
Mifflere Reife (Сред-нее) |
bis 45 Jahre (до 45 лет) |
eher links (Скорее левый) |
129 |
131,561 |
-,271 |
31,5% |
32,2% |
Mitte (Центрист) |
192 |
184,113 |
,784 |
46,9% |
45,0% |
||
eher rechts (Скорее правый) |
88 |
99,326 |
-,628 |
21,5% |
22.8% |
||
ueber 45 Jahre(Свыше 45 лет) |
eher links (Скорее левый) |
47 |
44,439 |
,435 |
23,4% |
22.1% |
|
Mitte (Центрист) |
67 |
74,887 |
-1,151 |
33,3% |
37,3% |
||
eher rechts (Скорее правый) |
87 |
81,674 |
,765 |
43,3% |
40,6% |
||
Abitur (Аттестат зрелости) |
bis 45 Jahre (до 45 лет) |
eher links (Скорее левый) |
174 |
156,952 |
1,848 |
50,7% |
45,8% |
Mitte (Центрист) |
111 |
117,127 |
-,698 |
32,4% |
34,1% |
||
eher rechts (Скорее правый) |
58 |
68,922 |
-1,472 |
16,9% |
20,1% |
||
ueber 45 Jahre(Свыше 45 лет) |
eher links (Скорее левый) |
34 |
51,048 |
-2,914 |
21,9% |
32,9% |
|
Mitte (Центрист) |
52 |
45,873 |
1,078 |
33,5% |
29,6% |
||
eher rechts (Скорее правый) |
69 |
58,078 |
1,812 |
44,5% |
37,5% |
The percentages are based on total observed frequencies in each subpopulation (Процентные показатели основываются на наблюдаемых суммарных частотах для каждой частичной совокупности).
Теперь вы можете видеть, что наблюдаемые и прогнозированные значения оказались рассогласованными. Это произошло потому, что теперь в модель входят только главные факторы влияния, а не взаимодействия.
Чтобы это изменить, в диалоговом окне Multinomial Logistic Regression (Мультиномиальная логистическая регрессия) задействуйте выключатель Model (Модель).
Откроется диалоговое окно Multinomial Logistic Regression: Model (Мультиномиальная логистическая регрессия: Модель).
Вы можете включить в расчёт все главные факторы влияния и взаимодействия, если вместо предварительно установленной по умолчанию опции Main effects (Основные эффекты) активируете опцию Full factorial (Полнофакторная модель). При помощи опции Custom (Пользовательский режим), Вы можете отобрать включаемые в расчёт факторы влияния.
Активируйте опцию Full factorial (Полнофакторная модель) и начните расчёт вновь.
В таблице оценки параметра теперь находятся и взаимодействия. Если Вы обратите внимание на наблюдаемые и ожидаемые частоты, то заметите, что теперь они совпадают.
Рис. 16.19: Диалоговое окно Multinomial Logistic Regression: Model (Множественная логистическая регрессия: Модель)
Постройте самостоятельно ещё одну логистическую регрессию, в которой Вы можете взять .переменную schicht (Принадлежность к прослойке) в качестве третьего фактора.