16.5 Мультиномиальная логистическая регрессия

Этот метод является вариантом логистической регрессии, при которой зависимая переменная не является дихотомической, как при бинарной логистической регрессии, а имеет больше двух категорий. В то время как, при бинарной логистической регрессии независимая переменная может иметь интервальную шкалу, то мультиномиальная логистическая регрессия пригодна только для категориальных независимых переменных, причём имеет значение, относятся ли они к шкале наименований или к порядковой шкале. Конечно же, не исключается возможность задания в качестве ковариат переменных, имеющих интервальную шкалу.

Начиная с 10 версии SPSS для независимых переменных, относящихся к порядковой шкале предусмотрен метод порядковой регрессии (см. гл. 16.6), который в данном случае является предпочтительным.

Для представления метода мольтиномиальной логистической регрессии был сначала взят простой пример с одной независимой переменной. Данные для этого примера "ыли взяты из ALLBUS (общий социологический опрос населения) 1998 года.

  •  Откройте файл polein.sav, и при помощи выбора меню Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Frequencies... (Частоты)

достройте частотные таблицы для четырёх переменных, находящихся в этом файле:

Alter (Возраст)

Frequency (Частота)

Percent (Процент)

Valid Percent (Действи- тельный процент)

Cumulative Percent (Совокупный процент)

Valid (Действи- тельное значение)

bis 45 Jahre (До 45 лет)

1306

50,1

50,1

50,1

ueber 45 Jahre (Свыше 45 лет)

1301

49,9

49,9

100,0

Total (Сумма)

2607

100,0

100,0

Politische Links-Rechts-Einschaetzung (Политическая принадлежность к левым или правым)

Frequency (Частота)

Percent (Процент)

Valid Percent (Действи- тельный процент)

Cumulative Percent (Совокупный процент)

Valid (Действи- тельное значение)

eher links (Скорее левый)

740

28,4

28,4

28,4

Mitte (Центрист)

1212

46,5

46,5

74,9

eher rechts (Скорее правый)

655

25,1

25,1

100,0

Total (Сумма)

2607

100,0

100,0

Schicht (Прослойка)

 

Frequency (Частота)

Percent (Процент)

Valid Percent (Действи- тельный процент)

Cumulative Percent (Совокупный процент)

Valid (Действи- тельное

Unterschicht (Нижняя прослойка)

879

33,7

33,7

33,7

значение)

Mittelschicht (Средняя прослойка)

1477

56,7

56,7

90,4

Oberschicht (Верхняя прослойка)

251

9,6

9,6

100,0

Total (Сумма)

2607

100,0

100,0

Schulbildung (Школьное образование)

 

Frequency (Частота)

Percent (Процент)

Valid Percent (Действи- тельный процент)

Cumulative Percent (Совокупный процент)

Valid (Действи- тельное значение)

Hauptschule (Неполное среднее)

1499

57,5

57,5

57,5

Mittlere Reife (Среднее)

610

23,4

23,4

80,9

Abitur (Атестат зрелости)

498

19,1

19,1

100,0

Total (Сумма)

2607

100,0

100,0

Мы хотим рассмотреть переменную polire (Политическая принадлежность к левым или правым) как зависимую переменную, а три остальные — как независимые переменные (факторы). В первом примере в качестве независимой переменной мы возьмем только переменную "Alter" (Возраст). Прежде всего построим таблицу сопряженности для этих двух переменных.

  •  Выберите в меню Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Crosstabs... (Таблицы сопряженности)

Переменной alter присвойте статус строчной переменной, a polire — столбцовой переменной, и через выключатель Cells... (Ячейки) активируйте вывод процентных показателей для ячеек.

Alter * Politische Links-Rechts-Einschfltzung Crosstabulation

(Возраст * Политическая принадлежность к левым или правым -  таблица сопряженности)

 

 

Politische Links-Rechts-Einschfltzung (Политическая принадлежность к левым или правым)

Total (Сумма)

eher links (Скорее левый)

Mitte (Цент- рист) eher rechts (Скорее правый)

Alter (Воз-раст)

bis 45 Jahre (До 45 лет)

Count (Коли- чество)

446

615

245

1306

% of Total (% от возраста)

34,2%

47,1%

18,8%

100,0%

ueber 45 Jahre (Свыше 45 лет)

Count % of Total (Коли- чество)

294

597

410

1301

(% от возраста)

22,6%

45,9%

31,5%

100,0%

Total (Сум- ма)

Count (Коли- чество)

740

1212

655

2607

% of Total (% от возраста)

28,4%

46,5%

25,1%

100,0%

Для младшей возрастной категории политическое самоопределение имеет тенденцию склонения симпатий к левым партиям, а для старшей — скорее к правым. Рассмотрим простую мультиномиальную логистическую модель, которая отражает взаимосвязь между политическим самоопределением и возрастом.

Так как политическое самоопределение, как зависимая переменная, включает три категории, то для определения вероятностей отнесения респондентов к этим трем категориям можно сформировать два недублированных логита, причём последняя категория "eher rechts" (скорее правый) будет использоваться как эталонная:

Нахождение коэффициентов b10, b11, b20 и b21 (называемых параметрическими оценками) и является основной задачей мультиномиальной логистической регрессии. Первая цифра индекса указывает на номер логита, а вторая на порядковый номер коэффициента в данном логите, причём цифра 0 на второй позиции индекса означает константу, за которой далее следует ровно столько коэффициентов, сколько независимых переменных (факторов) взято в рассмотрение. Коэффициентам последней (эталонной) категории присваивается значение 0.

Переменная Alter (Возраст), как единственная независимая переменная, имеет две категории, одна из которых рассматривается как эталонная, ее коэффициенты принимаются равными 0.

  •  Выберите в меню Analyze (Анализ) Regression ...(Регрессия) Multinomial Logistic... (Мультиномиальная логистическая)

Откроется диалоговое окно Multinomial Logistic Regression (Мультиномиальная логистическая регрессия).

  •  Переменную polire поместите в поле для зависимых переменных, а переменную alter (возраст) в поле для факторов и нажмите выключатель Statistics (Статистики).

Откроется диалоговое окно Multinomial Logistic Regression: Statistics (Мультиномиальная логистическая регрессия: Статистики)

  •  Оставьте активированным вывод параметрических оценок с доверительным интервалом соответствующим 95 % и покиньте это диалоговое окно нажатием Далее и ОК.

Рис. 16.17: Диалоговое окно Multinomial Logistic Regression (Множественная логистическая регрессия)

Рис. 16.18: Диалоговое окно Multinomial Logistic Regression: Statistics (Множественная логистическая регрессия: Статистики)

Содержание таблицы результатов расчёта, выглядит следующим образом. Для не дублирующих категорий она содержит параметрические оценки, стандартную ошибку, проверку значимости при помощи статистики Вальда, значение экспоненциальной функции от параметрической оценки и его доверительный интервал.

Parameter Estimates (Оценки параметров)

Politische Links-Rechts-Einschaetzung (Политическая принадлежность к левым или правым)

В

Std. Error (Станда- ртная ошибка)

Wald (Вальд)

df (Сте-пень сво- боды)

Sig. (Значи- мость)

Ехр(В)

95% Confidence Interval for Ехр(В) (95 % довери- тельный интервал для Ехр(В))

Lower Bound (Нижний предел)

Upper Bound (Верхний предел)

 

eher links (Скорее левый)

Intercept (Постоян- ное слага- емое)

-,333

,076

18,938

1

,000

[ALTER= 1,00]

,932

,110

71,353

1

,000

2,539

2,045

3,151

[ALTER= 2,00]

Оа

0

0

,

Mitte (Цен-трист)

Intercept (Постоян- ное слага-емое)

,376

,064

34,320

1

,000

[ALTER= 1,00]

,545

,099

30,198

1

,000

1,724

1,420

2,094

rALTER= 2,00]

0"

0

0

a. This parameter is set to zero because it is redundant (Данный параметр обнуляется, т.к. он является дублирующим)

Из таблицы можно взять следующие значения для b-коэффициентов:

b10 =-0,333

b11 (до 45 лет) = 0,932

b20 = 0,376

b21 (до 45 лет) = 0,545 1

Таким образом, для возрастной группы до 45 лет получим

g1 = -0,333 + 0,932 = 0,599

g2 = -0,376 + 0,545 = 0,921

и следовательно

Для дублирующего логита по правилам вычисления логарифма справедливо

К примеру, в возрастной категории до 45 лет вероятность быть более склонным к тевым течениям в 1,820 раз выше вероятности склонности к правым течениям. Такой же расчёт можно произвести и для другой возрастной категории; в данном случае будут отсутствовать коэффициенты b11 и b21, т.к. они приравниваются к нулю.

Следует отметить, что прямое определение вероятности для трёх категорий политической самооценки, интересней, чем соотношение этих вероятностей между собой. Для каждой i-ой категории зависимых переменных эта вероятность может быть вычислена по следующей формуле:

Здесь для большей удобочитаемости экспоненциальная функция обозначена как ехр. n указывает на число категорий (здесь n=3).

Для возрастной группы до 45 лет для трёх категорий политической самооценки получатся следующие вероятности:

Стало быть, для отдельного человека, принадлежащего к возрастной группе до 45 лет вероятность склонения политической самооценки в сторону левых составляет, 0,341 или 34,1 %, в сторону центристов 47,1 % и в сторону правых 18,8 %. Внимательный читатель может заметить, что эти числа соответствуют процентным показателям таблицы сопряженности для возраста и политической самооценки. Таким образом, в случае наличия лишь одной независимой переменной легко удостовериться в правдоподобности расчётов, производимых при мультиномиальной логистической регрессии.

Для возрастной группы свыше 45 лет расчёты будут выглядеть следующим образом:

g1 = - 0,333 + 0 = - 0,333 

g2 = 0,376 + 0 = 0,376

gз=0

ехр (g1) - ехр (-0,333) = 0,717

ехр (g2). ехр (0,376) = 1,456 

ехр (g3) = ехр (0) = 1

Если выразить полученные показатели в процентах, то и здесь так же наблюдается полное согласование с соответствующими процентными показателями таблицы сопряженности.

Следует отметить, что только в случае наличия лишь одной независимой переменной, как в приведённом примере, проведение расчёта с применением столь громоздкого метода, как многозначная логистическая регрессия, является достаточно бессмысленным — все соотношения могут быть выяснены проще, при помощи таблиц сопряженности. Поэтому мы введем в рассмотрение ещё одну дополнительную переменную — переменную schule (образование).

  •  В диалоговом окне Multinomial Logistic Regression (Мультиномиальная логистическая регрессия) поместите переменную schule вместе с переменной alter в поле факторов.

  •  В диалоговом окне Multinomial Logistic Regression: Statistics (Мультиномиальная логистическая регрессия: Статистики) активируйте дополнительные опции Cell probabilities (Вероятность по ячейкам) и Likelihood ratio test (Тест отношения правдоподобия) и начните расчёт вновь.

Таблица теста коэффициентов правдоподобия содержит изменения функции правдоподобия для случая, когда исключается соответствующий главный действующий фактор; эти изменения выражаются через соответствующие значения теста %2 (хи-квадрат). Выдаваемый уровень значимости р < 0,001 указывает на то, что оба фактора (возраст и школьное образование) оказывают очень значимое влияние на зависимую переменную (политическая самооценка).

Model Fitting Information (Информация о приближении, обеспечиваемой моделью)

Model (Модель)

-2 Log likelihood (-2 логарифми- ческое правдопо- добие)

Chi-square (Хи-квадрат)

df (степень свободы)

Sig. (Значи- мость)

Intercept Only (Только постоянное слагаемое)

252,208

Final (Оконча- тельно)

93,429

158,779

6

,000

Likelihood Ratio Tests (Тест отношения правдоподобия)

(Результат)

-2 Log Likelihood of Reduced Model (-2 логарифми-ческое правдоподобие для сокращённой модели)

Chi-square (Хи-квадрат)

df (Степень свободы)

Sig. (Значи- мость)

Intercept (Постоянное слагаемое)

93,429

,000

0

ALTER (Возраст)

171,496

78,067

2

,000

SCHULE (Образо- вание)

178,489

85,060

4

,000

The chi-square statistic is the difference in -2 tog-likelihoods between the final model :-~d a reduced model. The reduced model is formed by omitting an effect from the final model. The null hypothesis is that all parameters of that effect are 0 (Статистика хи-квадрат отображает различие -2 логарифмического правдоподобия между окончательной моделью и усеченной моделью. Суть расчёта усеченной модели сводится к тому, что из окончательной модели исключается один фактор влияния.

Нулевая гипотеза соответствует обнулению всех параметров параметрических оценок данного фактора влияния).

Таблица (b — коэффициентов) выглядит следующим образом. 

Parameter Estimates (Оценки параметров)

Politische Links-Rechts-Einschaetzung Политическая принадлежность к левым пли правым)

В

Std. Error (Стан- дартная ошибка)

Wald (Вальд)

df (Сте-пень сво-боды)

Sig. (Значи- мость)

Exp (В)

95% Confidence Interval for Exp(B) (95 % довери- тельный интервал для Ехр(В))

Lower Bound (Ниж-ний пре-дел)

Upper Bound (Верх-ний пре-дел)

eher links (Ско- рее левый)

(Посто-янное слага-емое)

-,129

,137

,8feO

1

,345

[ALTER= 1,00]

,952

,117

66,600

1

,000

2,591

2,061

3,256

ALTER= 2,00]

Oa

0

0

,

,

SCHULE= 1,00]

-,179

,142

,592

1

,207

,836

,632

1,104

SHULE= 2,00]

-,480

,158

9,249

1

,002

,619

,454

,843

[SHULE= 3,00]

0"

0

l

0

,

,

Mine (Цент-рист)

(Постоян-ное слага-емое)

-,236

,137

2,982

1

,084

[ALTER= 1,00]

,766

,106

52,174

1

,000

2,152

1,748

2,939

[ALTER= 2,00]

Oa

0

0

,

[SCHULE= 1,00]

,802

,141

32,539

1

,000

2,231

1,693

2,939

[SHULE= 2,00]

,149

,155

,922

1

,337

1,161

,856

1,574

[SHULE= 3,00]

Oa

0

,

0

,

,

,

,

a. This parameter is set to zero because it is redundant (Данный параметр обнуляется, так как он является дублирующим)

В качестве примера определим вероятности для политической самооценки отдельного человека, принадлежащего к возрастной группе свыше 45 лет с неполным средним образованием. Для этого по аналогии с предыдущим примером произведём следующие вычисления:

 g1 =  - 0,129 +   0 - 0,179=  - 0,308  
  g2 =  - 0,236 +   0 +   0,802 =   0,566 
 gз= 0 
  exp (g1) = 0,735 
  exp (g2) = 1,761 
  exp (g3) - 1 

Если перевести данные результаты в процентные показатели, то они будут означать, что среди граждан в возрасте свыше 45 лет с неполным средним образованием 21,0 % симпатизируют левым политическим течениям, 28,6 % правым, а 50,4 % остаются по центру.

Нет необходимости вычислять процентные показатели вероятностей самостоятельно. Вы можете взять их из следующей таблицы, отображающей наблюдаемые и прогнозируемые частоты:

 

Observed and Predicted Frequencies (Наблюдаемые и прогнозируемые частоты)

Schulb-ildung (Образо- вание)

Alter (Возраст)

Politische Links-Rechts-Einschfltzung (Политическая левая или правая принадлежность)

Frequency (Частота)

Percentage (Процент)

Observed (Наблю-даемая)

Predicted (Прогно-зируемая)

Pearson Residual (Остаток Пирсона)

Observed (Набл-юдаемый)

Predicted (Прогно-зируемый)

Haupt- schule (Непол-ное среднее)

bis 45 Jahre (До 45 лет)

eher links (Скорее левый)

143

157,488

-1,365

25,8%

28,4%

Mitte (Центрист)

312

313,760

-,151

56,3%

56,6%

eher rechts (Скорее правый)

99

82,752

1,937

17,9%

14,9%

ueber 45 Jahre(Свыше 45 лет)

eher links (Скорее левый)

213

198,512

1,157

22,5%

21,0%

Mitte (Центрист)

478

476,240

,115

50,6%

50,4%

eher rechts (Скорее правый)

254

270,248

-1,170

26,9%

28,6%

Mifflere Reife (Сред-нее)

bis 45 Jahre (до 45 лет)

eher links (Скорее левый)

129

131,561

-,271

31,5%

32,2%

Mitte (Центрист)

192

184,113

,784

46,9%

45,0%

eher rechts (Скорее правый)

88

99,326

-,628

21,5%

22.8%

ueber 45 Jahre(Свыше 45 лет)

eher links (Скорее левый)

47

44,439

,435

23,4%

22.1%

Mitte (Центрист)

67

74,887

-1,151

33,3%

37,3%

eher rechts (Скорее правый)

87

81,674

,765

43,3%

40,6%

Abitur (Аттестат зрелости)

bis 45 Jahre (до 45 лет)

eher links (Скорее левый)

174

156,952

1,848

50,7%

45,8%

Mitte (Центрист)

111

117,127

-,698

32,4%

34,1%

eher rechts (Скорее правый)

58

68,922

-1,472

16,9%

20,1%

ueber 45 Jahre(Свыше  45 лет)

eher links (Скорее левый)

34

51,048

-2,914

21,9%

32,9%

Mitte (Центрист)

52

45,873

1,078

33,5%

29,6%

eher rechts (Скорее правый)

69

58,078

1,812

44,5%

37,5%

The percentages are based on total observed frequencies in each subpopulation (Процентные показатели основываются на наблюдаемых суммарных частотах для каждой частичной совокупности).

Теперь вы можете видеть, что наблюдаемые и прогнозированные значения оказались рассогласованными. Это произошло потому, что теперь в модель входят только главные факторы влияния, а не взаимодействия.

  •  Чтобы это изменить, в диалоговом окне Multinomial Logistic Regression (Мультиномиальная логистическая регрессия) задействуйте выключатель Model (Модель).

Откроется диалоговое окно Multinomial Logistic Regression: Model (Мультиномиальная логистическая регрессия: Модель).

Вы можете включить в расчёт все главные факторы влияния и взаимодействия, если вместо предварительно установленной по умолчанию опции Main effects (Основные эффекты) активируете опцию Full factorial (Полнофакторная модель). При помощи опции Custom (Пользовательский режим), Вы можете отобрать включаемые в расчёт факторы влияния.

  •  Активируйте опцию Full factorial (Полнофакторная модель) и начните расчёт вновь.

В таблице оценки параметра теперь находятся и взаимодействия. Если Вы обратите внимание на наблюдаемые и ожидаемые частоты, то заметите, что теперь они совпадают.

Рис. 16.19: Диалоговое окно Multinomial Logistic Regression: Model (Множественная логистическая регрессия: Модель)

  •  Постройте самостоятельно ещё одну логистическую регрессию, в которой Вы можете взять .переменную schicht (Принадлежность к прослойке) в качестве третьего фактора.


Новости

Информация

Ispss
Улица Новомосковская 36
500003 Екатеринбург

E-mail: inform@