16.9 Взвешенное оценивание (оценка с весами)
В линейном регрессионном анализе, рассмотренном до настоящего времени, все наблюдения входят в модель равнозначно. При этом, исходной предпосылкой является тот факт, что все наблюдения должны иметь одинаковую дисперсию.
Если это условие не выполняется и дисперсия увеличивается с ростом значения независимой переменной, то отдельные точки можно взвесить так, чтобы наблюдения с большой дисперсией имели меньшее влияние.
В качестве примера рассмотрим тест, проверяющий знания детей в области географии. Дети в возрасте от 3 до 14 лет должны были в течение двух минут назвать как можно больше городов Германии. Результаты теста сведены в нижеследующей таблице, причём количество детей в каждой возрастной группе варьируется от двух до пяти:
Возраст |
Количество названных городов |
3 |
2, 1, 0, 4 |
4 |
4, 2, 6 |
5 |
3, 8, 4, 7 |
6 |
3, 8, 9, 5 |
7 |
6, 10 |
8 |
7, 14, 10 |
9 |
9, 16, 10 |
10 |
9, 16, 15, 9 |
11 |
18, 12 |
12 |
22, 11, 14, 16 |
13 |
14, 21 |
14 |
20, 15, 23, 14, 26 |
Эти данные для сорока детей в общей сложности хранятся в переменных alter (возраст) и staedte (города), которые содержатся в файле snamen.sav.
Откройте файл snamen.sav.
Выберите в меню Graphs (Графики) Scatterplot... (Диаграмма рассеяния)
Рис. 16.26: Диаграмма рассеяния
Отметьте и постройте простую диаграмму рассеяния с переменной alter по оси абсцисс и переменной staedte пo оси ординат.
Вы увидите, что с ростом возраста растёт не только количество названных городов, но и рассеяние, то есть дисперсия, становится больше.
В соответствии с описанием из главы 16.1 проведите линейный регрессионный анализ, причём переменной staedte присвойте статус зависимой переменной, а переменной alter — независимой переменной.
Вы получите следующие результаты:
Model Summary (Сводная таблица по модели)
Model (Модель) |
R |
R Square (R-квадрат) |
Adjusted R Square (Смещенный R-квадрат) |
Std. Error of the Estimate (Стандартная ошибка оценки) |
1
|
,879а |
,772 |
,766
|
3,1623 |
a. Predictors: (Conslant), Alter (Bлияющие переменные: (Константа), возраст)
Coefficients (Коэффициенты) а |
||||||
Model (Модель) |
Unstandardized Coefficients (He стандарти-зированные коэф-фициенты) |
Standardized Coefficients (Стандарти-зированные коэф-фициенты) |
Т |
Sig. (Значи-мость) |
||
В |
Std. Error (Станда-ртная ошибка) |
/3 (Beta) |
||||
1 a. Dep |
(Constant) (Koнстанта) |
-2,722 |
1,273 |
|
-2,138 |
,039 |
Alter (Возраст) endent Variable |
1,569 (Зависим |
,138 ая перемен-ная) |
,879 |
11,357 |
,000 |
Коэффициент корреляции равен 0,879, а мера определённости 0,772.
В данном примере мы имеем дело с группами случаев, разделёнными по годам возраста, для которых независимая переменная имеет всегда одно и то же значение. Исходя из значений зависимой переменной сопоставленных каждому случаю, можно определить дисперсию; обратное значение этой дисперсии применяется обычно в качестве весового фактора для соответствующего случая.
Если подобной группировки данных нет, то пытаются выявить такую связь между дисперсией и переменной, чтобы степень дисперсии была пропорциональна значению данной переменной. При поиске так называемых весовых переменных речь идет о независимой переменной или, если их много, — об одной из независимых переменных. В приведенном примере такой переменной, очевидно, является независимая переменная alter, по которой и можно проследить изменение дисперсии.
Целью анализа сначала является определение наилучшей возможной степени р. а затем подсчёт веса для каждого случая, причём вес для значения переменной х определяется как
1/хp
Выберите в меню Analyze (Анализ) Regression.. .(Регрессия) Weight Estimation... (Взвешенное оценивание)
Откроется диалоговое окно Weight Estimation (Взвешенное оценивание).
Рис. 16.27: Диалоговое окно Weight Estimation (Весовая цепка)
Перенесите переменную staedte в поле зависимых переменных, а переменную alter в поля для независимых и для весовых переменных. Согласно с установками по умолчанию оптимальная степень вычисляется в пределе от —2 до 2 с шагом 0,5; измените шаг на 0,2.
Щёлкните на кнопке опций и в появившемся диалоговом окне активируйте опцию Save best weight as new variable (Сохранить лучший вес, как новую переменную).
Результаты расчёта, вывод которых производится в старой табличной форме, выглядят следующим образом:
Source variable |
. . ALTER |
Dependent variable. . STAEDTE |
|
Log- likelihood |
Function =-116,950816 |
POWERvalue= -2,000 |
|
log- likelihood |
Function =-115,170919 |
POWERvalue=-1,800 |
|
Log- likelihood |
Function =-113,434617 |
POWERvalue=-1,600 |
|
Log- likelihood |
Function =-111,746484 |
POWERvalue=-1,400 |
|
Log- likelihood |
Function =-110,111706 |
POWERvalue=-1,200 |
|
Log- likelihood |
Function =-108,536154 |
POWERvalue=-1,000 |
|
Log- likelihood |
Function =-107,026465 |
POWERvalue=-,800 |
|
Log- likelihood |
Function =-105,590111 |
POWERvalue=-,600 |
|
Log- likelihood |
Function =-104,235463 |
POWERvalue=-,400 |
|
Log- likelihood |
Function =-102,971835 |
POWERvalue=-,200 |
|
Log- likelihood |
Function =-101,809499 |
POWERvalue=,000 |
|
Log- likelihood |
Function =-100,759655 |
POWERvalue=,200 |
|
Log- likelihood |
Function =-99,834344 |
POWERvalue=,400 |
|
Log- likelihood |
Function =-99,046284 |
POWERvalue=,600 |
|
Log- likelihood |
Function =-98,408623 |
POWERvalue=,800 |
|
Log- likelihood |
Function =-97,934594 |
POWERvalue=1,000 |
|
Log- likelihood |
Function =-97,637078 |
POWERvalue=1,200 |
|
Log- likelihood |
Function =-97,528092 |
POWERvalue=1,400 |
|
Log- likelihood |
Function =-97,618231 |
POWERvalue=1,600 |
|
Log- likelihood |
Function =-97,916114 |
POWERvalue=1,800 |
|
Log- likelihood |
Function =-98,427890 |
POWERvalue=2,000 |
|
The Value ofPOWER MaximizingLog-likelihood Function =1,400 |
|||
Source variable |
ALTER |
POWERvalue=:1,400 |
|
Dependent variable. . STAEDTE |
|||
Multiple R, 90081 |
|||
R Square,81146 |
|||
Adjusted R Square ,80650 |
|||
Standard Error ,68669 |
|||
|
Analysis of Variance : |
|
|
|
DF Sum of Squares |
Mean Square |
|
Regression Residuals |
1 77,121477 38 17,918483 |
77,121477 ,471539 |
|
P = 163,55269 |
Signif F = ,0000 |
|
|
------- |
- — — Variables in the Equation — |
- - - - - |
- - - |
Variable |
В SE В Beta |
Т |
Sig Т |
ALTER (Constant) |
1,569996 ,122764 ,900813 -2,728584 ,840793 |
12,789 -3,245 |
,0000 ,0025 |
Log-likelihood |
Function = -97,528092 |
|
|
The following |
new variables are being created: |
|
|
Name |
Label |
|
|
WGT_1 |
Weight for STAEDTE from WLS, MOD_ |
1 ALTER** |
-1,400 |
Оптимальная степень оценивается при помощи логарифма функции правдоподобия; в данном случае максимальное значение получается при значении степени равном 1,4. Это значение используется для определения веса для каждого случая. К примеру, для трёхлетнего ребёнка вес равен
1/(31,4)=0,2148
Весовые показатели были добавлены в исходный файл под переменной с именем wgt_1. Затем повторно был выполнен расчёт регрессии. Корреляционный коэффициент при этом возрос до 0,90081, а мера определённости до 0,81146. Хотя эти изменения, а также изменение рассчитанных коэффициентов регрессии и констант незначительны, зато стала намного меньше соответствующая им стандартная ошибка.