Автор работы: Пользователь скрыл имя, 10 Декабря 2013 в 16:11, реферат
В данной работе рассматриваются данные по 20 предприятиям региона России, Рязанской области изучается зависимость выработки продукции на одного работника Y (тыс. руб.) от ввода в действие новых основных фондов X1 (% от стоимости фондов на конец года) и от удельного веса рабочих высокой квалификации в общей численности рабочих X2 (%).
Объем выборки n=20 (условие, что объем выборки должен быть в 6-7 раз больше количества факторов модели соблюдается).
1. Описание модели. Исходные данные. 3
2. Оценка качества модели 4
2.1 Коэффициенты вариации 5
2.1 Коэффициенты парной корреляции и частные коэффициенты регрессии 5
2.3 Вычисление параметров линейного уравнения множественной регрессии 6
3. Построение модели регрессии без второго параметра (Х2) 8
4. Анализ остатков 8
4.1 Оценка пригодности эмпирической модели 8
4.2 Проверка условий 9
Список использованной литературы 10
В данной работе рассматриваются данные по 20 предприятиям региона России, Рязанской области изучается зависимость выработки продукции на одного работника Y (тыс. руб.) от ввода в действие новых основных фондов X1 (% от стоимости фондов на конец года) и от удельного веса рабочих высокой квалификации в общей численности рабочих X2 (%).
Объем выборки n=20 (условие, что объем выборки должен быть в 6-7 раз больше количества факторов модели соблюдается).
Предполагаемая модель множественной линейной регрессии выглядит следующим образом:
Таблица 1.1. – Исходные данные.
График 1.1. Зависимости параметров Х1 и Х2 от результирующего фактора Y
Обработка данных, выбор модели и оценка качества модели проводились в несколько этапов, к числу которых относятся:
Таблица 2.1. – Сводная таблица основных статистических характеристик
Сравнивая значения средних квадратичных отклонений и средних величин и определяя коэффициенты вариации:
Приходим к выводу о повышенном уровне варьирования признаков, хотя и в допустимых пределах, не превышающих 35%. Совокупность предприятий однородна, и для ее изучения могут использоваться метод наименьших квадратов и вероятностные методы оценки статистических гипотез.
Значение линейных коэффициентов парной корреляции определяют тесноту попарно связанных переменных, использованных в данном уравнении множественной регрессии. Линейные коэффициенты частной корреляции оценивают тесноту связи значений двух переменных, исключая влияние всех других переменных, представленных в уравнении множественной регрессии.
Матрица парных коэффициентов корреляции представлена в таблице 2.2.
Таблица 2.2. - Матрица парных коэффициентов корреляции
Y |
X1 |
X2 | |
Y |
1 |
||
X1 |
0,969881 |
1 |
|
X2 |
0,9408 |
0,942839 |
1 |
Значения коэффициентов парной корреляции указывает на весьма тесную связь выработки как с коэффициентом обоснования основных фондов – , так и с долей рабочих высокой квалификации – ( , и ). Но в то же время межфакторная связь весьма тесная и превышающая тесноту связи с c . В связи с этим для улучшения модели можно исключить из нее фактор как малоинформативный, недостаточно статистически надежный.
Коэффициенты частной корреляции дают более точную характеристику тесноты связи двух признаков, чем коэффициенты парной корреляции, так как очищают парную зависимость от взаимодействия данной пары признаков с другими признаками, представленными в модели.
Наиболее тесно связанны и : , связь и гораздо слабее: , а меж факторная зависимость и выше, чем парная и : . Все это приводит к выводу о необходимости исключить фактор - доля высококвалифицированных рабочих – из правой части уравнения множественной регрессии.
Если сравнить коэффициенты правой и частной корреляции, то можно увидеть, что из-за высокой межфакторной зависимости коэффициенты парной корреляции дают завышенные оценки тесноты связи:
; ; ;
Именно по этой причине рекомендуется при наличии сильной коллинеарности (взаимосвязи) факторов исключать из исследования тот фактор, у которого теснота парной зависимости меньше, чем теснота межфакторной связи.
Эта операция проводится с помощью инструмента анализа данных Регрессия. Она аналогична расчету параметров парной линейной регрессии, только в отличие от парной регрессии в диалоговом окне при заполнении параметра входной интервал х следует указать не один столбец, а все столбцы, содержащие значения факторных признаков. Результаты анализа представлены на рисунке 2.3.
По результатам вычислений составим
уравнение множественной
;
Значения случайных ошибок параметров с учетом округления:
; ;
Они показывают, какое значение данной характеристики сформировалось под влиянием случайных факторов. Эти значения используются для расчета t-критерия Стьюденты:
; ; .
Если значения t-критерия больше 2-3, то можно сделать вывод о существенности данного параметра, который формируется под воздействием на случайных причин. Здесь статистически значимыми являются , а величина сформировалась под воздействием случайных причин, поэтому фактор силу влияния которого оценивает , можно исключить как несущественно влияющий, неинформативный.
Рисунок 2.3. Результаты применения инструмента Регрессия
На это же указывает показатель вероятности случайных значений параметров регрессии: если меньше принятого нами уровня (обычно 10%, 5% или 1%), делаются вывод о неслучайной природе данного значения параметра , т.е. о том, что он статистически значим и надежен. В противном случае принимается гипотеза о случайной природе значения коэффициентов уравнения. Здесь , что позволяет рассматривать как неинформативный фактор и удалить его для улучшения данного уравнения.
Величина оценивает агрегированное влияние прочих (кроме учтённых в модели факторов и ) факторов на результат .
На основании данных, без учета фактора удельного веса рабочих высокой квалификации в общей численности рабочих Х2 (%), проводится операция с помощью инструмента анализа Регрессия.
Рисунок 3.1. Результаты применения инструмента Регрессия
По результатам вычислений составим
уравнение множественной
;
Значимость коэффициентов
;
Рассмотрим теперь анализ ошибок — графический метод, позволяющий оценить точность регрессионной модели. Кроме того, с его помощью можно обнаружить потенциальные нарушения условий применения регрессионного анализа.
Остаток, или оценка ошибки , представляет собой разность между наблюдаемым ( ) и предсказанным ( ) значениями зависимой переменной при заданном значении Xi.
Для оценки пригодности эмпирической
модели регрессии остатки
Следующим этапом необходимо определить пригодность линейной регрессионной модели зависимости выработки продукции на одного рабочего Y (тыс. руб.) от ввода в действие новых основных фондов X1 (% от стоимости фондов на конец года). Для этого следует построить диаграмму разброса, откладывая по вертикальной оси остатки ei, а по горизонтальной — независимую переменную X1, использую данные расчета приведенные в таблице 4.1.
Таблица 4.1.
Номер предприятия |
Х1, Ввод в действие новых основных фондов (% от стоимости фондов на конец года) |
Y, выработка продукции на одного рабочего (тыс. руб.) |
Предсказание , выработки продукции на одного рабочего (тыс. руб.) |
Остатки (тыс. руб.) |
1 |
3,9 |
7,0 |
6,784 |
0,216 |
2 |
3,9 |
7,0 |
6,784 |
0,216 |
3 |
3,7 |
7,0 |
6,538 |
0,462 |
4 |
4,0 |
7,0 |
6,907 |
0,093 |
5 |
3,8 |
7,0 |
6,661 |
0,339 |
6 |
4,8 |
7,0 |
7,891 |
-0,891 |
7 |
5,4 |
8,0 |
8,629 |
-0,629 |
8 |
4,4 |
8,0 |
7,399 |
0,601 |
9 |
5,3 |
8,0 |
8,506 |
-0,506 |
10 |
6,8 |
10,0 |
10,350 |
-0,350 |
11 |
6,0 |
9,0 |
9,366 |
-0,366 |
12 |
6,4 |
11,0 |
9,858 |
1,142 |
13 |
6,8 |
9,0 |
10,350 |
-1,350 |
14 |
7,2 |
11,0 |
10,842 |
0,158 |
15 |
8,0 |
12,0 |
11,826 |
0,174 |
16 |
8,2 |
12,0 |
12,072 |
-0,072 |
17 |
8,1 |
12,0 |
11,949 |
0,051 |
18 |
8,5 |
12,0 |
12,441 |
-0,441 |
19 |
9,6 |
14,0 |
13,793 |
0,207 |
20 |
9,0 |
14,0 |
13,055 |
0,945 |
Рисунок 4.1. График остатков
График остатков на рисунке 4.1 позволяет оценить вариации ошибок. На графике нет особых различий между ошибками, соответствующими разным значениям X1. Следовательно, вариации ошибок при разных значениях Х1 приблизительно одинаковы. Это позволяет сделать вывод о пригодности эмпирической модели регрессии.