Регрессионный анализ

Автор работы: Пользователь скрыл имя, 16 Июня 2013 в 16:17, лабораторная работа

Краткое описание

Уравнение линейной парной регрессии выглядит следующим образом: Y=a0+а1X При помощи этого уравнения переменная Y выражается через константу a0 и угол наклона прямой (или угловой коэффициент) а1, умноженный на значение переменной X. Константу a0 также называют свободным членом, а угловой коэффициент - коэффициентом регрессии. Параметры уравнения могут быть определены с помощью метода наименьших квадратов (МНК)

Прикрепленные файлы: 1 файл

Регрессионный анализ.doc

— 927.50 Кб (Скачать документ)

  • Лабораторная работа № 3

  • Тема: Регрессионный  анализ

    Уравнение линейной парной регрессии

    Уравнение линейной парной регрессии  выглядит следующим образом: Y=a01X  При помощи этого уравнения переменная Y выражается через константу a0 и угол наклона прямой (или угловой коэффициент) а1, умноженный на значение переменной X. Константу a0 также называют свободным членом, а угловой коэффициент - коэффициентом регрессии. Параметры уравнения могут быть определены с помощью метода наименьших квадратов (МНК)

  • Метод наименьших квадратов
  • (в справочных системах англоязычных  программ - Least Squares Мethod, LS) является одним из основных методов определения параметров регрессионных уравнений, дающий наилучшие линейные несмещенные оценки. Именно он используется в MS Excel. Линейные – относится к характеру взаимосвязи переменных. Несмещенные значит, что ожидаемые значения коэффициентов регрессии должны быть истинными коэффициентами. То есть точки, построенные по исходным данным , должны лежать как можно ближе к точкам линии регрессии. Сущность данного метода заключается в нахождении параметров модели, при которых сумма квадратов отклонений эмпирических (фактических) значений результирующего признака от теоретических, полученных по выбранному уравнению регрессии, то есть:

    ,

    где – значение, вычисленное по уравнению регрессии; – отклонение (ошибка, остаток) (рис. 1); n – количество пар исходных данных.

     

    Рис. 1 Понятие отклонения

    для случая линейной регрессии

     

     В регрессионном анализе  предполагается, что математическое  ожидание случайной величины  равно нулю и ее дисперсия одинакова для всех наблюдаемых значений Y. Отсюда следует, что рассеяние данных возле линии регрессии должно быть одинаково при всех значениях параметра X. В случае, показанном на рис. 2 данные распределяются вдоль линии регрессии неравномерно, поэтому метод наименьших квадратов в этом случае неприменим.

    Рис.2. Неравномерное распределение  исходных точек вдоль линии регрессии

     

    Проведя необходимые преобразования, получим систему двух уравнений  с двумя неизвестными а0 и а1, которые найдем решив систему.

      (1)

       (2)

    Направление связи между переменными  определяется на основании знаков (отрицательный  или положительный) коэффициента регрессии (коэффициента а1).

    Если  знак при коэффициенте регрессии - положительный, связь зависимой переменной с независимой будет положительной. В нашем случае знак коэффициента регрессии положительный, следовательно, связь также является положительной.

    Если  знак при коэффициенте регрессии - отрицательный, связь зависимой переменной с независимой является отрицательной (обратной).

    Для анализа общего качества уравнения  уравнения регрессии используют обычно множественный коэффициент детерминации R2, называемый также квадратом коэффициента множественной корреляции R. R2 (мера определенности) всегда находится в пределах интервала [0;1].

    Если значение R2 близко к единице, это означает, что построенная модель объясняет почти всю изменчивость соответствующих переменных. И наоборот, значение R-квадрата, близкое к нулю, означает плохое качество построенной модели.

    Коэффициент детерминации R2 показывает, на сколько процентов ( ) найденная функция регрессии описывает связь между исходными значениями факторов X и Y

    где  – объясненная вариация;  – общая вариация (рис.3).

     

    Рис. 3 Графическая интерпретация  коэффициента детерминации для случая линейной регрессии

     

    Соответственно, величина показывает, сколько процентов вариации параметра Y обусловлены факторами, не включенными в регрессионную модель. При высоком ( ) значении коэффициента детерминации можно делать прогноз для конкретного значения .

    Нелинейная регрессия

    Рассмотрим наиболее простые случаи нелинейной регрессии: гиперболу, экспоненту и параболу. При нахождении коэффициентов гиперболы и экспоненты используют прием приведения нелинейной регрессионной зависимости к линейному виду. Это позволяет использовать для вычисления коэффициентов функций регрессии выше приведенные формулы.

  • Гипербола. Для приведения уравнения вида к линейному виду вводят новую переменную , тогда уравнение гиперболы принимает линейный вид . После этого используют формулы (1) и (2) для нахождений линейной функции, но вместо значений используются значения :
  • ;             
    .  (3)

    Экспонента. Для приведения к линейному виду уравнения экспоненты проведем логарифмирование:

    ;

    ;

    .

    Введем переменные и , тогда , откуда следует, что можно применять формулы (1) и (2), в которых вместо значений надо использовать :

    ;     
      (4)

    При этом мы получим численные значения коэффициентов и , от которых надо перейти к и , используемых в модели экспоненты. Исходя из введенных обозначений и определения логарифма, получаем

    ,
    .

  • Парабола. Для нахождения коэффициентов уравнения параболы необходимо решить линейную систему из трех уравнений:
  •  

    Сила регрессионной связи для  гиперболы и параболы определяется непосредственно по той же формуле  что и для линейной модели. При  вычислении коэффициента детерминации для экспоненты все значения параметра  Y (исходные, регрессионные, среднее) необходимо заменить на их логарифмы, например, – на и т.д.

    Если функция регрессии определена, интерпретирована и обоснована, и оценка точности регрессионного анализа соответствует требованиям, можно считать, что построенная модель и прогнозные значения обладают достаточной надежностью.

    Прогнозные значения, полученные таким  способом, являются средними значениями, которые можно ожидать.

  • Методические рекомендации
  • Для проведения регрессионного анализа  и прогнозирования необходимо:

    1. построить график исходных данных и попытаться зрительно, приближенно определить характер зависимости;
    2. выбрать вид функции регрессии, которая может описывать связь исходных данных;
    3. определить численные коэффициенты функции регрессии методом наименьших квадратов;
    4. оценить силу найденной регрессионной зависимости на основе коэффициента детерминации ;
    5. сделать прогноз (при ) или сделать вывод о невозможности прогнозирования с помощью найденной регрессионной зависимости. При этом не рекомендуется использовать модель регрессии для тех значений независимого параметра X, которые не принадлежат интервалу, заданному в исходных данных.
  • Задача: Некоторая фирма занимается поставками различных грузов на короткие расстояния внутри города. Оценить стоимость таких услуг, зависящую от затрачиваемого на поставку времени. В качестве наиболее важного фактора, влияющего на время поставки, выбрано пройденное расстояние. Были собраны исходные данные о десяти поставках
  • Определите характер зависимости  между расстоянием и затраченным  временем,  проанализируйте применимость метода наименьших квадратов, постройте  уравнение регрессии, используя  МНК, проанализируйте силу регрессионной  связи. Сделайте прогноз времени поездки на 2 мили. Посчитать и построить графически меру ошибки регрессионной модели. Проведем регрессионный анализ с использованием Matlab.

    Регрессионный анализ

    программа для расчета

    x=[11 19 24 28 34 41 49 49 64 86 99 132 198];

    y=[32 37 43 48 53 58 63 68 72 77 82 87 92];

    plot(x,y,'ko'); grid

    xlabel('время,сек');

    ylabel('температура,градусы');

    legend('экспериментальные данные');

    Помимо расстояния на время поставки влияют пробки на дорогах, время суток, дорожные работы, погода, квалификация водителя, вид транспорта. Построенные точки не находятся точно на линии, что обусловлено описанными выше факторами. Но эти точки собраны вокруг прямой линии, поэтому можно предположить линейную связь между параметрами. Все исходные точки равномерно распределены вдоль предполагаемой прямой линии, что позволяет применить метод наименьших квадратов.

    Вычислим суммы, необходимые для  расчета коэффициентов уравнения  линейной регрессии и коэффициента детерминации R2, заполним вспомогательную таблицу

     

    продолжение программы для расчета

     

    xi = sum(x);

    yi = sum(y);

    xi2 = sum(x.^2);

    xiyi = sum(x.*y);

    n = 13;

    ycp = yi/n;

    a1 = (n*xiyi-yi*xi)/(n*xi2-(xi).^2);

    a0 = (1/n)*(yi-a1*xi);

    yp = a0+a1*x;

    hold on;

    plot(x,yp,'k');

    legend('экспериментальные данные','регрессионная  зависимость');

    plot(y,yp-y,'ko'); grid;

    xlabel('время, сек');

    ylabel('температура, градусы');

    sum(yp-y);

    123154678

    x=[0 11 19 24 28 34 41 49 49 64 86 99 132 198];

    y=[27 32 37 43 48 53 58 63 68 72 77 82 87 92];

    plot(x,y,'ko'); grid

    xlabel('время,сек');

    ylabel('температура,градусы');

    legend('экспериментальные данные');

    xi = sum(x);

    yi = sum(y);

    xi2 = sum(x.^2);

    xiyi = sum(x.*y);

    n = 14;

     

    a1 = (n*xiyi-yi*xi)/(n*xi2-(xi).^2);

    a0 = (1/n)*(yi-a1*xi);

    yp = a0+a1*x;

    hold on;

    plot(x,yp,'k');

    legend('экспериментальные данные','регрессионная зависимость');

     

     

     

     

    plot(y,yp-y,'ko'); grid;

    xlabel('время, сек');

    ylabel('температура, градусы');

     

    sum(yp-y);

    R2 = sum((yp-ycp).^2)/sum((y-ycp).^2);

     

    yi =sum(y)/14;

    cko=sqrt((sum(yp-yi).^2)/(n-2))

    plot(x,yp+cko,'g-',x,yp-cko,'g-');

    hold on

    plot(x,yp+2*cko,'r-',x,yp-2*cko,'r-');


    Информация о работе Регрессионный анализ