Метод главных компонент

Автор работы: Пользователь скрыл имя, 24 Апреля 2014 в 20:33, курсовая работа

Краткое описание

С другой стороны, не обязательно для описания состояния объекта использовать какие-то из исходных, непосредственно замеренных на нем признаков. Так, например, для определения специфики фигуры человека при покупке одежды достаточно назвать значения двух признаков (размер-рост), являющихся производными от измерений ряда параметров фигуры. При этом, конечно, теряется какая-то доля информации (портной измеряет до одиннадцати параметров на клиенте), как бы огрубляются (при агрегировании) получающиеся при этом классы. Однако, как показали исследования, к вполне удовлетворительной классификации людей с точки зрения специфики их фигуры приводит система, использующая три признака, каждый из которых является некоторой комбинацией от большого числа непосредственно замеряемых на объекте параметров.

Содержание

Введение 3
1 Статистический подход в методе главных компонент 5
2 Многомерное нормальное распределение 6
3 Линейная модель метода главных компонент. Метод фадеева – одновременное вычисление коэффициентов характеристического многочлена и присоединенной матрицы 10
4 Квадратичные формы и главные компоненты. 16
5 Применение метода главных компонент в экономике. 22
Заключение 24
Список использованной литературы 25

Прикрепленные файлы: 1 файл

МИНИСТЕРСТВО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ.docx

— 191.70 Кб (Скачать документ)

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ

ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ

ГОСУДАРСТВЕННОЕ ОБРЗАЗОВАТЕЛЬНОЕ УЧЕРЕЖДЕНИЕ

ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ

«ВОРОНЕЖСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ»

(ГОУВПО «ВГТУ»)

 

Инженерно-экономический факультет

Кафедра «                                                                                                   »

 

КУРСОВАЯ РАБОТА

 

по дисциплине «Теория вероятности и математической статистики»

 

Тема: " Метод главных компонент "

 

 

 

Разработали студенты                                                                      

                                                                                                          Астахова О.С. 

                                                                                                         Калашникова А.В.

 

 

Руководитель                                                                                Дежин В.В

 

 

 

 

 

 

 

 

Защищен  ___________________ Оценка ____________________________

дата

 

 

 

 

 

 

 

 

 

 

Воронеж 2013 

Содержание

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Введение

 

Во многих задачах обработки многомерных наблюдений и, в частности, в задачах классификации исследователя интересуют в первую очередь лишь те признаки, которые обнаруживают наибольшую изменчивость (наибольший разброс) при переходе от одного объекта к другому.

С другой стороны, не обязательно для описания состояния объекта использовать какие-то из исходных, непосредственно замеренных на нем признаков. Так, например, для определения специфики фигуры человека при покупке одежды достаточно назвать значения двух признаков (размер-рост), являющихся производными от измерений ряда параметров фигуры. При этом, конечно, теряется какая-то доля информации (портной измеряет до одиннадцати параметров на клиенте), как бы огрубляются (при агрегировании) получающиеся при этом классы. Однако, как показали исследования, к вполне удовлетворительной классификации людей с точки зрения специфики их фигуры приводит система, использующая три признака, каждый из которых является некоторой комбинацией от большого числа непосредственно замеряемых на объекте параметров.

Именно эти принципиальные установки заложены в сущность того линейного преобразования исходной системы признаков, которое приводит к главным компонентам.

Таким образом тема «Методы главных компонент» является актуальной. 

 

 

 

 

 

 

Целью данной работы является рассмотрение метода главных компонент. В соответствии с поставленной целью в курсовой работе необходимо выполнить следующие задачи:

- усвоить  статистический подход в методе главных компонент;

- изучить  многомерное нормальное распределение;

- изучить  линейную модель метода главных компонент и метода Фаддеева;

- понять  квадратичные формы и главных компонент;

- рассмотреть  применение метода главных компонент в экономике;

- усвоить и применить, полученные знания на практике.

 

 

1 Статистический подход в методе главных компонент

 

В зависимости от конкретных задач, решаемых в экономике, используется один из методов факторного анализа, или метод главных компонент.

Метод главных компонент считается статистическим методом. Однако есть другой подход, приводящий к методу главных компонент, но не являющийся статистическим. Этот подход связан с получением наилучшей проекции точек наблюдения в пространстве меньшей размерности. Для решения подобной задачи необходимо знать матрицу вторых моментов.

В статистическом подходе задача заключается в выделении линейных комбинаций случайных величин, имеющих максимально возможную дисперсию. Он опирается на ковариационную или корреляционную матрицу этих случайных величин. У этих двух разных подходов есть общий аспект: использование матрицы вторых моментов как исходный для начала анализа.

Для овладения методом главных компонент необходимо пользоваться методами теории вероятности и математической статистики на основе моделей линейной алгебры.

Учитывая, что объекты исследования в экономике (фирма, завод, министерство, отрасль народного хозяйства, экономика страны) характеризуются  большим, но конечным количеством признаков (характеристик), влияние которых подвергается воздействию большого количества случайных причин, в качестве моделей в статистическом плане берутся многомерные распределения, а в алгебраическом – многомерное пространство признаков.

 

 

 

 

 

2 Многомерное нормальное распределение

 

Математической моделью, на которой основываются методы многомерного статистического анализа (в том числе и методы факторного и компонентного анализа), является многомерное нормальное распределение.

Из центральной предельной теоремы следует, что предельным распределением одномерных независимых случайных величин является одномерный нормальный закон.

Из обобщённой центральной предельной теоремы получаем, что предельным распределением в случае нескольких измерений является многомерное нормальное распределение.

В настоящее время многомерные методы, основанные на нормальном распределении, нашли широкое распространение при изучении различных процессов в экономике.

Среди математических методов многомерного анализа выделяют:

1.Корреляция. При изучении корреляции рассматриваются  различные коэффициенты  корреляции.

Выборочные коэффициенты корреляции используются для оценки соответствующих параметров распределения.

Частный коэффициент корреляции измеряет зависимость между случайными величинами, когда действие других коррелированных случайных величин исключено.

При помощи множественного коэффициента корреляции распространяется понятие коэффициента корреляции на измерение зависимости между одной случайной величиной и множеством случайных величин.

2.Аналоги  одномерных статистических методов  в многомерном анализе.

Многие проблемы, решаемые в многомерном статистическом анализе, когда изучаются многомерные совокупности, имеют свои аналоги при изучении одномерных совокупностей. Эти проблемы представлены в таблице 1.

Таблица 1

Аналоги одномерных статистических методов

Одномерное случайное распределение

Многомерное случайное распределение

Проверка гипотезы о математическом  ожидании: М[х]=μ

Проверка гипотезы о векторе математических ожиданий:

М[ , ,… ]Т=μ

t-критерий Стьюдента

Обобщенный Т2 критерий для многомерного распределения

Метод наименьших квадратов

Обобщение метода наименьших квадратов на многомерный случай

Дисперсионный анализ

Обобщение дисперсионного анализа на многомерное распределение


 

Для этих проблем выбор системы координат связан с линейным преобразованием переменных.

3.Проблемы  системы координат.

В ряде случаев удачный выбор новой системы координат может наиболее экономным способом выявить некоторые важные для исследователя свойства многомерной случайной совокупности.

Примером может служить выявление главных компонент, т.е. отыскание такой нормализованной линейной комбинации случайных величин, чтобы ее дисперсия была максимальной или минимальной. Это равноценно повороту осей, который приводит ковариационную матрицу к диагональной форме. Другой пример – нахождение канонических корреляций. Для решения подобных задач требуется определение характеристических корней различных систем линейных алгебраических уравнений.

4.Проблемы  классификации.

Это разбиение множества случайных величин на подмножества. Возникает важный вопрос проверки гипотезы о независимости подмножеств. Факторный анализ, метод главных компонент и кластерный анализ обычно используют в задачах многомерной классификации.

5.Зависимость  наблюдений.

Если в экономических исследованиях мы занимаемся анализом временных рядов, то сталкиваемся с наблюдениями над рядами случайных величин, последовательными во времени. Наблюдения в данный момент времени могут зависеть от ранее произведенных наблюдений. Это требует, например, изучения внутрирядной корреляции.

Поскольку в качестве основной статистической модели выступает многомерное нормальное распределение, стоит остановится более подробно на этом распределении, которое полностью распределяется своей квадратичной формой, а последняя зависит от вектора математических ожиданий и ковариационной матрицы. Эта зависимость четко определяется следующей теоремой.

Теорема 1. Если даны вектор μ и положительно определенная матрица Σ, то существует такая многомерная нормальная плотность распределения вероятностей:

Nn (х / μ, Σ) = ,     (1)

что математическое ожидание случайного вектора х с этой плотностью распределения есть μ и ковариационная матрица есть Σ.

Обычно плотность распределения вероятностей обозначают так, как записано слева в равенстве (1), а многомерный нормальный закон распределения обозначают N (μ, Σ). В данном распределении интересует структура ковариационной матрицы и ее связь с корреляционной матрицей.  Это можно сделать в общем виде для случайного вектора n-го порядка. Однако удобней обратиться к простейшему многомерному распределению – двумерному.

При рассмотрении двумерного нормального распределения можно легко убедиться в том, что коэффициенты корреляции  и дисперсии случайных величин являются основными числовыми характеристиками наряду с математическими ожиданиями. Если конечное число случайных величин n=2, то роль дисперсий выполняет ковариационная (корреляционная) матрица. Элементы этой матрицы получаются из экспериментальных или статистических данных и являются статистическими величинами, требующими своей оценки. В методе главных компонент потребуется также оценка и весовых коэффициентов модели.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3 Линейная модель метода главных компонент. Метод Фадеева – одновременное вычисление коэффициентов  характеристического многочлена и присоединенной матрицы

 

Общие положения

Рассмотрим модель метода главных компонент:

           (6)

где - r-я главная компонента;

 - вес  r-й компоненты на  j-й переменной;

                - центрированное (нормированное) значение j-признака.

Главные компоненты являются характеристическими векторами ковариационной матрицы.

Множество главных компонент представляет собой удобную систему координат, а соответствующие дисперсии главных компонент характеризуют их статистические свойства. Из общего числа главных компонент для исследования, как правило, оставляют m (m<n) наиболее весомых, т.е. вносящих максимальный вклад в объясняемую часть общей дисперсии. Опыт показал, что m ≈ (0,1+0,25)n. Для экономической интерпретации полученных результатов самыми наглядными являются случаи, когда m=1,2 или 3.

Таким образом, несмотря на то, что в методе главных компонент для точного воспроизведения корреляций и дисперсий между переменными необходимо найти все компоненты, а по главным компонентам описать признаки. Для центроидного метода факторного анализа это принципиально невозможно; можно лишь добиваться, чтобы дисперсия остатков была минимальной. Метод главных компонент одинаково хорошо приближает ковариации и дисперсии. Следует отметить еще одно существенное свойство метода – это его линейность и аддитивность. Центроидный метод, например, несет в себе только гипотезу линейности. Если она не верна, то результаты могут быть использованы только для первого приближения. В настоящее время часто используется центроидный метод для получения приближенных оценок, которые затем уточняются методом максимума правдоподобия.

Метод Фадеева – одновременное вычисление коэффициентов  характеристического многочлена и присоединенной матрицы.

При помощи методы Фадеева одновременно определяются:

а)   -  скалярные коэффициенты характеристического многочлена

(7)

б) B1,B2,….,Bn-1  - матричные коэффициенты присоединенной матрицы.

При помощи trA следа матрицы получаем

,

если - характеристики числа матрицы A, т.е. .

Теорема. Если - все характеристические числа (с учетом крайностей) матрицы A, а - некоторый скалярный многочлен, то - являются характеристическими числами матрицы .

Информация о работе Метод главных компонент