Метод главных компонент кака один из приемов многомерного анализа

Автор работы: Пользователь скрыл имя, 11 Января 2013 в 13:53, реферат

Краткое описание

При обработке экспериментальной информации встречаются ситуации, когда данные типа “объект-признак” содержат общее число признаков до ста и более, а число объектов, как правило, в несколько раз превышает число признаков. Классификация, создание новой структуры с меньшей размерностью признакового пространства, хранение, передача по каналам связи, обработка и наглядное представление и интерпретация таких данных представляет трудности. Возникает проблема сокращения размерности признакового пространства.

Прикрепленные файлы: 1 файл

ГЛАВ КОМПОНЕНТЫ. РЕФЕРАТ.doc

— 119.50 Кб (Скачать документ)

Введение

 

 

     При обработке экспериментальной информации встречаются ситуации, когда данные типа “объект-признак” содержат общее  число признаков до ста и более, а число объектов, как правило, в несколько раз превышает  число признаков. Классификация, создание новой структуры с меньшей размерностью признакового пространства, хранение, передача по каналам связи, обработка и наглядное представление и интерпретация таких данных представляет трудности. Возникает проблема сокращения размерности признакового пространства. Такое сокращение возможно, так как в большинстве случаев признаки сильно взаимосвязаны (коррелированны) и, следовательно, данные избыточны с точки зрения информации и эта избыточность полностью определяется корреляционной матрицей исходных переменных. В таком случае и прибегают к методу главных компонент.

 

Статистический подход  в методе главных  компонент. Примеры использования главных компонент в экономике.

 

 

     Компонентный  анализ относится к многомерным  методам снижения размерности. Он содержит один метод - метод главных компонент. В этом методе линейные комбинации случайных величин определяются характеристическими векторами ковариационной матрицы. Главные компоненты представляют собой ортогональную систему координат, в которой дисперсии компонент характеризуют их статистические свойства.     

В зависимости от конкретных задач, решаемых в экономике, используется один из методов факторного анализа, или метод главных компонент.     

Метод главных компонент считается  статистическим методом. Однако есть другой подход, приводящий к методу главных  компонент, но не являющийся статистическим. Этот подход связан с получением наилучшей проекции точек наблюдения в пространстве меньшей размерности. Для решения подобной задачи необходимо знать матрицу вторых моментов.

В статистическом подходе, задача будет  заключаться в выделении линейных комбинаций случайных величин, имеющих  максимально возможную дисперсию. Он опирается на ковариационную или  корреляционную матрицу этих случайных  величин. У этих двух разных подходов есть общий аспект: использование матрицы вторых моментов как исходной для начала анализа.     

Из  сказанного следует, что для овладения методом главных компонент необходимо пользоваться методами теории вероятностей и математической статистики на основе моделей линейной алгебры. Рассмотрим основные положения этих математических дисциплин, на которые опирается метод главных компонент.     

Учитывая, что объекты исследования в экономике (фирма, завод, министерство, отрасль народного хозяйства, экономика страны) характеризуются большим, но конечным количеством признаков (характеристик), влияние которых подвергается воздействию большого количества случайных причин, в качестве моделей в статистическом плане возьмем многомерные распределения, а в алгебраическом - многомерное пространство признаков.     

Если  рассматривать с экономический  точки зрения то метод главных компонент применяется в оценке стоимости бизнеса, так же этом метод применяется при анализе экономической безопасности региона, для анализа признаков, оказывающих наибольшее влияние на результаты деятельности банков.      

Применение  метода осуществляется так же в анализе  рыночной конъюнктуры, модели рыночной конъюнктуры.

Говоря  о методе многомерного статистического анализа при помощи главных компонент, а также оценки эффективности экономических организаций, экономических систем и систем управления рассматривают задачи обработки многомерных наблюдений в экономике и проблемы совершенствования метода главных компонент и расширения области его применения. Изучаются основные принципы исследования операций, используемые в теории эффективности; дается оценка эффективности на основе критериев - игровых, информационных, теории массового обслуживания.  
  
  
  
  
  
  
  
  
  
  
 Многомерное нормальное распределение  

 

 

     Математической  моделью, на которой основываются методы многомерного статистического анализа (в том числе и методы факторного и компонентного анализа), является многомерное нормальное распределение. Это распределение является зачастую наиболее хорошим приближением к действительному распределению на практике в экономических задачах.

Из центральной  предельной теоремы следует, что предельным распределением одномерных независимых случайных величин является одномерный нормальный закон.     

Из  обобщенной центральной предельной теоремы получаем, что предельным распределением в случае нескольких измерений является многомерное нормальное распределение.

В настоящее  время многомерные методы, основанные на нормальном распределении, нашли  широкое распространение при  изучении различных процессов в экономике.

Среди математических методов многомерного анализа выделяют:

1) корреляцию;

2)  аналоги одномерных статистических методов в многомерном анализе;

3) проблемы  системы координат;

4) проблемы  классификации;

5) зависимость  наблюдений.     

1.  При изучении корреляции нас  интересуют различные коэффициенты корреляции.

Выборочные  коэффициенты корреляции используются для оценки соответствующих параметров распределения.

Частный коэффициент корреляции измеряет зависимость между случайными величинами, когда действие других коррелированных случайных величин исключено.

При помощи множественного коэффициента корреляции распространяется понятие  коэффициента корреляции на измерение  зависимости между одной случайной величиной и множеством случайных величин.      

2. Аналоги одномерных статистических  методов.

Следует отметить, что многие проблемы, решаемые в многомерном статистическом анализе, когда изучаются многомерные совокупности, имеют свои аналоги при изучении одномерных совокупностей. Представим эти проблемы в виде таблицы (табл.1). 

Таблица .1 Аналоги одномерных статистических методов

Одномерное случайное     распределение

 Многомерное случайное распределение

Проверка   гипотезы   о   математическом ожидании М[х]=µ

t-критерий Стьюдента

Проверка гипотезы о векторе математических ожиданий М[х, ,х 2 ,..., х п J)T=µ 

Обобщенный  Т критерий для многомерного распределения

Метод наименьших квадратов

Обобщение метода наименьших квадратов на многомерный  случай

Дисперсионный анализ

Обобщение   дисперсионного   анализа   на многомерное распределение


 

  
 

Для этих проблем выбор системы координат связан с линейным преобразованием переменных.

3. Проблемы системы координат.

В ряде случаев удачный выбор новой  системы координат может наиболее экономным способом выявить некоторые важные для исследователя свойства многомерной случайной совокупности.

Примером  может служить выявление главных  компонент, т.е. отыскание такой нормализованной линейной комбинации случайных величин, чтобы ее дисперсия была максимальной или минимальной. Это равноценно повороту осей, который приводит ковариационную матрицу к диагональной форме. Другой пример - нахождение канонических корреляций. Для решения подобных задач требуется определение характеристических векторов и характеристических корней различных систем линейных алгебраических уравнений.      

4. Проблемы классификации.

Это разбиение  множества случайных величин  на подмножества. Возникает важный вопрос проверки гипотезы о независимости подмножеств. Факторный анализ, метод главных компонент и кластерный анализ обычно используют в задачах многомерной классификации.     

5. Зависимость наблюдений.

Если  в экономических исследованиях  занимаются анализом временных рядов, то сталкиваются с наблюдениями над рядами случайных величин, последовательными во времени. Наблюдения в данный момент времени могут зависеть от ранее произведенных наблюдений. Это требует, например, изучения внутрирядной корреляции.

Поскольку в качестве основной статистической модели выступает многомерное нормальное распределение, остановимся более  подробно на этом распределении, которое  полностью определяется своей квадратичной формой, а последняя зависит от вектора математических ожиданий и ковариационной матрицы. Эта зависимость четко определяется следующей теоремой.

Теорема 1. Если даны вектор µ положительно определенная матрица ∑, то существует такая многомерная нормальная плотность  распределения вероятностей:

Nn (x/µ,∑) = (2π) |∑| е  

что математическое ожидание случайного вектора х с  этой плотностью распределения есть /л и ковариационная матрица есть ∑ .     

Обычно  плотность распределения вероятностей обозначают так, как записано  в равенстве (1), а многомерный нормальный закон распределения обозначают N(µ,∑). В данном распределении нас должна заинтересовать структура ковариационной матрицы и ее связь с корреляционной матрицей. Это можно сделать в общем виде для случайного вектора n-го порядка. Однако обратимся к простейшему многомерному распределению двумерному. При рассмотрении двумерного нормального распределения мы легко убеждаемся в том, что коэффициенты корреляции и дисперсии случайных величин являются основными числовыми характеристиками наряду с математическими ожиданиями. Если конечное число случайных величин превосходит n=2, то роль дисперсий выполняет ковариационная (корреляционная) матрица. Элементы этой матрицы получаются из экспериментальных или статистических данных и являются статистическими величинами, требующими своей оценки. В методе главных компонент в дальнейшем потребуется также оценка и весовых коэффициентов модели. 

 

Линейная модель  метода главных  компонент. Метод  Фаддеева - одновременное  вычисление коэффициента  характеристического  многочлена и присоединенной  матрицы

 

Рассмотрим  модель метода главных компонент:

y =  

где fr - r-я главная компонента;

a вес r-q компоненты нa j-й переменной;

y - центрированное (нормированное) значение j-го признака.      

 Из модели видно, что отсутствуют специфические (индивидуальные) факторы; число главных компонент r=п здесь соответствует числу признаков п. Значит, в полной модели главных компонент исчерпывается вся дисперсия исследуемого процесса.     

Как будет сказано позже, главные  компоненты являются характеристическими  векторами ковариационной матрицы.

Множество главных компонент представляет собой удобную систему координат, а соответствующие дисперсии главных компонент характеризуют их статистические свойства. Из общего числа главных компонент для исследования, как правило, оставляют т (т<п) наиболее весомых, т.е. вносящих максимальный вклад в объясняемую часть общей дисперсии. Опыт показал, что m ≈(0,1÷ 0,25)n . Для экономической интерпретации полученных результатов самыми наглядными являются случаи, когда т=1,2 или З.      

Таким образом, несмотря на то, что в методе главных компонент для точного воспроизведения корреляций и дисперсий между переменными необходимо найти все компоненты, большая доля дисперсий объясняется небольшим числом главных компонент. Кроме того, можно по признакам описать главные компоненты, а по главным компонентам описать признаки. Для центроидного метода факторного анализа это принципиально невозможно; можно лишь добиваться, чтобы дисперсия остатков была минимальной. С.Р. Рао показал, что метод главных компонент одинаково хорошо приближает дисперсии и ковариации. Наконец, следует отметить еще одно существенное свойство метода-это его линейность и аддитивность. Центроидный метод, например, несет в себе только гипотезу линейности. Если она верна, то результаты могут быть использованы только для первого приближения. В настоящее время часто используется центроидный метод для получения приближенных оценок, которые затем уточняются методом максимума правдоподобия.     

Рассмотрим  метод Фаддеева. При помощи метода Фаддеева одновременно определяются:

а)    Р12,...,Рп    -   скалярные   коэффициенты   характеристического многочлена

∆(λ)=λ -P λ -…-P

б) В12,...,Вn-1 - матричные коэффициенты присоединенной матрицы.

При помощи tr А следа матрицы получаем

trA =                         (2)

если  λλλ    характеристические    числа    матрицы   А,    т.е.

Информация о работе Метод главных компонент кака один из приемов многомерного анализа