Автор работы: Пользователь скрыл имя, 17 Февраля 2013 в 12:01, методичка
Эконометрика – наука, которая дает количественное выражение взаимосвязей экономических явлений и процессов, т.е. осуществляет количественный анализ реальных экономических явлений – определение Самуэльсона. Более широкий подход – эконометрика – это любое приложение математических и статистических методов к изучению экономических процессов.
Задача математической статистики состоит в исследовании свойств выборки и обобщении этих свойств на всю генеральную совокупность. Полученные при этом выводы называются статистическими. Информация о генеральной совокупности, полученная по выборке, обладает определенной погрешностью.
Репрезентативной называется выборка, включающая достаточное количество значений исследуемой СВ (по отношению к генеральной совокупности). Способы построения репрезентативных выборок специально изучаются, используются датчики случайных чисел и пр.
Пусть Z –множество всех возможных значений СВ, X – выборка объема N, т.е. N наблюдений x1, …,xN.
Утверждение.
Лучшей возможной оценкой математического ожидания Z является математическое ожидание выборки, т.е. E(Z) ~E(X)= =Xср=
Лучшей возможной оценкой для дисперсии генеральной совокупности D(Z) является величина D= )2*pi, т.е. D(Z) ~
На практике в Excel для расчетов
Статистическая гипотеза – это предположение о СВ, проверяемое по выборке. Процедура сопоставления высказанной гипотезы с выборочными данными называется проверкой гипотезы.
Процедура проверкой статистической гипотезы включает следующие этапы (в упрощенном варианте)
Пример. Исследуется время, необходимое для того, чтобы попасть из одной точки города в другую (центр-спальный район, общежитие – университет и пр.). Пусть имеется 101 наблюдение, t – время в минутах; при этом
t<25 – 1 наблюдение;
t [25, 30) -4 наблюдений;
t [30, 50) -90 наблюдений;
t [50, 60) -6 наблюдений.
В качестве гипотезы H0 рассмотрим утверждение: необходимое время может оказаться меньше 25 минут. Выберем уровень значимости α=1%, т.е. события, вероятность которых меньше 1%, будем считать невозможными (мы согласны ошибаться в одном случае из 100). P{H0}=1/101<1%. Гипотезу H0 отвергаем. С надежностью 99% можно утверждать, что необходимое время больше 25 минут. Теперь в качестве нулевой гипотезы рассмотрим утверждение о том, что время может быть не больше 30 минут. Пусть α=1%.
P{H0}=P{t=25}+P{t=30}=1/101+5.
Корреляционный анализ
– основной метод выявления связи
между двумя или несколькими эк
До сих пор мы рассматривали характеристики отдельно взятых случайных величин. Однако в природе вообще и в экономике в частности эти величины, как правило, не существуют сами по себе, а тесно переплетаются в своем взаимодействии, определяя характер явлений и процессов.
Различные экономические показатели как на микро-, так и на макроуровне не являются независимыми, а связаны между собой; например, цена какого-либо товара и величина спроса на этот товар, объем производства и прибыль фирмы, инфляция и безработица.
При этом безусловно речь может идти лишь о стохастической (статистической, вероятностной) зависимости, которая проявляется в массе наблюдений, когда изменение независимой величины приводит к изменению среднего значения зависимой величины.
Для того чтобы изучать взаимозависимости случайных величин, необходимо иметь многомерную СВ.
Пусть в результате N испытаний измеряется не одна, а сразу 2 СВ X и Y, например X себестоимость единицы продукции и Y объем, X цена и Y спрос, X возраст и Y доход и т.д. В результате каждого испытания имеем пару чисел ( xi,yi). Таким образом для двумерной СВ получаем ряд значений:
( x1,y1) -1-ое испытание;
( x2,y2) – 2-ое испытание;
……………………….
( xi,yi) - i-ое испытание;
……………………….
( xN,yN) - N-ое испытание.
Пример. Требуется изучить зависимость дохода, получаемого молодыми людьми, от их возраста. Имеются данные социологического опроса по группе из 20 человек. Эти данные таковы: в группе 8 человек 18-летних, 5 человек – 19-летних и 7 человек 20-летних. Десять человек из группы имеют доходы до 500 рублей; семь человек имеют доход от 500 до 1000 рублей, у оставшихся 3 человек доходы составляют от 100 до 1500 рублей.
Очевидно, что средний возраст в группе –
(18*8+19*5+20*7)/20=18,95 –математическое ожидание V.
Для дохода строим таблицу частот, присваивая СВ значение, равное середине интервала.
Доход |
Частота |
250 |
10 |
750 |
7 |
1250 |
3 |
E(D)=(250*10+750*7+1250*3)/20=
Таким образом заданы две СВ: V – возраст и D – доход; обе в виде таблицы частот. По этим данным легко оценить средний возраст в группе (18,95) и средний доход (575 рублей), но исследовать зависимость дохода от возраста по этим данным невозможно. Для такого исследования необходима информация, которая для каждого члена группы указывала бы одновременно его возраст и доход, т.е. набор пар (v, d). Это и есть ряд значений для двумерной СВ (V,D) – матрица из двух столбцов и 20 строк. В общем случае при N испытаниях ряд значений для двумерной СВ представляет собой матрицу из 2-х столбцов и N строк.
Таблица частот для двумерной СВ.
Если среди наблюдаемых значений двумерной СВ есть одинаковые, удобно представить ее в виде таблицы частот. Это таблица вида:
X |
x1 |
x2 |
……. |
xk |
y1 |
t11 |
t12 |
t1k | |
y2 |
t21 |
t22 |
t2k | |
…. |
||||
ym |
tm1 |
tm2 |
tmk |
Здесь tij –количество раз, которое встречается пара (xj, yi). Из таблицы частот для двумерной СВ (X,Y) можно получить таблицы частот для СВ X и для СВ Y, но не наоборот!
Так для СВ X имеем:
x1 |
x2 |
…… |
xk |
t11+t21+..+tm1 |
t12+t22+..+tm2 |
t1k+t2k+..+tmk |
Для преобразования таблицы частот двумерной СВ в ряд значений следует повторить пару ((xj, yi) tij раз.
Продолжим пример с изучением
связи между возрастом и
Пусть для исследуемой двумерной СВ (V,D) получена следующая таблица частот.
V |
18 |
19 |
20 |
250 |
7 |
2 |
1 |
750 |
1 |
3 |
3 |
1250 |
0 |
0 |
3 |
Вычислим средний доход для 18-летних: (250*7+750*1)/8=312,5 рублей.
Таблица вероятностей для двумерной СВ аналогична таблице частот, но вместо значений в ней фигурируют вероятности pij= tij/N, где N – общее число наблюдений.
Пусть для двумерной СВ (X,Y) задан ряд значений, т.е. набор пар (xi,yi).
Будем рассматривать каждую такую пару как координату точки на плоскости. Множество точек с координатами (xi,yi), i=1,…N образуют поле рассеяния или корреляционное поле. Для того, чтобы построить корреляционное поле по ряду значений двумерной СВ в Excel следует воспользоваться пунктом меню Диаграмма – Точечная- 1 тип (соединять точки не надо, т.к. в выборке не важен порядок). Пример поля рассеяния для случая двумерной СВ, не имеющей одинаковых значений.
Для двумерной СВ (V,D) корреляционное поле менее информативно, потому что отдельные точки на нем повторяются по несколько раз.
Ковариацией двух СВ X и Y называется величина
cov(X,Y) =E((X-E(X))*(Y-E(Y)).
Легко показать, что cov(X,Y) =E(X*Y)-E(X)*E(Y)
Свойства ковариации.
cov(X,X)=D(X)
Ковариация характеризует совместное изменение СВ. Смысл ковариации состоит в следующем: E(X-E(X))=0; E(Y-E(Y))=0, т.е. это центрированные СВ, и следовательно они обе обязательно принимают и положительные, и отрицательные значения. Если обе эти СВ одновременно принимают положительные значения, или если обе они одновременно отрицательны, то их произведение положительно. В этом случае ковариация положительна, и большим значениям одной СВ соответствуют большие значения другой, т.е. есть связь. Если обе СВ постоянно имеют противоположные знаки, т.е меньшим значениям одной соответствуют большие значения другой, то произведение отрицательно. В этом случае ковариация отрицательна, и снова есть связь. Если же ковариация равна 0, то связи между СВ нет, т.е. они независимы. Таким образом ковариация позволяет обнаружить наличие или отсутствие линейной связи между СВ. Другими словами при ненулевой ковариации между двумя СВ есть возможность «предсказать» примерное значение одной СВ при известном значении другой, тогда как при нулевой ковариации это абсолютно невозможно.
По виду корреляционного
поля можно оценить ковариацию СВ (X,Y).
Достаточно построить на корреляционном
поле вертикальную прямую X=E(X) и горизонтальную
прямую Y=E(Y). Корреляционное поле будет
таким образом разделено на 4 зоны
(X меньше E(X), Y меньше E(Y) – зона (-,-)
(X меньше E(X), Y больше E(Y) – зона (-,+)
(X больше E(X), Y меньше E(Y) – зона (+,-)
(X больше E(X), Y больше E(Y) – зона (+,+).
Если общее число точек в зонах (-,-) и (+,+) заметно отличается от общего числа точек в зонах (-,+) и (+,-), то ковариация отлична от 0 и связь есть. Если же они примерно одинаковы, то ковариация близка к нулю, и линейной связи между СВ нет.
В случае СВ (V,D) имеем
зона (-,-)—7 точек,
зона (+,+)—9 точек, итого (- , - ) + (+ ,+) =16
точек;
зона (-,+)—1 точка,
зона (-,-)—3 точки, таким образом обнаружена
положительная ковариация.
Еще примеры корреляционных полей.
Рисунок 1
Рисунок 2
Рисунок 3
На рис.1 –пример положительной ковариации – если X больше, чем E(X), то и Y в основном больше, чем E(Y); на рис. 2 – пример отрицательной ковариации –с увеличением X значения Y в целом уменьшаются, на рис. 3 –пример независимых СВ – ковариация в этом случае нулевая – «малым» значениям X может соответствовать как «малое», так и «большое» значение Y.
Расчет ковариации для СВ (V,D).
Построим таблицу частот для СВ V*D по данным таблицы частот двумерной СВ (V,D).
V |
18 |
19 |
20 |
250 |
7 |
2 |
1 |
750 |
1 |
3 |
3 |
1250 |
0 |
0 |
3 |
Для произведения СВ V*D получим следующую таблицу частот:
18*250 |
19*250 |
20*250 |
18*750 |
19*750 |
20*750 |
20*1250 |
7 |
2 |
1 |
1 |
3 |
3 |
3 |
E(V*D)=(18*250*7+19*250*2+20*
cov(V,D)=E(V,D)-E(V)*E(D)=216,
Ковариация может принимать любое значение от - до . Если ковариация
равна нулю, то можно сделать вывод о независимости СВ. Однако по величине отличной от нуля ковариации нельзя оценить степень связи между СВ.
Коэффициент корреляции ρ(X,Y)
Коэффициент корреляции ρ(X,Y)– более удобен для этой цели.
ρ(X,Y)
Свойства коэффициента корреляции.
ρ(X,X)=
-1≤ ρ(X,Y) ≤1.
=1 тогда и только тогда, когда X и Y связаны точной линейной зависимостью, т.е. Y=a+b*X, причем , если b>0, т.е. Y возрастающая функция; r=-1, если b< 0, т.е. Y убывает.