Автор работы: Пользователь скрыл имя, 22 Сентября 2014 в 11:04, контрольная работа
Широкое применение компьютеров в лесоустройстве и в лесхозах сделало биометрические методы доступными широкому кругу лесоводов. В то же время лесовод не может быть бездумным пользователем компьютерных результатов биометрических измерений и вычислений. Он дол жен понимать суть изучаемого явления или процесса, разбираться в алгоритме и механизме вычислений, которые выполнил компьютер по заданной про грамме.
Т е о р е м а Ч е б ы ш е в а. Если число n попарно независимых случайных величин можно увеличивать беспредельно и математические ожидания их квадратов все не превосходят одного и того же постоянного числа, то при достаточно большом числе этих величин будет сколь угодно близкой к достоверности вероятность того, что их среднее арифметическое отличается произвольно мало от среднего арифметического их математических ожиданий:
Одним из важных следствий теоремы Чебышева является применение ее к случаю, когда все попарно независимые величины имеют одно и то же математическое ожидание, т. е. когда все и, кроме того, все причем b существует, т.е. конечно. Иначе говоря, независимые величины можно рассматривать как значения, полученные в n независимых испытаниях относительно одной и той же случайной величины х. В таком случае, согласно теореме Чебышева имеем Таким образом, из теоремы Чебышева получается как следствие важная Если с величиной х, имеющей конечную дисперсию, производится достаточно большое число независимых испытаний, то с вероятностью, сколь угодно близкой к достоверности, можно ожидать, что среднее арифметическое наблюденных значений величины х будет произвольно мало отличаться от ее математического ожидания.
Теоремы Пуассона и Бернулли мы рассмотрели ранее, когда описывали биноминальное распределение.
Таким образом, рассмотренные теоремы доказывают, что чем больше объем выборки, тем точнее средний результат, т.е. выборочная средняя в меньшей мере отклоняется от средней арифметической генеральной совокупности, и наоборот, чем меньше выборка, тем меньше и шансов на то, что выборочная средняя совпадет по величине со средней арифметической генеральной совокупности. Действие этого закона основано на свойстве самих случайных величин, отрицательные и положи тельные значения которых способны компенсировать друг друга и тем полнее, чем большему числу испытаний подвергается случайная величина. На этом свойстве случайных величин компенсировать друг друга и основана относительная устойчивость средних значений.
Закон больших чисел утверждает, что практически маловероятно значительное отклонение средней арифметической выборочной совокупности от средней арифметической генеральной совокупности , если число наблюдений достаточно велико.
Параметрические методы оценки гипотез.
Параметрические методы оценки достоверности статистических гипотез базируются на основе анализа некоторых параметров выборочной совокупности. Для применения таких оценок вычисляют среднее значение , среднеквадратическое отклонение или дисперсию Наиболее часто употребляемым методом параметрической оценки является уже упомянутый выше критерий Стьюдента. Этот критерий всегда обозначается латинской буквой t, в интерпретации автора критерия.
Стьюдент установил, что закон распределения случайной величины зависит от объема выборки и основного отклонения. Опуская достаточно сложные описания распределения вероятностей, которые вывел Стьюдент, т.к. это выходит за пределы относительно небольшого курса лесной биометрии, значение t можно определить по формуле X - среднее значение выборочной совокупности - стандартное (среднеквадратическое) отклонение M – среднее значение в генеральной совокупности.
N – объем ряда распределения.
Критерий Фишера. Помимо критерия Стьюдента в ряде случаев проверка нулевой гипотезы проводится по критерию Фишера. Этот критерий считается более точным при оценке равенства дисперсий в генеральной и выборочной совокупностях или двух генеральных совокупностей.
Р. Фишер открыл закон F-распределения, который описал специальной F-функцией. Учитывая краткость курса биометрии для лесоводов, мы описание этой функции опускаем. Отметим только, что функция Ф. Фишера (F) является непрерывной и зависит только от числа степеней свободы.
При выборках не очень малого размера (n30) значимость различия между стандартными отклонениями 1 и 2 оценивают с помощью где 1 и 2 - ошибки стандартного отклонения, определяемые по фор муле р=( х / х) 100%.
Непараметрические критерии.
Непараметрические критерии оценки статистических гипотез не требу ют вычисления показателей ( X, и v) в выборочной совокупности. Они не базируются на нормальном распределении случайных величин в совокупности, и здесь часто применяют другие законы распределения. В ряде случаев для определения этих оценок используют условные значения, порядковые номера и т. д.
.
Коэффициент корреляции как мера линейной связи Коэффициент корреляции – это статистика, которая является числен ной характеристикой связи между признаками, когда она имеет линейный характер.
В целом коэффициент корреляции представляет собой эмпирический первый основной смешанный момент, т.е.
Для его вычисления надо найти первый начальный смешанный момент m1/1 и первые два начальных момента каждого из рядов распределения. Вычисление моментов для одномерных рядов распределения описано ранее (глава 5). Здесь же покажем вычисление требуемых нам моментов для двух мерной совокупности.
Эмпирическим смешанным начальным моментом порядка (k1, k2) двух случайных величин (xi, yi), которые сведены в таблицу и сгруппированы по определенным разрядам, называется сумма произведений каждой пары от лонений x1(i2) и x2(j2). Отклонения берут от начальных значений x1(а) и x2(a) в h и h2 степени и умножают на соответствующую частность Pi1' / j 2 (формула (12.4)).
Коэффициент корреляции может принимать значения от +1 до -1.
Детальные исследования в теории корреляции показали, что степень сопряженности случайных величин x и y более точно описывает квадрат коэффициента корреляции, получивший название коэффициента детерминации (d), определяемый как d=r2. Коэффициент детерминации, выраженный в процентах, показывает ту часть изменчивости зависимой переменной (y), которая вызвана влиянием независимой переменной (x), т.е. он более отчетливо выражает зависимость y=f(x).
Корреляционные уравнения представляют собой разновидность стохастических моделей. При исследовании моделей, выражающих некоторую зависимость между изучаемыми величинами, еще раз подчеркнем, что это может быть и взаимозависимость, либо только зависимость. Примером взаимозависимости служит соотношение диаметра и высоты в древостое, а зависимости – изменение средней высоты или прироста при разном плодородии почвы, но не наоборот.
Теория корреляции разработана в основном в конце XIX и начале ХХ века Карлом Пирсоном и Юлом. Она позволяет описать разные связи, но не вскрывает причины их происхождения. Здесь нужен специальный анализ: биологический, лесоводственный, генетический и т.п. При этом причинную связь, изучая корреляцию, мы должны знать, т.к. иначе можем совершить ошибку, найдя связь там, где ее нет. Об этом хорошо сказал великий английский писатель Бернард Шоу (1856-1956) еще в году в предисловии к «Доктору на распутье»: «Даже опытные статистики часто оказываются не в состоянии оценить, до какой степени смысл статистических данных искажается молчаливыми предположениями их интерпретаторов... Легко доказать, что ношение цилиндров и зонтиков расширяет грудную клетку, удлиняет жизнь и дает относительный иммунитет от болезней... Математик, чьи корреляции привели бы в восхищение Ньютона, может собирая данные и делая из них выводы впасть в совершенно грубые ошибки на основе таких популярных заблуждений, как описанные выше». Здесь Б. Шоу подчеркнул, что не сами цилиндры и зонтики приводят к описанным следствиям, а образ жизни их обладателей, которыми в те времена были богатые люди.
Ранее уже отмечено, что и в начале широкого распространения статистики, а затем в 60-70-е годы, когда математические методы стали широко применять в лесном хозяйстве, математики, слабо разбирающиеся в причинных связях предметов, которые они описывали с помощью корреляционных уравнений, совершили много ошибок. Об этой опасности предупреждали основатели учения о корреляции. Так, Юл в году напугал ученых примерами высоких корреляций между количеством самоубийств в Англии и принадлежностью к англиканской церкви.
Причинной связи здесь нет, а высочайшая корреляция есть. Дело здесь объясняется просто – подавляющее большинство жителей Англии в те годы принадлежало к англиканской церкви.
Поэтому еще раз напомним о важности проведения профессионального анализа причинно-следственных связей, прежде чем взяться за конкретные вычисления.
Сущность регрессионного анализа.
Регрессионные модели Методы определения вида регрессионных уравнений и их пара метров
Регрессионные модели обычно используют для выражения разного рода связей в лесной таксации, лесоводстве и в других лесных дисцип линах. Чаще всего они применяются для нахождения общей зависимости по экспериментальным данным. В этом случае выведенное уравнение служит для выравнивания материала, полученного при постановке опы та. При этом сохраняется главная тенденция изменения функции в зави симости от изменения аргументов, и устраняются случайные отклонения.
Остаточная дисперсия и ее анализ.
Для корректного решения вопроса об адекватности принятой моде ли, описывающей некоторую закономерность, недостаточно знать ее основную ошибку и определить значимость коэффициентов уравнения.
Очень большое значение имеет анализ остаточной дисперсии. Правда, часто этот анализ биологи и лесоводы не делают, т.к. он труден. Просто предполагается, что остаточные величины, которые выходят за пределы уравнения регрессии, т.е. те значения хi, что вызваны случайными причинами (их обычно называют просто остатками) распределены нормально и не влияют на результат. Но при строгом исследовании, которое и должны выполнять выпускники университета, делать анализ остатков необходимо. Опишем эту работу в интерпретации К. Е. Никитина и А. З. Швиденко.
Анализ остатков, полученных для различных моделей, позволяет выбрать наилучшую модель. Основные вопросы, на которые должен быть получен ответ следующие:
1) подтверждение нормальности
2) постоянство дисперсии 2 и независимость ее от величины хi;
3) адекватность модели на всех
отрезках интервала изменения
зависимой переменной или
Остатки можно исследовать при помощи специальных критериев.
Основные методы анализа качественных признаков.
Качественные альтернативы обычно обозначают латинскими буква ми, располагая их в виде таблиц.
Распространенным методом анализа качественных признаков является метод четырех полей. Учитывая обозначения, степень сопряженности, существующей между качественными признаками, или альтернативами, определяется по формуле Д. Юла
Коэффициент ассоциации свидетельствует о наличии параллелизма между числовыми значениями признаков, без учета их вариабельности, а следовательно, и не дает точного представления о существующей между ними связи. В этом и заключается причина того, что коэффициент ассоциации не получил широкого применения в практике.
Коэффициент контингенции меньше коэффициента корреляции, и по разности этих показателей можно судить о прямолинейной или криволинейной зависимости между признаками.
Преимущество коэффициента контингенции перед коэффициентом ассоциации заключается в том, что он позволяет измерять сопряженность не только между двумя, но и большим числом коррелируемых признаков.
Понятие о дисперсионном анализе.
При проведении исследований часто надо определить, насколько существенно влияние одного или нескольких факторов на конечный результат. Не всегда здесь можно применить регрессионный анализ с получением разного вида моделей. Наиболее часто такие проблемы возникают в генетике, лесной селекции, лесовосстановлении, лесной энтомологии и в других областях лес ной науки. В этом случае необходимо проводить статистический анализ результатов наблюдений, зависящих от разных одновременно действующих факторов, делать выбор этих факторов и оценку “силы” их влияния.
Основой решения перечисленных вопросов является изучение стабильности и однородности дисперсий изучаемого признака и разложение ее на составляющие, порожденные действием рассматриваемых факто ров. Некоторые из факторов, меняющиеся в эксперименте или наблюдении (например, порода деревьев, тип леса, цвет желудей и пр.), могут быть качественными, другие количественными. Количественными величинами обычно выражают параметры деревьев и древостоев: высота, диаметр, запас древостоя и т. д. В то же время некоторые из этих показателей могут выражаться и качественными признаками, например деревья крупные, мел кие или деревья первой, второй, третьей величины и т. д.
В зависимости от соотношения между количественными и качественными факторами применяют один из трех достаточно близких по идеям и математическому аппарату методов анализа: регрессионный, дисперсионный и ковариационный. В регрессионном анализе подход количественный, в дисперсионном все факторы рассматривают как качественные; в ковариационном анализе часть факторов изучают как количественные, другую часть - как качественные.
Для характеристики основных типов моделей, встречающихся в
Сущность дисперсионного анализа. Дисперсионный, или вариансный, анализ (analysis of variance) представляет собой в настоящее время самостоятельную и очень важную главу биологической статистики.