Автор работы: Пользователь скрыл имя, 10 Июня 2012 в 14:04, курс лекций
Слово «статистика» происходит от латинского status, что означает «состояние и положение вещей». Статистика как наука стала развиваться со второй половины ХVII в., когда сложились в Европе две основные школы: в Англии – математическая школа статистики, в Германии – описательная школа статистики.
Статистическая обработка информации
1.Основные понятия математической статистики
Слово «статистика» происходит от латинского status, что означает «состояние и положение вещей». Статистика как наука стала развиваться со второй половины ХVII в., когда сложились в Европе две основные школы: в Англии – математическая школа статистики, в Германии – описательная школа статистики.
В настоящее время термин «статистика» используется в двух основных значениях:
٧ как особая отрасль практической деятельности по сбору, обработке и анализу массовых количественных данных о социально-экономическом состоянии страны, ее отдельных отраслей, отдельных регионов, отдельных предприятий.
٧ как наука, которая разрабатывает теоретические положения и методы, используемые статистической практикой.
Сегодня статистика как наука состоит из многочисленных разделов, на схеме представлено только 9 разделов (рис.1).
Математическую статистику трактуют и как раздел прикладной математики и как самостоятельную науку:
٧ раздел прикладной математики, в котором исследуется количественные характеристики массовых явлений.
٧ наука о математических методах систематизации, обработки и использовании статистических данных для научных и практических выводов.
Основной задачей статистики является выявление и исследование общих закономерностей, присущих совокупностям, состоящим из очень большого числа элементов.
В частности выделяют такие задачи математической статистики:
1. Указание способов сбора и группировки статистических сведений, полученных в результате наблюдений или в результате специально поставленных экспериментов.
2. Разработка методов анализа статистических данных в зависимости от целей исследования.
3. Практическое использование статистических данных.
Математическая статистика подразделяется на две обширные области: описательная статистика (методы статистических данных, представления их в форме таблиц, распределений и пр. методы описания) и аналитическая статистика - теория статистических выводов (обработка данных, полученных в ходе эксперимента, и формулировка выводов, имеющих прикладное значение для конкретной области человеческой деятельности). Теория статистических выводов тесно связана с другой математической наукой – теорией вероятностей и базируется на ее математическом аппарате.
В рамках новой содержательной линии в курсе математики основной школы предполагается познакомить учащихся с элементами статистики как научного направления.
В начальном курсе математики речь идет, прежде всего, об элементах описательной статистики.
Основным методом статистики является выборочный метод. Он основан на законе больших чисел, сформулированном и доказанном в теории вероятности. Суть метода заключается в том, что в связи с практической невозможностью измерить значение наблюдаемого признака у каждого элемента статистической совокупности, из этой совокупности выбирают некоторое количество элементов для обследования. Статистической совокупностью называют множество однородных предметов или явлений.
Статистическая совокупность, из которой отбирают часть объектов, называется генеральной совокупностью. Число объектов генеральной совокупности называется объёмом генеральной совокупности.
Множество объектов, случайно отобранных из генеральной совокупности, называется выборкой. Число объектов выборки называется объемом выборки [30].
Например, плоды одного дерева (200 штук) обследуют на наличие специфического для данного сорта вкуса. Для этого отбирают 10 шт. Здесь 200 - объем генеральной совокупности, а 10 – объем выборки.
Схематично на рис. 2. представлены три множества: статистическая совокупность, генеральная совокупность и выборка.
Пусть из генеральной совокупности извлечена выборка, причем x1 наблюдалось n1 раз, x2 – n2 раз, xk – nk раз и n1+n2+…nk=n – объем выборки. Наблюдаемые значения х1, х2, …, xk называются вариантами, а последовательность вариант, записанная в возрастающем порядке, – вариационным рядом. Числа наблюдений n1, n2,…,nk называют частотами, а их отношения к объему выборки ,,…, - относительными частотами. Отметим, что сумма относительных частот равна единице: .
Статистическим распределением выборки называют перечень вариант и соответствующих им частот или относительных частот.
Стоит отметить, если выборка сформирована по правилам статистики, то её называют репрезентативной (представительной – она «представляет» всю совокупность, правильно отражает её основные черты).
Далее изучают только выборку, находят её характеристики, выделяют в ней закономерности, проверяют различные гипотезы о свойствах совокупности. Все выводы о генеральной совокупности делаются только по выборкам. Считают, что интересующие нас (по неизвестным нам) характеристики генеральной совокупности приблизительно равны характеристикам выборки. Статистика разрабатывает и методы вычисления ошибок, возникающих при оценке характеристик генеральной совокупности по характеристике выборки.
Но, поскольку, в начальном курсе математики речь идет об описательной статистике, то далее нам необходимо рассмотреть теоретические вопросы о формах представления статистической информации и о числовых характеристиках статистических рядов.
2. Формы представления статистической информации
Обработка эмпирических данных, их систематизация, наглядное представление в форме графиков и таблиц – всё это является основной целью описательной статистики.
Поскольку в школьном курсе математики речь идет только о наглядной и описательной статистике, которая использует три основных метода обработки и систематизации данных:
٧ табличное представление;
٧ графическое изображение
٧ расчет статистических показателей,
то рассмотрим более подробно такие формы представления статистической информации как таблица и графическое изображение. (Что касается третьего метода, то он будет нами рассматриваться более подробно в третьем параграфе).
Но прежде раскроем понятие «Статистическая информация». Статистическая информация – это числовые данные о массовых явлениях, значения наблюдаемых признаков объектов, составляющих статистическую совокупность, которые получены в результате статистического наблюдения.
Источником статистической информации является реальный опыт, эксперимент, наблюдение, измерение, производимые над реальными объектами и явлениями окружающего мира.
Статистическая информация о результатах наблюдений или экспериментов может быть представлена в различных формах.
Простейшей формой представления статистической информации является вариационный ряд.
На примере раскроем понятие вариационного ряда.
Например. Игральный кубик бросили 12 раз и записали выпавшие числа в порядке их появления:
3, 4, 5, 6, 6, 6, 5, 1, 4, 6, 1, 4 (n=12)
Вариантами в ряду являются х1=3, х2=4, х3=5, х4=6, х5=6 и т.д. Варианты х4,х5,х6,х10 имеют одинаковые значения (6), но это разные варианты.
Запись статистической информации в форме простого ряда имеет два наиболее существенных недостатка: громоздкость (n может быть велико, запись будет очень длинной) и труднообзримость (закономерности ряда не бросаются в глаза, нужно многократно просматривать ряд, чтобы определить сколько раз выпала «1», и сколько раз «6», например).
Второй недостаток устраняет простейшей обработкой ряда: упорядочивают ряд, располагают варианты в порядке их возрастания:
1, 1, 3, 4, 4, 4, 5, 5, 6, 6, 6, 6.
Полученный ряд и есть вариационный ряд, или просто упорядоченный ряд.
Рассмотрим другую форму представления статистической информации – табличное представление (или статистическая таблица).
Статистическая таблица – система строк и столбцов, в которой в определенной последовательности излагается статистическая информация.
На предыдущем примере раскроем понятие статистической таблицы.
Пример. Игральный кубик бросили 12 раз и получили следующий вариационный ряд:
1, 1, 3, 4, 4, 4, 5, 5, 6, 6, 6, 6.
Этот ряд, как выше мы описали, обладает недостатком – громоздкостью, который можно легко устранить следующим образом: будем записывать только значения встречающихся вариант (по одному разу), а под каждым значением будем писать число, показывающее, сколько раз это значение встречается в ряду; получим запись:
xi | 1 | 3 | 4 | 5 | 6 |
ni | 2 | 1 | 3 | 2 | 4 |
Такая «свернутая» запись статистических данных, называется статистическим распределением ряда. Обычно такая запись оформляется в виде таблицы.
xi | 1 | 3 | 4 | 5 | 6 |
ni | 2 | 1 | 3 | 2 | 4 |
Итак, статистическим распределением ряда называют перечень вариант и соответствующих им частот или относительных частот.
«Свернуть» длинный ряд в компактную таблицу распределения оказывается возможным только в тех случаях, когда наблюдаемый признак имеет небольшое число различных (дискретных – прерывных) значений вариант.
Если вариант очень много и они редко повторяются, то строят интервальный ряд: весь диапазон наблюдаемых значений признака xmax – xmin разбивают на небольшое число (k=6…10) частичных интервалов, и подсчитывают количество вариант исходного ряда, попадающих в каждый частичный интервал, эти числа ni (i=1,2,…k) и принимают за частоты соответствующих интервалов.
Перечень частичных интервалов и соответствующая им сумма частот вариант, попавших в k интервал, называют интервальной таблицей частот.
Покажем на примере, как составляется интервальная таблица частот.
3,45 | 3,56 | 3,68 | 3,66 | 3,70 | 3,76 | 3,75 |
3,78 | 3,80 | 3,94 | 3,88 | 3,86 | 3,88 | 3,94 |
3,93 | 3,90 | 3,96 | 4,03 | 4,03 | 3,98 | 4,00 |
4,08 | 4,10 | 4,18 | 4,35 |
|
|
|
Пример. Нахождение жирности молока (в %) 25 коров дало следующие результаты:
Составим интервальную таблицу, для этого: