Автор работы: Пользователь скрыл имя, 21 Октября 2013 в 20:59, доклад
Стратифицированная, или расслоенная, выборка (stratified sampling) — это процесс, состоящий из двух этапов, в котором совокупность делится на подгруппы (слои, страты, strata). Слои должны взаимно исключать и взаимно дополнять один другого, чтобы каждый элемент совокупности относился к одному и только одному слою, и ни один элемент не был упущен. Далее, из каждого слоя случайным образом выбираются элементы, при этом обычно используется метод простой случайной выборки.
Стратифицированная выборка
Стратифицированная, или расслоенная, выборка (stratified sampling) — это процесс, состоящий из двух этапов, в котором совокупность делится на подгруппы (слои, страты, strata). Слои должны взаимно исключать и взаимно дополнять один другого, чтобы каждый элемент совокупности относился к одному и только одному слою, и ни один элемент не был упущен. Далее, из каждого слоя случайным образом выбираются элементы, при этом обычно используется метод простой случайной выборки. Формально, выбор элементов из каждого слоя может осуществляться только с помощью SRS. Однако на практике иногда применяется систематический отбор и другие вероятностные выборочные методы. Отличие стратифицированной выборки от квотной состоит в том, что элементы в ней выбираются скорее случайно, а не из удобства или на основании мнения исследователя. Главная задача стратифицированной выборки — увеличение точности без увеличения затрат.
Стратифицированная, расслоенная выборка (stratified sampling)
Двухэтапный метод вероятностной выборки, согласно которому генеральная совокупность сначала делится на подгруппы или слои (страты). Затем элементы случайным образом выбираются из каждого слоя.
Переменные,
используемые для деления совокупности
на слои, называются стратификационными
переменными. Критерии для их выбора:
однородность, неоднородность, взаимосвязанность
и стоимость. Элементы, относящиеся к одному
слою, должны быть как можно более однородными,
а относящиеся к разным слоям — наоборот,
как можно более разнородными. Кроме того,
стратификационные переменные должны
быть тесно связаны с исследуемой характеристикой.
Чем больше переменные соответствуют
этим критериям, тем эффективнее уменьшение
нежелательных отклонений в выборке. В
конце концов, переменные должны снижать
стоимость процесса расслоения, будучи
простыми в оценке и применении. Как пра-
вило, для стратификации используют такие переменные, как демографические характеристики (как показано на примере квотной выборки), разновидность покупателя (владельцы кредитной карточки или те, кто ее не имеет), величина фирмы или отрасль промышленности. Для стратификации можно использовать несколько переменных, однако больше двух применяют редко, поскольку это непрактично и экономически неоправданно. Несмотря на то, что количество слоев в расслоенной выборке остается предметом спора, опыт показывает, что использовать нужно не больше шести. При использовании больше шести слоев любое повышение точности сводится на нет увеличением стоимости расслоения и отбора. Процесс выбора стратификационных переменных показан на примере опроса под названием "Национальный туристический прогноз компании American Express".
Пример. Телефонный опрос туристов
Компания R. H. Braskin & Associates провела опрос "Национальный туристический прогноз компании American Express" (The American Express National Travel Forecast), включив его в еженедельную телефонную панель OmniTel. Общее количество опрошенных составило 1030 человек (525 женщин, 505 мужчин). Переменными, примененными для расслоения выборки, были пол, возраст, доход и регион проживания. Опрос показал, что американцы в возрастной группе от 25 до 49 лет, имеющие детей, которые живут вместе с ними, больше всего интересуются посещением Орландо, штат Флорида. Среди людей пожилого возраста (65 лет и старше) наиболее популярен Вашингтон (округ Колумбия). Молодые американцы в возрасте от 18 до 34 лет на первое место ставят проведение отпусков. Поскольку предпочтения в туризме меняются в зависимости от возраста, эта стратификационная переменная крайне эффективна. Однако другие такие переменные, а именно пол, доход и регион проживания, не имели большого значения при определении предпочтений в туризме. Таким образом, приняв за основу стратификации только возраст, издержки выборки можно уменьшить без снижения точности [23].
Другое
важное решение связано с
При применении непропорционального отбора необходимо рассчитать среднеквадратичное отклонение распределения исследуемой характеристики среди элементов слоя. Поскольку эта информация не всегда доступна, исследователю часто приходится полагаться на интуицию и логику, определяя объем выборки для каждого слоя. Например, в крупных розничных магазинах можно ожидать большего отклонения в объемах продаж некоторых продуктов, чем в небольших магазинах. Поэтому крупные магазины представлены в выборке непропорционально большим количеством элементов. Когда исследователя в первую очередь интересует выявление различий между слоями, обычно создают одинаковые по объему выборки из каждого слоя.
Стратификационный метод обеспечивает наличие в выборке всех важных подгрупп. Это особенно важно, если исследуемая характеристика неравномерно распределена среди элементов генеральной совокупности. Например, распределение дохода семей неравномерно, так как годовой доход большинства семей составляет меньше 50 тысяч долларов, и лишь немногие семьи имеют годовой доход, равный 125 тысяч долларов и выше. Если применить простую случайную выборку, семьи с доходом 125 тысяч долларов и выше могут не быть адекватно представлены. Стратифицированная выборка позволяет обеспечить соответствующее количество таких семей в выборке. Она сочетает в себе простоту метода SRS с возможностью повышения точности. Поэтому данный метод формирования выборки весьма популярен.