Содержание
ВВЕДЕНИЕ
Степенные распределения –
уникальное статистическое свойство фрактальных
структур, их характерный признак. Степенные распределения известны
своей парадоксальностью, а также неожиданно
широкой распространенностью в самых
разных природных и социальных явлениях.
При этом часто их происхождение остаётся
загадкой, которую многие пытались и пытаются
решить.
В 1897 году итальянский
экономист В. Парето показал, что 20% населения
страны распоряжалось 80% её богатств. Потом
аналогичная закономерность была обнаружена
в самых разных областях, в том числе и
в нефтегазодобыче. Например, основная часть притока
жидкости в скважину обычно поступает
из пропластков, занимающих лишь малую
часть всей продуктивной мощностью пласта.
Анализ фонда скважин показывает, что
обычно небольшая часть скважин обеспечивает
«львиную» долю общей добычи (80% - 70%)
месторождения.
Выделяют три различных типа
степенных распределений:
Частотное степенное распределение
Ранговое степенное распределение
Кумулятивное степенное распределение.
В данном курсовом проекте были
рассмотрены три типа степенных распределений
на примере Новошешминского и Северного
нефтяных месторождений Татарстана. Целью
данной курсовой работы является анализ
данных по добыче Новошешминского и Северного
месторождения для выявления закономерностей
между дебитом, накопленной добычей и
числом скважин. Для реализации поставленной
цели необходимо решить ряд задач:
- изучить теоретические основы
степенного закона распределения;
- изучить применение закона
Парето и степенного закона в нефтегазодобыче;
- построить графики различных
степенных распределений для каждого
месторождения и провести их анализ.
1. Теоретические основы закона
степенного распределения
Гауссово
распределение вероятностей, проверенное
на огромном количестве статистических
фактов утверждает: чем выше вероятность
события, тем ниже его эффект, производимое
им действие (не важно положительное или
отрицательное). События с низким эффектом
происходят часто с экстремально большим
эффектом – очень редко. Степенное распределение
нарушает это правило - согласно ему события
с очень большим эффектом могут происходить
достаточно часто. В теории экстремальных значений, основы
которой были заложены еще в двадцатых
годах, но которая получила серьезное
развитие только в последнее десятилетие
показано что в сложных нелинейных системах
вблизи точек кризисов Гауссово распределение
«не работает», а «работает» другое распределение
вероятностей, которое известно под разными
названиями «степенное распределение»,
«распределение с тяжелым хвостом», «распределение
Ципфа – Парето» или «закон 20/80» в социологии,
«1/f распределение» в физике, «фрактальное
распределение» в синергетике и т.д.
Это
выглядит совершенно нелогичным. Мы привыкли
думать, что 50% наших усилий или вложенных
в дело ресурсов дадут нам 50% результатов.
И нам кажется очевидным, что все клиенты
одинаково для нас ценны, что все работники
с равной зарплатой приносят равную пользу
компании, что голос любого избирателя
или акционера имеет одинаковую ценность
для принятия решений и т.п. Эти «ожидания
50/50» – типичное проявление линейного
и рационального «гауссианского» мышления
и могут быть очень опасны в определенных
ситуациях.
Механизм
этого достаточно прост – экстремальные,
сверхсильные эффекты является результатом
развития вполне обычных небольших событий,
которые сами по себе создают небольшой
эффект, но включают тем или иным образом
положительную обратную связь, вызывающую цепную
реакцию нарастания эффекта. А это в свою
очередь явно связано с тем, что в процессе
эволюции общества и технологий большинство
систем усложняется, становятся все богаче
обратными связями и запасенными ресурсами,
то есть переходит в категорию систем высокого
риска [1].
В 1897 году итальянский
экономист В. Парето показал, что 20% населения
страны распоряжалось 80% её богатств. Потом
аналогичная закономерность была обнаружена
в самых разных областях.
Распределение
Парето в теории вероятностей – двухпараметрическое
семейство абсолютно непрерывных распределений, являющихся степенными.
Встречается при исследовании различных
явлений, в частности, социальных, экономических,
физических и других.
Пусть случайная величина
такова, что её распределение задаётся равенством:
,
(1)
где
. Тогда говорят, что
имеет распределение Парето с параметрами
и
. Плотность распределения Парето
имеет вид:
(2)
Моменты случайной величины, имеющей распределение
Парето, задаются формулой:
,
(3)
откуда в частности:
,
(4)
.
(5)
Вилфредо Парето изначально
использовал это распределение для описания
распределения благосостояния, а также
распределения дохода. Его правило 20 к
80 (которое гласит: 20 % популяции владеет
80 % богатства) однако зависит от конкретной
величины k, и утверждается,
что фактически встречаются существенные
количественные отклонения, например,
данные самого Парето по Британии говорят,
что там примерно 30 % населения владеет
70 % общего дохода.
При этом распределение
Парето встречается не только в экономике.
Можно привести следующие примеры:
- в лингвистике распределение Парето известно под именем закона Ципфа (для разных языков показатель степени может несколько различаться, также существует небольшое отклонение от простой степенной зависимости у самых частотных слов, однако в целом степенной закон описывает это распределение достаточно
хорошо);
- зависимость абсолютной
частоты слов (сколько всего раз каждое
конкретное слово встретилось) в достаточно
длинном тексте от ранга (порядкового
номера при упорядочении слов по абсолютной
частоте). Степенной характер остается вне зависимости
от того, приводятся ли слова к начальной
форме или берутся из текста как есть;
- аналогичная кривая для популярности
имен;
- распределение размера
населенных пунктов;
- распределение размера
файла в интернет-траффике по TCP-протоколу [2].
Степенные распределения –
уникальное статистическое свойство фрактальных
структур, их характерный признак. Всякий
раз, когда в каких-то опытных данных мы
видим степенные распределения, у нас
должно возникать обоснованное подозрение,
что мы имеем дело с явной или скрытой
фрактальной структурой, а значит, вероятно,
и с результатом взаимодействия сознания
и материи.
Степенные распределения известны
своей парадоксальностью, а также неожиданно
широкой распространенностью в самых
разных природных и социальных явлениях.
При этом часто их происхождение остаётся
загадкой, которую многие пытались и пытаются
решить.
Особое внимание стоит уделить процессу Юла. По мнению физика Марка Ньюмана,
это один из самых интересных механизмов,
порождающих степенные распределения.
Процесс Юла является первым шагом к открытию
истинных источников степенных законов.
Второй шаг – введение понятия терминальной
вероятности, как это сделано в тау-модели. Без этого шага можно рассматривать
растущие стохастические фрактальные
структуры лишь в их предельном состоянии
– как и делает Ньюман вслед за самим открывателем
модели Юлом. Используя же тау-модель и
основанную на ней модель параллельного тирона, становится возможно описывать
растущие фракталы в любой момент их эволюции.
Когда речь идет об описании динамики
когнитивных и вообще натуральных феноменов,
без этой возможности не обойтись.
Многие вещи, которые измеряют
учёные, имеют типичный размер или «масштаб»
– типичное значение, около которого группируются
результаты отдельных измерений. Простой
пример – человеческий рост. Большинство
взрослых людей имеют рост около 180 см.
Имеются некоторые отклонения от этой
цифры, особенно связанные с полом, но
на свете не существует людей, имеющих
рост 10 см или 500 см.
Однако не все величины, которые
мы измеряем, группируются вокруг какого-то
типичного значения. Некоторые варьируют
в огромном диапазоне, иногда захватывающем
много порядков. Классический пример –
размеры городов и прочих населённых пунктов.
Степенные распределения наблюдаются
в чрезвычайно широком спектре феноменов.
Кроме населения городов, силы землетрясений,
размеров кратеров, силы вспышек на Солнце,
размеров компьютерных файлов и масштабов
военных конфликтов, степенным законам соответствуют
частоты слов в любом человеческом языке,
частоты фамилий в большинстве культур,
число статей, которые пишут учёные, число
ссылок, которые получают научные статьи,
число переходов на веб-страницы, продажи
книг и музыкальных записей, а также товаров
почти каждой категории, состоящей из
многих торговых марок. Ещё – число видов
в биологическом роде, годовые доходы
людей и многие-многие другие величины
[3].
Степенные законы часто встречаются
и в других ситуациях, нежели статистические
распределения каких-либо величин. Например,
знаменитый закон всемирного притяжения
Ньютона имеет форму 1/r2, то есть, форму степенного
закона с показателем 2.
Выделяют три различных типа
степенных распределений:
Частотное степенное распределение
Ранговое степенное распределение
Кумулятивное степенное распределение.
Одни и те же данные – например,
данные по населению городов - можно представить
в форме любого из трех распределений.
Обычно, если мы
используем один из трех типов и получаем
в результате степенную кривую, то, используя
любой другой тип мы тоже получим степенную
кривую. Однако, от выбора типа распределения
зависят конкретные параметры этой кривой
и, в частности, показатель степени k. Например, частотное распределение
городов по населению обычно соответствует
степенному закону с показателем -2, а кумулятивное
и ранговое распределение – степенному
закону с показателем -1. Поэтому, встречая,
например, где-то сообщение, что «распределение
военных конфликтов по числу жертв соответствует
степенному закону с показателем -1.8»,
нам всегда необходимо уточнять: какое
именно распределение было использовано.
Далее, чтобы не путаться, мы будем обозначать
соответствующие каждому распределению
показатели степени так:
Показатель частотного распределения: K(freq)
Показатель рангового распределения: K(rank)
Показатель кумулятивного распределения: K(cumm)
Рассмотрим три вида степенных
распределений.
Частотное распределение - пожалуй, самое распространённое,
но не потому, что оно удобнее или полезнее
остальных, а по привычке: именно такой
тип распределений традиционно применяется
в статистической физике и теории вероятностей.
Оттуда он перекочевал в статистику и
теперь широко распространен под именем
"гистограмма".
Пусть, например, мы изучаем
населённые пункты России с точки зрения
их населённости. Мы взяли данные Госстата
по 4718 населённым пунктам. Построим гистограмму.
Для этого мы берём шкалу населённости
и делим её на какие-то равные промежутки,
"корзины". Мы можем, например, разделить
шкалу на корзины по 5000 человек. В первую
корзину мы складываем все населённые
пункты, в которых живет от 0 до 5000 человек,
во вторую - от 5000 до 10000 человек и т.д. Разложив
по корзинам все города России, мы можем
взглянуть на результат (рис. 1).
Рисунок 1. График частотного распределения
населения
Обратим внимание, что по оси
Y мы отмечаем просто количество городов,
попавших в соответствующую корзину. Но
мы могли бы отмечать не количество, а
относительную долю, которую составляет
содержание каждой корзины к общему числу
городов - для этого поделим каждое значение
шкалы Y на 4718 (столько у нас всего городов)
(рис. 2).
Рисунок 2. График частотного распределения
населения (в долях)
На такой модифицированной
гистограмме видно, что в первую корзину
(население от 0 до 5000 человек) попало 0,42
всех населённых пунктов, то есть, 42%. Мы
можем также сказать, что какой-то конкретный
населённый пункт России с вероятностью
42% окажется в первой корзине, поэтому
такие распределения ещё называют распределениями
плотности вероятности.
Для того чтобы выяснить является
ли данная зависимость степенной, отобразим
гистограмму в двойной логарифмической
шкале (рис. 3).
Рисунок 3. График частотного распределения
в двойных логарифмических осях
В целом прямая линия, вокруг
которой группируются точки, вполне просматривается
(существенно выпадают лишь крайние справа
две точки, они соответствуют Санкт-Петербургу
и Москве). Её наклон соответствует примерно K (freq)=-1,7 – -1,9 (точнее определить
трудно). Однако видно, что правая часть
распределения зашумлена. Эта "борода"
возникает из-за того, что в области высоких
значений статистического параметра перестаёт
действовать усреднение, которое эффективно
сглаживает кривую в области низких значений.
Попросту, в корзины, расположенные в начале
шкалы попадает много городов и случайные
вариации усредняются. А вот в корзины,
расположенные в конце шкалы городов попадает
мало и случайные вариации становятся
очень заметными.