Имитационное моделирование в среде ms excel

Автор работы: Пользователь скрыл имя, 23 Июня 2014 в 19:49, лекция

Краткое описание

Рассмотрены идеология имитационного моделирования (основы системного подхода), процедура построения моделей (табличное программирование), приемы и примеры моделирования реальных биоэкологических объектов, в том числе аппроксимация функций, декомпозиция сложных криволинейных зависимостей на более простые, декомпозиция сложных распределений на серию нормальных, интеграция серии простых моделей в общую более сложную модель, описание динамики многокомпонентных систем с помощью латентных переменных и мн. др.

Прикрепленные файлы: 1 файл

Имитационное моделирование в среде ms excel (на примерах из экол.doc

— 3.27 Мб (Скачать документ)

 

Для настройки модели следует вызвать макрос “Поиск решения” и заполнить его окно (рис. 2.7). В качестве целевой выступает ячейка I8 со значением функции невязки,  которое после настройки должно стать равным нулю; для этого нужно изменять значения в ячейках F8:F9. Результаты поиска решения представлены в таблице 2.12.

После настройки модельная динамика снижения числа меченых животных стала почти такой же, что наблюдали в поле, при численности островной популяции обыкновенной гадюки, равной N=3086 экз., и при уровне ежегодной смертности Nd = 228 экз. (d=7.4%). Однако функция невязки так и не обнулилась и составила Ф=6.

Для оценки адекватности модели проведем дисперсионный анализ. Остаточная дисперсия определяется из отношения:

DОСТ.=Ф/(n-1), или [I9] =I8/C9 = 2.

Общую сумму квадратов рассчитываем, используя квадрат функции стандартного отклонения и число степеней свободы:

[C8] =СТАНДОТКЛОН(C3:C6)) = 4.2

[C9] =СЧЁТ(C3:C6)-1 = 3;

[C10] =C9*C8^2 = 53.

Рис. 2.7. Заполнение окна макроса “Поиск решения"

 

 

 

Таблица 2.12. Имитационная система с моделью снижения числа меченых гадюк после настройки параметров

 

 

A

B

C

D

E

F

G

H

I

1

Год

n

m

N'

d'

M'

m'

 

ф

2

1994

158

 

3086

 

158

     

3

1995

365

18

3086

0.074

146

17

 

0

4

1996

273

10

3086

0.074

135

12

 

4

5

1997

214

10

3086

0.074

125

9

 

2

6

1998

238

9

3086

0.074

116

9

 

0

7

                 

8

 

S=

4.2

 

N=

3086

 

Ф=

6

9

 

df=

3

 

Nd=

228

 

DОСТ.=

2

10

 

SQ=

53

 

Nb=

228

 

F=

23

11

 

DМОД.=

47

 

d%=

7.4

     

Модельная сумма квадратов есть разность между общей и остаточной ([C11] =C10-I8) = 47; это же значение равно модельной дисперсии (DМОД.), поскольку число степеней свободы модели равно dfМОД.=1. Величина критерия Фишера составит:

F=DМОД./DОСТ., или [H10] =C11/I9 = 23;

оно превышает табличное значение F(0.05,1,3) = 6.6. Модель в целом адекватна наблюдаемым данным. Этот вывод позволяет говорить о том, что численность взрослых особей островной популяции гадюки действительно приближается к 3000 экз. Для полученного значения численности можно рассчитать и статистическую ошибку, но только в результате дополнительных экспериментов с моделью.

 

Адекватность и значимость

 

Адекватность полученной модели – необходимое условие для осмысленной интерпретации ее параметров. В общем случае неадекватность модели связана с тремя причинами:

– состав модели существенно менее полон, чем реальная система, т. е. уравнения модели всегда включают в себя лишь небольшую часть из числа существенных переменных;

– связи между изучаемыми переменными описаны неточно, с использованием не той функции, или сделана попытка описания несуществующих связей;

– описание носит детерминистический характер, тогда как реальность всегда стохастична, т. е. любые данные содержат стохастический шум неизвестных, неучтенных и малозначительных факторов, но модель “старается” сгладить это варьирование.

Попытаться достичь большей адекватности (на одном и том же наборе данных) можно двумя различными способами: изменяя модельные уравнения и внедряя в них латентные (скрытые) переменные.

Внедрение латентных переменных – специфическая проблема имитационного моделирования, и поэтому ниже она будет обсуждаться подробнее (см. раздел Скрытые переменные). Здесь же, на первый случай, важно отметить главные функции скрытых переменных. Одна из них состоит в разбиении сложных зависимостей на несколько простых, что делает модель более прозрачной. Кроме того, скрытые переменные призваны играть роль неизвестных факторов (не доступных для наблюдения характеристик объекта исследования), забирать на себя “лишнюю” изменчивость явных переменных, контролируемых со стороны исходных данных. Это придает модели большую “гибкость”, она лучше согласуется с реальными данными. В то же время злоупотребление этим приемом, введение в модель избыточного числа скрытых переменных отрицательно сказывается на жесткости модельной конструкции и ведет к тому, что ее параметры утрачивают содержательную интерпретацию.

Изменение конструкции модели должно строиться на базе углубленного изучения явления. В частности, известно, что ростовые процессы в общем описывать лучше всего степенной функцией, фенологические – параболой, токсикологические – логистической кривой. Большая адекватность модели достигается также с увеличением порядка полинома.

При построении имитационных моделей интуитивно кажется, что чем лучше расчеты соответствуют эмпирическим данным, тем лучше модельные параметры характеризуют механизм исследуемых процессов. Однако при неограниченном вводе новых членов модели такое заключение оказывается неправомочным. Рассмотрим два конкурирующих описания зависимости размеров тела самцов гадюки (Lt) от числа прожитых лет (данные автора за 1998 г.) (табл. 2.13, рис. 2.8). Простая степенная функция (колонка Е):

Lt = 25.6Ч×x0.29

обеспечивает адекватность модели на уровне p<0.001 при F = 73. Полином 5-й степени (колонка С) дает линию, проходящую практически через все эмпирические точки:

Lt = 16.5 + 3.59Ч×x + 6.54Ч×x2 – 2.6Ч×x3 + 0.35Ч×x4 – 0.0157Ч×x5,

а критерий Фишера достигает уровня F = 864, p<0.000001.

Несмотря на рост адекватности, описание данных становится только хуже. Во-первых, интерпретация многочисленных коэф-фициентов полинома стала практически невозможна. Во-вторых, явно случайное рассеяние эмпирических значений вокруг среднего уровня новая модель восприняла как закономерные отличия, строго связанные с возрастом животного (x), подменяя тем самым знание о явлении в целом (его дает гладкая степенная кривая) детальным знанием особенностей конкретной выборки. Более адекватная модель оказывается менее интересной для биолога.

Таблица 2.13.  Описание возрастного изменения длины тела гадюки (Lt) полиномиальной (Ltm1) и степенной (Ltm2) моделями

 

 

A

B

C

D

E

F

1

 

a0=

16.51

a0=

25.6

 

2

 

a1=

3.588

a1=

0.29

 

3

 

a2=

6.54

     

4

 

a3=

-2.63

     

5

 

a4=

0.353

     

6

 

a5=

-0.02

     

7

годы

Lt

Ltm1

ф

Ltm2

ф

8

0.1

16.5

16.93

0.2

13.2

10.7

9

1

25

24.34

0.4

25.6

0.4

10

2

33

33.93

0.9

31.3

3.0

11

3

 

39.84

 

35.1

 

12

4

 

41.33

 

38.1

 

13

5

41.4

40.49

0.8

40.7

0.5

14

6

40

40.38

0.1

42.8

8.1

15

7

42.5

43.11

0.4

44.8

5.2

16

8

48.5

47.98

0.3

46.5

3.8

17

9

49.5

49.61

0.0

48.1

1.9

18

           

19

   

Ф=

3.1

Ф=

33.7

20

   

F=

863

F=

73.0


 

В отличие от регрессионного анализа в контексте имитационного моделирования терминам “адекватность” и “значимость” следовало бы придать разный смысл. Между уравнением регрессии и модельной динамикой есть глубокие различия. Расчеты регрессионных коэффициентов основаны на стройной и жесткой статистической теории, предполагающей, что все отклонения вариант от линии регрессии есть отклонения по случайным причинам, т. е. их варьирование соответствует нормальному закону (Браунли, 1977). Отсюда выводятся формулы расчета коэффициентов регрессии, их статистических ошибок и критерий значимости (оценка близости выборочных параметров к генеральным). В регрессионном анализе вывод о значимости параметров есть одновременно и вывод об адекватности модели.

Иное дело имитация, где ход модельной кривой целиком и полностью определяется замыслами автора модели, а законы распределения переменных не определены. В центр внимания становится, помимо выборки исходных данных, еще и подобная ей выборка модельных значений, полученная в результате расчета по формулам. Генеральная совокупность как-то уходит из поля зрения во время настройки параметров модели. По желанию исследователя модель может охватить все точки исходных значений или, напротив, пройти плавной линией между ними.

В каждом случае доля “случайной” изменчивости вариант будет разной, а “значимость” параметров будет определяться принятым видом модели, т. е. будет субъективна.

Абсурдность ситуации можно снять, если отличать понятия “адекватность” (степень соответствия динамики модели — исходным данным) и “значимость” (степень соответствия структуры модели — реальности), и, соответственно, применять разные методы вычисления ошибок и критериев.

Для оценки адекватности модели исходным данным достаточно использовать коэффициент корреляции или дисперсионный анализ с критерием Фишера (см. предыдущий раздел). Для оценки же значимости необходима множественная настройка параметров модели на разных наборах исходных данных (см. следующий раздел). Только так можно определить, как конструкция модели воспринимает разнородные данные, т. е. в какой мере механизм динамики модели подобен механизму реального явления. В конце концов, оценка адекватности – не панацея от заблуждений, но индикатор степени незнания.

 

Статистические ошибки параметров

 

Оценка значимости параметров имитационных моделей, имеющих зачастую нелинейное поведение (с эффектами запаздывания, накопления, пороговых реакций, с изменением величины параметров в зависимости от состояния системы в целом), оказывается нетривиальной задачей. В литературе описаны три метода ее решения.

1. Оценка стандартных  отклонений параметров методом наименьших квадратов по ковариационной матрице системы уравнений, полученной в процессе ее решения, например, методом последовательных приближений Гаусса–Ньютона (Попов, 1976, с. 50). Автору известна только одна программа, вычисляющая значимость параметров, – STATISTICA (Боровиков, Боровиков, 1997, с. 560).

2. Второй метод определения  ошибок параметров состоит в  многократном повторении процедуры  настройки, каждый раз с новым  массивом аналогичных реальных данных. Например, при определении параметров переноса тяжелых металлов между органами в организме животного в качестве отдельных переменных выступают уровни концентраций металла в различных органах, по-разному накапливающих загрязнитель. В этом случае один массив эмпирической информации образует выборка разновозрастных особей. Исследование нескольких (n) групп подопытных животных дает необходимый набор аналогичных массивов, по которым можно определить серию значений каждого модельного параметра (a1, a2,…, an) и непосредственно вычислить оценку их случайного варьирования (Безель, 1987, с. 22), т.е. статистическую ошибку параметров: ma = Sa/ n0.5.

3. В тех случаях, когда  многократное проведение экспериментов  или наблюдений  невозможно, серию  из n аналогичных массивов исходных  данных подготавливают искусственно, на базе одной исходной матрицы данных. Для этого, используя соображения о характере варьирования переменных, задают случайные отклонения от эмпирических значений и получают новые массивы (условно) исходных данных, поправленные на эти отклонения, т. е. искусственно организуют случайную изменчивость. Затем эти массивы используют, как описано выше, для расчета серии значений параметров, а затем и величины их ошибки (ma) (Розенберг, 1984, с. 101). Последний метод наиболее доступен, хотя и достаточно сложен для применения, рассмотрим его подробнее на примере.

 

Рандомизация

Задача рандомизации состоит в том, чтобы изменить исходный ряд значений случайным образом. Это значит, что каждый новый столбец значений исходных данных должен быть похож на новую выборку из одной и той же генеральной совокупности. Поскольку в большинстве случаев признаки имеют нормальное распределение, рандомизация означает имитацию варьирования, многократное “искажение” каждого значения переменной с помощью случайной величины, распределенной нормально.

С технической точки зрения можно выделить три момента:

— организацию датчика случайной нормальной величины, 

— определение параметров распределения (среднюю и дисперсию),

Информация о работе Имитационное моделирование в среде ms excel