Автор работы: Пользователь скрыл имя, 23 Июня 2014 в 19:49, лекция
Рассмотрены идеология имитационного моделирования (основы системного подхода), процедура построения моделей (табличное программирование), приемы и примеры моделирования реальных биоэкологических объектов, в том числе аппроксимация функций, декомпозиция сложных криволинейных зависимостей на более простые, декомпозиция сложных распределений на серию нормальных, интеграция серии простых моделей в общую более сложную модель, описание динамики многокомпонентных систем с помощью латентных переменных и мн. др.
Для настройки модели следует вызвать макрос “Поиск решения” и заполнить его окно (рис. 2.7). В качестве целевой выступает ячейка I8 со значением функции невязки, которое после настройки должно стать равным нулю; для этого нужно изменять значения в ячейках F8:F9. Результаты поиска решения представлены в таблице 2.12.
После настройки модельная динамика снижения числа меченых животных стала почти такой же, что наблюдали в поле, при численности островной популяции обыкновенной гадюки, равной N=3086 экз., и при уровне ежегодной смертности Nd = 228 экз. (d=7.4%). Однако функция невязки так и не обнулилась и составила Ф=6.
Для оценки адекватности модели проведем дисперсионный анализ. Остаточная дисперсия определяется из отношения:
DОСТ.=Ф/(n-1), или [I9] =I8/C9 = 2.
Общую сумму квадратов рассчитываем, используя квадрат функции стандартного отклонения и число степеней свободы:
[C8] =СТАНДОТКЛОН(C3:C6)) = 4.
[C9] =СЧЁТ(C3:C6)-1 = 3;
[C10] =C9*C8^2 = 53.
Рис. 2.7. Заполнение окна макроса “Поиск решения"
Таблица 2.12. Имитационная система с моделью снижения числа меченых гадюк после настройки параметров
A |
B |
C |
D |
E |
F |
G |
H |
I | |
1 |
Год |
n |
m |
N' |
d' |
M' |
m' |
ф | |
2 |
1994 |
158 |
3086 |
158 |
|||||
3 |
1995 |
365 |
18 |
3086 |
0.074 |
146 |
17 |
0 | |
4 |
1996 |
273 |
10 |
3086 |
0.074 |
135 |
12 |
4 | |
5 |
1997 |
214 |
10 |
3086 |
0.074 |
125 |
9 |
2 | |
6 |
1998 |
238 |
9 |
3086 |
0.074 |
116 |
9 |
0 | |
7 |
|||||||||
8 |
S= |
4.2 |
N= |
3086 |
Ф= |
6 | |||
9 |
df= |
3 |
Nd= |
228 |
DОСТ.= |
2 | |||
10 |
SQ= |
53 |
Nb= |
228 |
F= |
23 | |||
11 |
DМОД.= |
47 |
d%= |
7.4 |
Модельная сумма квадратов есть разность между общей и остаточной ([C11] =C10-I8) = 47; это же значение равно модельной дисперсии (DМОД.), поскольку число степеней свободы модели равно dfМОД.=1. Величина критерия Фишера составит:
F=DМОД./DОСТ., или [H10] =C11/I9 = 23;
оно превышает табличное значение F(0.05,1,3) = 6.6. Модель в целом адекватна наблюдаемым данным. Этот вывод позволяет говорить о том, что численность взрослых особей островной популяции гадюки действительно приближается к 3000 экз. Для полученного значения численности можно рассчитать и статистическую ошибку, но только в результате дополнительных экспериментов с моделью.
Адекватность и значимость
Адекватность полученной модели – необходимое условие для осмысленной интерпретации ее параметров. В общем случае неадекватность модели связана с тремя причинами:
– состав модели существенно менее полон, чем реальная система, т. е. уравнения модели всегда включают в себя лишь небольшую часть из числа существенных переменных;
– связи между изучаемыми переменными описаны неточно, с использованием не той функции, или сделана попытка описания несуществующих связей;
– описание носит детерминистический характер, тогда как реальность всегда стохастична, т. е. любые данные содержат стохастический шум неизвестных, неучтенных и малозначительных факторов, но модель “старается” сгладить это варьирование.
Попытаться достичь большей адекватности (на одном и том же наборе данных) можно двумя различными способами: изменяя модельные уравнения и внедряя в них латентные (скрытые) переменные.
Внедрение латентных переменных – специфическая проблема имитационного моделирования, и поэтому ниже она будет обсуждаться подробнее (см. раздел Скрытые переменные). Здесь же, на первый случай, важно отметить главные функции скрытых переменных. Одна из них состоит в разбиении сложных зависимостей на несколько простых, что делает модель более прозрачной. Кроме того, скрытые переменные призваны играть роль неизвестных факторов (не доступных для наблюдения характеристик объекта исследования), забирать на себя “лишнюю” изменчивость явных переменных, контролируемых со стороны исходных данных. Это придает модели большую “гибкость”, она лучше согласуется с реальными данными. В то же время злоупотребление этим приемом, введение в модель избыточного числа скрытых переменных отрицательно сказывается на жесткости модельной конструкции и ведет к тому, что ее параметры утрачивают содержательную интерпретацию.
Изменение конструкции модели должно строиться на базе углубленного изучения явления. В частности, известно, что ростовые процессы в общем описывать лучше всего степенной функцией, фенологические – параболой, токсикологические – логистической кривой. Большая адекватность модели достигается также с увеличением порядка полинома.
При построении имитационных моделей интуитивно кажется, что чем лучше расчеты соответствуют эмпирическим данным, тем лучше модельные параметры характеризуют механизм исследуемых процессов. Однако при неограниченном вводе новых членов модели такое заключение оказывается неправомочным. Рассмотрим два конкурирующих описания зависимости размеров тела самцов гадюки (Lt) от числа прожитых лет (данные автора за 1998 г.) (табл. 2.13, рис. 2.8). Простая степенная функция (колонка Е):
Lt = 25.6Ч×x0.29
обеспечивает адекватность модели на уровне p<0.001 при F = 73. Полином 5-й степени (колонка С) дает линию, проходящую практически через все эмпирические точки:
Lt = 16.5 + 3.59Ч×x + 6.54Ч×x2 – 2.6Ч×x3 + 0.35Ч×x4 – 0.0157Ч×x5,
а критерий Фишера достигает уровня F = 864, p<0.000001.
Несмотря на рост адекватности, описание данных становится только хуже. Во-первых, интерпретация многочисленных коэф-фициентов полинома стала практически невозможна. Во-вторых, явно случайное рассеяние эмпирических значений вокруг среднего уровня новая модель восприняла как закономерные отличия, строго связанные с возрастом животного (x), подменяя тем самым знание о явлении в целом (его дает гладкая степенная кривая) детальным знанием особенностей конкретной выборки. Более адекватная модель оказывается менее интересной для биолога.
Таблица 2.13. Описание возрастного изменения длины тела гадюки (Lt) полиномиальной (Ltm1) и степенной (Ltm2) моделями
A |
B |
C |
D |
E |
F | |
1 |
a0= |
16.51 |
a0= |
25.6 |
||
2 |
a1= |
3.588 |
a1= |
0.29 |
||
3 |
a2= |
6.54 |
||||
4 |
a3= |
-2.63 |
||||
5 |
a4= |
0.353 |
||||
6 |
a5= |
-0.02 |
||||
7 |
годы |
Lt |
Ltm1 |
ф |
Ltm2 |
ф |
8 |
0.1 |
16.5 |
16.93 |
0.2 |
13.2 |
10.7 |
9 |
1 |
25 |
24.34 |
0.4 |
25.6 |
0.4 |
10 |
2 |
33 |
33.93 |
0.9 |
31.3 |
3.0 |
11 |
3 |
39.84 |
35.1 |
|||
12 |
4 |
41.33 |
38.1 |
|||
13 |
5 |
41.4 |
40.49 |
0.8 |
40.7 |
0.5 |
14 |
6 |
40 |
40.38 |
0.1 |
42.8 |
8.1 |
15 |
7 |
42.5 |
43.11 |
0.4 |
44.8 |
5.2 |
16 |
8 |
48.5 |
47.98 |
0.3 |
46.5 |
3.8 |
17 |
9 |
49.5 |
49.61 |
0.0 |
48.1 |
1.9 |
18 |
||||||
19 |
Ф= |
3.1 |
Ф= |
33.7 | ||
20 |
F= |
863 |
F= |
73.0 |
В отличие от регрессионного анализа в контексте имитационного моделирования терминам “адекватность” и “значимость” следовало бы придать разный смысл. Между уравнением регрессии и модельной динамикой есть глубокие различия. Расчеты регрессионных коэффициентов основаны на стройной и жесткой статистической теории, предполагающей, что все отклонения вариант от линии регрессии есть отклонения по случайным причинам, т. е. их варьирование соответствует нормальному закону (Браунли, 1977). Отсюда выводятся формулы расчета коэффициентов регрессии, их статистических ошибок и критерий значимости (оценка близости выборочных параметров к генеральным). В регрессионном анализе вывод о значимости параметров есть одновременно и вывод об адекватности модели.
Иное дело имитация, где ход модельной кривой целиком и полностью определяется замыслами автора модели, а законы распределения переменных не определены. В центр внимания становится, помимо выборки исходных данных, еще и подобная ей выборка модельных значений, полученная в результате расчета по формулам. Генеральная совокупность как-то уходит из поля зрения во время настройки параметров модели. По желанию исследователя модель может охватить все точки исходных значений или, напротив, пройти плавной линией между ними.
В каждом случае доля “случайной” изменчивости вариант будет разной, а “значимость” параметров будет определяться принятым видом модели, т. е. будет субъективна.
Абсурдность ситуации можно снять, если отличать понятия “адекватность” (степень соответствия динамики модели — исходным данным) и “значимость” (степень соответствия структуры модели — реальности), и, соответственно, применять разные методы вычисления ошибок и критериев.
Для оценки адекватности модели исходным данным достаточно использовать коэффициент корреляции или дисперсионный анализ с критерием Фишера (см. предыдущий раздел). Для оценки же значимости необходима множественная настройка параметров модели на разных наборах исходных данных (см. следующий раздел). Только так можно определить, как конструкция модели воспринимает разнородные данные, т. е. в какой мере механизм динамики модели подобен механизму реального явления. В конце концов, оценка адекватности – не панацея от заблуждений, но индикатор степени незнания.
Статистические ошибки параметров
Оценка значимости параметров имитационных моделей, имеющих зачастую нелинейное поведение (с эффектами запаздывания, накопления, пороговых реакций, с изменением величины параметров в зависимости от состояния системы в целом), оказывается нетривиальной задачей. В литературе описаны три метода ее решения.
1. Оценка стандартных отклонений параметров методом наименьших квадратов по ковариационной матрице системы уравнений, полученной в процессе ее решения, например, методом последовательных приближений Гаусса–Ньютона (Попов, 1976, с. 50). Автору известна только одна программа, вычисляющая значимость параметров, – STATISTICA (Боровиков, Боровиков, 1997, с. 560).
2. Второй метод определения
ошибок параметров состоит в
многократном повторении
3. В тех случаях, когда
многократное проведение
Рандомизация
Задача рандомизации состоит в том, чтобы изменить исходный ряд значений случайным образом. Это значит, что каждый новый столбец значений исходных данных должен быть похож на новую выборку из одной и той же генеральной совокупности. Поскольку в большинстве случаев признаки имеют нормальное распределение, рандомизация означает имитацию варьирования, многократное “искажение” каждого значения переменной с помощью случайной величины, распределенной нормально.
С технической точки зрения можно выделить три момента:
— организацию датчика случайной нормальной величины,
— определение параметров распределения (среднюю и дисперсию),
Информация о работе Имитационное моделирование в среде ms excel