Автор работы: Пользователь скрыл имя, 21 Декабря 2013 в 18:09, доклад
Дерево принятия решений — используется в области статистики и анализа данных для прогнозных моделей. Структура дерева представляет собой следующее: «листья» и «ветки». На ребрах («ветках») дерева решения записаны атрибуты, от которых зависит целевая функция, в «листьях» записаны значения целевой функции, а в остальных узлах — атрибуты, по которым различаются случаи. Чтобы классифицировать новый случай, надо спуститься по дереву до листа и выдать соответствующее значение. Подобные деревья решений широко используются в интеллектуальном анализе данных. Цель состоит в том, чтобы создать модель, которая предсказывает значение целевой переменной на основе нескольких переменных на входе
Дерево принятия решений (также могут назваться деревьями классификации или регрессионными деревьями) — используется в области статистики и анализа данных для прогнозных моделей. Структура дерева представляет собой следующее: «листья» и «ветки». На ребрах («ветках») дерева решения записаны атрибуты, от которых зависит целевая функция, в «листьях» записаны значения целевой функции, а в остальных узлах — атрибуты, по которым различаются случаи. Чтобы классифицировать новый случай, надо спуститься по дереву до листа и выдать соответствующее значение. Подобные деревья решений широко используются в интеллектуальном анализе данных. Цель состоит в том, чтобы создать модель, которая предсказывает значение целевой переменной на основе нескольких переменных на входе
Каждый лист представляет собой значение целевой переменной, измененной в ходе движения от корня по листу. Каждый внутренний узел соответствует одной из входных переменных. Дерево может быть также «изучено» разделением исходных наборов переменных на подмножества, основанные на тестировании значений атрибутов. Это процесс, который повторяется на каждом из полученных подмножеств. Рекурсия завершается тогда, когда подмножество в узле имеет те же значения целевой переменной, таким образом, оно не добавляет ценности для предсказаний. Процесс, идущий «сверху вниз», индукция деревьев решений (TDIDT)[1], является примером поглощающего «жадного» алгоритма, и на сегодняшний день является наиболее распространенной стратегией деревьев решений для данных, но это не единственная возможная стратегия. В интеллектуальном анализе данных, деревья решений могут быть использованы в качестве математических и вычислительных методов, чтобы помочь описать, классифицировать и обобщить набор данных, которые могут быть записаны следующим образом:
Зависимая переменная Y является целевой переменной, которую необходимо проанализировать, классифицировать и обобщить. Вектор х состоит из входных переменных , , и т. д., которые используются для выполнения этой задачи.
Дерево принятия решений — это дерево, на ребрах которого записаны атрибуты, от которых зависит целевая функция, в листьях записаны значения целевой функции, а в остальных узлах — атрибуты, по которым различаются случаи.
Чтобы классифицировать новый случай, надо спуститься по дереву до листа и выдать соответствующее значение.
Процесс принятия решений с помощью
дерева решений в общем случае
предполагает выполнение следующих
пяти этапов.
Этап 1. Формулирование задачи. Прежде всего
необходимо отбросить не относящиеся
к проблеме факторы, а среди множества
оставшихся выделить существенные и несущественные.
Это позволит привести описание задачи
принятия решения к поддающейся анализу
форме. Должны быть выполнены следующие
основные процедуры: определение возможностей
сбора информации для экспериментирования
и реальных действий; составление перечня
событий, которые с определенной вероятностью
могут произойти; установление временного порядка расположения
событий, в исходах которых содержится
полезная и доступная информация, и тех последовательных
действий, которые можно предпринять.
Этап 2 Построение дерева решений, т.е. графическое
представление последовательности возможных
альтернативных действий с учетом соответствующих
внешних условий, начиная с «корня» и завершая
«листочками».
Этап 3. Оценка вероятностей состояний
среды, т.е. сопоставление шансов возникновения
каждого конкретного события. Следует
отметить, что указанные вероятности определяются
либо на основании имеющейся статистики, либо экспертным
путем.
Этап 4. Установление выигрышей (или проигрышей, как выигрышей
со знаком минус) для каждой возможной
комбинации альтернатив (действий) и состояний
среды.
Этап 5. Решение задачи, состоящее в определении на дереве решений
«веточки», для которой установленный
на этапе 4 выигрыш является максимальным.
Задача 4. Руководство некоторой компании
решает, создавать ли для выпуска новой
продукции крупное производство,
малое предприятие или продать патент
другой фирме. Размер выигрыша, который
компания может получить, зависит
от благоприятного или неблагоприятного
состояния рынка (табл. 1).
Таблица 1
Номер стратегии |
Действия компании |
Выигрыш, руб., при состоянии экономической среды | |
благоприятном |
неблагоприятном | ||
1 |
Строительство крупного предприятия (а1) |
200 000 |
-180 000 |
2 |
Строительство малого предприятия (а2) |
100 000 |
-20 000 |
3 |
Продажа патента (а3) |
10 000 |
10 000 |
Примечание. Вероятность
благоприятного и неблагоприятного состояний
экономической среды равна 0,5.
На основе данной таблицы выигрышей (потерь)
можно построить дерево решений (рис. 1).
Процедура принятия решения заключается
в вычислении для каждой вершины дерева
(при движении справа налево) ожидаемых
денежных оценок, отбрасывании неперспективных
ветвей и выборе ветвей, которым соответствует
максимальное значение ОДО.
Определим средний ожидаемый выигрыш
(ОДО):
для вершины 1 ОДО1 = 0,5 x 200 000 + 0,5(–180
000) = 10 000 руб.;
для вершины 2 ОДО2 = 0,5 x 100 000 + 0,5(–20
000) = 40 000 руб.;
для вершины 3 ОДО3 = 10 000 руб.
Вывод. Наиболее
целесообразно выбрать стратегию а2, т.е. строить
малое предприятие, а ветви (стратегии) а1 и а3 дерева решений
можно отбросить. ОДО наилучшего решения
равна 40 000 руб. Следует отметить, что наличие
состояния с вероятностями 50% неудачи
и 50% удачи на практике часто означает,
что истинные вероятности игроку скорее
всего неизвестны и он всего лишь принимает
такую гипотезу (так называемое
предположение «fifty—fifty» — пятьдесят
на пятьдесят).
Усложним рассмотренную
Пусть перед тем, как принимать решение
о строительстве, руководство компании
должно определить, заказывать ли дополнительное
исследование состояния рынка или нет,
причем предоставляемая услуга обойдется
компании в 10 000 руб. Руководство понимает,
что дополнительное исследование по-прежнему
не способно дать абсолютно точной информации,
но оно поможет уточнить ожидаемые оценки
конъюнктуры рынка, изменив тем
самым значения вероятностей.
Относительно фирмы, которой можно заказать
прогноз, известно, что она способна уточнить
значения вероятностей благоприятного
или неблагоприятного исхода. Возможности
фирмы в виде условных вероятностей благоприятности
и неблагоприятности рынка сбыта представлены
в таблице 2. Например, когда фирма утверждает,
что рынок благоприятный, то с вероятностью
0,78 этот прогноз оправдывается (с вероятностью
0,22 могут возникнуть неблагоприятные
условия), прогноз о неблагоприятности
рынка оправдывается с вероятностью
0,73.
Достоинства метода [править]
Среди прочих методов Data Mining, метод дерева принятия решений имеет несколько достоинств:
Недостатки метода [править]