Вероятностный подход к измерению информации

Автор работы: Пользователь скрыл имя, 15 Апреля 2014 в 18:31, реферат

Краткое описание

Перед тем как рассматривать вероятностный подход к измерению информации, мы рассмотрим такие основные понятия, как информация и измерение информации
Информация — сведения о чём-либо, независимо от формы их представления.

Прикрепленные файлы: 1 файл

РЕФЕРАТ.docx

— 143.90 Кб (Скачать документ)

Отсюда следует, например, что нельзя сравнивать информационные объемы текстов, написанных на разных языках, только по объему. У них отличаются информационные веса одного символа, так как мощности алфавитов разных языков - различные.

В каждой очередной позиции текста может появиться любой из N символов. Каждый символ несет i бит информации; число i можно определить из уравнения:

2*i = N. Для N = 54, используя таблицу, получаем: i = 5,755 бит.

Но если книги написаны на одном языке, то понятно, что в толстой книге информации больше, чем в тонкой. При этом содержательная сторона книги в расчет не берется.

Сформулируем правило, как измерить информацию, используя для этого алфавитный подход.

Количество информации, содержащееся в символьном сообщении, равно К*i, где К— число символов в тексте сообщения, a i -информационный вес символа, который находится из уравнения 2^i = N , где N — мощность используемого алфавита.

Множество символов, используемых при записи текста, называется алфавитом. Полное количество символов в алфавите называется мощностью (размером) алфавита. Если допустить, что все символы алфавита встречаются в тексте с одинаковой частотой (равновероятно), то количество информации, которое несет каждый символ, вычисляется по формуле: i = log2N.

Применение алфавитного подхода удобно, прежде всего, при использовании технических средств работы с информацией. В этом случае теряют смысл понятия «новые - старые», «понятные - непонятные» сведения. Алфавитный подход является объективным способом измерения информации в отличие от субъективного, содержательного, подхода.

Прагматический подход к измерению информации позволяет определить количество новой информации по отношению ко всей. Прагматический подход - оценивается полезность сообщения

Однако, при таком подходе непонятно, по каким критериям можно ввести единицу измерения информации. Следовательно, с точки зрения информации как новизны мы не можем оценить количество информации, содержащейся в научном открытии, новой теории общественного развития.

Прагматический подход - оценивается полезность сообщения. I=log 2 (P1/P0), где P - вероятность решения задачи P0 до сообщения и P1 после сообщения.

Внешняя память компьютера используется для длительного хранения информации.

Устройства внешней памяти: магнитные диски и ленты, оптические (лазерные) диски, магнитооптические диски.

Дисководы — устройства чтения/записи информации на диски. Различают гибкие магнитные диски — дискеты и жесткие магнитные диски. Жесткие магнитные диски встроены в дисковод и в отличие от дискет являются несъемными.

Структура магнитного диска: одна или несколько сторон (магнитных поверхностей), разделенных на концентрические дорожки, каждая из которых, в свою очередь, поделена на сектора, состоящие из «клеточек» — байтов. Все секторы на одном диске имеют фиксированный размер. Вся работа по считыванию и записи данных на дисках производится только полными секторами. Полный объем памяти диска определяется формулой: ОБЪЕМ = СТОРОНЫ*ДОРОЖКИ*СЕКТОРА*БАЙТЫ, где СТОРОНЫ — количество сторон диска, ДОРОЖКИ — количество дорожек на стороне, СЕКТОРА — количество секторов на дорожке, БАЙТЫ — количество байт в секторе.

Информация на устройствах внешней памяти имеет файловую организацию. Файл — поименованная совокупность данных, хранящихся на внешнем носителе.

Файловая структура диска — это совокупность файлов на диске и взаимосвязей между ними.

Логический диск — это физический (реальный) диск или часть физического диска, которому присвоено собственное имя. Имена логических дисков задаются первыми буквами латинского алфавита с двоеточием: А:, В:, С: и т.д. Обычно с одним гибким магнитным диском связан один логический диск (А:, В), а жесткий диск делится на несколько логических (С:, D: и т.д.)

Каталог — это поименованная совокупность файлов и подкаталогов (т.е. вложенных каталогов). Каталог самого верхнего уровня иерархии называется корневым. Он не вложен ни в какие другие каталоги.

Путь к файлу — это последовательность, состоящая из имен каталогов (разделенных символом «\»), начиная от корневого и заканчивая тем, в котором непосредственно хранится файл.

Полное имя файла состоит из имени логического диска, пути к файлу и имени файла. В одном каталоге не может быть нескольких файлов и каталогов с одинаковыми именами. В разных каталогах это допустимо.

Дерево - графическое изображение иерархической файловой структуры диска. {----------------------------изменения-------------------------------------------------------} {---------------------------Грязновой Евгении------------------------------------------------} {---------------------------Поммер Артема----------------------------------------------------}

   Какое количество информации  содержится, к примеру, в тексте  романа "Война и

мир", во фресках Рафаэля или в генетическом коде человека? Ответа на эти вопросы наука не даёт и, по всей вероятности, даст не скоро. А возможно ли объективно измерить количество информации? Важнейшим результатом теории информации является следующий вывод: В определенных, весьма широких условиях можно пренебречь качественными особенностями информации, выразить её количество числом, а также сравнить количество информации, содержащейся в различных группах данных.

   В настоящее время получили  распространение подходы к определению  понятия

"количество  информации", основанные на том, что информацию, содержащуюся в  сообщении, можно нестрого трактовать  в смысле её новизны или, иначе, уменьшения неопределённости наших  знаний об объекте. Эти подходы  используют математические понятия  вероятности и логарифма.

          Подходы к определению количества  информации.          Формулы Хартли и

Шеннона.

   Американский инженер Р. Хартли (2555.jpeg) в 1928 г. процесс получения информации

рассматривал как выбор одного сообщения из конечного наперёд заданного множества из N равновероятных сообщений, а количество информации I, содержащееся в выбранном сообщении, определял как двоичный логарифм N.

                          Формула Хартли: I = log2N

   Допустим, нужно угадать одно  число из набора чисел от  единицы до ста. По формуле

Хартли можно вычислить, какое количество информации для этого требуется: I = log2100 > 6,644. Таким образом, сообщение о верно угаданном числе содержит количество информации, приблизительно равное 6,644 единицы информации.

    Приведем другие примеры равновероятных  сообщений:

  1. при бросании монеты: "выпала  решка", "выпал орел";

  2. на странице книги: "количество  букв чётное", "количество букв  нечётное".

    Определим теперь, являются ли  равновероятными сообщения "первой  выйдет из

дверей здания женщина" и "первым выйдет из дверей здания мужчина". Однозначно ответить на этот вопрос нельзя. Все зависит от того, о каком именно здании идет речь. Если это, например, станция метро, то вероятность выйти из дверей первым одинакова для мужчины и женщины, а если это военная казарма, то для мужчины эта вероятность значительно выше, чем для женщины.

    Для задач такого рода американский  учёный Клод Шеннон предложил  в 1948 г.

другую формулу определения количества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе.

             Формула Шеннона: I = — ( p1log2 p1 + p2 log2 p2 + . . . + pN log2 pN),

  где pi — вероятность того, что именно i-е сообщение выделено в наборе из N

  сообщений.

    Легко заметить, что если вероятности p1, ..., pN равны, то каждая из них равна 1 / N, и

формула Шеннона превращается в формулу Хартли.

Вероятностный подход к количественному  
определению информации

Наиболее известным и широко применяемым на практике является вероятностный подход к измерению информации. На основе этого подхода разработан обширный раздел количественной теории информации, называемый также по имени его основоположника, как "теория информации Шеннона". Главной отличительной особенностью вероятностного подхода от комбинаторного является тот факт, что он основан на вероятностных допущениях относительно пребывания какой-либо системы в различных состояниях. При этом общее число элементов (микросостояний, событий) системы не учитывается. За количество информации здесь принимается снятая неопределенность выбора из множества возможностей, имеющих, в общем случае, различную вероятность.

Основополагающая роль в вероятностном подходе принадлежит энтропии множества вероятностей, формула которой была получена в 1948 году американским исследователем К. Шенноном. Предлагая для измерения количества информации свою знаменитую энтропийную меру, К. Шеннон руководствовался следующими соображениями.

"Предположим, что имеется  некоторое множество возможных  событий, вероятности осуществления  которых суть  . Эти вероятности известны, но это – все, что нам известно относительно того, какое событие произойдет. Можно ли найти меру того, насколько велик "выбор" из такого набора событий или сколь неопределенен для нас его исход?" [25, с. 259].

Для такой меры Н выдвигается требование: она должна обладать следующими тремя свойствами.

1. Н должна быть непрерывной относительно  .

2. Если все   равны, то Н должна быть монотонно возрастающей функцией от n.

3. Если выбор распадается  на два последовательных выбора, то первоначальная Н должна быть взвешенной суммой индивидуальных значений Н каждого из выборов.

Последнее свойство поясняется рисунком 3, где показаны две ситуации выбора из трех возможностей, имеющих вероятности  . В левой ситуации выбор любой возможности является однократным, а в правой ситуации в двух случаях из трех необходимо предварительно сделать соответствующий дополнительный выбор из двух равновероятных возможностей.

Рис. 3. Выбор из трех возможностей

Согласно третьему свойству в левой и правой ситуациях значения Н должны быть одинаковы, что выражается следующим образом:

,

где коэффициент 1/2 является весовым множителем, указывающим, что второй выбор выполняется только в половине случаев.

В процессе последующих исследований К. Шеннон доказал теорему: "Существует единственная функция Н, удовлетворяющая трем перечисленным выше свойствам. При этом Н имеет вид:

, ...............................................................(16)

где К – некоторая положительная постоянная" [25, с. 260].

Форма полученной функции Н проявила определенную степень подобия с термодинамической энтропией Больцмана, на основании чего и по совету Дж. Неймана [15] Шеннон назвал функцию Н энтропией множества вероятностей (см. примечание 1), утверждая при этом, что "она является разумной количественной мерой возможности выбора или мерой количества информации" [25, с. 262].

Нетрудно видеть, что в том случае, когда все вероятности равны между собой, информационная мера Шеннона сводится к двоичному логарифму Хартли от числа возможностей:

Последнее свидетельствует о том, что во взаимоотношениях вероятностного и комбинаторного подходов соблюдается принцип соответствия, согласно которому "новая теория, претендующая на более широкую область применимости, чем старая, должна включать последнюю как предельный случай" [18, с. 1257].

Отметим, что на основании информационно-энтропийной меры (16) содержательно оформилась и единица измерения количества информации, имеющая название "бит" (термин, предложенный Тьюки [25]). Причем в математическом отношении  , а в содержательной информационно-вероятностной интерпретации, исходя из того, что при   имеет место неравенство  , 1бит представляет собой максимальную энтропию выбора из двух возможностей. Менее строгим, но более распространенным, является понимание бита, как максимального количества информации, которое можно получить при ответе на вопрос в форме "да" - "нет".

Математический аппарат теории информации в версии Шеннона, основанный на функции (16), в настоящее время является весьма разработанным и разветвленным. Мы не будем заниматься его детальной характеристикой, поскольку в его рамках, главным образом, рассматриваются неразрывно связанные между собой совокупности событий (символов, элементов, состояний системы и т.п.). (Неразрывность обусловлена тем, что  ) В отношении информационно-количественной оценки системных объектов это означает, что речь идет о характеристике совокупности отражающих объектов в целом. Нас же сейчас интересует негэнтропийная оценка индивидуальной взаимосвязи отражаемого объекта с каким-либо отражающим объектом. Поэтому остановимся только на тех моментах теории Шеннона, которые имеют к этому отношение. Таких моментов в сущности два, и они связаны с так называемой частной информацией, содержащейся в отдельных событиях. Покажем эти моменты согласно работе Е.С. Вентцель [4].

Информация о работе Вероятностный подход к измерению информации