Алфавитный подход к измерению информации. Алфавитный подход к измерению информации применяется в цифровых (компьютерных) системах хранения и передачи информации. При алфавитном подходе для определения количества информации имеет значение лишь размер (объем) хранимого и передаваемого кода.
Мощность алфавита можно вычислить по формуле:
(1.1)
где N – мощность алфавита; i – разрядов двоичного кода, которым кодируется алфавит.
Если, например, i = 2, то можно построить 4 двухразрядные комбинации из нулей и единиц, т.е. закодировать 4 символа
i=2: |
00 |
01 |
10 |
11 |
Таблица 1.1. 4 двухразрядные комбинации из нулей и единиц.
Длина двоичного кода, с помощью которого кодируется символ алфавита, называется информационным весом символа.
Информационный объем текста складывается из информационных весов всех составляющих текст символов.
(1.2)
где i– информационный вес символа алфавита; K – количество символов в тексте, записанном с помощью этого алфавита; I – информационный объем текста.
Помимо бита и байта, для измерения информации используются и более крупные единицы:
1 Кб (килобайт) = 210 байтов = 1024 байта;
1 Мб (мегабайт) = 210 Кб = 1024 Кб;
1 Гб (гигабайт) = 210 Мб = 1024 Мб;
1 Тб (терабайт) = 210 Гб = 1024 Гб.
Для измерения информации существует еще несколько различных подходов, статистические (вероятностные), семантические и прагматические.
Статистический (вероятностный) метод измерения информации был разработан в 1948 г. К. Шенноном, который предложил количество информации рассматривать как меру неопределенности состояния системы, снижаемой в результате получения информации. Количественно выраженная неопределённость получила название энтропии.
Если после получения некоторого сообщения наблюдатель приобрел дополнительную информацию о системе X, то неопределенность уменьшилась. Дополнительно полученное количество информации определяется как
(1.3)
где I(X) – дополнительное количество информации о системе X, поступившее в форме сообщения; Э(X) – начальная неопределенность (энтропия) системы X;Э(X) – конечная неопределенность (энтропия) системы X, наступившая после получения сообщения.
Если система X может находиться в одном из дискретных состояний, количество которых n, а вероятность нахождения системы в каждом из них равна Piи сумма вероятностей всех состояний равна единице, то энтропия вычисляется по формуле Шеннона:
(1.4)
где Э(X) – энтропия системы X; а–основание логарифма, определяющее единицу измерения информации; n-количество состояний (значений), в котором может находиться система.
Энтропия – величина положительная, а так как вероятность всегда меньше единицы, а их логарифм отрицательный, поэтому знак «минус» в формуле Шеннона делает энтропию положительной. Таким образом, за меру количества информации принимается та же энтропия, но с обратным знаком.
Взаимосвязь информации и энтропии можно понимать следующим образом: получение информации (ее увлечение) одновременно означает уменьшение незнания или информационной неопределенности (энтропии).
Рис 1. Взаимосвязь определенности и неопределенности
Таким образом, статистический подход учитывает вероятность появления сообщений: более информативным считается то сообщение, которое менее вероятно, т.е. менее всего ожидалось.
Количество информации достигает максимального значения, если события равновероятны. Докажем это утверждение для случая двух возможных событий. Действительно, при n=2 формула Шеннона примет вид
(1.5)
Значение этой функции меняет свой знак при P= 1/2, где и достигается максимум энтропии, а значит, и максимум количества информации, определяемой как разность максимальной и нулевой энтропии. Если все состояния системы равновероятны, т.е. , и в качестве единицы измерения информации выбрано число 2 (логарифм основания), то энтропия вычисляется следующим образом:
(1.6)
Р.Хартли предложил следующую формулу для измерения информации:
(1.7)
где I – мера информации в сообщение о наступлении одного из n событий;
n – количество равновероятных событий.
Измерение информации выражается в ее объеме. Чаще всего это касается объема компьютерной памяти и объема данных, предлагаемых по каналам связи. За единицу принято такое количество информации, при котором неопределенность уменьшается в два раза, такая единица информации получила название «бит». Если ячейка памяти компьютера способна в зависимости от внешнего воздействия принимать одно из двух состояний, которые условно обозначаются обычно как 0 и 1, то каждая цифра машинного двоичного кода несет количество информации, равное 1 юиту. Данный вывод можно сделать, если рассматривать цифры машинного алфавита как равновероятные события. При записи двоичной цифры можно реализовать выбор только одного из двух возможных состояний, а значит, она несет количество информации, равное 1 биту. Следовательно, две цифры в двух разрядах несут информацию 2 бита и т.д. То есть информационный объем сообщения – количество двоичных символов, используемое для кодирования этого сообщения.
Семантический подход. Синтаксической меры недостаточно, если требуется определить не объем данных, а количество нужной в сообщении информации. В этом случае рассматривается семантический аспект, позволяющий определить содержательную сторону сведений. Для измерения смыслового содержания информации можно воспользоваться тезаурусом ее получателя (потребителя). Идея тезаурусного метода была предложена Н. Винтеом и развита нашим отечественным ученым А.Ю. Шрейдором. Тезаурусом называется совокупность сведений, которыми располагает получатель информации. Соотнесение тезауруса с содержанием поступившего сообщения позволяет выяснить, насколько оно снижает неопределенность.
I
Imax
T0
Tопт
Tmax
T
Рис 2. Зависимость объема смысловой информации сообщения от тезауруса получателя
Согласно зависимости, представленной на графике, при отсутствии у пользователя какого-либо тезауруса(знаний о существе поступившего сообщении, т.е. T0 = 0) или наличия такого тезауруса, который не изменился в результате поступления сообщения (Tmax), объем семантической информации в нем равен нулю. Оптимальным будет такой тезаурус (Tопт), при котором объем семантической информации будет максимальны (Imax). Например, семантической информации в поступившем сообщении на незнакомом иностранном языке будет ноль, но и такая же ситуация будет в том случае, если сообщение уже не является новостью, так как пользователю все известно.
Прагматическая мера информации определяется ее полезность в движении потребителем своих целей. Для этого достаточно определить вероятность достижения цели до и после получения сообщения и сравнить их. Ценность информации (по А.А. Харкевичу) рассчитывается по формуле:
(1.8)
где P0, P1 – вероятность достижения цели соответственно до и после получения сообщения.
Библиографический список.
Одинцов Б.Е., Романов А.Н Информатика [Текст]: Учебное пособие / Под ред. Б.Е. Одинцова, А.Н. Романова. - 2-e изд., перераб. и доп. - М.: Вузовский учебник: НИЦ Инфра-М, 2012. - 410 с.
http://www.ido.rudn.ru/nfpk/inf/inf2.html [Электронный рессурс]
Семакин И.Г. Информатика [Текст]: Углубленный уровень: учебник для 10 класса : в 2 ч. Ч. 1 / И.Г. Семакин, Т.Ю. Шеина, П.В. Шестакова. – М. : БИНОМ. Лаборатория знаний, 2014. – 184с.