ИЗМЕРЕНИЕ ИНФОРМАЦИИ - Студенческий научный форум

X Международная студенческая научная конференция Студенческий научный форум - 2018

ИЗМЕРЕНИЕ ИНФОРМАЦИИ

Незнайкин В.А. 1
1ФГБОУ ВО "Волгоградский ГАУ" ИНО
 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF
Информационная деятельность людей связана с реализацией информационных процессов: с хранением, передачей и обработкой информации. При этом важно уметь измерять количество информации. Для измерения чего-либо должна быть определена единица измерения. Например, единицей измерения массы служит килограмм, единицей измерения времени – секунда, единицей измерения расстояния – метр.

Алфавитный подход к измерению информации. Алфавитный подход к измерению информации применяется в цифровых (компьютерных) системах хранения и передачи информации. При алфавитном подходе для определения количества информации имеет значение лишь размер (объем) хранимого и передаваемого кода.

Мощность алфавита можно вычислить по формуле:

(1.1)

где N – мощность алфавита; i – разрядов двоичного кода, которым кодируется алфавит.

Если, например, i = 2, то можно построить 4 двухразрядные комбинации из нулей и единиц, т.е. закодировать 4 символа

i=2:

00

01

10

11

Таблица 1.1. 4 двухразрядные комбинации из нулей и единиц.

Длина двоичного кода, с помощью которого кодируется символ алфавита, называется информационным весом символа.

Информационный объем текста складывается из информационных весов всех составляющих текст символов.

(1.2)

где i– информационный вес символа алфавита; K – количество символов в тексте, записанном с помощью этого алфавита; I – информационный объем текста.

Помимо бита и байта, для измерения информации используются и более крупные единицы:

1 Кб (килобайт) = 210 байтов = 1024 байта;

1 Мб (мегабайт) = 210 Кб = 1024 Кб;

1 Гб (гигабайт) = 210 Мб = 1024 Мб;

1 Тб (терабайт) = 210 Гб = 1024 Гб.

Для измерения информации существует еще несколько различных подходов, статистические (вероятностные), семантические и прагматические.

Статистический (вероятностный) метод измерения информации был разработан в 1948 г. К. Шенноном, который предложил количество информации рассматривать как меру неопределенности состояния системы, снижаемой в результате получения информации. Количественно выраженная неопределённость получила название энтропии.

Если после получения некоторого сообщения наблюдатель приобрел дополнительную информацию о системе X, то неопределенность уменьшилась. Дополнительно полученное количество информации определяется как

(1.3)

где I(X) – дополнительное количество информации о системе X, поступившее в форме сообщения; Э(X) – начальная неопределенность (энтропия) системы X;Э(X) – конечная неопределенность (энтропия) системы X, наступившая после получения сообщения.

Если система X может находиться в одном из дискретных состояний, количество которых n, а вероятность нахождения системы в каждом из них равна Piи сумма вероятностей всех состояний равна единице, то энтропия вычисляется по формуле Шеннона:

(1.4)

где Э(X) – энтропия системы X; а–основание логарифма, определяющее единицу измерения информации; n-количество состояний (значений), в котором может находиться система.

Энтропия – величина положительная, а так как вероятность всегда меньше единицы, а их логарифм отрицательный, поэтому знак «минус» в формуле Шеннона делает энтропию положительной. Таким образом, за меру количества информации принимается та же энтропия, но с обратным знаком.

Взаимосвязь информации и энтропии можно понимать следующим образом: получение информации (ее увлечение) одновременно означает уменьшение незнания или информационной неопределенности (энтропии).

Рис 1. Взаимосвязь определенности и неопределенности

Таким образом, статистический подход учитывает вероятность появления сообщений: более информативным считается то сообщение, которое менее вероятно, т.е. менее всего ожидалось.

Количество информации достигает максимального значения, если события равновероятны. Докажем это утверждение для случая двух возможных событий. Действительно, при n=2 формула Шеннона примет вид

(1.5)

Значение этой функции меняет свой знак при P= 1/2, где и достигается максимум энтропии, а значит, и максимум количества информации, определяемой как разность максимальной и нулевой энтропии. Если все состояния системы равновероятны, т.е. , и в качестве единицы измерения информации выбрано число 2 (логарифм основания), то энтропия вычисляется следующим образом:

(1.6)

Р.Хартли предложил следующую формулу для измерения информации:

(1.7)

где I – мера информации в сообщение о наступлении одного из n событий;

n – количество равновероятных событий.

Измерение информации выражается в ее объеме. Чаще всего это касается объема компьютерной памяти и объема данных, предлагаемых по каналам связи. За единицу принято такое количество информации, при котором неопределенность уменьшается в два раза, такая единица информации получила название «бит». Если ячейка памяти компьютера способна в зависимости от внешнего воздействия принимать одно из двух состояний, которые условно обозначаются обычно как 0 и 1, то каждая цифра машинного двоичного кода несет количество информации, равное 1 юиту. Данный вывод можно сделать, если рассматривать цифры машинного алфавита как равновероятные события. При записи двоичной цифры можно реализовать выбор только одного из двух возможных состояний, а значит, она несет количество информации, равное 1 биту. Следовательно, две цифры в двух разрядах несут информацию 2 бита и т.д. То есть информационный объем сообщения – количество двоичных символов, используемое для кодирования этого сообщения.

Семантический подход. Синтаксической меры недостаточно, если требуется определить не объем данных, а количество нужной в сообщении информации. В этом случае рассматривается семантический аспект, позволяющий определить содержательную сторону сведений. Для измерения смыслового содержания информации можно воспользоваться тезаурусом ее получателя (потребителя). Идея тезаурусного метода была предложена Н. Винтеом и развита нашим отечественным ученым А.Ю. Шрейдором. Тезаурусом называется совокупность сведений, которыми располагает получатель информации. Соотнесение тезауруса с содержанием поступившего сообщения позволяет выяснить, насколько оно снижает неопределенность.

 

I

 

 

Imax

 

 

T0

Tопт

Tmax

T

 

Рис 2. Зависимость объема смысловой информации сообщения от тезауруса получателя

Согласно зависимости, представленной на графике, при отсутствии у пользователя какого-либо тезауруса(знаний о существе поступившего сообщении, т.е. T0 = 0) или наличия такого тезауруса, который не изменился в результате поступления сообщения (Tmax), объем семантической информации в нем равен нулю. Оптимальным будет такой тезаурус (Tопт), при котором объем семантической информации будет максимальны (Imax). Например, семантической информации в поступившем сообщении на незнакомом иностранном языке будет ноль, но и такая же ситуация будет в том случае, если сообщение уже не является новостью, так как пользователю все известно.

Прагматическая мера информации определяется ее полезность в движении потребителем своих целей. Для этого достаточно определить вероятность достижения цели до и после получения сообщения и сравнить их. Ценность информации (по А.А. Харкевичу) рассчитывается по формуле:

(1.8)

где P0, P1 – вероятность достижения цели соответственно до и после получения сообщения.

Библиографический список.

  1. Одинцов Б.Е., Романов А.Н Информатика [Текст]: Учебное пособие / Под ред. Б.Е. Одинцова, А.Н. Романова. - 2-e изд., перераб. и доп. - М.: Вузовский учебник: НИЦ Инфра-М, 2012. - 410 с.

  2. http://www.ido.rudn.ru/nfpk/inf/inf2.html [Электронный рессурс]

  3. Семакин И.Г. Информатика [Текст]: Углубленный уровень: учебник для 10 класса : в 2 ч. Ч. 1 / И.Г. Семакин, Т.Ю. Шеина, П.В. Шестакова. – М. : БИНОМ. Лаборатория знаний, 2014. – 184с.

Просмотров работы: 106