ИЗМЕРЕНИЕ ИНФОРМАЦИИ В ИС. СРАВНИТЕЛЬНЫЙ АНАЛИЗ МЕР ИНФОРМАЦИИ, ПРЕДЛАГАЕМЫЙ РАЗНЫМИ УЧЕНЫМИ - Студенческий научный форум

IX Международная студенческая научная конференция Студенческий научный форум - 2017

ИЗМЕРЕНИЕ ИНФОРМАЦИИ В ИС. СРАВНИТЕЛЬНЫЙ АНАЛИЗ МЕР ИНФОРМАЦИИ, ПРЕДЛАГАЕМЫЙ РАЗНЫМИ УЧЕНЫМИ

Книжиченко А.С. 1, Кочеткова О.В. 1
1ВолГАУ
 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF
В 2016 году общий мировой объем созданных и реплицированных человечеством данных составил более 3,8 зеттабайт (3,8 трлн Гб). По различным оценкам, объем информации в современном обществе увеличивается вдвое каждые два года. Настолько громадные объемы данных стали одними из движущих сил фундаментальных изменений в жизни общества, технологиях, науке и экономике. Поэтому все большую актуальность приобретают технологии по обработке и анализу «больших данных» (Big Data), которые позволяют проанализировать весь большой объем данных и выделить из него наиболее полезную информацию.

Для начала дадим определение такому понятию как «количество информации» – это числовая величина, которая адекватно характеризует актуализируемую информацию по сложности, разнообразности, структурированности (упорядоченности), определенности, выбору состояний отображаемой системы [1].

Если рассматривать некую систему, которая способна принять одно из n возможных состояний в данной системе, то актуальной задачей станет задача по оценке этого выбора (исхода). Этой оценкой может стать мера информации (события).

Мера, исходя из сказанного ранее – есть непрерывная действительная неотрицательная функция, которая определена на множестве событий и вместе с этим является аддитивной, говоря простыми словами, мера суммы равна сумме мер.

Меры информации бывают как статические, так и динамические, в зависимости от того, какую информацию с помощью них можно оценивать: статическую (не актуализированную; то есть оцениваются сообщения без учета ресурсных затрат и формы актуализации) или динамическую (актуализированную; оцениваются также и ресурсные затраты, задействованные для процесса по актуализации информации) [2].

Попытки измерения количества информации предпринимались на протяжении многих лет. Проблемой определения количества в свое время занимались такие видные деятели науки как Р. Хартли, К. Шеннон, А.А. Харкевич, и многие другие.

Рассмотрим меры информации, предложенные разными учеными. Еще в 1928 году был предложен научный подход к оценке сообщений. Р. Хартли предложил информацию, приходящуюся на одно сообщение, определять логарифмом общего числа возможных сообщений, таким образом расчетная формула имеет вид [4]:

или

где N количество равновероятных событий (число возможных выборов), I – количество информации.

Иногда формула Хартли записывается иным образом, если наступление каждого из N возможных событий имеет одинаковую вероятность, т.е. p = 1/N, N = 1/p, таким образом формула примет вид [4]:

Р. Хартли понимал, что сообщения имеют различную вероятность. Отсюда следует, что неожиданность появления сообщений для получателя как правило разная. Но, определяя количество информации, он пытался полностью исключить фактор «неожиданности». Поэтому формула, которую создал Хартли позволяет определить количество информации в сообщении только при условии, что вероятность появления символов одинакова и они статистически независимы. В практических условиях данная ситуация случается крайне редко. Поэтому во время определения количества информации необходимо учесть не только количество разных сообщений, полученных от источника, но и вероятность их получения.

В 1948 году Клод Шеннон предложил подход для более общего случая вычисления количества информации в сообщении об одном из N событий, но не равновероятных. Он получил наиболее широкое распространение при определении среднего количества информации, которое содержится в сообщениях от источников самого разного происхождения. Мера К. Шеннона имеет следующий вид [3]:

где n – число состояний системы; рi – вероятность (она же относительная частота) перехода системы в i-е состояние, при этом сумма всех pi будет равна единице.

Знак минус в формуле Шеннона не означает, что количество информации в сообщении – отрицательная величина. Это происходит из-за того, что вероятность р, по определению, меньше единицы, но больше нуля. Так как логарифм числа, меньшего единицы, то есть log pi – есть величина отрицательная, то произведение вероятности на логарифм числа будет иметь значение со знаком плюс.

Изучение отношений между знаками и их потребителями с точки зрения использования получаемой информации и влияния знаков на поведение систем составляет основу прагматической теории информации. Для всех подходов здесь характерно стремление связать понятие прагматической информации с целью, целенаправленным поведением и выдвинуть те или иные количественные меры ценности информации.

Исходя из выше означенных соображений, А.А. Харкевич предложил связать меру ценности информации с изменением вероятности достижения цели при получении этой информации [3]:

где р0 и р1 – вероятности достижения цели до и после получения информации соответственно.

Таким образом Харкевич первым подчеркнул фундаментальный характер связи прагматических свойств информации с категорией цели, понимаемой как опережающее отражение, модель будущего результата деятельности.

Поэтому можно сказать, что формула Хартли отвлечена от семантических и качественных, индивидуальных свойств рассматриваемой системы (информационные качества в проявлениях системы с помощью рассматриваемых N состояний системы). Это является основной положительной стороной этой формулы. Но так–же имеется недостаток в виде того, что не учитываются различия представленных N состояний системы.

В то же время главная положительная сторона формулы Шеннона заключается в ее отвлеченности от качественных и семантических, индивидуальных свойств рассматриваемой системы. В отличие от формулы Хартли, она учитывает различность состояний системы поэтому формула имеет статистический характер таким образом, учитывая и структуру сообщений, делающую данную формулу удобной с точки зрения практических вычислений. Главной отрицательным аспектом формулы Шеннона является то, что она не различает состояния, не способна оценивать состояния открытых и сложных систем, поэтому ее применение имеет смысл лишь для замкнутых систем.

Сравнение мер количества информации приведено в таблице1.

Таблица 1 – Сопоставление мер количества информации

 

Р. Хартли

К. Шеннон

А.А. Харкевич

Мощность множества состояний

учитывает

не учитывает

не учитывает

Учет факторов

не учитывает

учитывает

учитывает

Учет цели

не учитывает

не учитывает

учитывает

Таким образом, анализ табл. 1 позволяет утверждать, что:

  • формула Хартли учитывает количество классов, то есть мощность множества состояний объекта, но никак при этом не учитывает их признаков или факторов, переводящих объект в эти состояния, другими словами содержит интегральное описание объектов;

  • формула Шеннона основана на учете признаков (дискретное описание объектов);

  • формула Харкевича учитывает понятие цели и также, как и у Шеннона, основывается на статистике признаков, но не учитывает мощности множества будущих состояний объекта, включающего целевые и другие будущие состояния объекта и также как формула Шеннона основывается на дискретном описании объектов.

Поэтому формула А.А. Харкевича по учитываемым критериям имеет преимущества перед формулами Хартли и Шеннона, ввиду учета как факторов, так и понятия цели. Тем более, что формула Хартли, фактически является частным случаем формулы Шеннона при условии, когда все события равновероятны. Классическая теория информации Шеннона, значительно дополненная и обогащенная новыми подходами, все же не может охватить всего многообразия понятия информации и, в первую очередь, ее содержательного аспекта. Теория информации К. Шеннона также не занимается определением ценности информации. Количество информации ее интересует лишь с точки зрения возможности передачи данных сообщении оптимальным образом.

Следует отметить, что прагматические и семантические оценки информации очень часто трудно разделить. В некоторых случаях они сливаются, так как семантические оценки характеризуют смысл и содержательность сообщений, а прагматические – их ценность и полезность. Но, впрочем, очевидно, что сообщения без содержания, не несущие никакой смысловой нагрузки, быть полезными не могут.

В заключении следует отметить, что семантические и прагматические теории информации на практике могут быть применены к крайне небольшому числу явлений в реальной жизни. Но не стоит так же и забывать, что они помимо практического имеют еще и теоретическое значение. В борьбе идей, мнений, гипотез и выводов, в их соперничестве и сотрудничестве рождается истина.

Список использованной литературы

  1. Воройский Ф.С. Информатика. Энциклопедический словарь-справочник / Ф.С. Воройский. – М.: ФИЗМАТЛИТ, 2006. – 768 с.

  2. Луценко Е.В. Теоретические основы и технология адаптивного семантического анализа в поддержке принятия решений (на примере универсальной автоматизированной системы распознавания образов / Е.В. Луценко. – Краснодар: КЮИ МВД РФ, 1996. – 280с.

  3. Лекция 6: Меры информации в системе [Электронный ресурс]. – Режим доступа: http://www.intuit.ru – Загл. С экрана.

  4. Лекция – 4. Системная теория информации и семантическая информационная модель [Электронный ресурс]. – Режим доступа: http://lc.kubagro.ru/aidos/aidos04/1.2.2.htm – Загл. С экрана.

Просмотров работы: 447