uzluga.ru
добавить свой файл



Информатика 07


Лекция 07. Теория информации - 1


Ключевые слова настоящей лекции

понятия информации, материальный и идеалистичный аспекты, информация с физической, синтаксической, семантической и прагматической точек зрения, код, алфавит, формулы Хартли и Шеннона, бит, вероятность и неопределенность в структуре сигнала, понятия энтропии и информации в кодировании


«Теория информации» еще более расплывчатое понятие, чем информация. В обычном понимании – это математическая теория сигналов, разработанная Шенноном. Однако в последние 50 лет к этой теории добавилось множество логико-философско-методологических построений. рассматривающих понятие информации очень широко – не столько как «сообщение, но как основу мироздания.

Из множества формулировок, рассмотренных на семинарах и в лекциях можно сложить одно максимально простое и емкое: информация – это сигнал, несущий смысл. Термин Сигнал передает материальное содержание акта передачи информации (материализованный код или материальная модель), термин Смысл призван отобразить идеальную составляющую любого сообщения (образ, мысль). (Следуя Аристотелю, здесь «материя» и «энтелехия» соединились в «целое»). Говорить об информации, не имея в виду материальный носитель, невозможно. Одновременно и говорить о сигнале как таковом, у которого отсутствует содержание, значит говорить не об информации, но о чем-то другом (о данных). Однако, зная о взаимной зависимости этих сторон информации, вполне можно уделить внимание отдельно каждой слагаемой. В первую очередь это означает, что нужно навести порядок в терминах.

Если информация это материализованный смысл, то ни материальное (сигнал, код, данные), ни идейное (смысл, мысль, содержание) не являются порознь информацией. К сожалению, в рассуждениях очень многих авторов слово информация используется для обозначения в равной мере и кода, и мысли, и закодированной мысли (собственно информации). Это вносит большую путаницу в данный вопрос. Чего стоят, например, такие дефиниции (http://ru.science.wikia.com/wiki/Теория информации):

«Информация наряду с материей и энергией является первичным понятием нашего мира и поэтому в строгом смысле не может быть определена. Можно лишь перечислить ее основные свойства, например такие как:

^ 1) информация приносит сведения, об окружающем мире которых в рассматриваемой точке не было до ее получения;

2) информация не материальна, но она проявляется в форме материальных носителей дискретных знаков или первичных сигналах;

^ 3) знаки и первичные сигналы несут информацию только для получателя способного распознать.»

Во-первых, информация (и материя, и энергия) не является первичным понятием даже для материалистической науки, поскольку наука многие столетия существовала и развивалась без этого понятия! Можно было бы думать, что только после введение этого понятия Шенноном стала развиваться компьютерная техника, необходимая для современных научных исследований. Но и это не верно, поскольку шенноновская «Теория информации» по сути есть «Теория проведения сигнала» (см. лекцию ниже), да и появилась она значительно позже появления первых и довольно мощных компьютеров (см. лекцией выше). Стало быть, информации вполне можно дать какое-то определение. (Кстати, для религиозной науки первичным понятием является «Дух», но попробуйте предложить им замену – «Информация»).

Во-вторых, автор совершенно запутался в том, «кому нести чего куда»: сигналы несут информацию, а информация приносит сведения (а что такое сведения?), хотя она и не материальна и нести ничего не может. Здесь наблюдается не только логический, но и тавтологический круг, выявляющий полное бессилие автора разобраться в вопросе.

С точки зрения системного подхода, нужно понять цель нашего построения (исследования) и давать дефиниции, относящиеся не ко всем объектам вообще (считая, что мы исторгаем истину в последней инстанции), но только применительно к теме разговора. Цель курса «Информатика для биологов» состоит в том, чтобы для решения научных задач понять работу компьютера, который, по мнению многих, обрабатывает (собирает, накапливает, модифицирует, перерабатывает, обобщает, оформляет, передает, представляет...) информацию. Соответственно, нам надо определить то, что именно обрабатывает компьютер.

Во-первых, понятно, что компьютер, как электронное устройство, пропускает через себя энергию в виде слабых токов, которые и формируют, в конечном итоге, буквы, слова, картинки и пр. материальные символы (сигналы), за которыми. в свою очередь, стоит некий понятный и востребованный смысл. С этой точки зрения информация в компьютере материальна.

Во-вторых, компьютер в состоянии автоматически обработать некие символы (числа, слова, знаки, карты) таким образом, что смысл исходных данных может измениться – увеличится, сконцентрироваться – достаточно вспомнить расчет средней арифметической, в обобщенном виде характеризующую множество вариант, или процесс проверки орфографии набираемого в Word’е текста. Смысл может и утратиться, как например, при генерализации картографических изображений или при расчете средней (информация об особенностях каждой варианты нивелируется!). Это значит, что в компьютер (в форме программ) заложен мощный смысловой анализатор, который не только распознает содержание потока электрических импульсов, но способен так их переорганизовать, чтобы их ценность (в глазах человека или относительно управляемого процесса) возросла и послужила мотивацией для определенной деятельности (в виде поступков или управляющих команд). С этой точки зрения переработка информации выполняется «осмысленно», точнее говоря, в компьютере автономно работают замыслы человека.

Таким образом, мы и приходим к дефиниции:

информация – сигнал, несущий смысл (материальная модель идеи).

Слово «информация» используется как омоним, обозначающий разные понятия – и собственно информацию, и сигнал, и смысл. По этой причине при обсуждении «информации» в научном контексте следует всегда оговаривать, о каком именно понятии идет речь.


^ Структура передачи связи

С теоретической точки зрения в основе любой информационной системы закладывается блок связи, включающий пять компонентов, связанных четырьмя потоками (Экоинформатика, 1992).




Цикл информационного процесса состоит в следующем. Источник обладает некоторой идеей, мыслю, теорией, выраженной на специфическом языке (у человека – на человеческом, у природы – на языке структуры природных объектов). Передатчик воспринимает текст, описывающий это знание, и превращает его в последовательность физических сигналов, которые удобно (возможно, получается) передавать по каналам связи, и передает эти данные (кодированное сообщение, множество сигналов). В канале связи происходит или не происходит частичная потеря сигналов, нарушение последовательности кодов, вызванная Шумом. Смысл сигнала состоит в том, чтобы индуцировать в Приемнике требуемое физическое состояние, физически воспроизвести коды переданного сообщения. Когда к концу сеанса связи становиться точно известна последовательность сигналов, эти данные воспринимаются Получателем. Степень восприятия полученного сообщения зависит от способности Получателя его осмыслить, понять содержание. Часто информация передается и воспринимается для удовлетворения каких-то потребностей Получателя (востребованная информация). Иногда она может быть избыточной и ненужной (как, например, звуки за окном). Процессы 1 и 4 (кодирование и декодирование) состоят в том, чтобы выразить некий смысл сообщения в кодах и, напротив, осмысленно интерпретировать «понять» полученные коды. Поток 2 есть физический процесс передачи сигналов по каналам связи. При этом и собственные свойства канала связи и окружающая его среда зачастую влияют на качество сигнала (поток 3), физическим образом вносит искажения в кодовые последовательности. Поток 4 есть еще и процесс усвоения, понимания смысла полученного сообщения, а поток 5 – применение полученных знаний на практике.

Приведенное описание позволяет дать несколько рабочих определений.

^ Знание, идея, мысль, сведения, теория, смысл – идеальные образы (модели) объектов внешнего мира, сформированные в сознании человека.

Сигнал, данные, сообщение, код – физические объекты (например, звук, изображение символа, бугорок на ровной поверхности…), с помощью которых можно передать мысли, соображения, идеи. Пока смысл остается неясным, данные, сообщения, сигналы не считаются информацией. Информация – это результат взаимодействия сигнала и идеи. Получается, что информация существует в активной информационной машине (компьютер, мозг). За их пределами все – лишь сигналы, данные.

Код – правило сопоставления определенному содержанию (сообщению, идее) строго определенной комбинации знаков (символов, сигналов); очевидно, что человек пользуется иерархией кодов; мысль предается словом (звуковой код), записывается словоформой (символьный код), в компьютере передается битами (битовый код),

(^ Код, или программа – комбинация символов сигналов, несущих смысл, например, задающих алгоритм обработки информации)

Кодирование – процесс преобразования знаний (сведений, мыслей), из формы, удобной для использования, в форму, удобную для передачи.

Информация – понятый сигнал.

Рассматривая разные компоненты представленной схемы передачи сигнала, можно увидеть, что проблема передачи информации распадается на четыре отдельных вопроса:

  • основы кодирования и декодирования, алфавит и синтаксис сообщений

(связь 1, 4, взаимодействие отправителя и передатчика, приемника и получателя),

  • физический аспект передачи сигнала, организация передачи и восприятия

(связь 2, 3, взаимодействие передатчика, среды и приемника),

  • семантический аспект: степень усвоения получателем переданной информации

(вторая часть связи 4),

  • прагматический аспект: ценность информации для получателя

(взаимодействие Отправителя и Получателя – какова была цель передачи).


Используя эффективную бинарную логику, стоит построить древо понятий, которые будут обсуждаться ниже.


Вариант 1


Вариант 2




^ I.

Алфавит и синтаксис сообщений.

Кодировании и декодирование


В этом разделе понятие информации рассмотрено только в отношении к паре Передатчик – Приемник, но не к паре Источник – Получатель.

В широком, логическом, смысле слова, алфавит – это определенный набор символов, из комбинации которых составляется сообщения (слова и предложения). В логике формальные правила составления слов и предложений из алфавита называется синтаксисом (греч. syntaxis — построение, порядок). Введем обозначения:

m – объем алфавита символов,

n – длина одного слова (число символов в слове)

K – количество кодируемых понятий.

Каждый символ кодирует определенное явление природы или мысль. Отдельный символ из алфавита отличается от любого другого и позволяет различать разные понятия. Например, понятие десятичного числа можно передать одним из десяти символов (0, 1, … 9), объем алфавита m = 10. Любое из десяти десятичных чисел можно передать, используя только один символ (из алфавита m = 10), одну цифру (10 = 101). Для различения ста десятичных чисел (0, 1, …99 – что разных понятий, K = 100) требуется передать всего два символа (100 = 102). Для различения тысячи значений – три символа (1000 = 103).


^ Мера информации Хартли

На примере кодирования десятичных чисел хорошо видно, что соотношение между количеством кодируемых понятий (все десятичные числа, всего K) и длиной кода (число позиций в кодовом слове, количество информации, всего n) выражается степенной функцией K = mn. В десятичной системе счисления сто чисел можно выразить словом длиной два символа (n = 2) из алфавита объемом m = 10 символов, или 100 = 102.

Эта идея позволило ^ Р. Хартли предложить меру информации I = log K = nlogm.

Для нашего (десятичного) случая I = lg K = n∙lg m = lg 100 = 2∙lg 10 = 2.

Формула Хартли определяет количество информации, содержащееся в сообщении, как логарифм от числа закодированных понятий.

Ральф Винтон Лайон Хартли (англ. Ralph Vinton Lyon Hartley, родился 30 ноября 1888 в Ели, штате Невада, умер 1 мая 1970). Американский учёный-электронщик. Он предложил генератор Хартли, преобразование Хартли и сделал вклад в теорию информации, введя в 1928 логарифмическую меру информации I = log K, которая называется хартлиевским количеством информации.


Поскольку заранее неизвестно, какое число будет передано, то до приема сообщения, существует неопределенность, которую и выражает формула Хартли. Степень неопределенности исхода испытания (передачи по каналу связи) задается логарифмом от числа возможных исходов log K. Эта мера равна нулю при отсутствии неопределенности (при наличии полной определенности возможен только единственный исход) K = 1 (log1 = 0) и увеличивается при росте возможных исходов (при K → ∞) (logK > 0 при K > 1). После передачи сообщения неопределенность полностью снимается, и объем полученной информации принимается равным размеру снятой неопределенности: I = log K.

Для измерения информации Хартли предложил использовать двоичный код, когда число символов в алфавите равно всего двум m = 2, но слово имеет произвольную длину n. Тогда формула принимает вид I = log2 K.

В этом случае единицей устанавливается то количество информация, которое получена при отправке сообщения всего с двумя вариантами значений (K = 2) – 0 или 1, т. е. I = log2 2 = 1. Эту единицу информации Джон Туки (Tukey) назвал бит (bit), а Шаннон использовал и распространил это название. Существует несколько версий истоков этой аббревиатуры. По-английски, bit – это «немного». Есть варианты происхождения этого слова от начальных букв разных английских слов: binary unit (бинарная или двоичная единица), binary digit (двоичная цифра), base indissoluble information unit (не делимая далее единица информации).

Итак, если К – это количество равновероятных событий, то Iколичество бит в сообщении, что какое-то одно из К событий произошло. В нашем примере, получив сообщение с числом от 0 до 99, мы тем самым получаем I = log2 100 = 6.643856 бит информации. На каждый из двух передаваемых символов (из набора цифр 0, 1, .... 9) приходится по I = log2 10 = 3.321928 бита, на оба – 3.321928 + 3.321928 = 6.643856. Иными словами, количество информации накапливается и суммируется.


Информация как мера снятой неопределенности

Следует иметь в виду, что введенные выше понятия мера информации и количество информации характеризуют только синтаксис, структуру цепочки символов (слов алфавита), но не смысл, который эти символы несут. Это частное понятие информации связано только с разнообразием структуры, непредсказуемостью сообщений, но не с его ценностью для Получателя. Правильнее этот раздел науки следовало бы называть Теорией передачи данных (сигналов). Авторами теории информации это понятие было ведено для исследования сложности передачи сигналов по каналам связи, для измерения допустимых объемов передачи и для оценки потерь при зашумлении сигнала, идущего по каналу связи. С той позиции одинаково сложно передавать без потери структуры как содержательные, так и бессмысленные сообщения. И даже более того, бессмысленные сообщения (например, поток случайных чисел или случайных комбинаций букв) имеют более информативную структуру, чем содержательные. Например, слова русского языка обычно состоят из слогов, где соседствуют согласная и гласная буквы. Следовательно, при восприятии осмысленного текста вероятность появления гласной буквы после согласной выше, чем появление второй гласной. В этом случае неопределенность ожиданий от передачи очередной буквы несколько ниже, чем при трансляции случайных последовательностей букв. Раз неопределенность ниже, то и количество полученной информации будет меньше. Рассмотренное количество информации есть мера сложности структур, предлагаемых восприятию. Иными словами, это понятие информации относится только к паре Передатчик – Приемник, но не к паре Источник – Получатель.

Второй аспект состоит в том, что в результате передачи информации неопределенность в Приемнике не исчезает полностью, она уменьшается на объем, равный объему полученной информации. Общую неопределенность (степень дезорганизованности) называют энтропия (по аналогии с термодинамическим понятием энтропии, характеристикой хаотичности с системе).

Энтропия - мера внутренней неупорядоченности информационной системы. Энтропия увеличивается при хаотическом распределении информационных ресурсов и уменьшается при их упорядочении. Энтропия термодинамической системы определяется как натуральный логарифм от числа различных микросостояний Z, соответствующих данному макроскопическому состоянию (например, состоянию с заданной полной энергией) S = k ln Z. Коэффициент пропорциональности k и есть постоянная Больцман

Информация – это то, что уменьшает энтропию, а количество информации определяется как различие между двумя значениями энтропии системы, оцененными в два момента времени – до (t1) и после (t2) получения сообщения:

I = H1 – H2.

Введенная мера неопределенность может эффективно использоваться в биологии, когда требуется дать структурную характеристику какой-либо биосистемы, оценить биоразнообразие. Если число видов одном местообитании больше, чем в другом, то тем больше здесь биоразнообразие. Так, для сообщества, состоящего из 18 видов мелких млекопитающих Прибайкалья имеем меру разнообразия H = log2(18) = 4.17. Можно сказать и так, что эта мера характеризует ситуацию с отловом (учетом) очередной особи, которая может принадлежать к одному из K видов многовидового сообщества. Объем информации, полученной в результате учетов, составит I = log2K = log2(18) = 4.17 бит.


^ Информационная мера Шеннона

Для более понимания существа формулы Шеннона необходимо воспользоваться элементарными понятиями теории вероятности. Вероятность – численная мера возможного; отношение числа исходов определенного вида к общему числу возможных исходов. Если известно, что состоится передача сообщения о двузначном десятичном числе, то мы может предполагать 100 вариантов (от 00, 01, … до 99). Априорная вероятность получения любого из этих чисел равна p = 1 / 100 = 0.01 (это равновероятные события).

Формула Хартли учитывает ситуацию с поступлением равновероятных сигналов (вероятность появления на входе для любой буквы алфавита равны). Однако в любых осмысленных сообщениях, например, составленных из букв, образующих слова, это условие нарушается, разные буквы имеют в языке разную частоту использования (в русском язвке самая часта буква – е) и, следовательно, разную вероятность появления в сообщении. (То же и с природными объектами: поскольку значения численность разных видов не одинаковы, то и вероятности отловить особь того или иного вида различаются.)

Для учета этого эффекта К. Шеннон предложил свою меру неопределенности, основанную на формуле Хартли: H = –Σpi ∙log2 pi. В ней вычисляется та доля общей неопределенности ситуации (pi), которая приходится на каждый i символ сообщения, а затем все эти оценки неопределенности частных событий суммируются.

Для наглядности продолжим пример с оценкой структуры многовидового сообщества мелких млекопитающих (как сообщения исследователю-биологу от матушки-природы). Если каждый вид имеет численность равную со всеми прочими видами, т. е. одинаковую с прочими видами представленность в ценозе (K видов), то вероятность обнаружить в уловах особь любого вид при очередном отлове составляет , а доля неопределенности исхода отлова, приходящаяся на один вид, составит: от полной неопределенности Н. Из правил логарифмирования известно, что . Тогда для отдельного вида имеем: .

На практике значимость видов оценивается с использованием показателей обилия, биомассы и пр., то есть как отношение видовой характеристики к суммарной: , при равенстве значимостей имеем: . Тогда неопределенность обнаружения одного вида составит , а неопределенность всей ситуации в целом, точнее, полное разнообразие возможных исходов наблюдений, и составляет искомый индекс разнообразия Шеннона (индекс 2 указывает на использование двоичного логарифма). Для 18 видов имеем по отдельности , , а в целом= 4.17. Иными словами, при полностью выровненном сообществе индекс Шеннона равен своему максимальному значению. выраженному формулой Хартли – логарифму числа видов H = log(K).

Когда же значимости видов отличаются и выявляется группа немногих доминирующих видов, то ситуация становится менее неопределенной – при отловах, скорее всего, будут попадаться особи многочисленных видов. При использовании реальных данных учетов mammalia в Прибайкалье, индекс видового богатства составил H2 = 2.612 < 4.17. Иными словами, возможное разнообразие исходов ситуации становится меньше, что и будет отображать индекс: если n1 >> ni >… > nK, то H < log2(K).

Этот вывод относится и к ситуации с передачей сигналов по каналам связи: чем сильнее отличаются вероятности появления в приемнике сигналов определенного вида, тем более банальное (менее информативное) сообщение мы получаем. Полностью прогнозируемое сообщение не несет никакой информации (нечего прибавить к тому, что уже знали).


^ Лаконичность или выравненность

В качестве дополнительной меры предлагается относительный коэффициент информативности (степень лаконичности) сообщения: E = H / log2(K). Величина log2(K) соответствует ситуации, когда вероятность принимаемых сигналов одинакова, а информативность сообщения, следовательно, максимальна. Когда вероятности вариантов сообщения не одинаковы, то шенноновская мера H будет меньше log2(K) (и равна нулю при доминировании единственного значения). Таким образом, степень лаконичности варьирует от 0 до 1, характеризуя средства выражения смысла со структурной точки зрения. В биологии этот показатель называет Выравненность, который характеризует качество среды и выраженность конкурентных отношений в сообществе организмов. Показано, что при разнообразных и благоприятных условиях обитания (тропические леса) значения численности (и биомассы), следовательно, и выравненность видов разных групп очень велики и приближаются к E = 1. Напротив, в арктических областях и аридных зонах подавляющим образом доминируют очень немногие виды, а выравненность такого сообщества крайне низка.

Рассчитать выравненность по прическам или цвету волос: очень длинные, длинные, средние, короткие, очень короткие; брюнеты, темные (рыжие. каштановые), шатены, светлые, блондины ...

В показателе биоразнообразия часто используют разные основания логарифмов (2, e, 10). Двоичные логарифмы (log2 x) имеют отношение к теории передачи двоичного сигнала (0 и 1) и удобны для анализа дихотомии, но в биологических приложениях отходят в сторону. Десятичные логарифмы (log10 x = lg x) ассоциированы с десятичной шкалой и используются чаще, особенно в иллюстративных целях. Натуральные логарифмы (loge x = ln x) связаны с тригонометрическими функциями и используются шире предыдущих, в частности, формулы статистического сравнения индексов Шеннона базируются именно на них. При использовании разных оснований логарифмов значения индекса Шеннона будут отличаться (это важно иметь в виду при сравнении индексов из разных литературных источников). В примере для двоичных логарифмов получили H = 2.61, для натуральных H = 1.81.

С помощью индекса Шеннона можно проводить статистическое сравнение двух сообществ. В этом случае сравнивается сам характер выравненности коллекции, а не доля тех или иных видов в сравниваемых группировках (сравнивается ход кривых доминирования-выравненности, а не два частотных распределения). Для примера сравним логарифмические характеристики () выравненности двух кривых доминирования-разнообразия – коллекций животных, полученных при отловах давилками и канавками. Для этого используется критерий Стьюдента: ,

где  – статистическая ошибка.

Табличное значение отыскивается для данного уровня значимости (обычно α = 0.05) и числа степеней свободы .



Рис. Разные виды распределений видов в ценозе и шенноновский показатель видового разнообразия (равномерное – 4.17, случайное – 3.96, геометрическое – 2.86, резко доминирующее – 0.12)


Экономия

Шенноновская мера информативности может помочь и в определении оптимально способа передачи сообщения. Если возможные сообщения не равновероятны, то для идентификации наиболее вероятных кандидатов разумнее использовать более короткие последовательности кодов. При этом за оду единицу времени удастся передать большее число сообщений, или, что то же самое, при рациональном кодировании для передачи одного и того же сообщения потребуется потратить меньшее число битов. Это согласование имеется уже в коде Морзе, где чаще встречающиеся буквы обозначаются более короткими комбинациями точек и тире. Другой пример – клавиатура пишущей машинки и компьютера, на которой часто встречающиеся буквы расположены по центру и для из нажатия требуется более короткий ход пальцев. Сюда же относится и вывод теории обслуживания: чтобы обслужить большее число клиентов, нужно в первую очередь обслуживать тех, на кого приходится тратить меньше времени (в первую очередь решать более простые проблемы).