Измерение информации
Как и любую другую физическую величину, информацию можно измерить. Существуют разные подходы к измерению информации. Один из таких подходов рассматривается в курсе информатики для 7 класса.
Что такое измерение информации
При измерении информации необходимо учитывать как объем передаваемого сообщения, так и его смысловую нагрузку. В этом смысле в информатике существуют разные подходы к измерению информации.
Алфавитный подход к измерению информации
Методы оценки объема информации могут учитывать или не учитывать смысл информационного сообщения.
Один из способов определения количества информации основан на определении веса каждого символа в тексте сообщения. При таком подходе объем сообщения зависит от количества знаков в тексте, чем больше тест, тем тяжелее информационное сообщение. При этом совершенно не важно, что написано, какой смысл имеет сообщение. Поскольку определение количества информации привязано к единицам текста: буквам, цифрам, знакам препинания, такой подход к измерению информации называется алфавитным.
Вес отдельного символа зависит от его номера в алфавите. Количество символов в алфавите называется мощностью (N). Например, мощность английского алфавита по количеству знаков — 26, русского языка — 33. Но на самом деле при написании текста используются прописные и строчные буквы, а также знаки препинания, пробелы и спец невидимые символы, обозначающие конец абзаца и перевод на новую строку. Следовательно, это емкость 128 или в расширенной версии 256 символов.
Рис. 1. Таблица символов — латиница.
Бит, байт и другие единицы измерения
Для двоичного алфавита, состоящего из двух символов: нуля и единицы, степень алфавита будет равна 2. Вес символа двоичного алфавита выбирается в качестве минимальной единицы информации и называется «бит». Происхождение термина «бит» происходит от английского слова «binary», что означает двоичный.
Восемь бит составляют байт.
Название «байт» было придумано в 1956 г. В. Бухгольцем при проектировании первого суперкомпьютера. Слово «байт» было получено путем замены второй буквы в согласном слове «укус» во избежание путаницы с уже существующим термином «бит».
Рис. 2. Портрет Вернера Бухгольца.
На практике количество информации выражается в более крупных единицах: килобайтах, терабайтах, мегабайтах.
Помните, что килобайт равен 1024 байтам, а не 1000. Как, например, 1 километр равен 1000 метрам. Это различие связано с тем, что 1 байт равен 8 битам, а не 10.
Чтобы легче было запомнить единицы измерения, следует воспользоваться таблицей силы двойки.
Таблица степеней двойки
Экспонента |
Значение |
а |
два |
два |
4 |
3 |
8 |
4 |
шестнадцать |
5 |
32 |
6 |
64 |
7 |
128 |
8 |
256 |
9 |
512 |
10 |
1024 |
двадцать |
1048576 |
Рис. 3. Единицы измерения информации.
То есть 23 = 8 — это 1 байт, состоящий из 8 бит, 210 = 1024 — это 1 килобайт, 220 = 1048576 — это 1 мегабайт, 230 = 1 гигабайт, 240 = 1 терабайт.
Определение количества информации
Вес символа (i) и мощность алфавита (N) связаны соотношением: 2i = N.
Таким образом, алфавит емкостью 256 символов имеет вес каждого символа 8 бит, то есть один байт. Это означает, что на каждую букву приходится один байт. В этом случае нетрудно определить, сколько весит весь текст зашифрованного сообщения. Для этого просто умножьте вес символа алфавита на количество символов в тексте. При подсчете количества символов в сообщении не забывайте, что знаки препинания, как и пробелы, тоже являются символами и весят столько же, сколько и буквы.
Например, если предположить, что каждая буква закодирована как байт, для текста «Ура! Наступили каникулы» объем данных определяется путем умножения 8 бит на 24 символа (исключая кавычки). Произведение 8 * 24 = 192 бита — это количество зашифрованной фразы. В переводе на байты: 192 бита делим на 8 получаем 24 байта.
Эта схема работает и в обратной задаче. Пусть информационное сообщение составляет 2 килобайта и состоит из 512 символов. Необходимо определить мощность алфавита, используемого для кодирования сообщения.
Решение: Сначала рекомендуется перевести 2 килобайта в биты: 2 * 1024 = 2048 (бит). Затем объем информационного сообщения делится на количество символов: 2048/512 = 4 (бит), получается вес одного символа. Чтобы определить мощность алфавита, возведите 2 в степень 4 и получите 16, это мощность алфавита, то есть количество символов, используемых для кодирования текста.