Размести ссылку на наш хостинг картинок у себя на сайте:

[iPic] — Блог нашего хостинга изображений Новости, обзоры и другая информация по хостингам изображений, в том числе и о нашем фотохостинге iPic.su

16Ноя/100

DjVu — déjà vu

DjVu - формат хранения отсканированных документов. Не совсем является форматом изображений в его народном понимании, но использует интересный алгоритм хранения отсканированных журналов/книг/газет, значительно превышающий по эффективности алгоритм PDF для подобных изображений.

Алгоритм сжатия отсканированного документа довольно интересен и составляет несколько этапов.

В основе формата DjVu лежат несколько технологий, разработанных в AT&T Labs. Это:

  • алгоритм отделения текста от фона на отсканированном изображении;
  • вейвлетный алгоритм сжатия фона IW44;
  • алгоритм сжатия чёрно-белых изображений JB2;
  • универсальный алгоритм сжатия ZP;
  • алгоритм распаковки «по запросу»;
  • алгоритм «маскировки» изображений;

 

Подробно расписано все тут: http://rus-linux.net/zen/djvu_abstract/djvu_abstract.html

А вот краткий вариант:

Двутональные документы закодированы методом JB2 который формирует сжатую библиотеку из повторяемых форм в документе (например символов) и кодирует их место появление на каждой странице. Низкоцветовые изображения сжаты аналогичным путём, с добавлением цветовой палитры и цветового индекса для каждой формы. Изображения с непрерывным спектром тонов сжаты прогрессивным "wavelet-based" методом IW44, равным JPEG-2000 в отношении шумового коэффициента, но чей декодер/рендер более эффективен, занимает меньше памяти и оптимизирован для более быстрой работы (в 3 раза быстрей чем быстрый режим JPEG-2000). Внутренние кодеры обширно используют новый бинарный адаптивный арифметический кодер, названный "Z-coder".

Цветной отсканированный документ разбивается на передний и фоновый план. Передний план содержит текст, линии и кривые сжатые как двутональное или низкоцветовое изображение с максимальным разрешением (используется JB2), сохраняя резкость и удобочитаемость текста. Фоновый план содержит изображения и бумажные текстуры сжатые в уменьшенном разрешении с IW44. Фоновый план, находясь под приоритетными компонентами, сглаживается для уменьшения размера. Сегментатор переднего и фонового плана сначала обнаруживает объекты резко противопоставленные их окружению и затем классифицирует их в передний или фоновый план используя несколько критериев, типа их цветовой однородности, геометрии и веса.

Цифровые PDF и PostScript документы превращаются в список команд рисования нижнего уровня, используя популярный инструментарий GhostScript. Далее этот список транслируется в список форм которые впоследствии классифицируются в передний или фоновый слой используя эвристический анализ. Затем слои сжимаются как сканированные документы.

 

 

Как понятно из описания, идет разбивка на слои (передний, фон) и каждый из них сжимается согласно наиболее эффективного алгоритма. Формат работает как с цветными, так и с ч/б изображениями, при этом эффективнее для сохранения страниц книг в 3 и более раз. Настоящая находка для студентов и других любителей почитать отсканированные документы с небольшим размером.

По указанной выше ссылке можно найти такие примеры разделения на передний слой и фон:

 

Оригинал:

djvu iraq.1289645770 DjVu   déjà vu

DjVu:

fore iraq.1289645776 DjVu   déjà vuback iraq.1289645762 DjVu   déjà vu

Первая картинка сжимается с индексируемыми цветами, вторая с частичным сжатием.

 

Интересно, что передний слой (с текстом) можно оцифровать (OCR точно есть для английского, а вот про другие кодировки не знаю) и текст поместить в текстовый слой, что позволит индексировать его. Также данный формат умеет грамотно и многопоточно загружаться в браузер пользователя, но требует отдельный плагин, так что не сильно подходит для нужд вебмастеров, разве что читать книжки по работе.

Де жа вю довольно интересный форма, как мне показалось, хотя и не используется у нас на хостинге изображений.

0
В закладки!
Комментарии (0) Пинги (0)

Пока нет комментариев.


Оставить комментарий


:oops: :roll: :evil: :twisted: 8-O 8) :-o :( :lol: :-P :) :mrgreen: :-D more »

Нет обратных ссылок на эту запись.