-->

Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро

На нашем литературном портале можно бесплатно читать книгу Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро, "TWDragon"-- . Жанр: Программирование. Онлайн библиотека дает возможность прочитать весь текст и даже без регистрации и СМС подтверждения на нашем литературном портале bazaknig.info.
Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро
Название: Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро
Автор: "TWDragon"
Дата добавления: 16 январь 2020
Количество просмотров: 251
Читать онлайн

Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро читать книгу онлайн

Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро - читать бесплатно онлайн , автор "TWDragon"

Эта мини инструкция в картинках, описывающая полный цикл создания электронной версии научно-технической книги, и предназначена для человека, искренне захотевшего сделать приемлемого качества е-книгу, но не знающего с чего начать.

Итак: перед вами взятая у приятеля, из библиотеки, или просто хорошая, интересная книга, которую хотелось бы иметь на компьютере. И не просто иметь, а иметь в таком виде, который позволил бы выполнять поиск по тексту, удобно читать книгу на экране монитора или на устройствах еВоок, а если это не научно-техническая или справочная литература – еще и читать на любимом сотовом телефоне, iPhon'e или PDA. В этом пошаговом руководстве, основанном на собственном опыте, я постараюсь рассказать о том, как «выжать» максимум результатов из проделанной простой, но иногда весьма утомительной работы по сканированию книги.

Пусть вас не испугает длина этого руководства и кажущаяся сложность сканирования и обработки книги. Процесс действительно довольно сложен и многоступенчат, но поверьте мне, описать все эти операции было гораздо труднее, чем выполнить их шаг за шагом.

 

Внимание! Книга может содержать контент только для совершеннолетних. Для несовершеннолетних чтение данного контента СТРОГО ЗАПРЕЩЕНО! Если в книге присутствует наличие пропаганды ЛГБТ и другого, запрещенного контента - просьба написать на почту [email protected] для удаления материала

Перейти на страницу:

Величину добавляемых полей можно установить в интервале 180-250 в зависимости от изначальной ширины полей книги.

Флажок vert.gap = hor.gap уравнивает ширину горизонтальных и вертикальных полей.

Остальные параметры можно не трогать, кроме флажка Merge pages after split (объединить после разбиения). Этот флажок пригодится, например, когда книга готовится к печати полными разворотами на листах альбомного формата (так иногда собирают дубликаты в библиотеках). Если этот флажок установлен, на выходе вы получите страницы с полями, склеенные по переплету.

Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро - pic_16.jpg
Вкладка Files

На этой вкладке в поле Output folder (папка назначения) задается имя папки для выходных файлов, а в поле Ouput Prefix (префикс имени выходного файла) можно ввести «добавку» к имени файла, которая позволит отличить «сырые» сканы от обработанных. Параметры Start from / Step (Начальный номер/шаг) задают именование выходных файлов.

Особого внимания заслуживает группа параметров Ouput Format (выходной формат). В первом по счету списке выставляется формат упаковки TIFF-файла (уже упомянутый TIFF Uncompress). Следующий список задает разрешение вывода (DPI). Здесь нужно ОБЯЗАТЕЛЬНО выставить 600 dpi! Это включит оверсемплинг и облегчит в дальнейшем задачу распознавания, сжатия и печати.

Зачем нужен оверсемплинг?

При распознавании текста программа «оконтуривает» символы по их контрасту с окружающим полем страницы. Затем полученные контуры сравниваются с эталонными, содержащимися в языковой базе данных. Если процент сходства достаточно велик, контур признается распознанным как тот или иной символ шрифта.

В общих чертах, именно так работают алгоритмы OCR. Успех их работы сильно зависит от того, насколько велик абсолютный (в пикселах) размер символа в графическом файле. А этот самый размер напрямую зависит от разрешения файла. При разрешении 600 dpi на реальную ширину и высоту «бумажного» символа придется ровно вдвое больше пикселов графического изображения, чем при разрешении 300 dpi. Соответственно, вероятность успешного распознавания тоже вырастет, причем весьма существенно. Задача оверсемплинга – поднять разрешение скана до выходного, пересчитав определенным образом точки графического изображения.

Оверсемплинг позволяет впоследствии спасти изображение от дефектов сжатия (за счет оольшого числа точек они становятся незаметны), а также помогает вывести изображение на печать наилучшим образом. Например, при печати файла DjVu 300 dpi на полном формате (масштаб 100 %) шрифт получается «рваным» из-за того, что преобразование серого скана в чисто черно-белое изображение дает много дефектов по краям букв, а принтер, имея собственное разрешение немногим больше 300 dpi, не в состоянии их исправить. Совсем иное дело – при печати документа с разрешением 600 dpi. В этом случае входное изображение принтера, имеюшее огромное количество точек, «ужимается» в размер реальной бумажной страницы.

Особенности алгоритмов изменения размера приводят к тому, что границы символов разглаживаются, а резкость увеличивается.

Разница между сжатыми страницами с разным разрешением заметна даже при просмотре на экране: на 300 dpi все дефекты, не устраненные обработкой, становятся заметны, а иногда изображения (например, полученные с бледного скана) вообше приходят в негодность.

Список Color (цвет) задает цветность выходного изображения. Для черно-белого текста и одноцветных рисунков выставляется пункт BAV. для черно-белых фотографических иллюстраций – Gray, для полноцветных изображений – Color (24bit). Впрочем, установка цветности для страницы в целом чаще всего бывает не нужна, поскольку есть возможность обрабатывать рисунки отдельно.

Больше всего проблем возникает, когда часть текста верстается поверх изображения (типичный прием для верстки детских книг). Такие страницы желательно вообще не подвергать обработке Кромсатором, а сразу подвергать распознаванию и запаковывать в PDF.

Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро - pic_17.jpg
Вкладка Options.
Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро - pic_18.jpg

На этой вкладке стоит только поднять до предпоследнего деления уже упоминавшиеся ползунки Text vert. sensitivity. В некоторых особо тяжелых случаях (вроде все тех же таблиц, отпечатанных на полупрозрачной бумаге), избавиться от «съедения» программой части символов можно, установив в списке Despeckle (очистка от мусора) пункт Safe.

Вкладка Options 2.
Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро - pic_19.jpg

На этой вкладке заслуживает внимания один-единственный элемент – флажок LZW for nou-bw TIFFs (применить сжатие для не ч/б TIFF-файлов). По умолчанию этот флажок включен, но его стоит выключить, чтобы потом не страдать от проблем с открытием файлов в программах распознавания.

Вкладка Convert.

На этой вкладке задаются параметры преобразования изображения из градаций серого в чистое черно-белое. Группа параметров Convert to b/w threshold (Порог преобразования в ч/б) содержит три списка с идентичным набором пунктов. Два верхних из них отвечают за порог преобразования для четных и нечетных страниц, последний – за преобразование специально выделенных одноцветных рисунков.

Для оптимального результата при нормально читаемом с бумаги тексте лучше всего выставить во всех списках вкладки пункт MiddleDark. Если же результат будет негодным, с этими параметрами придется экспериментировать, так как единого рецепта дать здесь невозможно.

Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро - pic_20.jpg
Вкладка Quality.

На этой вкладке выставляются параметры, напрямую влияющие на качество выходного изображения.

Флажок Enhance Image (применить улучшение) включает такую специальную обработку.

Первое, что нужно сделать на этой вкладке – держа Ctrl, установить галочку Gray Enhance (улучшить в градациях серого). Затем щелкаем по самой надписи, и попадаем в окно настройки дополнительных параметров Gray image enhance.

Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро - pic_21.jpg

Здесь включаем (опять держа Ctrl) флажок Correct Illumination (Коррекция освещенности). Параметры – как на рисунке. Именно этот прием обеспечит нам избавление практически от всего мусора на сканах и получение чистых черно-белых страниц.

Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро - pic_22.jpg

Маленькие хитрости

Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро - pic_23.jpg

В окне Gray image enhance кроме вкладки Illumination всегда стоит заглянуть на вкладку Unsharp (контурная резкость). Если включить фильтр Unsharp Mask (знакомый практически каждому, работавшему с Adobe Photoshop), то он может неплохо выгладить края символов и улучшить их четкость. Параметры фильтра можно выставить как на рисунке.

Когда все дополнительные параметры выставлены, окно Gray image enhance можно закрыть, и перейти снова на вкладку Quality. Здесь включаем флажки Smooth (сгладить), Blur (размыть) и Sharpen (усилить резкость). Параметры везде можно выставить по 1. Однако если нужно улучшить читаемость книги (особенно с монитора), параметры Smooth и Blur стоит увеличить, например поставить Smooth = 2, Blur = 1, или в любом другом сочетании. Размытие краев символов позволяет придать им большую цельность при сжатии, и такой текст с монитора будет отлично читаем.

Перейти на страницу:
Комментариев (0)
название