-->

Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро

На нашем литературном портале можно бесплатно читать книгу Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро, "TWDragon"-- . Жанр: Программирование. Онлайн библиотека дает возможность прочитать весь текст и даже без регистрации и СМС подтверждения на нашем литературном портале bazaknig.info.
Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро
Название: Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро
Автор: "TWDragon"
Дата добавления: 16 январь 2020
Количество просмотров: 251
Читать онлайн

Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро читать книгу онлайн

Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро - читать бесплатно онлайн , автор "TWDragon"

Эта мини инструкция в картинках, описывающая полный цикл создания электронной версии научно-технической книги, и предназначена для человека, искренне захотевшего сделать приемлемого качества е-книгу, но не знающего с чего начать.

Итак: перед вами взятая у приятеля, из библиотеки, или просто хорошая, интересная книга, которую хотелось бы иметь на компьютере. И не просто иметь, а иметь в таком виде, который позволил бы выполнять поиск по тексту, удобно читать книгу на экране монитора или на устройствах еВоок, а если это не научно-техническая или справочная литература – еще и читать на любимом сотовом телефоне, iPhon'e или PDA. В этом пошаговом руководстве, основанном на собственном опыте, я постараюсь рассказать о том, как «выжать» максимум результатов из проделанной простой, но иногда весьма утомительной работы по сканированию книги.

Пусть вас не испугает длина этого руководства и кажущаяся сложность сканирования и обработки книги. Процесс действительно довольно сложен и многоступенчат, но поверьте мне, описать все эти операции было гораздо труднее, чем выполнить их шаг за шагом.

 

Внимание! Книга может содержать контент только для совершеннолетних. Для несовершеннолетних чтение данного контента СТРОГО ЗАПРЕЩЕНО! Если в книге присутствует наличие пропаганды ЛГБТ и другого, запрещенного контента - просьба написать на почту [email protected] для удаления материала

Перейти на страницу:

Все сказанное заставляет подумать, что DjVu – идеальный формат для электронных книг. В целом это недалеко от истины. При обработке сканов обычных черно-белых книг, таблиц и справочников с относительно небольшим количеством иллюстраций и вклеек DjVu настолько сильно выигрывает в размере и качестве файла у PDF, что применять последний становится бессмысленно.

Совсем иная картина при сохранении широкоформатных журналов, детских богато иллюстрированных книг и разнообразных фотокаталогов и альбомов.

Здесь обилие полноцветной графики высокого разрешения нивелирует все достоинства JBIG (поскольку в факторе сжатия сложных изображений он существенно проигрывает JPEG). Кроме того, попытки кодера DjVu понизить цветность отдельных участков изображения при его сохранении – крайне отрицательно сказываются на качестве.

Собственно в моей практике было всего два случая, когда DjVu проиграл PDF. Оба раза это были книги с большим количеством иллюстраций – «Петрович и Патапум» и фотокаталог деталей для завода. На них DjVu все-таки дал более чем двухкратный выигрыш в размере по сравнению с PDF, но при этом проиграл в качестве на два порядка, и был забракован.

Собственно, общие рекомендации по выбору формата сохранения могу дать следующие:

• Для сохранения подавляющего большинства художественной и научной литературы, таблиц и справочников, альбомов чертежей и атласов – ничего лучше, чем формат DjVu на сей момент не существует;

• Для сохранения полноформатных иллюстрированных детских книг, комиксов, альбомов по искусству, цветных фотокаталогов – стоит применить формат PDF, тем паче, что такие издания обычно на мобильных устройствах не просматриваются.

4.2 Сохранение в формат PDF

Сохранение в формат PDF я лично предпочитаю выполнять в FineReader, с небольшой финишной обработкой в Adobe Acrobat. Если текст распознан без большого количества грубых ошибок – PDF-кодер Ридера выдает вполне приемлемые результаты. Но с настройками сохранения, выставленными в программе по умолчанию – вы будете сильно разочарованы качеством графики. Поэтому, прежде чем выдать программе команду на сохранение файла – я обязательно захожу в диалог настройки пакета FineReader, жму на вкладке Сохранение кнопку Форматы – и выставляю опции на вкладке PDF:

Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро - pic_29.jpg

При показанных настройках рост размера сохраняемого файла составляет примерно 10-25 % но сравнению с настройками по умолчанию. Качество же графики растет на порядок, поэтому скупиться себе дороже. Выставив настройки, можно смело сохранять все распознанные страницы в один файл.

Единственная беда полученного файла – отсутствие оглавления. В принципе, для детской книжки или комикса это можно пережить, но вот в случае фотокаталога или альбома по искусству создать оглавление придется, чтобы потом не возиться с текстовым поиском. Для этого лучше всего обзавестись Adobe Acrobat какой-нибудь старой версии, вроде 7.0 – все задачи по созданию оглавления он решит отлично.

Создать оглавление в Adobe Acrobat очень просто. Найдя начало нового раздела, нужно скопировать текст его заголовка из рабочего поля, а потом щелкнуть на кнопке с «солнышком» на панели закладок, как она выглядит на рисунке. Появится свежая закладка на текущую страницу. Название новой закладки вводится таким же образом, как имя файла в «Проводнике» Windows. После того, как все закладки созданы, их можно с помощью простого перетаскивания распределить по уровням вложенности (разделы и подразделы).

Сохранив файл в последний раз, вы получите готовую электронную книгу.

Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро - pic_30.jpg

4.3 Сохранение в формат DjVu

Для сохранения в формат DjVu понадобится программное обеспечение, работающее с этим форматом. Конкретно это:

• Специализированный DjVu-кодер LizardTech Document Express Enterprise 5.1;

• Процессор текстовых слоев DjVu OCR 2.4 (выложен на сервере по адресу http://www.djvu-soft.narodTu/soft);

DjVu-редактор LizardTech Document Express Editor 6.0.1.

Вся операция сохранения начинается с настройки предварительно установленного кодера DjVu. Диалог настройки в LizardTech Document Express Enterprise вынесен в отдельное приложение, называемое Configuration Manager (Менеджер настроек). Запускаем это приложение.

Интерес здесь представляют профили кодирования, сгруппированные в списке Select Profile. Задача настройки (это нужно будет сделать всего один раз) состоит в том, чтобы подготовить три специальных профиля для кодирования изображения:

Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро - pic_31.jpg

1. Одноцветный (Bitonal) на разрешение 600 dpi – для кодирования основной части книги и диффузных (Dithered) иллюстраций;

2. Фотографический (Photo) профиль на 300 dpi – для кодирования обложек и полноцветных иллюстраций;

3. Сканерный (Scanned) профиль на разрешение 600 dpi – для кодирования страниц с черно-белыми клишированными фотоиллюстрациями.

Для создания каждого профиля нужно сперва выбрать из списка Select Profile базовый профиль. Соответственно, для указанного списка это будут профили Bitonal (600dpi), Photo (300dpi) и Scanned (600dpi). Выбрав профиль, нажимаем кнопку Advanced Settings, не трогая никаких основных настроек. В появившемся диалоге на вкладках Text и Background выставляем параметры так, как показано на рисунках:

Для профиля Bitonal:
Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро - pic_32.jpg
Для профиля Photo:
Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро - pic_33.jpg
Для профиля Scanned:
Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро - pic_34.jpg

Что сие означает

На вкладках тонкой настройки профилей основное место занимают опции кодера – коэффициент усиления, обработка полутонов и яркостной составляющей и т. п. Трогать эти настройки нужно только в том случае, если требуется специальным образом закодировать сложное и объемное изображение. В случае книжных сканов в этом нет никакой необходимости, так что интерес будут представлять только группа параметров Text Quality, список JB2 Format, цифровое поле Pages per Dictionary и поля Back/Foreground Quality.

Группа Text Quality задает методику кодирования контрастных контуров, опознанных по единообразию размеров (т. е. представляющих символы шрифта). Значения в этом списке можно менять только для профилей Scanned и Photo (в профиле Bitonal изменение установки качества на любую, кроме Most-loss (~aggressive) приводит к конфликту при работе кодировщика). На размер файла эти настройки влияют довольно слабо (для серых сканов и изображений размер меняется в пределах 20 % при установках от Lossless до Most-Loss).

Поля Background Quality и Foreground Quality выставляют фактор сжатия JBIG соответственно для слоев заднего и переднего планов. На размер выходного файла влияют слабо, если только скан не снят с формата A3. В принципе, значения, показанные на рисунках, дают оптимальное качество в подавляющем большинстве случаев книгосканирования.

Поле Pages per Dictionary – именно та настройка, наличие которой позволяет существенно сократить размер файла. Она задает максимальное количество страниц, на которые будет распространяться отдельный словарь. Это позволяет (за счет единообразия типографского шрифта) увеличить степень сжатия в несколько раз. В то же время, задавать большое количество страниц на словарь для профилей Photo и Scanned нецелесообразно – что приведет к ухудшению качества.

Перейти на страницу:
Комментариев (0)
название