-->

Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро

На нашем литературном портале можно бесплатно читать книгу Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро, "TWDragon"-- . Жанр: Программирование. Онлайн библиотека дает возможность прочитать весь текст и даже без регистрации и СМС подтверждения на нашем литературном портале bazaknig.info.
Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро
Название: Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро
Автор: "TWDragon"
Дата добавления: 16 январь 2020
Количество просмотров: 251
Читать онлайн

Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро читать книгу онлайн

Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро - читать бесплатно онлайн , автор "TWDragon"

Эта мини инструкция в картинках, описывающая полный цикл создания электронной версии научно-технической книги, и предназначена для человека, искренне захотевшего сделать приемлемого качества е-книгу, но не знающего с чего начать.

Итак: перед вами взятая у приятеля, из библиотеки, или просто хорошая, интересная книга, которую хотелось бы иметь на компьютере. И не просто иметь, а иметь в таком виде, который позволил бы выполнять поиск по тексту, удобно читать книгу на экране монитора или на устройствах еВоок, а если это не научно-техническая или справочная литература – еще и читать на любимом сотовом телефоне, iPhon'e или PDA. В этом пошаговом руководстве, основанном на собственном опыте, я постараюсь рассказать о том, как «выжать» максимум результатов из проделанной простой, но иногда весьма утомительной работы по сканированию книги.

Пусть вас не испугает длина этого руководства и кажущаяся сложность сканирования и обработки книги. Процесс действительно довольно сложен и многоступенчат, но поверьте мне, описать все эти операции было гораздо труднее, чем выполнить их шаг за шагом.

 

Внимание! Книга может содержать контент только для совершеннолетних. Для несовершеннолетних чтение данного контента СТРОГО ЗАПРЕЩЕНО! Если в книге присутствует наличие пропаганды ЛГБТ и другого, запрещенного контента - просьба написать на почту [email protected] для удаления материала

Перейти на страницу:

После того, как все настройки заданы, можно сохранить профили (дав им информативные имена, вроде Advanced Bitonal…), и приступить непосредственно к кодированию.

Для начала нужно рассортировать выходные файлы на несколько групп, каждую из которых будет кодировать свой профиль. В отдельные группы выделяем: файлы с текстом и диффузными черно-белыми иллюстрациями, текстом и черно-белыми недиффузными иллюстрациями, цветные и черно-белые вклейки.

Собственно, профиль Scanned нужен только для самых сложных случаев (страницы с текстом и высококонтрастными черно-белыми клишированными фотографиями, не поддающимися диффузному кодированию), основную работу сделают профили Bitonal и Photo. Группы файлов можно разобрать по папкам с именами профилей, чтобы потом не ошибаться с выбором. Затем запускаем приложение Workflow Manager пакета Document Express Enterprise.

Командой меню File =› Open Image… открываем первые из подлежащих кодированию файлов (но не обложку!). Как правило, первые страницы книги целиком черно-белые. Для них подойдет профиль на основе Bitonal. Смотря по характеру страниц, можно выбрать и другой профиль. Открыв изображение, выбираем для кодирования ранее подготовленный профиль из списка Raster Profile.

Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро - pic_35.jpg

Если книга не имеет иллюстраций в тексте, все страницы, кроме обложек, можно сразу сохранить в один DjVu-файл. Если же имеются иллюстрации, цветные вклейки и т. п., то каждую страницу нужно сохранить в свой DjVu-файл, чтобы потом собрать их воедино в редакторе. Обычно, кодируя книгу, я заранее сохраняю первые страницы без иллюстраций в один DjVu-файл с именем, совпадающим с именем книги (соответственно, эти файлы уже не выделяю ни в какую группу для кодирования). Потом в папку, где лежит этот файл, кодирую все оставшиеся страницы – каждую в отдельный файл. Открыв затем редактором файл с именем «Название книги. djvu», просто добавляю к нему уже имеющиеся закодированные DjVu-файлы, предварительно отсортировав их по именам. Так легко и быстро можно получить готовый файл для добавления обложек.

Итак, открыв изображения, подлежащие кодированию тем или иным профилем, задаем в поле Job Name имя задания. Если книга сохраняется в один файл, то эта строка будет его именем. В противном случае все файлы DjVu, соответствующие страницам, будут сохранены с именами, совпадающими с именами файлов страниц.

Теперь время перейти с вкладки Workflow на вкладку Output. Здесь из списка Separate Files выбираем тип сохранения: One document only (единичный документ), либо Each file (каждый файл отдельно). Затем, щелкнув по ссылке Choose Folder… выбираем папку для сохранения выходных файлов DjVu. Если сохранение идет по одному файлу, крайне нежелательно сохранять DjVu-страницы в папку с выходными файлами ScanKromsator (папку с изображениями страниц) это очень затруднит выбор файлов для открытия редактором.

Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро - pic_36.jpg

Каждая команда Open Images… (кроме первой после запуска программы) в Workflow Manager создает новое задание (Job). Параметры на вкладках можно выставлять отдельно для каждого задания. После того, как все готово, можно запустить задания на выполнение. Для этого достаточно поставить галочку рядом с именем каждого задания. К сожалению, индикация прогресса работы в Workflow Manager не предусмотрена. Однако кодер работает очень быстро, кодирование даже 500-страничного тома редко длится более 10 минут. Когда кодирование основной части книги завершено, можно открыть в Workflow Manager файлы с обложками и закодировать их в отдельные файлы DjVu, использовав ранее подготовленный профиль Photo.

Когда готов весь набор файлов DjVu (книга в одном файле или в виде страниц, обложки), можно сложить все файлы в одну папку, и приступить к сборке полноценной электронной книги. Запускаем Document Express Editor.

Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро - pic_37.jpg

Открываем в Document Express Editor файл с первой страницей обложки.

Затем командами меню Edit =› Insert Page(s)… добавляем в нужные места все остальные подготовленные файлы. Теперь книга имеет законченный вид, и ее можно сохранить командой File =› Save As…

Остались сущие пустяки – добавить в книгу текст, распознанный в FineReader, и создать оглавление. Начнем с добавления текста. Находим в редакторе страницу, с которой начиналось распознавание и запоминаем ее номер (теперь он не первый, как это было в пакете FineReader, так как добавились обложка и форзац). Теперь закроем редактор, и запускаем приложение DjVuOCR 2.4 (автор – камрад Gencho из солнечной Болгарии).

Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро - pic_38.jpg

Интерфейс этого процессора обработки DjVu интуитивно понятен. Нас интересует режим «Ручной OCR manager». Здесь нужно указать адрес папки пакета FineReader с распознанной книгой, номер первой страницы пакета в файле DjVu, а также имя самого файла DjVu. Флажок «Создать» не должен пугать – на самом деле, в существующий файл DjVu просто будет записан невидимый слой с текстами и координатами строк. Когда все параметры заданы, запускаем обработку. Проходит она очень быстро, и теперь файл DjVu готов к созданию оглавления.

На сайге http://www.djvu-soft.narod.ru можно найти несколько программ, предназначенных для автоматизации создания оглавления в файлах DjVu, но я, лично, предпочитаю полный контроль над этим процессом.

Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро - pic_39.jpg

Если в книге нет непронумерованных вклеек, задача очень проста. Берем в руки книгу, и смотрим, как посчитать номер страницы в файле относительно номера страницы в книге. Теперь жмем кнопку Rectangular Hyperlink на инструментальной панели редактора. Нажав кнопку – выделяем область (например строку), которая станет ссылкой оглавления. Появляется диалоговое окно Rectangular Highlight/Hyperlink Properties:

Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро - pic_40.jpg

К сожалению, процесс ручного создания оглавления не отличается удобством. Каждый раз придется выбирать тип ссылки Page Number в списке Link То:, а потом выбирать из списка Page номер страницы. Когда оглавление готово, файл сохраняется, и DjVu-книга готова!

Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро - pic_41.jpg

4.4 Финальная вычитка и подготовка версии для PDA

Итак, книга для просмотра на мониторе или еВоок подготовлена. Но, если только это не технический справочник, вам наверняка охота получить еще и маленький файл для загрузки на PDA или любимый сотовый телефончик. Получить его будет опять-таки довольно утомительно, но фактически совсем не сложно. Берем пакет с распознанной книгой, открываем его в FineReader и сохраняем в формате ТХТ. Потом – открываем полученный файл в MS Word и приступаем к финальной вычитке. Тут самой главной проблемой будут оставленнные программами дефисы на месте переносов. Их удаление будет весьма монотонной, но достаточно быстрой работой. Лучше всего открытый в Word файл перевести в режим отображения «Веб-документ». Теперь остается только, прокручивая текст, искать неверные переносы на правой стороне экрана, и исправлять их. Переносы в FineReader не изменяются в таких случаях:

• Если слово с переносом расположено в конце страницы (перенос идет на следующую страницу);

• Если слова с переносом нет в словаре FineReader (словарь длиной не отличается, так что подавляющее большинство имен и фамилий, вся историческая и научная терминология – в группе риска).

Перейти на страницу:
Комментариев (0)
название