Як розпізнати формат djvu


 

На поточний момент існує близько кількох десятків форматів електронних книг. Кожен з них представляє щось особливе, але серед них можна виділити 3 «кити», які найчастіше використовуються: pdf, djvu і html.


Вам знадобиться

— DjVu Editor;
- Microsoft Office.

Інструкція

  1. Формати pdf і djvu найчастіше є лише фотографіями, тобто сканованою версією журналу або книги. Для виділення тексту таких електронних копій необхідно використовувати спеціальне програмне забезпечення, яке здатне розпізнавати зображення і виявляти в них текстову основу.
  2. Для читання djvu-файлів можна скористатися будь-якою програмою-переглядачем, як приклад буде використана утиліта DjVu Editor. Для якісного відображення лише тексту скористайтеся опцією «Чорно-білий режим відображення» в налаштуваннях програми. Тепер вам необхідно зробити експорт потрібних сторінок для подальшого розпізнавання.
  3. Натисніть верхнє меню «Друк» і у вікні, виберіть принтер Microsoft Office Document Image Writer. З його допомогою ви можете створити віртуальну книгу з потрібними для вас сторінками. Іншими словами, вам необхідно створити багатосторінковий tiff-файл. У вікні, перейдіть до вкладки «Додатково», виберіть відповідний формат і двічі натисніть кнопку «ОК».
  4. Розпізнавання отриманого графічного файлу можна здійснити через стандартну утиліту Document Imaging всередині комплекту Microsoft Office. Для швидкого запуску файлу необхідно натиснути правою кнопкою миші на ньому у вікні «Провідника Windows», вибрати розділ «Відкрити за допомогою» і клацнути мишкою по пункту Microsoft Office Document Imaging.
  5. Після автоматичного розпізнавання вмісту завантаженого зображення вам необхідно скопіювати потрібний текст. Для цього лівою кнопкою миші виділіть область потрібного розміру і в контекстному меню виберіть пункт «Копировать». Тепер відкрийте MS Word і вставте текст з буфера обміну. Вам залишилося привести його до читаемому увазі і почати ним користуватися.