OCR Text Converter

The OCR Text Converter tool parses the contents of an image, detects areas with text, and converts that text into editable and translatable characters files.

The tool can perform batch optical character recognition (OCR) over images, and produce translations in many languages using an online translator engine. It also allows you to review the text with the aid of spell checking, and make corrections as needed.

Інструмент використовує Tesseract, потужний рушій розпізнавання символів з відкритим кодом, який доступний у Linux, macOS і Windows.

Щоб виконати розпізнавання тексту, виберіть скановані зображення, на яких є текст для розпізнавання, і запустіть інструмент за допомогою пункту меню Інструменти ‣ Перетворювач зображення на текст або скористайтеся піктограмою Перетворювач зображення на текст з вкладки Інструменти на правій бічній панелі. Має з’явитися таке діалогове вікно:

Вікно засобу розпізнавання тексту у digiKam

On the right side, the Text recognition tab indicates whether the Tesseract binary program version is detected on your system. If the binary is not present, you will need to install it onto your system. The lower portion of the Text recognition tab contains the Tesseract options you can set.

Параметр Мови визначає мову, яку буде використано для розпізнавання тексту. У Типовому режимі при обробці цифрового тексту декількома мовами Tesseract може автоматично розпізнавати мови, у яких використовують латинські абетки, зокрема англійську або французьку, але ця система не сумісна із мовами, де використовують ієрогліфічні системи запису, зокрема китайською або японською. Ви можете скористатися режимом Виявлення орієнтації та писемності або вказати модуль певної мови, якщо такий доступний.

Параметри розділу Режим поділу визначають режим поділу Tesseract під час обробки зображень. Можливі варіанти:

  • OSD only: лише виявлення орієнтації і писемності.

  • With OSD: автоматична сегментація сторінки із виявленням орієнтації.

  • No OSD: автоматична сегментація сторінки, але без визначення орієнтації або оптичного розпізнавання.

  • Default: повністю автоматичний поділ сторінки, але без визначення орієнтації та писемності.

  • Col of text: припускати текст одинарним стовпчиком змінної ширини.

  • Vertically aligned: припускати текст одним однорідним вертикально вирівняним блоком.

  • Block: припускати текст одним однорідним блоком.

  • Line: вважати зображення окремим рядком тексту.

  • Word: вважати зображення окремим словом.

  • Word in circle: вважати зображення окремим словом у колі.

  • Character: вважати зображення одинарним символом.

  • Sparse text: розріджений текст. Знайти якомога більше тексту у певному порядку.

  • Sparse text + OSD: розріджений текст із визначенням орієнтації і писемності.

  • Простий рядок: вважати зображення одним рядком тексту, не використовувати обхідних алгоритмів, які є специфічними для Tesseract.

Якщо ви хочете дізнатися більше про режим поділу у Tesseract, можете почитати цей інтернет-підручник.

Параметр Режим рушія визначає внутрішній рушій розпізнавання тексту Tesseract, який буде використано для обробки зображень. Можливі варіанти:

  • Legacy: лише застарілий рушій (рушій, який не засновано на нейронній мережі).

  • LSTM: лише рушій нейронної мережі LSTM (глибинне навчання на основі довгої короткострокової пам’яті).

  • Legacy + LSTM: використати одразу застарілий рушій і рушій LSTM.

  • Default: типове значення. Надати змогу Tesseract вибрати найкращий рушій на основі доступних даних.

The Resolution Dpi option specifies the resolution of the input images, measured in Dots Per Inch (DPI).

If the Use Multi-cores option is enabled, Tesseract will process files from the list in parallel.

За допомогою пункту Місце зберігання результатів можна задати місце, куди буде записано розпізнані Tesseract під час обробки зображень фрагменти тексту. Можливі варіанти:

  • Текстовий файл: зберегти результат розпізнавання в окремому текстовому файлі у тому самому каталозі, що і оброблене зображення.

  • Метадані: зберегти результат розпізнавання у мітці XMP з альтернативними мовами у метаданих зображення.

On the bottom of this view, the OCR result can be translated into different languages using one online translation engine. You can set more than one translation language to process images. Corresponding translations will be hosted in separate text files or in extra metadata entries depending on the Store result in option. See this page from the manual for more details about the Localize Settings.

The Text Review tab on the right side allows you to edit the OCR result for each image processed with Tesseract. Select one item from the list on the left side and the OCR result will be displayed in a text editor. You can edit the text as necessary or apply spell-checking. See this page from the manual for more details about the Spell-Checking Settings.

On the bottom of the dialog, the Default button allows resetting all options to the default values. The Start OCR drop-down button initiates processing of the currently selected images from the list or all items. Finally, the Close button will stop all OCR processes, if any, and close the dialog.

Рецензування даних засобу розпізнавання тексту digiKam праворуч від відкритого у Showfoto відповідного зображення