OCR Text Converter

The OCR Text Converter tool parses the contents of an image, detects areas with text, and converts that text into editable and translatable characters files.

The tool can perform batch optical character recognition (OCR) over images, and produce translations in many languages using an online translator engine. It also allows you to review the text with the aid of spell checking, and make corrections as needed.

The tool uses the Tesseract, a powerful open-source optical character recognition engine available for Linux, macOS, and Windows.

To perform text conversions, select the scanned images that include text to recognize, and start the tool from the menu Tools ‣ OCR Text Converter, or use the icon OCR Text Converter from the Tools tab on the right sidebar. The following dialog will appear:

La finestra di dialogo del Convertitore di testo OCR di digiKam

On the right side, the Text recognition tab indicates whether the Tesseract binary program version is detected on your system. If the binary is not present, you will need to install it onto your system. The lower portion of the Text recognition tab contains the Tesseract options you can set.

The Languages option specifies the language used for OCR. In the Default mode, when processing digital text with multiple languages, Tesseract can automatically recognize languages using Latin alphabets such as English or French, but it’s not compatible with languages using hieroglyphs such as Chinese or Japanese. You can use the Orientation and Script Detection mode instead, or a specific language module if available.

The Segmentation mode option specify the Tesseract page segmentation mode to use while processing images. Possible choices are:

  • Solo OSD: solo rilevamento orientazione e script (OSD).

  • Con OSD: segmentazione automatica di pagina con OSD.

  • Nessun OSD: segmentazione automatica di pagina ma senza OSD o OCR.

  • Predefinita: segmentazione automatica di pagina completa, ma senza OSD.

  • Col di testo: presume una singola colonna di testo di dimensioni variabili.

  • Allineato verticalmente: presume un singolo blocco uniforme di testo allineato verticalmente.

  • Blocco: presume un singolo blocco uniforme di testo.

  • Riga: tratta l’immagine come una singola riga di testo.

  • Parola: tratta l’immagine come una singola parola.

  • Parola cerchiata: tratta l’immagine come una singola parola in un cerchio.

  • Carattere: tratta l’immagine come un singolo carattere.

  • Testo sparso: trova quanto più testo possibile in nessun ordine particolare.

  • Testo sparso + OSD: testo sparso con OSD.

  • Riga grezza: tratta l’immagine come singola riga di testo, aggirando gli hack specifici di Tesseract.

Se vuoi approfondire la modalità di segmentazione di Tesseract puoi leggere questa esercitazione in linea.

The Engine mode option specifies the Tesseract OCR internal engine to use while processing images. Possible choices are listed below:

  • Legacy: Legacy engine only (older engine not based on a neural network).

  • LSTM: solo motore basato sulla rete neurale LSTM (apprendimento profondo Long Short-Term Memory).

  • Obsoleto + LSTM: sarà utilizzato sia il motore obsoleto, sia quello LSTM.

  • Predefinito: il valore predefinito, che lascia a Tesseract la scelta del motore migliore in base a ciò che c’è a disposizione.

The Resolution Dpi option specifies the resolution of the input images, measured in Dots Per Inch (DPI).

If the Use Multi-cores option is enabled, Tesseract will process files from the list in parallel.

The Store result in option specifies where to place the text contents recognized by Tesseract while processing images. Possible choices are:

  • File di testo: memorizza il risultato OCR in un file di testo separato nella stessa cartella che contiene l’immagine elaborata.

  • Metadata: Store OCR result in an alternative-language XMP tag in the image metadata.

On the bottom of this view, the OCR result can be translated into different languages using one online translation engine. You can set more than one translation language to process images. Corresponding translations will be hosted in separate text files or in extra metadata entries depending on the Store result in option. See this page from the manual for more details about the Localize Settings.

The Text Review tab on the right side allows you to edit the OCR result for each image processed with Tesseract. Select one item from the list on the left side and the OCR result will be displayed in a text editor. You can edit the text as necessary or apply spell-checking. See this page from the manual for more details about the Spell-Checking Settings.

On the bottom of the dialog, the Default button allows resetting all options to the default values. The Start OCR drop-down button initiates processing of the currently selected images from the list or all items. Finally, the Close button will stop all OCR processes, if any, and close the dialog.

Il contenuto del convertitore di testo OCR di digiKam da revisionare sul lato destro, con la relativa immagine aperta in Showfoto