OCR online
Il riconoscimento ottico dei caratteri (OCR optical character recognition) è un procedimento che data ormai decenni e può essere estremamente utile quando si dispone di un documento cartaceo per ottenere una conversione in testo del contenuto.
In considerazione del fatto che oramai -per fortuna- molti dei documenti che maneggiamo sono già in formato elettronico, possiamo facilmente trovarci nella situazione di dovere convertire, estrarre il contenuto testuale da un file PDF o da un’immagine.
Ho già toccato l’argomento tempo fa quando Google aveva un servizio di questo tipo in fase sperimentale. Quel servizio non esiste più da tempo, ma fortunatamente sono disponibili siti in rete che svolgono questo tipo di operazione, anche gratuitamente.
Il tutto si traduce quindi nell’effettuare l’upload di un documento su un sito, eventualmente scegliere qualche opzione e poi dare il via all’operazione, per ottenere nel giro di qualche istante o pochi minuti il risultato desiderato.
Chi ha già avuto modo di sperimentare l’OCR sa già che occorre (quasi) sempre verificare ed effettuare qualche correzione, quindi non si deve giudicare negativamente il servizio se per caso il risultato non è perfetto.
Nella mia ricerca di siti che svolgono questo tipo di operazione ho trovato un paio di servizi che mi sono piaciuti. Entrambi piuttosto essenziali, funzionano in modo estremamente simile.
onlineocr è comunque gratuito, ma prevede una modalità senza registrazione, che permette fino a 15 documenti per ora, accetta documenti in formato TIF/TIFF (TIFF multipagina), JPEG/JPG, BMP, PCX, PNG, GIF, PDF (PDF multipagina). I file non devono superare i 5 MB, 100 MB per gli utenti registrati. Questi ultimi possono anche accorpare più documenti in un unico file zip.
free-ocr è completamente gratuito e non prevede registrazione, la dimensione massima dei file è di 6 MB e vengono supportati i formati JPG, PNG, BMP, PDF, JPEG, TIFF, TIF, GIF.
Questo servizio è, nella mia esperienza, preferibile quando si ha a che fare con testi che presentano più lingue. Io ho ottenuto un risultato migliore rispetto al precedente in questa specifica situazione.