Anonim

Una de les coses que sovint m’ha frustrat és la incapacitat de copiar fàcilment text de les imatges i de determinats fitxers PDF (per exemple, els que s’han pogut crear a partir de documents escanejats). Afortunadament, amb el pas del temps s’han desenvolupat solucions de programari per solucionar aquest problema, permetent un important estalvi de temps que d’una altra manera s’hauria gastat manualment copiant i reescrivint el text. En el consell d’avui, us parlaré d’una eina de programari lliure anomenada Capture2Text que utilitza un algorisme de Reconeixement òptic de caràcters (OCR) que us permetrà capturar text de fitxers d’imatges i PDF.

Instal·lació i configuració

Per començar, vés a la pàgina SourceForge del projecte i descarrega la versió més recent de Capture2Text. El programari es presenta com a arxiu zip i en aquest moment no inclou un instal·lador dedicat. Un cop descarregat, descomprimeix l'arxiu i llança el fitxer Capture2Text.exe. Amb això es llançarà el programari i es posarà una icona a la safata del sistema:

En primer lloc, el que voldreu fer és configurar les preferències del programari, concretament quines claus (o dreceres) a utilitzar per iniciar i aturar la captura:

En el meu cas, he optat per utilitzar les tecles "Windows + q" per iniciar la captura i "Enter" per aturar-la. Podeu ajustar aquestes opcions a allò que us resulti millor. Tingueu en compte que la tecla "Windows + s" sovint s'utilitza per a la captura de pantalla (per exemple, amb programes com Microsoft One Note).

A la fitxa següent, es poden configurar les opcions OCR incloses l’idioma d’entrada (actualment són compatibles set idiomes) i si es pot utilitzar un pre-processament OCR per millorar la precisió (molt recomanable). Finalment, a la pestanya Sortida, entre altres opcions, es pot triar si només heu de desar el text capturat al porta-retalls o si voleu iniciar una finestra emergent.

Ús del programari

Una vegada instal·lat i configurat el programari, podeu començar a utilitzar-lo mitjançant la combinació de claus calentes d'inici de captura. Amb el ratolí, seleccioneu l’àrea de la imatge que inclogui el text que voleu capturar. Per deixar de capturar, només cal prémer la tecla calenta que heu triat per aturar la captura. Aleshores, el text es copiarà al porta-retalls, a una finestra emergent de sortida oa totes dues. A continuació es pot veure un exemple.

De les proves ràpides de l’eina amb imatges, he trobat que la seva precisió és decent. Evidentment, hi ha limitacions a eines com aquesta i OCR en general. Per exemple, és possible que el text fortament modificat (molt cursiu, en cursiva o modern) no funcioni tan bé i, de vegades, en absolut. També, en alguns casos, ajudarà a ajustar lleugerament les dimensions del quadre de captura o a reproduir-se amb el zoom a la imatge per obtenir un resultat més exacte.

En capturar text de documents PDF escanejats, la precisió és correcta, amb algunes modificacions finals generalment necessàries en la sortida capturada (depenent de la qualitat de l'exploració inicial). A més, he notat que el programari pot trigar uns segons més en processar-se, especialment quan se’m demana convertir grans quantitats de text.

Dit tot això, en general crec que l’eina fa un bon treball, sobretot perquè està disponible lliurement - us animo a provar-ho.

Addenda 16/11/2015:

Com a altra opció, per a aquells que tinguin comptes de Google, també és possible utilitzar les funcions OCR de Google carregant un fitxer a la vostra unitat de Google (podeu trobar més detalls aquí). A més, també hi ha un complement OCR disponible per als usuaris de Google Chrome anomenat Copyfish, que també podeu voler consultar.

Com capturar text de les imatges amb programari ocr