Boletin de Noticias

lunes, 1 de agosto de 2011

¿Cómo extraer el texto de un PDF, o una imagen?

¿Recuerdas ese PDF del cual no podías copiar su texto, porque sus páginas estaban guardadas como imágenes? ¿O quizá aquella vez en la que escaneaste todos tus apuntes y luego no podías buscar en su contenido? Un software OCR te habría sido de gran ayuda, pero no hace falta que instales nada, ni te gastes un dineral. Hay muchas páginas web donde lo puedes hacer, y gratis.
OCR son las siglas de Optical Character Recognition, o lo que es lo mismo, el reconocimiento óptico de caracteres. En lenguaje normal, viene a ser el proceso por el cual se extrae el texto de una imagen.

1. Google Docs

Google Docs es un servicio de almacenamiento y edición de documentos, presentaciones y hojas de cálculo online. Sus funciones son muchas, pero la que vamos a ver a continuación es una de reciente aparición: el análisis OCR.

Lo primero es entrar a Google Docs, para lo cual necesitarás una cuenta de Gmail. Después, en la pantalla principal elige Upload > Files.
En la ventana que se abre, debes tomar en cuenta dos cosas: primero, elige el idioma en el que está el documento para un mejor reconocimiento. Después, asegúrate de que está marcada la opción Convert text from PDF and image files to Google documents. Después, presiona Start upload.

Después de que termine, el documento se incluirá en tu Google Docs. Primero se incluye el documento como imagen, añadiendo en las páginas siguientes el texto que haya encontrado. El resultado es bastante bueno, reconociendo formato básico como negritas y cursivas.

2. Free Online OCR

¿Pero por qué complicarse tanto? A lo mejor lo único que quieres es subir tu PDF (o imagen) y obtener el texto, sin más. En tal caso Free Online OCR es de lo más agradable a la vista que vas a encontrar.

El proceso consta de dos únicos pasos. Primero, elige el archivo en tu disco duro, y después en qué formato recibirás el resultado, pudiendo elegir entre PDF, TXT, DOC y RTF. En unos segundos podrás descargar el resultado a tu ordenador.

El resultado es aceptable, aunque peor que Google Docs. Algunos párrafos los omite por completo, aunque a cambio intenta generar un documento DOC manteniendo el formato original, cosa que no pasa en el anterior.

3. NewOCR

Otra alternativa es NewOCR, más sobrio y con algo más de publicidad, pero que en cierto modo va más al grano. Lo malo: extrae el texto sin formato.

Eso sí, en cuanto a los resultados, parece reconocer bastante mejor el resultado que Free Online OCR, y más o menos igual que Google Docs.

4. Free Online OCR

Free Online OCR tiene una versión gratuita y una de pago. La diferencia radica en una serie de limitaciones incluidas en la versión gratuita. Sólo puedes convertir 15 imágenes en una hora, el tamaño del archivo máximo es de 4 Mb, y no puedes subir varias imágenes en un ZIP.

Aún con eso, es válido y funcional. El proceso consta de dos partes, subir la imagen y después -tras introducir un CAPTCHA- iniciar el reconocimiento.

Después el resultado se mostrará como texto plano, aunque también lo puedes descargar en el formato que eligieras: DOC, XLS o TXT.
Sorprendentemente, el resultado es de los mejores, superando con creces a todos los anteriores. No sólo reconoce el texto perfectamente, sino que lo muestra en un archivo DOC respetando la maquetación original (si bien las imágenes aparecen en blanco y negro). Ideal si tu documento tiene tiene un diseño especial que vuelve locos a los demás.

5. Free OCR

Por último, Free OCR, un servicio algo estándar por el cual puedes obtener el texto de una imagen, sin formato. El resultado es normal tirando a malo, y con nuestro PDF de prueba -el mismo que funcionó en todos los servicios anteriores- no encontró nada.
Después de ponérselo más fácil con otra imagen, sí ha funcionado, aunque muestra bastante texto incomprensible y no reconoce bien caracteres no ingleses.