Calificación:
  • 0 voto(s) - 0 Media
  • 1
  • 2
  • 3
  • 4
  • 5
Escanear texto de un archivo PDF
#1
Big Grin 
Buenas con todos, soy nuevo en este foro y llevo poco en este inmenso mundo de la programación, espero aprender mucho del gran conocimiento que tienen, Cool gracias!!!

Quisiera saber si alguien puede ayudarme a completar un pequeño programita, el cual debe leer digitos, páginas de un pdf.
antes mencionar que el pdf puede contener más de 200 páginas y esta dirigido a la venta por catálogos (perfumes, joyas, ropa, etc), 

en la imagen adjunta se visualiza el monto en S/ xx.xx y los demás los productos por si decirlo. y su respectiva página en la parte inferior.

la idea es que lea los productos, página y precio, obviando el precio regular y generar un excel de toda esta información.

quizá sea complejo, pero por lo menos quiero empezar que escanee los precios, gracias de antemano


Archivos adjuntos Miniatura(s)
   
Responder
#2
Hola, bienvenido!

Es algo bastante complejo, pero por suerte hay librerías específicas para eso. Deberías empezar por leer algunos recursos sobre OCR (reconocimiento óptico de caracteres) con Python. Por ejemplo: https://nanonets.com/blog/ocr-with-tesseract/.

Saludos
Responder


Salto de foro:


Usuarios navegando en este tema: 1 invitado(s)