11-04-2023, 12:40 PM
Buen dia comunidad:
Estoy queriendo compilar un codigo para convertir de PDF a texto pero al momento de hacer la conversion el resultado no sale como espero, he aplicado diversas
bibliotecas como pytesseract, pdfminner pdftotext, pdf2image y Open CV, pero todas extraen el texto de manera incompleta o con errores. Los dos ultimos codigos que he usado son estos de aca:
CODIGO 1
import pytesseract
from pdf2image import convert_from_path
# Configurar pytesseract
pytesseract.pytesseract.tesseract_cmd = "/usr/bin/tesseract"
pytesseract.pytesseract.tessdata_dir_config = '/usr/share/tesseract-ocr/4.00/tessdata'
# Ruta del archivo PDF
pdf_path = "/content/drive/MyDrive/PDF/file.pdf" # Asegúrate de cambiar 'tu_archivo.pdf' por el nombre real de tu archivo
# Convertir PDF a imágenes de alta calidad
images = convert_from_path(pdf_path, dpi=300, fmt="PNG", thread_count=4)
# Extraer texto de las imágenes
texts = [pytesseract.image_to_string(img, lang="eng", config="--oem 1 --psm 11") for img in images]
# Imprimir el texto extraído
for i, text in enumerate(texts):
print(f"Texto de la página {i + 1}:\n{text}\n")
CODIGO 2
from pdfminer.high_level import extract_text
def convert_pdf_to_txt(path):
text = extract_text(path)
return text
# Cambia la ruta del archivo según la ubicación de tu archivo PDF
pdf_path = '/content/drive/MyDrive/PDF/file.pdf'
# Convertir el PDF a texto
texto = convert_pdf_to_txt(pdf_path)
# Imprimir el texto en la consola
print(texto)
Sin embargo cuando uso los conversores en linea de PDF a Texto la conversacion sale muy bien casi perfecta sin los errores que presento en ambos codigos. Aqui les adjunto el pdf que quiero convertir a texto y los resultados que obtengo de ambos codigos cuando intento convertir mi archivo.
Estoy queriendo compilar un codigo para convertir de PDF a texto pero al momento de hacer la conversion el resultado no sale como espero, he aplicado diversas
bibliotecas como pytesseract, pdfminner pdftotext, pdf2image y Open CV, pero todas extraen el texto de manera incompleta o con errores. Los dos ultimos codigos que he usado son estos de aca:
CODIGO 1
import pytesseract
from pdf2image import convert_from_path
# Configurar pytesseract
pytesseract.pytesseract.tesseract_cmd = "/usr/bin/tesseract"
pytesseract.pytesseract.tessdata_dir_config = '/usr/share/tesseract-ocr/4.00/tessdata'
# Ruta del archivo PDF
pdf_path = "/content/drive/MyDrive/PDF/file.pdf" # Asegúrate de cambiar 'tu_archivo.pdf' por el nombre real de tu archivo
# Convertir PDF a imágenes de alta calidad
images = convert_from_path(pdf_path, dpi=300, fmt="PNG", thread_count=4)
# Extraer texto de las imágenes
texts = [pytesseract.image_to_string(img, lang="eng", config="--oem 1 --psm 11") for img in images]
# Imprimir el texto extraído
for i, text in enumerate(texts):
print(f"Texto de la página {i + 1}:\n{text}\n")
CODIGO 2
from pdfminer.high_level import extract_text
def convert_pdf_to_txt(path):
text = extract_text(path)
return text
# Cambia la ruta del archivo según la ubicación de tu archivo PDF
pdf_path = '/content/drive/MyDrive/PDF/file.pdf'
# Convertir el PDF a texto
texto = convert_pdf_to_txt(pdf_path)
# Imprimir el texto en la consola
print(texto)
Sin embargo cuando uso los conversores en linea de PDF a Texto la conversacion sale muy bien casi perfecta sin los errores que presento en ambos codigos. Aqui les adjunto el pdf que quiero convertir a texto y los resultados que obtengo de ambos codigos cuando intento convertir mi archivo.