30-12-2024, 09:11 AM
Hola,
Estoy programando un pequeño código que va entrando en diferentes links y debe navegar por una página y descargar los pdfs que encuentre, pero por algún motivo no los detecta, y por tanto, no los descarga. Les dejo el código resumido para un caso a ver si pueden ayudarme:
import pandas as pd
from selenium import webdriver
from selenium.webdriver.common.by import By
import time
import os
import requests
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.ui import WebDriverWait
# Crear una carpeta per guardar els documents descarregats
carpeta_descargas = "Documents_Descarregats_Ajuntament"
if not os.path.exists(carpeta_descargas):
os.makedirs(carpeta_descargas)
# Configura el WebDriver.
driver = webdriver.Chrome() # Assegura't que ChromeDriver està instal·lat i configurat
try:
# 1. Obre Google
driver.get("https://contractaciopublica.cat/ca/detall-publicacio/3a992746-70c0-48f7-ae49-2377ed4cd3c9/200152387")
# 2. Accepta cookies (si cal)
try:
accept_cookies_button = WebDriverWait(driver, 5).until(EC.element_to_be_clickable((By.XPATH, "//button[contains(text(),'Accepta')]")))
accept_cookies_button.click()
except Exception:
print("No s'ha trobat el botó de cookies. Continuant...")
# 3. Cerca l'enllaç 'Anunci de licitació
gmail_link = driver.find_element(By.LINK_TEXT, "Anunci de licitació")
# 4. Fes clic a 'Anunci de licitació'
gmail_link.click()
# Opcional: Espera per veure el resultat
time.sleep(5)
# Desplaçar-se cap al final de la pàgina
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
time.sleep(5) # Dona temps a carregar el contingut
pdf_links = WebDriverWait(driver, 10).until(
EC.presence_of_all_elements_located((By.XPATH, "//a[contains(@href, '.pdf')]")))
for pdf_link in pdf_links:
pdf_url = pdf_link.get_attribute("href")
pdf_text = pdf_link.text.strip().lower()
# Download the PDF
try:
response = requests.get(pdf_url)
response.raise_for_status() # This will raise an exception for HTTP errors
filename = os.path.join(carpeta_descargas, pdf_url.split('/')[-1])
with open(filename, 'wb') as f:
f.write(response.content)
print(f"PDF descarregat correctament com {filename}")
except requests.exceptions.RequestException as e:
print(f"Error descarregant el PDF: {e}")
time.sleep(5)
finally:
# Tanca el navegador
driver.quit()
Estoy programando un pequeño código que va entrando en diferentes links y debe navegar por una página y descargar los pdfs que encuentre, pero por algún motivo no los detecta, y por tanto, no los descarga. Les dejo el código resumido para un caso a ver si pueden ayudarme:
import pandas as pd
from selenium import webdriver
from selenium.webdriver.common.by import By
import time
import os
import requests
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.ui import WebDriverWait
# Crear una carpeta per guardar els documents descarregats
carpeta_descargas = "Documents_Descarregats_Ajuntament"
if not os.path.exists(carpeta_descargas):
os.makedirs(carpeta_descargas)
# Configura el WebDriver.
driver = webdriver.Chrome() # Assegura't que ChromeDriver està instal·lat i configurat
try:
# 1. Obre Google
driver.get("https://contractaciopublica.cat/ca/detall-publicacio/3a992746-70c0-48f7-ae49-2377ed4cd3c9/200152387")
# 2. Accepta cookies (si cal)
try:
accept_cookies_button = WebDriverWait(driver, 5).until(EC.element_to_be_clickable((By.XPATH, "//button[contains(text(),'Accepta')]")))
accept_cookies_button.click()
except Exception:
print("No s'ha trobat el botó de cookies. Continuant...")
# 3. Cerca l'enllaç 'Anunci de licitació
gmail_link = driver.find_element(By.LINK_TEXT, "Anunci de licitació")
# 4. Fes clic a 'Anunci de licitació'
gmail_link.click()
# Opcional: Espera per veure el resultat
time.sleep(5)
# Desplaçar-se cap al final de la pàgina
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
time.sleep(5) # Dona temps a carregar el contingut
pdf_links = WebDriverWait(driver, 10).until(
EC.presence_of_all_elements_located((By.XPATH, "//a[contains(@href, '.pdf')]")))
for pdf_link in pdf_links:
pdf_url = pdf_link.get_attribute("href")
pdf_text = pdf_link.text.strip().lower()
# Download the PDF
try:
response = requests.get(pdf_url)
response.raise_for_status() # This will raise an exception for HTTP errors
filename = os.path.join(carpeta_descargas, pdf_url.split('/')[-1])
with open(filename, 'wb') as f:
f.write(response.content)
print(f"PDF descarregat correctament com {filename}")
except requests.exceptions.RequestException as e:
print(f"Error descarregant el PDF: {e}")
time.sleep(5)
finally:
# Tanca el navegador
driver.quit()