Metodología
Cómo construimos los datos de Bajo Lupa, desde la fuente hasta la ficha pública.
Fuentes
- PLACSP — Plataforma de Contratación del Sector Público (Atom XML oficial). Ingesta diaria.
- BDNS — Base de Datos Nacional de Subvenciones (REST JSON). Ingesta cada 6 horas.
- CKAN Gobierno de Canarias — datos abiertos (contratos del Gobierno canario adjudicados a empresas majoreras).
- CKAN Cabildo (Open i-Sland) — plenos, indicadores y agendas.
- Subidas manuales — admin acreditado puede subir Excel/CSV (típicamente contratos menores trimestrales que no aparecen en PLACSP).
No hacemos scraping de HTML salvo casos excepcionales documentados. Si una administración no publica en API ni acepta Excel, lo registramos en /incumplimientos.
Normalización y deduplicación
Una empresa puede aparecer con 10 variantes en 10 administraciones ("Construcciones Majoreras S.L.", "CONSTRUCCIONES MAJORERAS, S.L.U.", "Constru. Majoreras"...). Aplicamos:
- Validación de NIF/CIF/NIE con dígito de control.
- Normalización de nombres: sin sufijos societarios, sin acentos (preservando ñ).
- Hash fonético adaptado al español (variaciones B/V, González/Gonzalez).
- Similaridad combinada (Levenshtein + Jaro-Winkler + token sort).
- Pre-filtro pg_trgm en PostgreSQL para velocidad.
- Umbral 95% → match automático; 85-95% → cola de revisión humana.
Clasificación de empresas
Multi-tag con confianza. Cada empresa puede ser, por ejemplo, constructora Y local_fuerteventura a la vez. Reglas automáticas por CNAE, CPV dominante y nombre comercial. Tags con confianza ≥ 70% se muestran al público. Reglas dudosas se encolan para revisión editorial.
Trazabilidad
Cada registro guarda su origen, hash sha256 de campos canónicos, URL de la fuente y snapshot del payload original. Si una administración rectifica, podemos regenerar sin perder histórico.
Frecuencia y latencia
- PLACSP diario (03:00 UTC) → latencia ≤24h con publicación.
- BDNS cada 6h.
- CKAN diario.
- Recálculo de tags nocturno (03:30 UTC).
- Vistas materializadas refrescadas tras cada ingesta exitosa.
¿Has visto un error?
Cada ficha tiene un enlace de rectificación. Escríbenos a hola@bajolupa.org con la corrección y la evidencia.