Metodología de datos
Principio general: sin estimaciones
Todo dato publicado en impuestosde.com procede de una fuente oficial primaria verificable. La regla más importante de este proyecto es la línea roja sobre estimaciones: ninguna cifra se interpola, se estima por analogía, se infiere de prensa o se toma de agregadores secundarios. Si un dato no existe en una fuente oficial o no se ha podido verificar, se publica como nulo (sin dato) o directamente no se publica.
Pipeline de ingesta de datos
Los datos se incorporan mediante pipelines Python que descargan los archivos originales, los normalizan a JSON validado y los cargan en la base de datos mediante operaciones de upsert idempotentes. El proceso tiene tres etapas:
- Descarga: se obtiene el archivo original de la fuente (CSV, XLSX, PDF, SDMX JSON) y se guarda en
data/raw/con la fecha de descarga. - Normalización: el script de ingesta extrae los campos relevantes y los convierte a JSON normalizado en
data/staging/. Cada registro lleva la referencia normativa que lo acredita. - Carga: el orquestador
load_db.pylee el staging y hace upsert en la base de datos Turso. La carga es idempotente: ejecutarla dos veces deja la base en el mismo estado.
Modelo de vigencias temporales
Los tipos tributarios no son valores puntuales sino períodos de vigencia. Cada registro de tipo lleva dos campos clave:
vigencia_desde: fecha ISO en que entra en vigor el tipo (generalmente 1 de enero del ejercicio fiscal, aunque puede ser en mitad del año).vigencia_hasta: fecha ISO de fin de vigencia, o nulo si el tipo sigue en vigor. Una fecha no nula indica que fue sustituido por una versión posterior.
Ejemplo: el IVA general subió del 18% al 21% el 1 de septiembre de 2012. Hay dos registros para 2012: uno con vigencia desde 2010-07-01 hasta 2012-08-31 (18%), y otro con vigencia desde 2012-09-01 (21%).
Normas de referencia
Cada tipo lleva asociada la norma jurídica que lo introduce: identificador BOE (formato BOE-A-YYYY-NNNNN), identificador de boletín autonómico o referencia de la fuente estadística. Esto permite a cualquier usuario verificar la cifra directamente en el BOE o el organismo correspondiente.
Categorización de fuentes
Se clasifican en tres tiers:
- Tier A: organismo oficial que produce el dato (AEAT, INE, Ministerio de Hacienda, Eurostat, OCDE, Seguridad Social, AIReF). Máxima confianza.
- Tier B: organismo oficial diferente al productor que recoge el dato (ayuntamientos publicando sus ordenanzas).
- Tier C: norma jurídica primaria (BOE, DOGC, BOP, etc.) de la que se extrae el dato manualmente o mediante parsing. Alta autoridad pero requiere interpretación.
No se usa ninguna fuente de nivel inferior: nada de Wikipedia, Statista, DatosMacro, Newtral ni medios de comunicación.
Criterios de cobertura
El objetivo es cobrir todos los tributos estatales (IRPF, IS, IVA, IIEE, cotizaciones SS) con series históricas desde su creación y todos los tributos cedidos autonómicos (ISD, ITP, AJD, Patrimonio, IRPF autonómico) para los ejercicios 2022-2025 y en expansión histórica. Los tributos locales (IBI, IIVTNU, IAE) requieren acceso a más de 500 ordenanzas municipales y se incorporan progresivamente.
Unidades de medida
- Los tipos impositivos se expresan en porcentaje (%, no decimal).
- La recaudación se expresa en millones de euros corrientes (no constantes).
- La presión fiscal se expresa como % del PIB.
- La cuña fiscal se expresa como % del coste laboral total.
- Los tipos de impuestos especiales se expresan en las unidades específicas de cada gravamen (€/hectolitro de alcohol puro, €/1.000 litros de gasolina, etc.).