Metodología de recolección y publicación de los datos

El principio base

Publicamos sólo datos provenientes de fuentes institucionales mexicanas o internacionales. No existe en este sitio un solo registro proveniente de un blog, de un sitio comercial privado, de un foro, de una denuncia anónima. Cuando ves una convocatoria de apoyos, una jurisprudencia, un medicamento, una licitación, existe siempre en algún lugar una fuente oficial enlazada que puedes verificar por tu cuenta.

Esta regla parece obvia. No lo es. Muchos agregadores mexicanos mezclan fuentes oficiales con secundarias sin distinguirlas, o reportan datos que ya no existen en la fuente original, o añaden comentario editorial que se superpone al dato fáctico haciéndolos indistinguibles. Nosotros mantenemos la cosa separada: el dato es ese, la fuente es esa, los resúmenes o comentarios eventuales son nuestros y están etiquetados claramente como tales.

De dónde vienen los datos

Para cada una de las quince categorías del sitio existe un conjunto de fuentes institucionales mapeado y documentado. En resumen, las principales por categoría:

Apoyos y subsidios: Secretaría de Economía, Secretaría de Bienestar, NAFIN, INADEM (cuando aún operaba) y sucesoras, Secretarías estatales de Desarrollo Económico, fondos federales y estatales. Para cada convocatoria agregada se memoriza la fuente específica (nombre de la dependencia, URL del portal, marca de tiempo de publicación).
Becas: CONACYT (hoy CONAHCYT), CONACYT estatales, COMEXUS para becas Fulbright-García Robles, Banco Santander, Fundación Carlos Slim, Programa de Becas Elisa Acuña.
Empleo público: Servicio Profesional de Carrera de la APF (TrabajaEn), portales de cada secretaría federal, IMSS, ISSSTE, PEMEX, CFE, convocatorias estatales y de los poderes legislativo y judicial.
Programas sociales: Secretaría de Bienestar, IMSS, ISSSTE, programas estatales y municipales documentados en los respectivos portales oficiales.
Legislación: Diario Oficial de la Federación (DOF), portales de la Cámara de Diputados, Senado, Suprema Corte de Justicia de la Nación. La normativa estatal se recoge desde los diarios oficiales locales.
Jurisprudencia: portal de la SCJN, semanario judicial, archivo del Consejo de la Judicatura Federal. Las resoluciones pasan por un anonimizador antes de la publicación.
Salud: Catálogo nacional de unidades médicas del Sistema Nacional de Salud, base de datos de medicamentos COFEPRIS, exenciones e indicaciones oficiales.
Licitaciones: CompraNet, plataforma del Sistema Electrónico de Contrataciones Públicas, que publica en formato estructurado todas las licitaciones federales sujetas a la Ley de Adquisiciones, Arrendamientos y Servicios del Sector Público y a la Ley de Obras Públicas.
Subastas judiciales: portales del Poder Judicial Federal y de los poderes judiciales estatales, donde se publican las almonedas judiciales y las ventas notariales.
Catastro: información publicada por los catastros estatales y municipales, con disponibilidad heterogénea según la entidad federativa.
Combustibles: precios de gasolina y diésel comunicados a la CRE (Comisión Reguladora de Energía) y publicados como datos abiertos por los operadores en cumplimiento de la regulación.
Calendario fiscal: calendario oficial del SAT con los plazos de pagos provisionales del ISR, retenciones, IVA, IEPS, declaración anual y obligaciones de personas físicas y morales.
Trámites: catálogo nacional de trámites y servicios (gob.mx/tramites), con los requisitos, costos y plazos publicados oficialmente.
Transparencia y cuentas públicas: SIPOT (Sistema de Portales de Obligaciones de Transparencia) del INAI, presupuestos de egresos de la federación y de los estados, cuenta pública anual de la Auditoría Superior de la Federación.

Cómo se realiza la recolección

La recolección está automatizada. Cada noche a las 22:00 hora del centro de México arranca un proceso que visita las fuentes, descarga las actualizaciones, normaliza los campos, escribe en la base de datos. Para cada una de las quince categorías existe un scraper específico, escrito en Python, que gestiona las particularidades de la fuente: a veces son APIs JSON bien estructuradas (caso óptimo, ejemplo datos abiertos del SAT), a veces son CSV descargables (caso medio, ejemplo COFEPRIS), a veces son HTML que hay que parsear página por página (caso pesado, ejemplo algunos portales estatales para apoyos).

El proceso respeta los tiempos de las fuentes. Si una fuente actualiza mensualmente (por ejemplo el catálogo de unidades de salud del IMSS), el scraper corre mensualmente. Si actualiza cada diez minutos (por ejemplo algunas comunicaciones de precios de gasolina), el scraper corre con cadencia coherente. Nunca llamamos a una fuente con más frecuencia de la que la propia fuente prevé en sus términos de uso.

Normalización y enriquecimiento

El dato bruto se reformatea casi siempre antes de la publicación. Cada fuente tiene su propia taxonomía: por ejemplo las convocatorias de apoyos estatales clasifican el beneficiario de modo distinto entre entidades federativas (un apoyo para "empresas jóvenes" en una entidad podría ser "startup menor de 36 años" en otra). Reducimos a una taxonomía común para permitir búsquedas transversales que de otro modo serían imposibles.

Sobre una parte seleccionada de los registros (las leyes y las jurisprudencias más consultadas, los medicamentos OTC más buscados, las unidades de salud de referencia por entidad federativa) añadimos un resumen escrito a mano o asistido por modelo lingüístico pero siempre revisado en redacción antes de la publicación. Estos resúmenes están etiquetados en la base de datos como enriquecimiento y están pensados para dar contexto a quien lee: qué cambia con esta ley, cuál es el criterio enunciado en esa jurisprudencia, en qué clase del SNS entra ese medicamento. No sustituyen el texto original, que siempre queda enlazado.

Actualización de las páginas

Después de la recolección nocturna, el sitio se reconstruye y republica antes de las 7 de la mañana siguiente. Cada registro de detalle lleva una fecha de última actualización, referida a la última vez que el proceso confirmó la presencia de ese registro en la fuente. Cuando una fuente retira un dato (por ejemplo una convocatoria caducada que sale del portal de la dependencia), en nuestro sitio ese dato pasa al estado "archivado": la página sigue existiendo para quien ya tiene el enlace guardado, pero queda marcada como caducada y ya no aparece en las búsquedas activas.

Para algunas categorías con mucho volumen y baja relevancia individual (por ejemplo los registros minoristas de licitaciones, las unidades médicas más pequeñas), aplicamos una política automática: las páginas con contenido sustancialmente vacío, en las que la fuente no nos da información suficiente para justificar una ficha autónoma, quedan excluidas de la indexación en buscadores aunque permanezcan accesibles para quien tiene el enlace. La regla es: indexamos sólo lo que tiene valor informativo real para quien busca.

Privacidad y anonimización

Las jurisprudencias y sentencias representan el caso más delicado. Una resolución del juez contiene a menudo datos personales identificativos (nombres, direcciones, RFC parciales, detalles sobre menores, detalles sobre patologías, situaciones patrimoniales). La normativa mexicana (Ley Federal de Protección de Datos Personales en Posesión de los Particulares, LFPDPPP, y la Ley General de Protección de Datos Personales en Posesión de Sujetos Obligados, LGPDPPSO) impone límites precisos a la republicación de estos contenidos.

En las jurisprudencias aplicamos un anonimizador automático que elimina o sustituye nombres propios, direcciones, RFC, referencias directas a menores. Encima de cada página de detalle hay un aviso YMYL (Your Money or Your Life) que recuerda al lector los límites de la información publicada y le dirige a un abogado para casos específicos. Las resoluciones donde el anonimizador no consigue hacer su trabajo quedan excluidas de la publicación.

Para solicitudes de retirada conforme a la LFPDPPP contactar [email protected] con asunto "LFPDPPP retirada". Los plazos de respuesta son dentro de los siete días hábiles; las retiradas motivadas se efectúan en el mismo plazo.

Uso de asistentes IA

Desarrollo el sitio con la ayuda de asistentes IA para la parte de código y para la generación de algunos resúmenes automáticos. Lo declaro aquí abiertamente: parte de la redacción técnica del scraper, de los resúmenes breves de leyes y jurisprudencias, del cálculo de pertinencia entre convocatoria y perfil de usuario, está asistida por modelos lingüísticos de gran tamaño (Anthropic Claude para el código y para los resúmenes editoriales finos, DeepSeek para enriquecimiento incremental).

El contenido editorial visible, es decir esta página, las páginas institucionales (quiénes somos, fuentes, proceso editorial), los bloques introductorios de las categorías, las guías de la sección dedicada, están escritos, releídos y modificados manualmente antes de la publicación. Nada de lo que lees aquí arriba ha sido subido "tal cual ha salido" del output de un modelo.

Gestión de las notificaciones

Si encuentras un error en un dato publicado (un título de convocatoria mal escrito, un plazo fiscal con fecha equivocada, una jurisprudencia mal anonimizada, un precio de combustible claramente fuera de escala), señalalo a [email protected] indicando la URL de la página y qué está mal. Si sabes también cuál es la fuente correcta mejor, pero no es obligatorio.

Las notificaciones de error tienen prioridad respecto al resto de la correspondencia y se procesan en siete días hábiles. Si el error es nuestro (un scraping mal hecho, un parser defectuoso), corregimos enseguida. Si el error está en la fuente original, lo señalamos a la dependencia y mientras tanto añadimos una nota en nuestra página.

Lo que no hacemos

No vendemos los datos a terceros.
No perfilamos a los usuarios para finalidades comerciales nuestras.
No agregamos información sobre personas concretas para construir dossiers. Los datos están estructurados por dependencia pública, no por individuo.
No publicamos contenidos generados al vuelo por IA sin revisión humana.
No sustituimos ni simulamos la opinión de profesionales (contadores públicos, abogados, médicos, consultores). Los datos son de consulta, no de asesoría.
No garantizamos que una convocatoria para la cual cumples los requisitos en nuestro sitio sea aceptada por la dependencia convocante. Nuestra fuente es la misma que usarías tú, pero la relación contractual con la dependencia que otorga el apoyo es entre tú y la dependencia, no pasa por nosotros.