Apéndice N — URB-LEX-AI: Dataset comparativo de normativas urbanísticas para inteligencia artificial

Resumen ejecutivo de un borrador de investigación derivado del proyecto FONDOCYT

Fecha: agosto 2025 Anexo: N. URB-LEX-AI Función: presenta la metodología para construir un dataset comparativo de normativas urbanísticas de Centroamérica y el Caribe, etiquetado para modelos de procesamiento de lenguaje natural Palabras clave: Dataset, Procesamiento de lenguaje natural, RAG, Normativa urbanística, Derecho computacional, Inteligencia artificial

Estado del borrador: documento de investigación en fase exploratoria, archivado en publicaciones/borradores/urb-lex/Dataset_Normativa_Urbana_Centroamerica_Caribe.docx. Esta entrada del libro presenta su síntesis ejecutiva. La versión completa del borrador y la consolidación bibliográfica formal en Zotero quedan pendientes para el ciclo de publicaciones derivadas del proyecto. El borrador es complementario del documento URB-LEX-CAC presentado en el Anexo M: aquel proporciona el marco analítico comparativo; este proporciona la metodología técnica para construir un dataset estructurado del corpus normativo regional con vocación de uso en aplicaciones de inteligencia artificial.

N.1 Por qué un dataset de normativa urbanística regional

El asistente IA municipal “Pregúntale al Ayuntamiento” propuesto en la sección 7.13 del libro como pieza de la segunda generación del ecosistema digital es, en el plano técnico, un sistema de recuperación aumentada (RAG) entrenado sobre tres corpus documentales: la Ley 368-22 y el Decreto 396-25, la normativa municipal vigente de Bajos de Haina y los documentos técnicos del proyecto FONDOCYT. Para que ese asistente local funcione bien se requiere un corpus etiquetado y consistente; y para que ese mismo asistente pueda escalar a un dispositivo de escala regional capaz de responder consultas comparadas sobre normativa urbanística iberoamericana, se requiere un corpus mucho más amplio que abarque las jurisdicciones vecinas con homologación de categorías, vocabulario y trazabilidad documental. URB-LEX-AI propone construir ese corpus.

El borrador formaliza la metodología para crear un dataset comparativo de normativas de planificación urbana para Centroamérica y el Caribe, etiquetado para su uso en modelos de procesamiento de lenguaje natural y en asistentes conversacionales especializados en derecho urbanístico. La hipótesis de trabajo es directa: la información normativa que hoy circula dispersa entre gacetas oficiales, sitios institucionales y bibliotecas jurídicas sectoriales puede transformarse en una infraestructura común de datos abiertos cuando se le aplica una metodología de etiquetado coherente, lo que abre dos aplicaciones técnicas inmediatas (asistente conversacional multinacional y modelos de comparación normativa automatizada) y una aplicación analítica de mediano plazo (identificación de patrones de convergencia y divergencia regional sobre la base del corpus completo).

N.2 Composición del corpus inicial

El corpus que el borrador documenta está parcialmente agregado en el repositorio del proyecto bajo la ruta publicaciones/borradores/urb-lex/dataset/. Cubre cinco jurisdicciones con aproximadamente treinta documentos normativos y una matriz de investigación estratégica adicional. La distribución por jurisdicción es la siguiente:

CARICOM (1 documento). Tratado de la Comunidad Caribeña como marco regional de referencia, junto con notas de contexto sobre los mecanismos sectoriales de cooperación (COTED, COHSOD) que tienen implicaciones territoriales indirectas.
Costa Rica (~19 documentos). El subcorpus más completo del dataset, con la Ley 4240 de Planificación Urbana de 1968, la Ley Orgánica del Ambiente de 1995, decretos de planes regionales (Plan GAM), legislación complementaria sobre zona marítimo terrestre, biodiversidad, emergencias y suelos, y planes reguladores cantonales seleccionados como ejemplos.
El Salvador (~3 documentos). Marcos normativos del Área Metropolitana de San Salvador con énfasis en la Ley de Desarrollo y Ordenamiento Territorial del AMSS de 1993 y el rol de OPAMSS.
Honduras (~3 documentos). Ley de Ordenamiento Territorial de 2003 y sus reglamentos asociados, junto con planes municipales seleccionados.
SICA (1 documento). Marco regional PRINAU como instrumento supranacional de armonización normativa.

A este corpus se suma la matriz dominicana del propio proyecto FONDOCYT, con la Ley 368-22, el Decreto 396-25 y la NUR-Haina-2025, que aporta el sexto bloque jurisdiccional y permite usar al caso de Bajos de Haina como bisagra entre el dataset regional y la práctica urbanística concreta. La extensión total del corpus actual es de algo más de cincuenta documentos normativos en formatos heterogéneos (PDF de gacetas oficiales, documentos Word de planes municipales, capturas de bases de datos legales en línea), lo que constituye una base modesta pero suficiente para los experimentos iniciales del componente IA.

N.3 Metodología de etiquetado y arquitectura propuesta

El borrador describe una metodología de etiquetado que combina extracción automática de metadatos básicos (jurisdicción, año, tipo de norma, jerarquía, autoridad emisora) con anotación semántica manual sobre los conceptos urbanísticos clave (categorías de suelo, instrumentos de planificación, instituciones rectoras, mecanismos de participación, principios transversales como sostenibilidad, gestión de riesgos y adaptación climática). El producto final del etiquetado es un dataset estructurado en formato JSON/CSV exportable a sistemas de procesamiento de lenguaje natural, con cada documento del corpus enriquecido con metadatos estructurados y con segmentación por artículos o cláusulas relevantes para facilitar el indexado en bases de datos vectoriales.

La arquitectura técnica para la aplicación del dataset al asistente conversacional sigue el patrón estándar de los sistemas RAG. Los documentos del corpus se segmentan en chunks semánticos (típicamente entre 500 y 1500 tokens según el tipo de norma), se generan embeddings vectoriales mediante un modelo multilingüe español-inglés, y se almacenan en una base de datos vectorial accesible por consulta. Cuando un usuario formula una pregunta al asistente, el sistema recupera los chunks más relevantes del corpus y los pasa como contexto a un modelo generativo que produce la respuesta con citas trazables a los documentos originales. Esta arquitectura es la misma que el proyecto FONDOCYT ya probó técnicamente en el widget IA del libro documentado en el Anexo L, lo que reduce la complejidad de desarrollo del asistente regional al solo trabajo de adaptar el pipeline al nuevo corpus.

N.4 Aplicaciones inmediatas y diferidas

Las aplicaciones inmediatas del dataset y de su componente IA son tres. La primera es alimentar al asistente IA municipal “Pregúntale al Ayuntamiento” descrito en la visión prospectiva del cap 7. El módulo dominicano del corpus (Ley 368-22, Decreto 396-25, NUR-Haina-2025) constituye la base de conocimiento del asistente, y la metodología de URB-LEX-AI define cómo etiquetar y segmentar ese corpus para que el modelo recupere información relevante con precisión. La segunda aplicación inmediata es construir un asistente de escala regional que responda consultas comparadas sobre normativa urbanística caribeña y centroamericana, dirigido a investigadores, técnicos municipales de la región y consultores de cooperación internacional. La tercera aplicación inmediata es proveer al borrador URB-LEX-CAC del Anexo M una base empírica estructurada sobre la que profundizar el análisis comparativo, en lugar de trabajar con extractos manuales de los documentos.

Las aplicaciones diferidas son dos y dependen de que el dataset alcance una masa crítica suficiente. La primera es entrenar modelos de comparación normativa automatizada capaces de identificar patrones recurrentes (categorías de suelo equivalentes en distintos países, jerarquías de planes con estructura similar, mecanismos de participación con redacciones afines) y de detectar divergencias relevantes para la cooperación regional. La segunda es contribuir un dataset abierto al ecosistema iberoamericano de investigación en derecho urbanístico computacional, área en consolidación con potencial para captar recursos de cooperación científica entre instituciones académicas de la región.

N.5 Conexión con el ecosistema digital del proyecto

El borrador URB-LEX-AI es la pieza que conecta la línea de investigación normativa del consorcio FONDOCYT con su línea de inteligencia artificial. En el plano del libro, conecta el cap 7 (sistema digital, donde se propone el asistente IA municipal en la visión prospectiva), el cap 8 (normativa por tipologías de manzana, donde se desarrolla el componente jurídico del proyecto) y este Anexo N (donde se documenta la metodología técnica). En el plano del consorcio, conecta a Karina Pérez Teruel (BARNA, especialista en IA aplicada a la toma de decisiones), Jorge Recio (Arcoíris, edición digital y arquitectura del ecosistema) y Anyerlina Hernández (Arcoíris, normativa urbana), que son los tres miembros del equipo con perfil técnico para sostener un segundo ciclo de trabajo sobre la línea URB-LEX. En el plano del repositorio, los archivos vivos están en publicaciones/borradores/urb-lex/.

N.6 Estado del borrador y siguientes pasos

URB-LEX-AI se encuentra en fase exploratoria. Tiene un planteamiento metodológico desarrollado, un corpus inicial agregado (las cinco subcarpetas mencionadas más la matriz dominicana del proyecto), una arquitectura RAG validada técnicamente en el widget IA del libro y una conexión clara con el resto del ecosistema digital del proyecto. Le faltan tres tareas para alcanzar versión publicable: (a) completar el etiquetado semántico del corpus con la metodología propuesta (estimación: dos a tres meses de trabajo de un investigador con perfil jurídico-técnico); (b) ejecutar los primeros experimentos del asistente conversacional sobre el corpus etiquetado, con un protocolo de evaluación que mida precisión, recall y trazabilidad de las respuestas (estimación: dos meses adicionales con apoyo de Karina Pérez Teruel y del equipo BARNA); (c) consolidar la bibliografía formal del borrador en Zotero y definir el enfoque editorial definitivo. Las opciones de revista identificadas como afines son las dedicadas a inteligencia artificial aplicada al derecho, gobernanza algorítmica, urbanismo computacional o ciencias de datos para el sector público.

La continuidad de URB-LEX-AI, igual que la de URB-LEX-CAC, depende de la apertura de un segundo ciclo de publicaciones del consorcio FONDOCYT. La inclusión de este resumen como anexo del libro responde al compromiso de dejar consignado el borrador en un registro trazable y de hacer visible para el lector la conexión orgánica entre la línea normativa del proyecto, la línea de inteligencia artificial y la propuesta del asistente municipal de la visión prospectiva del cap 7.