Apéndice K — Infraestructura técnica y reproducibilidad

Fecha: agosto 2025 Anexo: K. Infraestructura técnica y reproducibilidad Función: documenta las versiones de software, el entorno Python, los modelos de IA y el hardware utilizados en la producción editorial del libro, por transparencia metodológica Palabras clave: Reproducibilidad, Quarto, XeLaTeX, Python, IA local, Ollama, Infraestructura técnica

Este anexo documenta la infraestructura técnica completa utilizada en la producción editorial del libro: versiones de software, entorno Python, modelos de inteligencia artificial y hardware. Se incluye por transparencia metodológica y reproducibilidad, conforme a las buenas prácticas de investigación abierta. {#sec-colofonth-k}

K.1 Formato y compilación

El libro está construido como un proyecto Quarto book que comparte una única fuente en Markdown extendido (.qmd) para generar simultáneamente un sitio web estático (HTML) y un PDF impreso. El pipeline de compilación es:

.qmd  →  pandoc (AST)  →  { HTML5 + CSS ,  LaTeX → xelatex → PDF }
Tabla K.1: Motores de compilación.
Componente Versión Función
Quarto 1.8.27 Sistema de publicación científica multiformato. Proyecto tipo book.
Pandoc 3.7.0 Parser de Markdown y conversor universal. Filtros: citeproc (APA 7).
TeX Live 2025 Distribución TeX: XeLaTeX, fontspec, hyperref, etc.
XeLaTeX 3.141592653-2.6-0.999997 Motor TeX con soporte Unicode y OpenType para el PDF.

La configuración del proyecto define documentclass: scrbook (KOMA-Script) con DIV=12, papersize: a4, márgenes 16/16/16/18 mm, fontsize: 8.5pt y linestretch: 1.15. El HTML usa el tema cosmo con hoja de estilos personalizada. La gestión bibliográfica se realiza con Zotero y Better BibTeX, exportando a references.bib con formato APA 7.ª edición via CSL.

K.2 Control de versiones

El código fuente del libro está versionado con Git y disponible en https://github.com/arcoirisrd/fondocyt-haina-libro. El repositorio de trabajo completo del proyecto (incluyendo datos, informes y material bruto) es privado. El PDF se compila localmente con XeLaTeX por dependencia de las fuentes IBM Plex en _recursos/fonts/.

K.3 Entorno Python

El repositorio incluye un virtualenv .venv con Python 3.14.3 para scripts auxiliares de normalización, extracción de documentos, consultas a Zotero y orquestación MCP.

Tabla K.2: Paquetes Python del entorno .venv.
Paquete Versión Función
python-docx 1.2.0 Lectura de .docx canónicos del corpus
python-pptx 1.0.2 Extracción de texto e imágenes de presentaciones
pdfplumber 0.11.9 Parseo de PDFs (informes, cartografía)
Pillow (PIL) 12.2.0 Generación de hojas de contacto fotográficas
pyzotero 1.11.0 Cliente Python de la API de Zotero
bibtexparser 1.4.4 Manipulación programática de references.bib
zotero-mcp-server 0.3.0 Servidor MCP para integración Zotero con agentes IA
fastmcp 3.2.3 Framework para servidores MCP locales
openpyxl 3.1.5 Lectura de hojas de cálculo del proyecto
numpy 2.4.4 Operaciones numéricas auxiliares
PyYAML 6.0.3 Lectura y escritura de YAML y frontmatter

K.4 Infraestructura de IA local

Para el procesamiento de datos sensibles del proyecto (encuestas domiciliarias, transcripciones, imágenes de campo, normativa y documentos internos) se utilizó un stack de IA completamente local, ejecutado en infraestructura propia y sin envío de información a servicios externos. La infraestructura computacional clave del proyecto incluye dos tarjetas gráficas NVIDIA GeForce RTX 5090 (32 GB VRAM) adquiridas con cargo al presupuesto FONDOCYT 2023-1-3A13-0725: una se destinó al servidor de inferencia y la otra a la estación de trabajo editorial. Estas GPU permitieron la ejecución local de modelos de lenguaje y visión de hasta 70B parámetros en cuantización Q4-Q5, así como el procesamiento OCR masivo de documentos escaneados, manteniendo los datos del proyecto dentro del entorno controlado del consorcio.

K.4.1 Servidor de IA

Tabla K.3: Stack del servidor local de IA.
Capa Componentes Uso en el proyecto
Hardware AMD Ryzen 9 5950X (16c/32t). 128 GB DDR4. NVIDIA RTX 5090 32 GB VRAM Ejecución local de modelos 30-70B parámetros
OS Ubuntu Server 24.04 LTS. Driver NVIDIA 550+. CUDA 12.8 Base del stack CUDA
Runtimes Python. Docker + NVIDIA Container Toolkit Aislamiento de servicios
Modelo runtime Ollama 0.17+ (servicio systemd, puerto 11434) Servidor HTTP local para modelos de lenguaje y visión
Frontend Open WebUI (Docker) con RAG integrado Interfaz web del equipo con chat y carga de documentos
Fine-tuning LLaMA-Factory, Unsloth Studio Evaluado, no usado para contenido del libro
Tabla K.4: Modelos de IA locales y su función.
Modelo Uso en el proyecto
gemma4:26b-a4b Motor OCR canónico del proyecto. Extracción de tablas y texto denso.
gemma3:27b Fallback VLM y modelo de redacción larga.
qwen3:32b Razonamiento estructurado, análisis de normativa urbana.
qwen3-coder:30b Generación y revisión de scripts Python.
deepseek-r1:32b Razonamiento para análisis espacial.
nomic-embed-text Embeddings para el RAG sobre el corpus del proyecto.
DeepSeek-OCR-2 (vLLM) OCR especializado de alto volumen (informes escaneados, cartografía histórica).

K.4.2 Estación de trabajo editorial

Tabla K.5: Estación de trabajo editorial.
Componente Especificación
CPU AMD Ryzen (Family 26, Model 68), 32 hilos a ~4.3 GHz
Memoria 128 GB DDR4
GPU NVIDIA GeForce RTX 5090, 32 GB VRAM
Almacenamiento NVMe Samsung 980 PRO 2 TB · NVMe WD_BLACK SN850X 4 TB
Sistema operativo Windows 11 Pro for Workstations (build 26200)
Entorno Linux WSL2 con Ubuntu 24.04 para scripts bash y pipeline Quarto

K.5 Trazabilidad bibliográfica

La bibliografía externa citada en este libro reside en la biblioteca Zotero del proyecto FONDOCYT. Cada referencia está vinculada a su PDF original, notas de lectura y anotaciones internas. Como acompañamiento a este informe final se está preparando un repositorio abierto con los PDFs de la biblioteca Zotero (respetando licencias y derechos de los editores), de modo que cualquier lector pueda consultar las fuentes primarias y verificar la evidencia detrás de cada afirmación.

K.6 Reproducibilidad

El código fuente de este libro (Quarto, LaTeX, Python), la bibliografía (references.bib) y los datos derivados están versionados con Git. Todas las herramientas de software, modelos abiertos y tipografías utilizadas son libres u open source, lo que permite reproducir íntegramente el resultado a partir del código fuente y los datos asociados sin dependencia de servicios comerciales.