Apéndice K — Infraestructura técnica y reproducibilidad

Fecha: agosto 2025 Anexo: K. Infraestructura técnica y reproducibilidad Función: documenta las versiones de software, el entorno Python, los modelos de IA y el hardware utilizados en la producción editorial del libro, por transparencia metodológica Palabras clave: Reproducibilidad, Quarto, XeLaTeX, Python, IA local, Ollama, Infraestructura técnica

Este anexo documenta la infraestructura técnica completa utilizada en la producción editorial del libro: versiones de software, entorno Python, modelos de inteligencia artificial y hardware. Se incluye por transparencia metodológica y reproducibilidad, conforme a las buenas prácticas de investigación abierta. {#sec-colofonth-k}

K.1 Formato y compilación

El libro está construido como un proyecto Quarto book que comparte una única fuente en Markdown extendido (.qmd) para generar simultáneamente un sitio web estático (HTML) y un PDF impreso. El pipeline de compilación es:

.qmd  →  pandoc (AST)  →  { HTML5 + CSS ,  LaTeX → xelatex → PDF }

Tabla K.1: Motores de compilación.

Componente	Versión	Función
Quarto	1.8.27	Sistema de publicación científica multiformato. Proyecto tipo `book`.
Pandoc	3.7.0	Parser de Markdown y conversor universal. Filtros: `citeproc` (APA 7).
TeX Live	2025	Distribución TeX: XeLaTeX, fontspec, hyperref, etc.
XeLaTeX	3.141592653-2.6-0.999997	Motor TeX con soporte Unicode y OpenType para el PDF.

La configuración del proyecto define documentclass: scrbook (KOMA-Script) con DIV=12, papersize: a4, márgenes 16/16/16/18 mm, fontsize: 8.5pt y linestretch: 1.15. El HTML usa el tema cosmo con hoja de estilos personalizada. La gestión bibliográfica se realiza con Zotero y Better BibTeX, exportando a references.bib con formato APA 7.ª edición via CSL.

K.2 Control de versiones

El código fuente del libro está versionado con Git y disponible en https://github.com/arcoirisrd/fondocyt-haina-libro. El repositorio de trabajo completo del proyecto (incluyendo datos, informes y material bruto) es privado. El PDF se compila localmente con XeLaTeX por dependencia de las fuentes IBM Plex en _recursos/fonts/.

K.3 Entorno Python

El repositorio incluye un virtualenv .venv con Python 3.14.3 para scripts auxiliares de normalización, extracción de documentos, consultas a Zotero y orquestación MCP.

Tabla K.2: Paquetes Python del entorno .venv.

Paquete	Versión	Función
python-docx	1.2.0	Lectura de `.docx` canónicos del corpus
python-pptx	1.0.2	Extracción de texto e imágenes de presentaciones
pdfplumber	0.11.9	Parseo de PDFs (informes, cartografía)
Pillow (PIL)	12.2.0	Generación de hojas de contacto fotográficas
pyzotero	1.11.0	Cliente Python de la API de Zotero
bibtexparser	1.4.4	Manipulación programática de `references.bib`
zotero-mcp-server	0.3.0	Servidor MCP para integración Zotero con agentes IA
fastmcp	3.2.3	Framework para servidores MCP locales
openpyxl	3.1.5	Lectura de hojas de cálculo del proyecto
numpy	2.4.4	Operaciones numéricas auxiliares
PyYAML	6.0.3	Lectura y escritura de YAML y frontmatter

K.4 Infraestructura de IA local

Para el procesamiento de datos sensibles del proyecto (encuestas domiciliarias, transcripciones, imágenes de campo, normativa y documentos internos) se utilizó un stack de IA completamente local, ejecutado en infraestructura propia y sin envío de información a servicios externos. La infraestructura computacional clave del proyecto incluye dos tarjetas gráficas NVIDIA GeForce RTX 5090 (32 GB VRAM) adquiridas con cargo al presupuesto FONDOCYT 2023-1-3A13-0725: una se destinó al servidor de inferencia y la otra a la estación de trabajo editorial. Estas GPU permitieron la ejecución local de modelos de lenguaje y visión de hasta 70B parámetros en cuantización Q4-Q5, así como el procesamiento OCR masivo de documentos escaneados, manteniendo los datos del proyecto dentro del entorno controlado del consorcio.

K.4.1 Servidor de IA

Tabla K.3: Stack del servidor local de IA.

Capa	Componentes	Uso en el proyecto
Hardware	AMD Ryzen 9 5950X (16c/32t). 128 GB DDR4. NVIDIA RTX 5090 32 GB VRAM	Ejecución local de modelos 30-70B parámetros
OS	Ubuntu Server 24.04 LTS. Driver NVIDIA 550+. CUDA 12.8	Base del stack CUDA
Runtimes	Python. Docker + NVIDIA Container Toolkit	Aislamiento de servicios
Modelo runtime	Ollama 0.17+ (servicio systemd, puerto 11434)	Servidor HTTP local para modelos de lenguaje y visión
Frontend	Open WebUI (Docker) con RAG integrado	Interfaz web del equipo con chat y carga de documentos
Fine-tuning	LLaMA-Factory, Unsloth Studio	Evaluado, no usado para contenido del libro

Tabla K.4: Modelos de IA locales y su función.

Modelo	Uso en el proyecto
`gemma4:26b-a4b`	Motor OCR canónico del proyecto. Extracción de tablas y texto denso.
`gemma3:27b`	Fallback VLM y modelo de redacción larga.
`qwen3:32b`	Razonamiento estructurado, análisis de normativa urbana.
`qwen3-coder:30b`	Generación y revisión de scripts Python.
`deepseek-r1:32b`	Razonamiento para análisis espacial.
`nomic-embed-text`	Embeddings para el RAG sobre el corpus del proyecto.
DeepSeek-OCR-2 (vLLM)	OCR especializado de alto volumen (informes escaneados, cartografía histórica).

K.4.2 Estación de trabajo editorial

Tabla K.5: Estación de trabajo editorial.

Componente	Especificación
CPU	AMD Ryzen (Family 26, Model 68), 32 hilos a ~4.3 GHz
Memoria	128 GB DDR4
GPU	NVIDIA GeForce RTX 5090, 32 GB VRAM
Almacenamiento	NVMe Samsung 980 PRO 2 TB · NVMe WD_BLACK SN850X 4 TB
Sistema operativo	Windows 11 Pro for Workstations (build 26200)
Entorno Linux	WSL2 con Ubuntu 24.04 para scripts bash y pipeline Quarto

K.5 Trazabilidad bibliográfica

La bibliografía externa citada en este libro reside en la biblioteca Zotero del proyecto FONDOCYT. Cada referencia está vinculada a su PDF original, notas de lectura y anotaciones internas. Como acompañamiento a este informe final se está preparando un repositorio abierto con los PDFs de la biblioteca Zotero (respetando licencias y derechos de los editores), de modo que cualquier lector pueda consultar las fuentes primarias y verificar la evidencia detrás de cada afirmación.

K.6 Reproducibilidad

El código fuente de este libro (Quarto, LaTeX, Python), la bibliografía (references.bib) y los datos derivados están versionados con Git. Todas las herramientas de software, modelos abiertos y tipografías utilizadas son libres u open source, lo que permite reproducir íntegramente el resultado a partir del código fuente y los datos asociados sin dependencia de servicios comerciales.