Frente 43 · NLP computacional de lenguas andinas · Kiranir

El stack lingüístico andino articula la capa de software fundacional para las lenguas originarias sudamericanas: ASR (automatic speech recognition), TTS (text-to-speech), MT (machine translation) y NLU (natural language understanding) específicos para la familia quechua-aymara, con extensión hacia Puquina reconstruido (sinergia #25) y lenguas amazónicas (Asháninka, Shipibo-Conibo, Awajún, Matsigenka). Tres premisas estructurales: primera, los foundational models entrenados sobre corpus inglés-español-mandarín tratan estas lenguas como low-resource residual y degradan calidad sistemáticamente (Whisper WER >40% en Quechua-Cusco, GPT-4 hallucina morfología); segunda, la familia andina presenta features lingüísticas (aglutinación extrema, evidencialidad gramaticalizada, sufijos validacionales) que demandan arquitectura específica y no transferencia directa desde modelos romance/germánicos; tercera, los productos derivados (traductor app, ASR jurídico, screen readers, TTS) requieren calidad production-grade que solo se alcanza con stack propio. El frente complementa al #17 Quechua (reconstrucción filológica más currículum más escritura propia) operando como su capa computacional: donde #17 reconstruye, este stack despliega. Operación inicial vía instituto-startup en Cusco con nodo secundario La Paz, escalable a operación cross-Sudamericana bajo SOLAR (#27).

Por qué las lenguas andinas necesitan stack tech propio

Los foundational models actuales (Whisper OpenAI, Llama-3 Meta, GPT-4 OpenAI, Gemini Google, Claude Anthropic) operan calidad asimétrica brutal sobre lenguas andinas. Benchmark documentado: Whisper-large-v3 sobre Common Voice Quechua-Boliviano produce WER 41% mediano vs WER 4-6% sobre inglés/español equivalente; Whisper sobre Aymara WER >55%. Causas estructurales: training data ratio (inglés ~10⁹ tokens vs Quechua ~10⁶ tokens documentados, factor 1000x), tokenization BPE entrenada sobre español rompe morfología quechua aglutinante (sufijos de 5-8 morfemas por palabra mal segmentados), absence de evidencialidad en modelos targets (los sufijos -mi/-si/-cha codifican fuente epistémica que no existe en romance), morfología verbal con hasta 20 slots derivacionales mal modelada. Casos análogos donde stack propio resolvió: Masakhane (África subsahariana, 2020-presente) construyó MT específico para 40+ lenguas africanas alcanzando paridad con Google Translate dentro de 3 años; AI4Bharat (IIT Madras + Microsoft, 2020-presente) IndicNLP suite para 22 lenguas índicas (Hindi, Tamil, Bengali, etc.) con foundational models nativos. Ambos casos demostraron que low-resource más arquitectura específica supera high-resource genérico. La paridad operativa con español/inglés es alcanzable; demanda 80-150M USD capex y 5-7 años, no es un problema científico abierto.

Corpus oral y datasets: el problema de los datos

El cuello de botella es corpus, no arquitectura. Inventario actual documentado: Common Voice Mozilla Quechua ~70 horas (mayoría Boliviano), AmericasNLP shared task NAACL 2021/2022/2024 con datasets evaluation pero training-set limitado, Tatoeba ~5000 pares ES-QU verificados, Huarochirí Manuscript (~1598) corpus narrativo histórico digitalizado por Gerald Taylor (CNRS), Bible translations completas (Quechua-Cusco, Quechua-Ayacucho, Aymara). Total real ~200 horas ASR y ~500K pares paralelos ES-QU usables. Target operativo para production: 5000 horas ASR diversificadas (dialect-balanced Quechua I/II más Aymara más Amazónicas) y 5M pares paralelos. Pipeline de captura: contratos con radioemisoras comunitarias (Radio San Gabriel La Paz 60 años de archivo, Radio Onda Azul Puno, Radio Quillabamba Cusco) para licensing de archivo histórico orales; partnership con MINEDU Perú y Ministerio Educación Bolivia para captura controlada en aulas EIB (Educación Intercultural Bilingüe); incentivo crowdsourcing modelo Mozilla Common Voice más AppleSeek pago por hora validada. Datasets sintéticos vía back-translation y self-training (NLLB-200 Meta y Whisper-large como teacher, fine-tuning vía LoRA sobre target). Anonimización GDPR-equivalente y consent informado nativo-hablante con governance via Council Lingüístico Continental (sinergia #17).

Foundational models pequeños y family-specific

Decisión arquitectónica: foundational models small (1-7B params) family-specific superan a frontier models genéricos sobre estas lenguas. Precedentes: BLOOM-1.7B fine-tuned sobre 46 lenguas low-resource (BigScience 2022) supera GPT-3.5 sobre evaluation in-distribution; Aya-23 Cohere (2024, 8B params, 23 lenguas) demostró transfer learning efectivo para lenguas low-resource; AI4Bharat IndicTrans2 (1.1B params, 22 lenguas índicas) supera Google Translate en 14 de 22 lenguas en FLORES-200 benchmark. Stack objetivo: AndesLM-1B (foundational decoder-only sobre 50B tokens curados Quechua-Aymara más Spanish-Quechua bilingüe), AndesLM-7B (production-grade tras Phase 2), AndesASR-Whisper-Andino (Whisper-medium fine-tuned con 5000h target, WER <12%), AndesTTS-VITS-Andino (VITS o Tortoise base con voces nativas licenciadas), AndesMT (NLLB-200 fine-tuned con AndesLM como base). Training infra: GPU cluster nacional (sinergia #06 Datacenter de Frontera) con 256-512 H100/H200 equivalent, training run estimado 30-60 días por iteración de foundational. Open-source con MIT/Apache-2.0 license para adopción académica más enterprise tier para uso comercial (modelo Mistral AI / Cohere). Evaluation rigurosa: AmericasNLP benchmark más eval propio diseñado con nativo-hablantes (que incluye fluency, registro y evidencialidad además del sentence-level BLEU).

Productos: traductor, ASR jurídico, screen readers, TTS

Cuatro productos derivados con tracción operativa demostrable. (1) app traductor consumer (iOS/Android, modelo DeepL/Google Translate) con foco Quechua-Aymara-Español-Inglés más translation offline para zonas rurales (ARM-NEON optimization, modelo cuantizado int8 <500MB). (2) ASR jurídico para sistema judicial peruano-boliviano: Constitución Política del Perú Art. 48 reconoce Quechua como idioma oficial donde predomine, Bolivia Art. 5 CPE-2009 reconoce 36 lenguas oficiales; en práctica audiencias en zonas rurales operan con intérpretes ad-hoc con error rate documentado >25%. Producto: ASR jurídico certificado con human-in-the-loop para transcripción de audiencias, oficios, declaraciones; mercado direccionable Perú+Bolivia ~12K audiencias bilingües/año a USD 200-500 cada una. (3) screen readers nativos para inclusión de personas con discapacidad visual hablantes de Quechua/Aymara (NVDA fork con TTS Andino-nativo); población objetivo ~250K hispanoparlantes+nativos con discapacidad visual en zona andina. (4) TTS premium para audiolibros, educación EIB, podcasts, audio-Wikipedia Quechua, narración para visualizaciones de #16 Chaska y #02 Genoma. Pricing tiers: consumer free con ads / 5 USD/mes premium, enterprise 0.02-0.10 USD/min ASR API, jurídico 50-150 USD/audiencia. Mercado direccionable serviceable continental ~80M USD/año a paridad de adopción con servicios incumbents.

Sinergia con #17 Quechua y el programa Puquina recovery

Articulación operativa estrecha con dos frentes hermanos. Con #17 Quechua: el stack lingüístico es la capa computacional del programa civilizacional. Donde #17 reconstruye filológicamente proto-Quechua (Torero 1964, Cerrón-Palomino 1987-presente), extiende vocabulario técnico (50K neologismos target via Academy framework), diseña sistema de escritura dual featural-silábico más ideográfico (kilkas y tocapus refinados), este stack despliega el lado software: ASR/TTS sobre la lengua reconstruida estandarizada, MT entrenado con corpus que incorpora los neologismos del Council Lingüístico, tokenizer y embeddings para el script propio una vez ratificado Unicode (Phase 2 #17). La governance es compartida: Council Lingüístico Continental aprueba estandarización ortográfica y validación lingüística, el instituto-stack ejecuta implementación técnica. Con el programa Puquina recovery: el Puquina (lengua particular de los Incas pre-Quechua-imperial, extinta hacia 1700 según Cerrón-Palomino) admite reconstrucción comparativa parcial vía cognados Aymara-Uru-Mapudungun más glosario Bertonio 1612 más toponimia residual. El stack provee la infraestructura computacional para reconstrucción algorítmica (comparative method automatizado, phonological reconstruction via Bayesian phylogenetics), análoga a herramientas BayesTraits y LingPy aplicadas a familias indo-europeas pero adaptadas a substrato andino. Producto colateral: corpus paralelo Puquina-Aymara-Quechua reconstruido para uso académico y poético-civilizacional. Cronograma articulado: Phase 0 (2026-2028) stack ASR/TTS-Quechua-Aymara producción y datasets foundation, Phase 1 (2028-2032) AndesLM-1B foundational y producto consumer launch coordinados con primer Unicode submission #17, Phase 2 (2032-2040) cross-lingüístico extensión Mapudungun-Guaraní bajo SOLAR y reconstrucción Puquina algorítmica. Capex articulado: Phase 0 ~25M USD, Phase 1 ~60M USD, Phase 2 ~80M USD; total ~165M USD a horizonte 14 años. Operación auto-sustainable Phase 3 vía SaaS enterprise + licensing académico + government contracts (ASR jurídico Perú/Bolivia).