Seminario del área de Tecnologías del Lenguaje

Sesiones

Decimosexta sesión. 23 de abril de 2026
Generación semi-automática de grafos de conocimiento utilizando modelos del lenguaje y bases de datos de vectores. Víctor Mireles Chávez (CEIICH, UNAM).

Resumen: Los grafos de conocimiento (Knowledge Graphs) permiten una representación formal de la información contenida en documentos de texto. Esta representación permite a su vez la ejecución de consultas estructuradas, la compilación de estadísticas, y la verificación de hipótesis. En esta plática, se da un panorama de algunas técnicas para la creación de dichos grafos a partir de texto explotando los avances recientes en modelos neuronales. Se exponen algunas aplicaciones prototípicas, y otras a gran escala para el estudio de violaciones graves a los derechos humanos en México. Finalmente, se discutirán la aplicabilidad en general del paradigma de grafos para la representación de conocimiento, las limitaciones de los métodos actuales, y las posibles direcciones de investigación en el campo.

Palabras clave: Grafos de conocimiento, extracción de información, representación de conocimiento, derechos humanos

Decimoquinta sesión. 19 de marzo de 2026
Riesgos sociales y éticos de los LLM en aplicaciones de PLN en el mundo real a cargo. Helena Gómez Adorno (IMAS-UNAM).

Resumen: Este seminario, presentado por la Dra. Helena Gómez Adorno (IMAS-UNAM), aborda los riesgos éticos y sociales asociados con el uso de los Grandes Modelos de Lenguaje (LLM) en aplicaciones del mundo real, con un enfoque particular en el contexto de América Latina.

Puntos clave

Integración masiva: Se discute cómo los LLM ya están integrados de forma invisible en herramientas cotidianas (motores de búsqueda, asistentes, suites ofimáticas), lo que hace urgente la necesidad de evaluar sus impactos y generar conciencia.
Sesgos y representación cultural: La Dra. Gómez Adorno enfatiza el riesgo de que estos modelos amplifiquen estereotipos y borren las voces de culturas o variantes lingüísticas (especialmente del español latinoamericano) que no están suficientemente representadas en los datos de entrenamiento.
Transparencia y responsabilidad: Se debate la importancia de la transparencia algorítmica y el peligro de quedar atrapados en «burbujas» informativas debido a los sesgos de entrenamiento.

Sobre el trabajo de la Dra. Helena Gómez Adorno

En la segunda parte de la presentación, la Dra. detalla su investigación sobre la extracción de información en notas clínicas de hospitales en la Ciudad de México, buscando convertir texto libre en datos estructurados para mejorar la toma de decisiones clínicas y el monitoreo de calidad. También nos mencionó los esfuerzos como el proyecto LATAM GPT, que busca crear modelos generativos específicos para el español latinoamericano, así como la importancia de mantener al humano en el proceso (human-in-the-loop) para validar la información y mitigar errores o alucinaciones.

En conclusión, el seminario subraya que, aunque la tecnología ha llegado para quedarse, es fundamental promover la digitalización local y el desarrollo de infraestructura propia para evitar la dependencia tecnológica y cultural del norte global.

Palabras clave: LLM, sesgos algorítmicos, riesgos éticos, diversidad lingüística, diversidad cultural, soberanía tecnológica, humanos en el proceso

https://www.youtube.com/live/kdlhfOG8W0c

Decimocuarta sesión. 27 de noviembre de 2025
Validación de transcripciones a bajo costo mediante un conjunto de modelos independientes de reconocimiento automático del habla. Carlos Daniel Hernández Mena (Centro Nacional de Supercomputación de Barcelona)

Resumen: Los corpus de habla de alta calidad son cruciales para entrenar sistemas de reconocimiento automático del habla (ASR), pero la transcripción manual es costosa y a menudo impráctica, especialmente cuando se dispone de grandes cantidades de datos de habla sin anotar o con transcripciones imperfectas, por ejemplo, con subtítulos. Los métodos de validación existentes se basan en puntuaciones de confianza, sistemas de ASR computacionalmente caros o un post-procesamiento basado en Grandes Modelos de Lenguaje (LLM), los cuales requieren experiencia y una cantidad significativa recursos. Carlos Hernández propone un protocolo de bajo costo y fácil despliegue para la validación de transcripciones en lenguas con recursos medios, utilizando dos modelos de ASR independientes y, si están disponibles, referencias automáticas preexistentes. Su protocolo se aplicó al corpus del español YODAS (YouTube-Oriented Dataset for Audio and Speech) y produjo 7,997 horas de habla validada. La evaluación humana confirmó la fiabilidad de la validación basada en consenso, mientras que los nuevos modelos de ASR entrenados con estos datos lograron un rendimiento competitivo. Esto demuestra que su enfoque permite la expansión escalable de corpus sin requerir infraestructura avanzada ni experiencia profunda en ASR.

Palabras clave: Reconocimiento automático del habla, Protocolo de validación de transcripciones.

https://youtube.com/live/lrubvKmJpZY

Decimotercera sesión. 30 de octubre de 2025
AI/LLM integration with the corpora from English-Corpora.org. Mark E. Davies (Profesor jubilado de la Universidad Brigham Young)

Resumen: El profesor Mark Davies sostiene que los grandes modelos del lenguaje (LLMs) deben integrarse como herramientas de análisis de corpus lingüísticos, en lugar de ser vistos como alternativas excluyentes. Su investigación ha demostrado que los LLMs son adecuados para analizar los datos del corpus. En su presentación, expondrá el enfoque utilizado para el sitio English-Corpora.org, el cual combina sus ricos corpus con las capacidades analíticas y clasificatorias de los grandes modelos del lenguaje, junto con la personalización por parte del usuario. Los casos de uso incluyen: la clasificación semántica de las colocaciones en agrupaciones relevantes, el análisis de las diferencias entre las secciones del corpus (como géneros, períodos de tiempo o dialectos), y la identificación de patrones en contexto.

Palabras clave: Lingüística de corpus, Grandes modelos del lenguaje

https://www.youtube.com/live/t188602gXlY

Duodécima sesión. 25 de septiembre de 2025
YANKUIK CORPUS PAMPA NAWATLAHTOLLI. Juan Manuel Torres Moreno (Université d'Avignon)

Resumen: El equipo del Laboratoire Informatique d'Avignon se encuentra desarrollando el Corpus PI-YALLI para el nawatl (o náhuatl) y tres micro-gramáticas libres de contexto para esa lengua. El nawatl es una lengua de pocos recursos digitales (tipo π o peu dotée). Como se sabe, para las lenguas de este tipo, los corpus disponibles para el aprendizaje de grandes modelos del lenguaje (Large Language Models, LLMs) son virtualmente inexistentes. El objetivo de este trabajo es generar un número significativo de frases artificiales gramaticalmente correctas que permitan aumentar los corpus disponibles para el aprendizaje automático. Al usar la mejor micro-gramática, es posible expandir significativamente el corpus en nawatl con textos de características similares a los textos reales. Al mismo tiempo, proponemos una herramienta de unificación de grafías y dos tareas semánticas de PLN. Además, mostramos que los modelos “clásicos” de IA pueden ser competitivos frente a los LLMs --energívoros, opacos y caros-- en el caso del PLN aplicado a lenguas de tipo π.

Palabras clave: Náhuatl, Algoritmos simbólicos de PLN, Corpus, Gramáticas libres de contexto, Similitud semántica, Unigrafía.

https://youtube.com/live/aLaa1UKxUrM

Undécima sesión. 28 de agosto de 2025

¿Qué hay detrás de los grandes modelos del lenguaje?: Transformers, atención, sesgos y su relación con el lenguaje. Víctor Mijangos (Facultad de Ciencias-UNAM)

Resumen: En los últimos años, los grandes modelos del lenguaje (LLMs) han revolucionado la Inteligencia Artificial (IA) por su capacidad impresionante para procesar y generar lenguaje humano. Pero, ¿qué hay detrás de esta tecnología? En esta plática, exploraremos los mecanismos fundamentales que permiten a los LLMs funcionar. Comenzaremos analizando la arquitectura de los Transformers, una arquitectura de redes neuronales que son la base de la mayoría de los LLMs actuales. Los transformers se basan en un mecanismo de procesamiento de datos llamado "atención", los cuales permiten a estos modelos enfocarse en diferentes partes de la entrada de texto y cómo esto les permite aprender patrones y relaciones complejas en el lenguaje. Sin embargo, los Transformers basados en estos mecanismos de atención requieren una gran cantidad de datos para inferir relaciones complejas en los textos. Por tanto, necesitamos abordar perspectivas que nos permitan entender de manera más concisa lo que estos mecanismos "aprenden". Para esto, nos enfocaremos en los llamados sesgos inductivos, los cuales son suposiciones que siempre se realizan al elegir un modelo de IA. El entender el funcionamiento de los sesgos inductivos en los mecanismos de atención nos permitirá diseñar modelos más eficientes y, además, poder interpretar desde una perspectiva más clara lo que pasa detrás de estos grandes ya modelos. Finalmente, la plática se plantea cómo este entendimiento puede ayudarnos en el entendimiento del lenguaje humano.
Palabras clave: Inteligencia artificial, LLMs, Eficiencia.

https://www.youtube.com/live/NhTUtr4rems

Décima sesión. 26 de junio de 2025
Retos de la traducción automática de lenguas originarias de México: Iván Vladimir Meza Ruiz (Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas-UNAM)

Resumen: En recientes años ha habido un interés creciente de la creación de traductores automáticos para las lenguas originarias de México, en nuestro laboratorio hemos trabajado en esta dirección con Wixarika, Jñatrjo, Ayuuk y Nahuatl. En nuestra experiencia creando estos sistemas hemos enfrentado e identificado una serie de retos que expondremos en esta presentación. Por ejemplo, la oralidad de los lenguajes, la falta del registro lingüístico masivo de las lenguas, una discriminación sistemática de las lenguas, entre varios. Además de los retos presentaremos una ruta de cómo hemos resuelto algunos de los retos y como planeamos enfrentarlos.
Palabras clave: Traductores automáticos, Lenguas originarias, Oralidad, Discriminación sistemática.

https://www.youtube.com/live/cuJJceGI1

Novena sesión. 29 de mayo de 2025
La traducción en la era de los modelos de lenguaje de gran tamaño: Daniel Rojas Plata (CELL-El Colegio de México)

Resumen: La traducción automática ha ganado un lugar destacado no sólo como recurso especializado, sino también como práctica recurrente en la sociedad actual. Desde sus inicios en proyectos específicos hasta el impulso que le han brindado los nuevos modelos de lenguaje de gran tamaño, el potencial uso que ha demostrado para atender los grandes volúmenes de traducciones que se requieren actualmente hace necesario replantear el proceso mismo de la traducción, sus retos y perspectivas a futuro. Esta presentación atiende un doble propósito. En primer lugar, intenta ayudar a entender cuáles han sido las principales tecnologías que se han implementado dentro de la traducción automática, cuáles son sus postulados y de qué manera obtiene sus resultados. En segundo lugar, intenta ahondar en el impacto que esta práctica ha tenido dentro del campo de la traducción en general, los nuevos paradigmas que inaugura y el papel del traductor. El objetivo es proponer un panorama informado sobre la traducción automática desde el punto de vista de su conformación, su uso y sus implicaciones.
Palabras clave: Historia de la traducción automática, Traducción estadística y neuronal, Modelos de lenguaje (LLMs), Paradigmas de la traducción, Rol del traductor.

https://www.youtube.com/live/CMZv1AJU8tk?si=f-2YL8NUUC3q344n

Octava sesión. 24 de abril de 2025
Gobernanza de la IA y su integración en ecosistemas de aprendizaje: Vladimir Cortés Roshdestvensky (Director de Campañas y Alianzas para América Latina en Digital Action)

Resumen: Este seminario explorará la intersección entre la gobernanza de la IA y su integración en los ecosistemas de aprendizaje, analizando cómo aprovechar su potencial innovador mientras se protegen los derechos humanos y se promueve la equidad. Haremos un recorrido por las regulaciones más relevantes a nivel global – desde el ambicioso marco europeo hasta las estrategias adoptadas por Estados Unidos y China – con un enfoque especial en el panorama latinoamericano, donde la discusión comienza a tomar forma con países pioneros como Brasil, Chile y Uruguay. Examinaremos las implicaciones éticas y prácticas del uso de la IA en la educación, desde su capacidad para personalizar el aprendizaje hasta los desafíos que plantea en términos de sesgos y autonomía intelectual.
Palabras clave: Inteligencia artificial, Educación, enseñanza y aprendizaje, Regulación, Derechos humanos.

https://www.youtube.com/live/uq6wbUQEVQE

Séptima sesión. 25 de marzo de 2025
MEXICA: un generador de narrativas con 25 años de historia: Rafael Pérez y Pérez (UAM-Cuajimalpa)

Resumen: En esta sesión se aborda el sistema denominado MEXICA, un modelo computacional del proceso creativo desarrollado por el autor. MEXICA es capaz de generar argumentos para cuentos enfocados en la cultura mexica y se fundamenta en teorías acerca de cómo los seres humanos producen narrativas. Durante la presentación se exponen los conceptos fundamentales que sirvieron de base para la creación del modelo, así como sus características principales. Se pone especial énfasis en cómo el sistema utiliza estructuras que representan relaciones emocionales y conflictos entre personajes para elaborar narrativas coherentes. Asimismo, se presenta un ejemplo detallado del funcionamiento paso a paso del sistema durante la generación de una historia. Posteriormente, se describen brevemente algunos desarrollos derivados del sistema original, tales como la capacidad de MEXICA para evaluar sus propias narrativas, generar narrativas en colaboración con otro agente, participar en la composición automática de canciones, ilustrar cuentos generados por sí mismo y colaborar con artistas humanos en la creación de piezas multimedia. Finalmente, se hace una breve referencia a los dos últimos libros del autor: Story Machines, publicado por la editorial Routledge, y An Introduction to Narrative Generators, publicado por Oxford University Press.

Palabras clave: MEXICA, Generador de narrativas.

https://www.youtube.com/watch?v=YEZdaF6-3fA

Sexta sesión. 27 de febrero de 2025
Diversidad lingüística (y de otros tipos): el gran reto de la IA generativa: Ximena Gutiérrez Vásques (Centro de Investigaciones Interdisciplinarias de Ciencias y Humanidades)

Resumen: Se analizó la evolución del Procesamiento del Lenguaje Natural, desde los enfoques basados en reglas y estadísticos hasta las redes neuronales artificiales. Particularmente, se identificaron las limitaciones de los grandes modelos del lenguaje (LLMs) en cuanto a la variación lingüística, la relevancia cultural y otros tipos de diversidad. Para abordar estas limitaciones, se propusieron algunas estrategias que combinan el conocimiento lingüístico, la computación y las ultimas técnicas de aprendizaje profundo.

Plabras clave: Procesamiento del lenguaje natural, Modelos de lenguaje (LLMs), Variación lingüística, Relevancia cultural, Aprendizaje profundo.

https://www.youtube.com/live/fSU4j4thv6g

Quinta sesión. 30 de enero de 2025
Introducción a operaciones con modelos extensos del lenguaje (LLMOps): Shervin Le Du

Resumen: Se abordaron las mejores prácticas para una gestión de proyectos de IA generativa basados en modelos de lenguaje extensos (LLMOps). Se trataron conceptos como DevOps y MLOps, además de los retos específicos que tienen los proyectos basados en LLMs. El invitado mostró también cómo tener una estrategia de datos robusta, cómo automatizar procesos y realizar evaluaciones continuas. La sesión ofrece una perspectiva integral para tener éxito en los proyectos de IA generativa.

Palabras clave: Inteligencia artificial generativa, Modelos extensos del lenguaje (LLMs), DevOps, MLOps, LLMOps

https://www.youtube.com/live/t21e-ApiyRo

Cuarta sesión. 28 de noviembre de 2024
Más allá del formato: procesamiento automático de referencias bibliográficas en múltiples idiomas: Rodrigo Cuéllar Hidalgo (Biblioteca Daniel Cosío Villegas)

Resumen: Rodrigo Cuéllar explica su investigación sobre el procesamiento automático de referencias bibliográficas en distintos idiomas, destacando las técnicas de aprendizaje automático para mejorar la precisión y eficiencia en la segmentación de referencias. Nos explica ampliamente su metodología y compara diferentes enfoques y arquitecturas, entre ellas, redes neuronales recurrentes y transformadores, para determinar cuál es la más eficaz en diversas pruebas. También, se discuten los desafíos y oportunidades para la minería de referencias en bibliotecas y otros contextos académicos.

Palabras clave: Referencias bibliográficas, Minería de referencias, Aprendizaje automático, Redes neuronales recurrentes, Transformadores.

https://www.youtube.com/live/gJhIJOzY6W8

Tercera sesión. 31 de octubre de 2024
Futuro de la ingeniería lingüística en México: Gerardo Sierra Martínez y Gemma Bel Enguix (Grupo de Ingeniería Lingüística-UNAM)

Resumen: La Dra. Gemma Bel-Enguix y el Dr. Gerardo Sierra abordan la evolución y los desafíos de la ingeniería lingüística en México, destacando la importancia de la colaboración interdisciplinaria en el uso de los modelos estadísticos de lenguaje y la inteligencia artificial. Se explican algunas aplicaciones prácticas, como la minería de textos, la recuperación de información y la detección de lenguaje de odio. Se subraya la importancia de crear y preservar recursos lingüísticos propios y se reflexiona sobre los retos éticos y sociales que plantean el uso de estas tecnologías.

Palabras clave: Ingeniería lingüística, Recursos lingüísticos, Modelos de lenguaje, Inteligencia artificial.

https://www.youtube.com/live/nGUsuh510OI

Segunda sesión. 26 de septiembre de 2024
Parte I: "Generative AI for office automation": Josep Carmona (Universitat Politècnica de Catalunya)
Parte II: "Generative AI for office automation: Technical details" Lluís Padró (Universitat Politècnica de Catalunya)

Resumen: En la primera parte, Josep Carmona ofrece una charla divulgativa sobre el uso de la inteligencia artificial generativa para automatizar tareas rutinarias en el entorno laboral e incluye una demostración de la herramienta que desarrollaron. En la segunda parte, Lluís Padró explica los principales aspectos técnicos de la herramienta, basados en el ajuste fino de modelos extensos del lenguaje y comprensión del lenguaje natural.
Palabras clave: Inteligencia artificial generativa, Modelos extensos del lenguaje, Ajuste fino, Asistentes inteligentes, Ofimática

https://www.youtube.com/live/0rYktPsXVTo

Primera sesión. 29 de agosto de 2024
La personalidad a través del lenguaje y pensamiento: Gabriela Ramírez de la Rosa

Resumen: La doctora Gabriela Ramírez presentó los resultados de su investigación sobre detección de personalidad a través del lenguaje. En la presentación, la doctora Gabriela define las teorías utilizadas en su trabajo: la disponibilidad léxica y el modelo psicológico de los cinco grandes. La investigación busca utilizar el análisis del léxico disponible para identificar la personalidad. La ponente mostró el método propuesto que clasifica las muestras del lenguaje en función de los rasgos de personalidad. Este método se basa en un esquema de aprendizaje automático que permite representar las muestras de lenguaje y clasificarlas según los polos de personalidad. Además, la ponente compartió la metodología para crear su corpus y las conclusiones a las que llegó.
Palabras clave: Disponibilidad léxica, Modelo de los cinco grandes, Aprendizaje automático, Corpus.

https://www.youtube.com/live/rfiBA7vlGpQ