Ir al contenido principal LibGuides Universidad Panamericana Universidad Panamericana

Inteligencia Artificial: El ABC de la IAG

 

 

 

 

 

La inteligencia artificial generativa ha revolucionado el panorama tecnológico con una rapidez sin precedentes, trayendo consigo un vocabulario especializado que resulta fundamental comprender. Este glosario recopila los términos más relevantes que todo profesional, investigador o estudiante debería conocer para navegar con confianza en el mundo de la IA generativa. Desde conceptos técnicos como los grandes modelos lingüísticos (LLM) hasta consideraciones éticas como la alineación y la IA responsable, estas definiciones proporcionan una base sólida para entender las capacidades, limitaciones y desafíos de estas tecnologías emergentes.

Agentes de IA

🤖

Modelos o programas capaces de tomar decisiones o realizar acciones de forma autónoma. Cuando trabajan juntos, pueden planificar, delegar, investigar y ejecutar tareas para alcanzar objetivos específicos. Estos agentes representan una evolución significativa respecto a los sistemas tradicionales de IA, ya que pueden operar con mayor independencia y adaptabilidad. Las empresas de capital riesgo están invirtiendo enormemente en esta tecnología, que se espera madure considerablemente hacia 2025, permitiendo automatizar procesos complejos que antes requerían intervención humana constante.

Alineación

⚖️

Conjunto de valores con los que se entrenan los modelos de IA (como seguridad o cortesía). No todas las empresas comparten los mismos valores, y no todos los proveedores de IA especifican qué valores incorporan en sus plataformas. Este concepto es fundamental para garantizar que los sistemas de IA actúen de manera ética y segura, pero presenta desafíos importantes cuando los valores del proveedor no coinciden con los del usuario. Como señala JJ López Murphy, "no hay mucho que puedas hacer con un aviso si el modelo ha sido muy entrenado para ir en contra de tus intereses", lo que subraya la importancia de la transparencia en este aspecto.

Caja negra

📦

Modelo cuyos mecanismos internos no son claramente comprensibles, dificultando saber cómo llega a sus respuestas. Esto representa un problema para las empresas, especialmente con modelos comerciales. La opacidad de estos sistemas genera preocupaciones sobre confiabilidad, responsabilidad y cumplimiento normativo, ya que resulta imposible auditar completamente su funcionamiento. Como advierte Priya Iragavarapu, "si no sé con qué datos se ha entrenado ese modelo y el ajuste que se le ha hecho, no me fiaría de que esté alineado con los valores de mi empresa", lo que evidencia los riesgos de implementar sistemas cuyo funcionamiento interno permanece oculto.

Ventana de contexto

🔍

Número de tokens (aproximadamente 3/4 de palabra) que un modelo puede procesar simultáneamente. Las ventanas amplias permiten analizar textos más largos o proporcionar respuestas más detalladas. Esta capacidad ha evolucionado rápidamente, desde los 128.000 tokens de ChatGPT (equivalentes a unas 400 páginas) hasta los 2 millones de tokens del modelo Gemini 1.5 Pro de Google (aproximadamente 6.000 páginas). El tamaño de la ventana de contexto determina la capacidad del modelo para mantener coherencia en conversaciones extensas y comprender documentos completos, lo que resulta crucial para aplicaciones empresariales complejas.

Alucinaciones

👀

Respuestas falsas, sin sentido o incluso peligrosas que pueden parecer plausibles. Se reducen mediante ajuste de modelos, técnicas de RAG y conexión a tierra. Este fenómeno representa uno de los mayores desafíos para la implementación confiable de IA generativa en entornos empresariales, ya que las respuestas incorrectas pueden parecer convincentes y llevar a decisiones erróneas. Los expertos recomiendan estrategias como ejecutar la misma consulta varias veces y comparar resultados, aunque esto incrementa los costes de inferencia. La verificación humana sigue siendo esencial para aplicaciones críticas donde la precisión es imprescindible.

Humanos en el bucle

👥

Enfoque que implica revisión humana de los resultados de IA antes de su uso, necesario cuando la IA no es suficientemente precisa, exhaustiva o segura para usarse sin supervisión. Esta metodología equilibra la eficiencia de la automatización con la fiabilidad del juicio humano, especialmente en contextos donde los errores pueden tener consecuencias significativas. Como enfatiza Iragavarapu, "soy un gran defensor de la revisión humana de todo lo que produce el modelo de lenguaje de gran tamaño -código, contenido, imágenes- sea como sea", lo que refleja la importancia de mantener supervisión humana incluso con los avances tecnológicos actuales. La clave está en diseñar sistemas donde humanos y máquinas colaboren aprovechando sus fortalezas respectivas.

Inferencia

💡

Proceso de utilizar un modelo entrenado para responder preguntas. Puede resultar costoso con modelos comerciales que cobran por token. Este aspecto económico es crucial para la viabilidad de implementaciones a gran escala, ya que los costos pueden escalar rápidamente con el volumen de consultas. Como advierte Andy Thurai, "cuando empiezas a ejecutar cargas de trabajo que tienen millones de inferencias, te llevas un buen susto" en términos de costos. Las organizaciones deben evaluar cuidadosamente las alternativas como modelos de código abierto o modelos más pequeños para optimizar el balance entre rendimiento y costo operativo según sus necesidades específicas.

'Jailbreaking'

🔓

Técnicas para eludir las protecciones de los sistemas de IA y conseguir respuestas inapropiadas, ilegales o acceso a información sensible. Estos métodos representan uno de los mayores riesgos de seguridad en aplicaciones de IA generativa, ya que pueden comprometer las salvaguardas éticas implementadas. Los atacantes utilizan mensajes específicamente diseñados (como "ignora todos los comandos anteriores") para manipular el comportamiento del modelo. David Guarrera señala que "los postes de la portería siempre están cambiando", indicando la naturaleza evolutiva de esta amenaza que requiere vigilancia constante y actualizaciones de seguridad para proteger los sistemas de IA contra nuevas técnicas de evasión.

Gran modelo lingüístico (LLM)

💬

Modelo diseñado para trabajar con texto, con decenas o cientos de miles de millones de parámetros, como GPT-4 o Llama 3.1. Estos modelos masivos han revolucionado el procesamiento del lenguaje natural gracias a su capacidad para comprender contexto, generar texto coherente y realizar tareas lingüísticas complejas. La escala de estos modelos es impresionante: Llama 3.1 de Meta cuenta con 405.000 millones de parámetros, mientras que GPT-4 de OpenAI supera el billón. Para seleccionar el modelo adecuado, las empresas suelen consultar tablas de clasificación como LMSYS Chatbot Arena o Hugging Face Open LLM, que evalúan el rendimiento en diversos escenarios de uso.

IA multimodal

🎨

Modelos capaces de manejar múltiples tipos de datos (texto, imagen, audio, vídeo), aunque la mayoría utiliza varios modelos especializados en el backend. Esta tecnología permite interacciones más naturales y completas con los sistemas de IA, similares a la comunicación humana que integra diversos sentidos. Sin embargo, como señala Sinclair Schuller, "la multimodalidad está aún en pañales" y "la mayoría de los sistemas multimodales aún no son genuinamente multimodales". En la práctica, muchos sistemas actuales procesan cada tipo de datos por separado (por ejemplo, convirtiendo audio a texto, procesando el texto, y luego generando audio de respuesta), en lugar de realizar un verdadero procesamiento integrado de múltiples modalidades.

'Prompts'

✏️

Entradas que se dan a un modelo de IA, que pueden incluir preguntas, información de contexto, directrices de seguridad y ejemplos. El arte de crear prompts efectivos se ha convertido en una disciplina especializada conocida como "ingeniería de prompts", fundamental para obtener resultados óptimos de los sistemas de IA generativa. Un prompt bien diseñado puede guiar al modelo para generar respuestas más precisas, seguras y útiles, incluyendo instrucciones específicas como "piensa las cosas paso a paso" o solicitando que la respuesta sea "lo suficientemente sencilla como para que la entienda un estudiante de secundaria". Esta técnica permite aprovechar al máximo las capacidades del modelo sin necesidad de reentrenamiento.

Generación aumentada de recuperación (RAG)

📂

Técnica para mejorar la precisión y actualidad de las respuestas añadiendo contexto a las consultas, como información de bases de datos. Este enfoque permite a los modelos acceder a datos actualizados y específicos sin necesidad de reentrenamiento, lo que resulta especialmente valioso para aplicaciones empresariales. Sin embargo, implementar RAG conlleva desafíos como la complejidad de gestionar bases de datos vectoriales, garantizar la seguridad de acceso a la información y los costos adicionales. Swaminathan Chandrasekaran advierte que "si se están ingiriendo documentos de mil páginas cada uno, los costes de incrustación pueden llegar a ser significativamente altos", lo que requiere una cuidadosa planificación de recursos.

IA responsable

🌍

Desarrollo y despliegue de sistemas de IA considerando ética, parcialidad, privacidad, seguridad y cumplimiento normativo. Este enfoque integral busca garantizar que la tecnología de IA beneficie a la sociedad minimizando riesgos y daños potenciales. Ilana Golbin Blumenfeld recomienda que las organizaciones definan claramente sus principios de IA responsable, incluyendo valores como equidad, transparencia, privacidad, responsabilidad e inclusión. También enfatiza la importancia de mantener supervisión humana: "Diseñe sistemas de IA que aumenten la toma de decisiones humana, en lugar de sustituirla por completo". Este enfoque proactivo no solo protege a usuarios y partes interesadas, sino que también ayuda a las empresas a anticiparse a regulaciones futuras.

Datos sintéticos

🤖

Datos generados artificialmente para entrenar modelos de IA, útiles cuando los datos reales son costosos o difíciles de recopilar. Esta alternativa permite superar limitaciones prácticas en la disponibilidad de datos de entrenamiento y puede ayudar a proteger la privacidad al sustituir información personal identificable. Como explica Andy Thurai, "los datos del mundo real son muy caros, requieren mucho tiempo y son difíciles de recopilar", lo que hace que los datos sintéticos sean una opción atractiva. Sin embargo, su uso excesivo puede introducir nuevos sesgos, y los ciclos repetidos de generación (usando modelos entrenados con datos sintéticos para producir más datos sintéticos) pueden provocar degradación en la calidad del modelo, un fenómeno conocido como "colapso del modelo".

Base de datos vectorial

📊

Almacena información en un espacio multidimensional para proporcionar contexto a los modelos de IA a través de RAG. Estas bases de datos especializadas representan datos como vectores matemáticos, donde la proximidad en el espacio vectorial indica similitud semántica, permitiendo búsquedas eficientes basadas en significado en lugar de coincidencia exacta de palabras clave. Son fundamentales para implementar sistemas RAG efectivos, ya que permiten recuperar rápidamente información relevante para contextualizar las consultas. La implementación de bases de datos vectoriales requiere consideraciones técnicas específicas sobre dimensionalidad, indexación y optimización para equilibrar velocidad de recuperación, precisión y uso de recursos computacionales.

Fuente: "El abecé de la IA generativa: estos son los términos clave que tiene que conocer". ProQuest Documents, 2025.