Introducción al modelo GPT-OSS de OpenAI
El 5 de agosto de 2025, OpenAI presentó oficialmente GPT-OSS-120B y GPT-OSS-20B, dos modelos de lenguaje de código abierto con pesos abiertos (open-weight) y un alto rendimiento.
Puntos destacados:
- Licencia Apache 2.0: permite su uso y modificación libre, incluso con fines comerciales.
- Rendimiento superior en comparación con otros modelos abiertos de tamaño similar.
- Optimización para inferencia y uso de herramientas (tool use) de gran potencia.
- Compatibilidad con hardware común:
- 120B funciona en GPU de 80 GB
- 20B solo requiere 16 GB de RAM.
Entrenamiento del modelo GPT-OSS
Los modelos GPT-OSS de OpenAI han sido entrenados con técnicas avanzadas de preentrenamiento y postentrenamiento, enfocándose en capacidades de razonamiento, optimización de rendimiento y aplicabilidad práctica en diversos entornos de implementación. Este es el primer modelo de lenguaje de pesos abiertos de OpenAI desde GPT-2 (2019), después de haber lanzado previamente modelos abiertos como Whisper y CLIP.
En cuanto a la arquitectura, GPT-OSS utiliza Mixture of Experts (MoE) para reducir el número de parámetros activos por token:
- GPT-OSS-120B: 5.1 mil millones de parámetros activos/token.
- GPT-OSS-20B: 3.6 mil millones de parámetros activos/token.
El conjunto de datos de entrenamiento consiste principalmente en textos en inglés de alta calidad, centrados en STEM, programación y conocimiento general, codificados con el conjunto de tokens o200k_harmony (también utilizado para o4-mini y GPT-4o).
La fase de postentrenamiento incluye ajustes supervisados y RLHF para alinearse con las especificaciones del modelo de OpenAI, combinando el entrenamiento de razonamiento en cadena (Chain-of-Thought) y el uso de herramientas.
Ambos modelos admiten 3 niveles de inferencia: bajo, medio y alto, lo que permite a los desarrolladores equilibrar de manera flexible velocidad y precisión con solo ajustar la configuración en el mensaje del sistema.
Modelo | Capas | Total de parámetros | Parámetros activos por token | Total de expertos | Expertos activos por token | Longitud de contexto |
---|---|---|---|---|---|---|
gpt-oss-120b | 36 | 117 mil millones | 5.1 mil millones | 128 | 4 | 128 mil |
gpt-oss-20b | 24 | 21 mil millones | 3.6 mil millones | 32 | 4 | 128 mil |
Evaluación del rendimiento del modelo GPT-OSS
OpenAI ha evaluado GPT-OSS-120B y GPT-OSS-20B en conjuntos de pruebas académicas estándar para medir habilidades en programación, matemáticas competitivas, medicina y uso de herramientas, comparándolos directamente con o3, o3-mini y o4-mini.
- GPT-OSS-120B:
- Supera a o3-mini y está a la par o ligeramente por encima de o4-mini en Codeforces, MMLU, HLE y TauBench.
- Supera a o4-mini en las pruebas de HealthBench y AIME 2024 & 2025.
- GPT-OSS-20B:
- Está a la par o supera a o3-mini en los mismos conjuntos de pruebas, a pesar de su menor tamaño.
- Es especialmente fuerte en matemáticas competitivas y tareas médicas.
GPT-OSS-120B se acerca (e incluso supera) a los modelos propietarios de tamaño pequeño en muchos escenarios, mientras que GPT-OSS-20B es una opción compacta pero con un rendimiento competitivo, ideal para ejecutarse localmente y a bajo costo.
Conclusión
El lanzamiento de GPT-OSS-120B y GPT-OSS-20B marca un hito importante para OpenAI al llevar modelos de lenguaje de pesos abiertos a la comunidad. Con un rendimiento competitivo frente a modelos propietarios, una arquitectura optimizada para hardware y estrictos estándares de seguridad, GPT-OSS no solo abre oportunidades para grandes empresas, sino que también empodera a individuos, startups y pequeñas organizaciones para acceder a tecnología de IA avanzada.
Este dúo combina un poder de razonamiento superior, flexibilidad de personalización y compatibilidad multiplataforma, facilitando que cualquiera pueda construir, implementar y optimizar soluciones de IA en su propia infraestructura. En un contexto donde la demanda de IA transparente, democratizada y accesible crece cada día, GPT-OSS se convierte en una prueba del compromiso de OpenAI: la IA poderosa debe estar al alcance de todos.
Puntos destacados | Detalles |
---|---|
Código abierto y flexible | Licencia Apache 2.0, libertad para personalizar y usar |
Alto rendimiento | gpt-oss-120b ≈ o4-mini; gpt-oss-20b ≈ o3-mini |
Optimizado para hardware | GPU de 80 GB o dispositivos comunes con 16 GB de RAM |
Integración sencilla | Soporte para múltiples plataformas, desde la nube hasta local |
Seguridad garantizada | Evaluaciones rigurosas y documentación clara para mayor confianza |