Mixtral Of Experts: Un LLM OpenSource De 45B De Parámetros Basado En Mixture Of Experts Models En El Torrent

En plena revuelta por el lanzamiento de Gemini, la startup Mistral AI posteaba en X un enlace Torrent con un nuevo LLM que supera a GPT-3.5 en las métricas principales. En realidad, lanzaba 8 modelos en uno. En esto consisten los Mixture of Experts Models, varios modelos especializados en un conjunto de tareas distinto, pero todo formando parte de uno único.

Figura 1: Mixtral of Experts. Un LLM OpenSource de 45B de parámetros

basado en Mixture Of Experts Models en el Torrent

Existen muchos rumores de que OpenAI empleó esta técnica para entrenar el modelo de lenguaje más capaz hasta la fecha, GPT-4.

Funcionamiento Mixture Of Experts (MoE)

Un sistema MoE se basa en la idea de que un enorme modelo de lenguaje puede descomponerse en modelos más pequeños, pero cada uno especializado en un determinado conjunto de tareas. Por ejemplo, un modelo especializado en código de programación, otro en tareas de razonamiento, etc. Esta especialización permite que el modelo en general sea más eficiente y efectivo en la gestión de diferentes tareas.

Figura 2: Mixture of Experts

En un MoE la entrada se convierte en un vector que reúne las características o el “significado” de esa entrada, y en este momento entra en juego la parte que se conoce como red de enrutamiento. Esta toma el papel de un coordinador, que tiene que decidir a qué modelos enviar la entrada y comenzar el proceso de generación de la tarea. Para ello, evalúa una puntuación con cada uno de los x modelos que formen parte del sistema MoE que representa la capacidad de cada modelo en resolver esta tarea dada su área de especialización.

Figura 3: Libro de Machine Learning aplicado a Ciberseguridad de
Carmen Torrano, Fran Ramírez, Paloma Recuero, José Torres y Santiago Hernández

Una vez se tienen estas puntuaciones, la red de enrutamiento o router escoge los k modelos más capaces para esta tarea, aquellos con la puntuación más alta, siendo estos lo que realizarán la tarea, combinando finalmente sus salidas para generar el resultado final (proceso conocido como ensemble en el mundo del Machine Learning). En el caso del nuevo modelo de Mistral, se escogen los dos modelos más capaces.

El nuevo modelo de Mistral supera a ChatGPT

Mistral publicó su modelo en un enlace Torrent, en pleno revuelo por el lanzamiento de Gemini por parte de Google. En su reciente nota de prensa hemos podido conocer más detalles sobre su arquitectura y resultados sobre distintas métricas.

Figura 4: Post en X con Torrent al modelo Mixtral 8x7B

El nuevo modelo de Mistral se conoce como Mixtral 8x7B. Concretamente, consta de 45B de parámetros totales, pero únicamente se utilizan 12B de parámetros por Token. Es capaz de manejar una ventana de contexto de hasta 32k tokens, hablar en inglés, francés, italiano, alemán y español y parece mostrar una buena capacidad de generación de código, según los autores.

Figura 5: Comparativa de modelos

La capacidad de Mixtral 8x7B se compara con LLaMAv2 de 70B de parámetros y con el modelo GPT-3.5, donde se puede observar un gran rendimiento ya que mejora en la mayoría de las métricas a estos modelos, y cuando no lo hace la puntuación es muy similar. Esto lo hace modelo OpenSource más capaz hasta la fecha.

Conclusiones

La comunidad OpenSource avanza, y cada vez se están teniendo mejores resultados. Mistral puede haber allanado el camino hacia una nueva generación de LLMs abiertos más potentes, y las métricas hablan por sí solas.

Figura 6: Mixtral-08x7B en HuggingFace

Visita la web de HuggingFace para echar un vistazo a la carta del modelo para conocer más sobre éste y poder ejecutarlo en local con diferentes optimizaciones.

Un saludo,

Autor: Javier del Pino, intership en Ideas Locas