Alibaba

Qwen2.5-Max da Alibaba: Um Novo Gigante da IA Superando Benchmarks

Xavier

07 Jun 2025 • 5 min read

Introdução à Nova Era da Inteligência Artificial com Qwen2.5-Max

O campo da inteligência artificial (IA) está em constante efervescência, com novos modelos surgindo e redefinindo os limites do que é possível. Recentemente, testemunhamos o impacto do DeepSeek-R1, um modelo que demonstrou um desempenho impressionante. Agora, uma nova potência chinesa em IA, a Alibaba, entra em cena com o lançamento do Qwen2.5-Max, um modelo que está agitando o cenário e estabelecendo novos padrões de performance.

O Que É o Qwen2.5-Max?

O Qwen2.5-Max é um modelo de linguagem de grande escala (LLM) baseado na arquitetura Mixture of Experts (MoE). Essa abordagem permite que o modelo utilize diferentes "especialistas" internos para lidar com diversas partes de uma tarefa, resultando em maior eficiência e capacidade. Para seu treinamento, o Qwen2.5-Max foi pré-treinado em um massivo conjunto de dados contendo 20 trilhões de tokens. Além disso, o modelo passou por um refinamento adicional utilizando técnicas de Supervised Fine-Tuning (SFT) e Reinforcement Learning from Human Feedback (RLHF), metodologias cruciais para alinhar o comportamento do modelo com as expectativas humanas e melhorar sua capacidade de seguir instruções complexas.

Performance e Benchmarks do Qwen2.5-Max

Os resultados de benchmark do Qwen2.5-Max são notáveis. Em comparações diretas, o modelo tem superado consistentemente o DeepSeek V3 em diversas métricas. Mais impressionante ainda, o Qwen2.5-Max demonstra um desempenho praticamente em par com gigantes como o GPT-4 Omni da OpenAI e o Claude 3.5 Sonnet da Anthropic em uma vasta gama de testes. Em alguns benchmarks específicos, como Arena-Hard, MMLU-Pro, GPQA-Diamond, LiveCodeBench e LiveBench, o Qwen2.5-Max chega a superar esses modelos renomados. Em relação a outros modelos de peso aberto, o Qwen2.5-Max também se destaca, superando o DeepSeek V3, o Llama 3.1 405B e seu predecessor, o Qwen2.5 72B, em várias avaliações.

Demonstrações Práticas das Capacidades do Qwen2.5-Max

Para ilustrar o poder do Qwen2.5-Max, o vídeo apresenta uma série de testes práticos, demonstrando suas habilidades em diferentes domínios.

Habilidade em Pesquisa na Web e Síntese de Informação com Qwen2.5-Max

Em um dos testes, o Qwen2.5-Max foi solicitado a fornecer um comentário ácido sobre a relação entre os preços das ações da Nvidia e do DeepSeek. O modelo realizou uma pesquisa na web, analisou as informações encontradas e gerou uma resposta coesa e perspicaz, demonstrando sua capacidade de buscar e sintetizar informações de forma eficaz.

Geração de Código com Qwen2.5-Max: p5.js e Aplicativo de Notas Adesivas

A capacidade de geração de código do Qwen2.5-Max foi testada com dois prompts distintos:

Script p5.js para Bola Quicando: O modelo gerou com sucesso um script em p5.js que implementa uma bola amarela quicando dentro de uma esfera em rotação, incluindo detecção de colisão.
Aplicativo de Notas Adesivas (Sticky Notes): Solicitado a criar o frontend para um aplicativo moderno de notas adesivas, o Qwen2.5-Max gerou o código HTML, CSS e JavaScript necessário. Inicialmente, o aplicativo era funcional, permitindo adicionar notas. Posteriormente, ao ser solicitado a aprimorar a interface do usuário (UI) e adicionar mais funcionalidades, o modelo conseguiu implementar melhorias como a capacidade de arrastar e soltar as notas e alterar suas cores, demonstrando aprendizado iterativo e capacidade de refinar suas próprias criações. A interface QwenChat, utilizada para interagir com o modelo, possui uma funcionalidade de "artefatos" que permite visualizar o resultado do código gerado em tempo real, o que é extremamente útil para desenvolvedores.

Qwen2.5-Max na Resolução de Problemas Complexos

Dois problemas complexos foram apresentados ao Qwen2.5-Max:

Cálculo de Jornada de Trem: Um problema de física envolvendo múltiplas etapas de movimento de um trem (velocidade constante, aceleração uniforme, velocidade constante novamente e desaceleração uniforme). O Qwen2.5-Max demonstrou um entendimento profundo dos conceitos de cinemática, aplicando as fórmulas corretas para cada fase do movimento e calculando com precisão a distância total percorrida pelo trem (308.75 milhas), o que corresponde à resposta correta.
Distribuição de Bônus com Progressão Aritmética: Um problema matemático onde uma empresa distribui bônus de forma que os valores formam uma progressão aritmética. Dados o valor total distribuído, o menor bônus e o maior bônus, o Qwen2.5-Max foi capaz de utilizar a fórmula da soma de uma progressão aritmética e manipulações algébricas para determinar corretamente o número de funcionários que receberam bônus (40 funcionários).

Desafios na Geração de Código SVG com Qwen2.5-Max

Um teste que apresentou dificuldades para o Qwen2.5-Max foi a geração de código SVG para uma forma simples de borboleta. Apesar de algumas tentativas, incluindo o uso de um visualizador SVG online em vez da ferramenta de artefatos do QwenChat, o modelo não conseguiu produzir uma imagem de borboleta precisa, indicando uma área onde ainda há espaço para aprimoramento.

Implementações Python com Qwen2.5-Max: Jogo da Vida e Sistema de Checkout

Em outros testes de programação, o Qwen2.5-Max demonstrou proficiência:

Jogo da Vida de Conway: O modelo criou uma implementação Python funcional do Jogo da Vida de Conway, que foi executada com sucesso em um ambiente de desenvolvimento integrado (IDE) externo.
Sistema de Checkout de Loja Online: O Qwen2.5-Max gerou um script Python que simula um sistema de checkout de loja online, permitindo aos usuários inserir itens e suas quantidades, calculando o custo total com imposto (VAT de 13%), aplicando descontos para pedidos acima de $100 (10% de desconto) e incluindo tratamento de erros para entradas inválidas. O script demonstrou ser funcional e correto.

Qwen2.5-VL: A Visão da Alibaba para Modelos Multimodais

Além do Qwen2.5-Max, a equipe Qwen também lançou um novo modelo de visão, o Qwen2.5-VL. Este modelo, que também promete avanços significativos, será explorado em detalhes futuramente, juntamente com um operador de computador baseado em IA que a equipe também desenvolveu.

Como Acessar o Qwen2.5-Max

Existem algumas maneiras de interagir e testar o Qwen2.5-Max:

Hugging Face Spaces: Demonstrações dos modelos Qwen, incluindo o Qwen2.5-Max, estão disponíveis para experimentação.
Model Cards no Hugging Face: As páginas dos modelos no Hugging Face fornecem informações detalhadas e, em alguns casos, os pesos para download (embora o Qwen2.5-Max ainda não esteja disponível para instalação local no momento da gravação do vídeo).
API via Alibaba Cloud: Para acesso programático, a API do Qwen2.5-Max está disponível através do Alibaba Cloud Model Studio. É necessário registrar uma conta e ativar o serviço para obter uma chave de API.
QwenChat: A interface de chat QwenChat permite interações diretas com o modelo, incluindo a utilização de artefatos para visualização de código, pesquisa na web e geração de imagens e vídeos.

O blog post oficial, intitulado "Qwen2.5-Max: Exploring the Intelligence of Large-scale MoE Model", oferece mais detalhes sobre o modelo e seus benchmarks.

Conclusão: O Futuro Promissor Impulsionado pelo Qwen2.5-Max

O Qwen2.5-Max da Alibaba é, sem dúvida, um marco significativo no desenvolvimento da inteligência artificial. Seu desempenho em benchmarks e sua capacidade demonstrada em tarefas complexas de raciocínio, programação e síntese de informação o colocam entre os modelos mais avançados disponíveis atualmente. Embora a disponibilidade para instalação local ainda seja uma questão, as opções de acesso via API e plataformas de demonstração permitem que a comunidade explore suas capacidades. O rápido avanço de modelos como o Qwen2.5-Max, especialmente vindos de potências tecnológicas como a Alibaba, sinaliza um futuro cada vez mais promissor e competitivo no campo da IA.