RL Balanceado: Melhorando a Qualidade de Captioning MLLM
Introdução
O captioning de imagens é uma das tarefas mais fundamentais na visão computacional. Devido à sua natureza aberta, recebeu atenção significativa na era dos modelos de linguagem grandes multimodais (MLLMs). Na busca por legendas cada vez mais detalhadas e precisas, trabalhos recentes têm se voltado cada vez mais para o aprendizado por reforço (RL).
No entanto, os métodos e métricas de avaliação existentes de captioning baseados em RL frequentemente enfatizam uma noção estreita de qualidade de legenda, induzindo trade-offs em dimensões essenciais. Por exemplo, objetivos orientados à utilidade podem incentivar legendas ruidosas, alucinadas ou excessivamente longas que melhoram a resposta a perguntas a jusante, mas prejudicam a fluência. Por outro lado, objetivos estilo "arena" podem favorecer descrições fluentes, mas genéricas, com utilidade limitada.
BalCapRL: Um Framework Balanceado para Captioning MLLM
Para abordar esses desafios, propomos um framework de RL mais balanceado que otimiza conjuntamente a correção orientada à utilidade, a cobertura de referência e a qualidade linguística. Para otimizar eficazmente a formulação de recompensa multi-objetivo contínua resultante, aplicamos a normalização com recompensa desacoplada, estilo GDPO, a recompensas de captioning de valor contínuo e mostramos que esta melhora o desempenho em relação ao GRPO vanilla.
Adicionalmente, introduzimos o mascaramento de recompensa condicional ao comprimento, resultando em uma penalidade de comprimento mais adequada para o captioning.
Nosso método melhora consistentemente a qualidade do captioning, com ganhos de pico:
- +13.6 DCScore
- +9.0 CaptionQA
- +29.0 CapArena
Esses ganhos foram observados em modelos base LLaVA-1.5-7B e Qwen2.5-VL 3B e 7B.
Desafios Adicionais no Universo do Captioning de Imagens
O dense image captioning é crítico para o alinhamento cross-modal em pré-treinamento de visão-linguagem e geração de texto para imagem. No entanto, escalar anotações de qualidade-expert é proibitivamente caro. Embora o captioning sintético via modelos de visão-linguagem (VLMs) seja uma alternativa prática, a destilação supervisionada frequentemente resulta em diversidade de saída limitada e fraca generalização. O aprendizado por reforço (RL) poderia superar essas limitações.
Além disso, avanços recentes em modelos multimodais destacam o valor de legendas reescritas para melhorar o desempenho. Contudo, desafios-chave permanecem, como o papel de legendas sintéticas e sua interação com AltTexts originais rastreados na web no pré-treinamento. Diferentes modelos foundation multimodais também podem ter preferências distintas por formatos específicos de legenda.
O Impacto Prático de Abordagens Balanceadas
A busca por legendas de imagem detalhadas e precisas é fundamental para o avanço dos MLLMs e VLMs. Ao empregar frameworks de RL mais balanceados, como o BalCapRL, que consideram múltiplas dimensões de qualidade de legenda — desde a utilidade e correção até a cobertura e fluência linguística — podemos superar as limitações das abordagens anteriores que forçavam trade-offs. Esta otimização conjunta não apenas melhora as métricas de avaliação, mas também capacita modelos com uma compreensão mais rica e nuances do conteúdo visual, facilitando aplicações mais eficazes em question answering, alinhamento cross-modal e geração de conteúdo.
Aguardando Login...