RL Balanceado: Melhorando a Qualidade de Captioning MLLM

Introdução

O captioning de imagens é uma das tarefas mais fundamentais na visão computacional. Devido à sua natureza aberta, recebeu atenção significativa na era dos modelos de linguagem grandes multimodais (MLLMs). Na busca por legendas cada vez mais detalhadas e precisas, trabalhos recentes têm se voltado cada vez mais para o aprendizado por reforço (RL).

No entanto, os métodos e métricas de avaliação existentes de captioning baseados em RL frequentemente enfatizam uma noção estreita de qualidade de legenda, induzindo trade-offs em dimensões essenciais. Por exemplo, objetivos orientados à utilidade podem incentivar legendas ruidosas, alucinadas ou excessivamente longas que melhoram a resposta a perguntas a jusante, mas prejudicam a fluência. Por outro lado, objetivos estilo "arena" podem favorecer descrições fluentes, mas genéricas, com utilidade limitada.

BalCapRL: Um Framework Balanceado para Captioning MLLM

Para abordar esses desafios, propomos um framework de RL mais balanceado que otimiza conjuntamente a correção orientada à utilidade, a cobertura de referência e a qualidade linguística. Para otimizar eficazmente a formulação de recompensa multi-objetivo contínua resultante, aplicamos a normalização com recompensa desacoplada, estilo GDPO, a recompensas de captioning de valor contínuo e mostramos que esta melhora o desempenho em relação ao GRPO vanilla.

Adicionalmente, introduzimos o mascaramento de recompensa condicional ao comprimento, resultando em uma penalidade de comprimento mais adequada para o captioning.

Nosso método melhora consistentemente a qualidade do captioning, com ganhos de pico:

+13.6 DCScore
+9.0 CaptionQA
+29.0 CapArena

Esses ganhos foram observados em modelos base LLaVA-1.5-7B e Qwen2.5-VL 3B e 7B.

Desafios Adicionais no Universo do Captioning de Imagens

O dense image captioning é crítico para o alinhamento cross-modal em pré-treinamento de visão-linguagem e geração de texto para imagem. No entanto, escalar anotações de qualidade-expert é proibitivamente caro. Embora o captioning sintético via modelos de visão-linguagem (VLMs) seja uma alternativa prática, a destilação supervisionada frequentemente resulta em diversidade de saída limitada e fraca generalização. O aprendizado por reforço (RL) poderia superar essas limitações.

Além disso, avanços recentes em modelos multimodais destacam o valor de legendas reescritas para melhorar o desempenho. Contudo, desafios-chave permanecem, como o papel de legendas sintéticas e sua interação com AltTexts originais rastreados na web no pré-treinamento. Diferentes modelos foundation multimodais também podem ter preferências distintas por formatos específicos de legenda.

O Impacto Prático de Abordagens Balanceadas

A busca por legendas de imagem detalhadas e precisas é fundamental para o avanço dos MLLMs e VLMs. Ao empregar frameworks de RL mais balanceados, como o BalCapRL, que consideram múltiplas dimensões de qualidade de legenda — desde a utilidade e correção até a cobertura e fluência linguística — podemos superar as limitações das abordagens anteriores que forçavam trade-offs. Esta otimização conjunta não apenas melhora as métricas de avaliação, mas também capacita modelos com uma compreensão mais rica e nuances do conteúdo visual, facilitando aplicações mais eficazes em question answering, alinhamento cross-modal e geração de conteúdo.

Introdução

BalCapRL: Um Framework Balanceado para Captioning MLLM

Desafios Adicionais no Universo do Captioning de Imagens

O Impacto Prático de Abordagens Balanceadas

Comentários