Compressão de Imagens Aprendida: Percepção e Performance
Introdução: O Futuro da Compressão de Imagens
Os codecs aprendidos representam uma revolução em relação aos seus equivalentes tradicionais e de código fixo, devido à sua capacidade inerente de serem otimizados diretamente para o sistema visual humano. Apesar deste potencial significativo, a indústria ainda aguardava uma proposta de codec de imagem que fosse, ao mesmo tempo, perceptual e prática. Nosso trabalho na AITY visa preencher essa lacuna.
A Jornada para um Codec Perceptual e Prático
Realizamos um estudo abrangente das principais escolhas de modelagem que governam o design de um codec de imagem aprendido e prático. Nossa otimização conjunta buscou equilibrar a qualidade perceptual e o tempo de execução, incorporando diversas técnicas inovadoras através de estudos de ablação.
- Otimização Direta para o Sistema Visual Humano: Um diferenciador crucial dos codecs aprendidos sobre os hard-coded tradicionais.
- Estudo Abrangente de Modelagem: Análise profunda das decisões de design essenciais que governam o design de um codec.
- Técnicas Novas: Incluídas e avaliadas através de ablações, agregando valor técnico ao estudo.
Pesquisa de Arquitetura Neural Orientada à Performance
Para garantir que nosso codec atendesse aos requisitos de dispositivos reais, implementamos uma pesquisa de arquitetura neural (NAS) orientada à performance.
- Milhões de Configurações de Backbone: Exploradas para identificar modelos que alcançam o tempo de execução alvo em dispositivos.
- Maximização da Performance de Compressão: Avaliada através de métricas perceptuais, garantindo a melhor experiência visual.
O Novo Codec: Um Salto em Velocidade e Qualidade
Ao combinar as várias otimizações desenvolvidas, construímos um novo codec que oferece um trade-off significativamente melhorado entre velocidade e qualidade perceptual.
- Economia de Bitrate:
- 2.3–3x contra codecs tradicionais como AV1, AV2, VVC, ECM e JPEG-AI.
- 20–40% contra os melhores codecs aprendidos alternativos existentes.
- Desempenho em Tempo de Execução (em iPhone 17 Pro Max com imagens de 12MP):
- Codificação: 230ms
- Decodificação: 150ms
- Notável: Mais rápido que a maioria dos principais codecs baseados em ML rodando em uma GPU V100.
Impacto Prático na Compressão de Mídia
Este avanço tem implicações práticas profundas, possibilitando experiências de usuário aprimoradas em dispositivos móveis com menor consumo de largura de banda. A capacidade de codificar e decodificar imagens de alta resolução em frações de segundo, com uma economia de bitrate tão expressiva, redefine o que é possível para aplicações que exigem tanto alta qualidade visual quanto desempenho em tempo real, desde streaming de vídeo a realidade aumentada.
Aguardando Login...