Codificação de Imagem e Vídeo

A norma utilizada em Realidade Aumentada é MPEG-A Part 13 (ISO/IEC 23000-13). Esta norma especifica:

as regras para as quais o conteúdo de realidade aumentada tem de ser apresentado.
mecanismos de conexão a sensores e atuadores locais e remotos.
mecanismos para exprimir conteúdos de imagem, áudio, vídeo e gráficos.
mecanismos de conexão a fontes remotas, como por exemplo mapas.

Começando pela codificação de imagem, o seu processo é idêntico ao utilizado em JPEG. O objetivo é codificar com a melhor qualidade possível com um dado fator de compressão.

A codificação é feita em 4 fases:

Preparação da imagem em componentes de luminância e crominância, devido ao facto de cada componente ser tratada de forma diferente. Como a luminância é mais importante na qualidade subjetiva da imagem, é recomendado que cada cada amostra de crominância envolva duas ou quatro amostras de luminância, e isto é denominado de amostragem 4:2:0 ou 4:2:1.
Exploração da redundância espacial com a DCT (Transformada Discreta de Cosseno). Esta transformada permite analisar os blocos 8x8 da imagem em termos de frequência e atribuir coeficientes para cada valor.
A matriz de coeficientes é então quantizada. Neste processo são analisados os coeficientes da DCT, eliminando aqueles aos quais o olho humano é menos sensível, ou seja, aos valores de mais alta frequência. Para além disso são estipulados valores específicos que os coeficientes podem tomar.
Por fim explora-se a redundância estatística, utilizando a codificação entrópica. Um dos algoritmos usados neste processo é o algoritmo de Huffman. Este algoritmo atribui bits aos diferentes símbolos consoante a sua probabilidade.

Para se descodificar o conteúdo de uma imagem, todas estas etapas são realizadas de forma inversa. Obtém-se então a matriz quantizada, e multiplicando essa matriz pela matriz de quantização tem-se a matriz dos coeficientes DCT. Esta é então transformada através da DCT inversa na matriz original da luminância e crominâncias.

Diagrama de blocos da codificação JPEG

A codificação de vídeo difere do processo da codificação de imagem na medida em que este tem um débito binário muito mais elevado, porque são apresentadas 25 imagens por segundo. Esse débito exige maiores fatores de compressão, que são conseguidos explorando a redundância temporal entre imagens. Para tal tem-se uma predição da imagem com base nas anteriores ou posteriores, com o objetivo de se obter um pequeno erro de predição. Esse mesmo erro em conjunto com os vetores de movimento que indicam como deverá ser feita a estimação de imagem, são enviados para o codificador entrópico, onde o processo é semelhante ao da codificação de imagem.

Fases da codificação de vídeo

Por fim o conteúdo é enviado para o dispositivo por uma transmissão sem fios. Aquilo que o utilizador vê é uma imagem do mundo real combinada com conteúdo que adquiriu de uma das maneiras acima descritas. No caso de dispositivos mais imersivos, tais como óculos ou capacetes, existem outras maneiras de dar um aspecto mais real ao conteúdo virtual, tal como providenciar informação diferente a cada olho, de maneira a criar uma ilusão tridimensional.