Agence du Numérique (ex - Agence Wallonne des Télécommunications / AWT), la plateforme ICT de la Wallonie

jeudi 29 septembre 2016

Les technologies de la vidéo

Dans une transmission audiovisuelle numérique, les flux sont codés et compressés à la source, puis distribués à travers un réseau vers les utilisateurs. A la réception, ces flux subissent une décompression et un décodage pour être visualisés
Twitter Facebook Delicious
Mis à jour le 29/01/2007 | Imprimer | Envoyer

Le codage de la source vidéo numérique

Le codage de la source audio vidéo est standardisé par un groupement d'experts nommé MPEG (Moving Picture Experts Group):

  • MPEG-1 standardise le codage et la compression audio vidéo,
  • MPEG-2 définit le cadre de la télévision numérique,
  • MPEG-4, standard des applications multimédia, s'adresse au contenu Web interactif,
  • etc.

D'autres standards propriétaires existent à côté des suites MPEG, comme par exemple Windows Media 9 Series de Microsoft.

Pourquoi faut-il compresser une source audio vidéo?

Principalement pour réduire le volume vidéo et audio à transporter ou à stocker sur un support physique. Les volumes engendrés par des séquences audio vidéo sont impressionnants. Comme ces flux doivent être transportés par des réseaux différents, la compression à l'envoi est nécessaire pour réduire les besoins en bande passante de ces réseaux. A la réception, le flux audiovisuel est décompressé avant d'être visualisé.

Exemples de bande passante nécessaire aux différents flux audiovisuels compressés et non compressés:

  • flux SDTV (PAL/SECAM) en transmission ligne par ligne (SDI) non compressé: 270 Mbps;
  • flux HDTV en transmission ligne par ligne non compressé: 1-3 Gbps;
  • flux SDTV (PAL/SECAM) MPEG-2 en transmission broadcast: 4-6 Mbps;
  • flux HDTV MPEG-2 en transmission broadcast: 12-20 Mbps;
  • flux HDTV MPEG-4 en transmission broadcast: 8-16 Mbps.

On remarque que le format vidéo numérique SD non compressé nécessite un débit de 270 Mbps pour transférer un flux. Une transmission telle quelle vers les utilisateurs par les réseaux actuels est impossible sans compression.

MPEG-1

MPEG-1 est un standard spécifique qui définit les formats numériques de stockage sur un support physique (les CD) pour les séquences vidéo et audio. Le standard est organisé en plusieurs parties traitant: le système, le codage de la vidéo, le codage audio, etc. Pour le codage, on utilise la technique de traitement d'un groupe d'objets GOP (Group of Pictures) afin d'obtenir une bonne compression basée sur l'élimination des éléments répétitifs temporels ou spatiaux.

La redondance temporelle s'applique à un groupe d'images successives GoP: un élément commun à plusieurs images successives est transmis avec la première image (isolé comme élément de fond et un ou plusieurs objet(s) en mouvement). Pour les images suivantes, on transmet seulement les objets en mouvement et leur position par rapport au plan fixe de fond.

La redondance spatiale s'applique au sein d'une même image: si dans la même image on isole plusieurs objets identiques, ces objets sont codés une seule fois; au codage d'objets on ajoute les coordonnées de leur position dans l'image. A la réception, la scène est reconstituée.

L'impact de la compression sur les débits nécessaires à la transmission.

Une séquence vidéo SD comprenant des images où le fond change vite (en général les transmissions sportives: les match de football, les courses d'automobile formule1, etc.) sera moins compressée et engendrera des débits de transmission allant jusqu'au 6 Mbps tandis qu'une transmission plus statique comme le journal télévisé sera plus compressée et engendrera un débit de 1.5 à 2 Mbps.

Pour le codage et la compression des flux audio (mono, stéréo ou multi canal), on utilise un modèle psycho-acoustique qui doit créer un set de données servant à contrôler le codage.

Des principes simples:

  • codage et compression du MPEG vidéo: un élément d'image est transmis une seule fois. Il n'est jamais retransmis!
  • codage et compression du MPEG audio: transmettre seulement ce que l'on peut entendre.

MPEG-2

MPEG-2 est le premier standard pour la télévision numérique, la vidéo à la demande (VoD), le DVD, etc. Il fournit une bonne compression des sources audio et vidéo pour les transporter via des réseaux ou les stocker sur un support physique.

Exemple: un film de 2 heures enregistré en format non compressé sur un disque dur aura besoin de 144 GigaBytes! Suite à la compression MPEG-2, le même film pourra être stocké sur un disque dur ou sur un DVD avec une taille de 4,7 GigaBytes. La compression permet de réduire largement la taille des fichiers audio vidéo générés.

Une des fonctionnalités de MPEG-2 est celle de combiner un ou plusieurs flux vidéo, un ou plusieurs flux audio et éventuellement des données dans un ou plusieurs flux qui pourront être stockés sur un disque dur ou transmis par réseau. Les flux sortants peuvent être des flux de programmes (Program Stream) ou des flux de transport (Transport Stream), chacun étant optimisé pour un type d'application.

Les principales fonctionnalités de MPEG-2 sont les suivantes:

  • compatibilité avec MPEG-1;
  • bonne compression vidéo;
  • affichage sur l'écran en mode entrelacé ou en mode progressif afin de permettre la visualisation des séquences vidéo sur des téléviseurs ou sur les écrans des ordinateurs;
  • codage audio performant: haute qualité, mono, stéréo, multi canal, etc.;
  • multiplexage de plusieurs flux audio vidéo différents en un seul flux prêt à être transmis par différents réseaux;
  • services spécifiques pour l'encryption, l'interactivité, la transmission de données, etc.

La compression vidéo MPEG-2

La compression vidéo de MPEG-2 est basée sur l'identification des éléments répétitifs dans l'espace (au sein d'une image) et dans le temps (dans un groupe d'images successives composant une séquence vidéo). Ensuite on applique un algorithme simple qui enlève les éléments répétitifs temporels et spatiaux. Cette technique résulte d'une analyse approfondie des images qui composent les séquences.

Le codage audio MPEG-2

Le codage audio MPEG-2 définit un schéma de codage utilisant un grand nombre de formats et de débits compatibles avec MPEG-1. En plus, MPEG-2 définit des spécifications de codage audio multi canal non compatibles avec MPEG-1.

Le multiplexage et le transport

Le standard MPEG-2 définit la manière de formater les différentes parties d'un ensemble multimédia composé de morceaux vidéo et audio compressés, de données de contrôle ou de données utilisateur. Ces composants sont combinés dans un seul flux de données synchronisées avec des techniques de multiplexage.

Avec un codage MPEG-2 on arrive à obtenir un débit utile de 3 à 8 Mbit/s pour un programme SD (vidéo + audio + autres données).

MPEG-4

MPEG-4, le standard des applications multimédia, est une véritable révolution car il réalise l'intégration de trois métiers différents: la télévision, l'informatique et les télécoms. MPEG-4 est utilisé pour:

  • la télévision numérique;
  • les applications graphiques interactives (le contenu de synthèse réalisé à l'aide des ordinateurs);
  • les applications interactives multimédia utilisées sur le Web ou pour la distribution et l'accès au contenu.

Le standard MPEG-4 définit un set de technologies à utiliser par les éditeurs (auteurs, producteurs audio/vidéo), par les fournisseurs de services et par les utilisateurs afin d'intégrer les trois métiers multimédia: la production, la distribution et l'accès au contenu. Il reste compatible avec les formats MPEG-1 et MPEG-2.

Avec MPEG-4 il est possible de mieux gérer et de mieux protéger les contenus.

Les avantages de MPEG-4 sont:

  • pour la production: il favorise la production de contenus réutilisables, ayant une grande flexibilité pour les technologies actuelles (télévision numérique, dessin animé, Web, etc.);
  • pour les fournisseurs de services: il offre des informations transparentes car le standard n'impose rien en matière de transport réseau. Pour les réseaux complexes et hétérogènes transportant différents flux de données, il fournit une description QoS générique qui aide à optimiser ces réseaux;
  • pour les utilisateurs: il permet la réception des contenus sur des terminaux différents, via des réseaux différents ainsi que la possibilité d'avoir une interaction avec le contenu. On retiendra surtout les applications suivantes:
    • communication en temps réel;
    • surveillance;
    • multimédia mobile;
    • stockage et recherche d'informations basés sur le contenu;
    • lecture des flux vidéo par Internet sans passer par une sauvegarde de la source sur un disque dur;
    • téléconférence;
    • post-production dans les domaines du cinéma et de la télévision;
    • transmission de tous les types de données: audio, vidéo, données informatiques, etc.

MPEG-4 fournit des moyens standardisés pour:

  • représenter des unités de contenu audio ou vidéo: les objets média (media objects). Ces objets peuvent être des objets naturels (enregistrés avec une caméra vidéo ou avec un microphone) ou virtuels (générés par un ordinateur);
  • décrire la composition de ces objets afin d'obtenir des scènes audiovisuelles;
  • multiplexer et synchroniser les données associées aux objets média afin de permettre leur transport à travers des réseaux capables de gérer une qualité de service QoS associée à la nature spécifique des objets média;
  • permettre l'interaction entre l'utilisateur et le diffuseur dans une scène audiovisuelle réceptionnée.

Le format de fichier MP4

Un fichier en format MPEG4 reçoit l'extension .mp4.

Basé sur le format de fichier de QuickTime, MP4 contient des informations dans un format flexible et extensible qui facilite l'édition, la gestion et la présentation. Le fichier est composé de données média et de métadonnées. Les métadonnées décrivent les caractéristiques média (type, taille, dates utiles, etc.) et sont stockées dans une structure nommée " moov". Les données média sont stockées dans des structures nommées "mdat".

La représentation et la composition des objets média

Les scènes audiovisuelles MPEG-4 sont composées de quelques objets média organisés de manière hiérarchique comme un arbre. Au niveau des feuilles de cet arbre d'objets, on trouve les objets de base simples, appelés objets média primitifs (primitive media objects):

  • images fixes de fond (le background);
  • objets vidéo (par exemple une personne qui parle ou une personne en mouvement; on prend l'objet vidéo sans l'image fixe de fond);
  • objets audio (la voix associée à une personne, le fond musical, etc.);

Ci-dessous un exemple d'objets média primitifs (une image de fond à gauche et une personne à droite) qui composent une scène.

La représentation et la composition des objets média

MPEG-4 standardise un nombre d'objets media primitifs capables de représenter des contenus naturels ou synthétiques en deux ou trois dimensions. En plus, MPEG-4 définit la représentation codée des objets:

  • textes et graphiques;
  • visages, voix, visages animés, corps animés;
  • sons de synthèse.

Un objet média codé contient des éléments descriptifs qui permettent son utilisation facile dans une scène audiovisuelle ou dans un flux de données associées. Chaque objet peut être représenté sans les objets qui l'entourent et sans l'image de fond. Le codage des objets est rendu le plus efficient possible par des fonctionnalités comme:

  • la robustesse aux erreurs;
  • l'extraction et l'édition facile d'un objet (par exemple la redimensionnement spatial ou temporel);
  • la flexibilité des objets;
  • l'extension des fonctionnalités de manipulation des images et des séquences vidéo.

Après avoir décrit la représentation des objets, MPEG-4 permet aussi de composer des scènes audiovisuelles avec ces objets:

  • placer les objets n'importe où dans un système sur base des coordonnées d'un point (x,y);
  • appliquer des transformations aux objets média afin de modifier leurs caractéristiques géométriques ou acoustiques;
  • grouper des objets média simples (primitifs) pour obtenir des objets composés complexes;
  • appliquer des flux de données aux objets pour modifier leurs attributs (son, aspect visuel d'un visage, etc.);
  • changer interactivement l'angle de vue et d'écoute d'une scène audiovisuelle;
  • changer interactivement la langue, etc.

L'interaction avec les objets média d'une scène MPEG-4 permet à l'utilisateur:

  • de changer l'angle de vue ou d'écoute d'une scène;
  • de déplacer un objet dans une scène;
  • de cliquer sur un objet pour obtenir des informations complémentaires ou lui faire effectuer des actions spécifiques;
  • de sélectionner une langue d'écoute parmi celles proposées;
  • d'établir des communications par un simple clic de souris.

L'architecture MPEG-4

La source de données est composée des flux élémentaires ES (Elementary Streams) qui représentent l'abstraction de base dans la description de MPEG-4. On trouve deux types de flux élémentaires ES:

  • media ES (le flux audiovisuel proprement dit),
  • control ES (le flux de contrôle et de description de la session).

L'architecture MPEG-4 est organisée en trois couches:

  • couche compression (Compression Layer): les flux individuels sont processés avec les codeurs spécifiques (côté envoi) ou décodeurs spécifiques (côté réception). MPEG-4 prévoit les techniques de codage pour les flux media ES, mais la force de MPEG-4 par rapport à MPEG-1 et à MPEG-2 réside surtout dans la définition des flux control ES composés de descripteurs d'objets et de scènes. MPEG-4 assure la compression des images et des vidéos, des textures et des champs d'animation, etc.;
  • couche synchronisation (Synchronization Layer):
    • côté envoi: les flux élémentaires ES sont envoyés après l'encodage à la couche synchronisation, qui les transmet à la couche de livraison en flux de paquets. Cette couche ajoute des éléments supplémentaires aux ES, des éléments liés au temps et utilisés pour assurer la synchronisation de la reconstitution des scènes à la réception,
    • côté réception: la couche synchronisation assure cette synchronisation et délivre des ES à la couche compression en vue d'un décodage;
  • couche livraison (Delivery Layer): définition abstraite d'un ensemble d'interfaces vers une couche transport dans laquelle on peut trouver une multitude de mécanismes de transport. Cette couche livraison peut inclure des facilités pour le transport des flux synchronisés vers des protocoles de transport.

Comprendre le codage MPEG-4!

Si l'on reprend la scène de tennis illustrée ci-dessus, le processus sera le suivant:

  • premièrement, on applique une isolation de l'image de fond de la scène (image en haut à gauche);
  • ensuite, on extrait le joueur en mouvement (image en haut à droite);
  • pour le transfert, on prend une seule fois l'image de fond et le joueur en mouvement;
  • la scène est récréée par le décodeur avec les paramètres de l'image de fond et le joueur placé dans la scène à chacun de ses mouvements (l'image composée en bas).

MPEG-7

MPEG-7 ou "Multimedia Content Description Interface" est le standard qui définit un large set d'outils pour décrire le contenu multimédia. Les informations nécessaires pour décrire un contenu multimédia sont:

  • le format de codage du contenu (JPEG, MPEG-2, etc.);
  • les conditions d'accès au contenu (droits d'auteur, etc.);
  • une classification du contenu en fonction de quelques catégories prédéfinies (permission parentale, etc.);
  • des liens vers d'autres contenus;
  • le contenu en soi et des informations liées à son enregistrement (jeux olympiques d'Athènes, tour de France 2005, etc.);
  • etc.

Un exemple d'application basée sur MPEG-7 est présenté dans l'image ci-dessous, extraite de la description du standard.

Application basée sur MPEG-7

MPEG-21

MPEG-21 est le standard qui définit le Multimedia Framework, outil permettant une gestion approfondie des sources audiovisuelles, dès leur production jusqu'à leur utilisation, en passant par la gestion de l'archivage et des droits d'utilisation.

Le but de cette standardisation est de fournir un outil standardisé pour la livraison et la consommation des produits multimédia, dédié à être utilisé par tous les acteurs impliqués dans la chaîne de livraison et de consommation (créateurs d'oeuvres, producteurs, distributeurs et fournisseurs de services).

JPEG2000

Le standard JPEG2000 focalise ses avantages sur la flexibilité. Il a été largement décrit dans la page consacrée aux technologies de l'image.

WM9 (le format de Windows Media 9 Series)

Microsoft a développé son propre format de codage et de compression vidéo: le format WM9 utilisé avec Windows Media 9. Ce format propriétaire, tout aussi performant que les formats MPEG2 et MPEG4, a été également soumis à l'organisme de standardisation SMPTE (Engineering for the Society of Motion Picture and Television Engineers) afin de devenir un standard.

Le codec VC-9 développé par Microsoft pour le codage/décodage de ses fichiers spécifiques WM9, a été sélectionné par le DVD Forum pour être inclus par les fabricants de lecteurs vidéo HD DVD et Blu ray, dans leurs équipements. Cela implique que les lecteurs des nouvelles générations de DVD (HD DVD et Blu Ray) devront intégrer trois codecs vidéo différents:

  • MPEG-2,
  • MPEG-4 (ou H.264 AVC),
  • VC-9.

Microsoft souhaite que le codec VC-9 devienne le successeur de MPEG-2 en termes de codage vidéo pour les décodeurs numériques, la post-production avec ses retouches vidéo, la transmission vidéo par différents réseaux ou les produits vidéo numérique dédiés au grand public.

DivX

DivX est un format de compression d'un flux vidéo basé sur MPEG-4.Un fichier DivX est lu et/ou enregistré avec un codec DivX (le codec est un équipement qui réalise la compression et la décompression). Une compression DivX appliquée à un fichier MPEG-2 permet de réduire sa taille de dix fois. Ainsi, à la suite d'une compression DivX appliquée à un film sur un DVD ayant une taille de 4,7 Gb, on obtient un fichier de 650 Mb, soit la taille d'un CD.

Pour en savoir plus

Portail de la Région wallonne