Revivez la Technoférence #33 : Immersion à 360 degrés dans les codecs vidéo

Publié le 27/10/2020

Intro2-VVC

Attention, c’était du haut vol ! La 33e conférence technologique Images & Réseaux dédiée au codage-décodage vidéo était particulièrement relevée. Trois heures d’échanges soutenus sur les stratégies de compression des flux d’images. Parmi les enjeux : la nécessité de répondre à une multiplicité grandissante d’usages, l’accessibilité au plus grand nombre, la sobriété énergétique et une tendance forte vers la vidéo immersive.

Le thème du jour “Code… Codes ? Codecs : Standards vidéo et évolutions vers de nouveaux usages” était un sujet pour spécialistes. Pourtant il nous concerne de près tant la vidéo-dépendance et la variété des usages ne cessent de croître : regarder sa série préférée, échanger en visio avec ses amis ou sa famille, partager des images insolites qui font le buzz, jouer en ligne, mais aussi utiliser des services à distance comme le téléenseignement, la téléconférence, la télémédecine… La vidéo représente aujourd’hui 80% du trafic internet mondial dira l’un des intervenants.

En écho à la pénétration de la vidéo dans la vie quotidienne, cette Technoférence #33 du vendredi 23 octobre, contexte sanitaire oblige, se tenait sous forme d’une conférence en ligne. Elle réunissait ainsi virtuellement près de 80 participants. Impossible de rendre compte en détail d’exposés souvent très pointus, ce qui suit est un aperçu sur quelques points saillants.

La consommation de vidéo ne cesse de croître

Premier à intervenir, Gilles Teniou, de Tencent, se penchait sur les services multimédias dans la 5G. Le 3GPP auquel il participe a défini une architecture de distribution dédiée appelée 5G Media Streaming (5GMS). Premier objectif : “identifier les solutions de codage en adéquation avec les besoins actuels” car la consommation de vidéo ne cesse de croître poussée par “la multiplicité de l’offre” et “la multiplicité des supports”. Deuxième objectif : “anticiper l’arrivée de services de rupture” telles que la réalité étendue ou Extended Reality (XR). L’accent est mis sur la qualité d’expérience au travers d’une liste de scénarios d’usage et sur un impératif : “optimiser les débits”. Les nouveaux codecs vidéo (VVC, EVC notamment) devront répondre à cette exigence de gain en bande passante tout en supportant de nouveaux formats de représentation tels que Mesh et Point Clouds.

Côté télévision numérique aussi, “on définit des profils d’usage”. La précision est de Jan Outters, de SES Satellites et contributeur à l’élaboration des normes DVB. Il commence par revenir sur la tension observée au moment de l’arrivée du couple HEVC/UHD. D’un côté les fabricants d’écrans poussaient vers “plus de pixels”, tandis que les éditeurs privilégiaient “de meilleurs pixels”, donc la qualité de l’expérience utilisateur. Ce qui a amené DVB à procéder par phases pour intégrer dans la ultra haute définition le HDR (des couleurs et une luminosité plus naturelles) et le HFR (plus de fluidité des images). Pour les codecs futurs, il faudra davantage tenir comte du marché : veiller “au bon timing”, également à un meilleur équilibre entre streaming en ligne (OTT) et diffusion numérique (broadcast).

L’arrivée du VVC pour soulager la bande passante

Focus sur un nouveau codec vidéo prometteur : le VVC (Versatile Video Coding). Thibaud Biatek, d’ATEME, présente les besoins à satisfaire : plus de trafic, plus de qualité, plus de diversité (HDR, HFR, VR360)… Puis il détaille la stratégie de codage adoptée par VVC. Elle est similaire à celle d’HEVC (Picture Partitioning, Prediction Modes…) tout en allant “toujours plus loin”. Selon les usages, VVC permettra d’atteindre jusqu’à 50% de gain par rapport à HEVC “à qualité d’expérience équivalente”. Selon l’intervenant : l’écosystème est en place, les premiers déploiements dans les chaînes de diffusion existantes devraient être “assez rapides”, les premiers chipsets sont attendus pour mi-2021.

À suivre, Wassim Hamidouche, de l’IETR, poursuivait la comparaison VVC / HEVC. En particulier, le gain en performances de VVC induit une contrepartie en termes de complexité des algorithmes. La complexité de l’encodage est multiplié par un facteur 10, tandis qu’il s’agit d’un facteur 2 à 3 dans le cas du décodage. Pour ce qui est de l’agenda, les développements de décodeurs et encodeurs VVC, d’abord software puis hardware, s’étaleront de 2020 à 2025.

Une promesse pour le futur : la vidéo immersive

La troisième partie de la conférence était davantage prospective. Avec d’abord Renaud Doré, d’Interdigital, sur le thème de la vidéo immersive. On parle de Immersive Video ou Volumetric Video quand l’utilisateur peut modifier son point de vue sur la scène qu’il regarde. Dans le cadre de MPEG, il s’agit des travaux MPEG-MIV (Metadata for Immersive Video). Les cas d’usage envisagés : la réalité virtuelle avec une véritable gestion de la profondeur, le Navigation Path qui permet de déplacer le point de vue dans une scène de sport par exemple, le Light Field Display pour l’affichage autostéréoscopique d’images animées sans casque. Dans tous les cas, la vidéo volumétrique tend à établir “un lien 1 pour 1” entre le spectateur et le contenu visuel. Ce qui “ouvre la voie à la télé-présence”. Bien-sûr, il reste beaucoup à faire : MPEG-MIV entre dans une deuxième phase pour aller plus loin sur chacun des sujets identifiés car : “MIV, c’est du lourd.”

Puis c’était au tour de Marius Preda de Telecom SudParis et Ralf Schaefer d’Interdigital d’introduire par deux présentations complémentaires la notion de Point Clouds ou nuages de points. Jusqu’alors, deux mondes séparés se côtoyaient : la vidéo issue de capture d’images et celle créée par images de synthèse. La représentation d’images 3D par des Point Clouds est pressentie pour réaliser la convergence des deux. Selon Marius Preda, le nuage de points est “un vrai objet 3D qu’on peut rendre de n’importe quel point de vue”. Par exemple dans le sport, “on pourra tourner autour du joueur”. D’où un sentiment d’immersion renforcé. Toutefois, un souci : le poids des Point Clouds. La représentation d’une seule personne nécessite 800 000 points, soit un débit minimal de 1000 mégabits par seconde. Ce qui situe le besoin évident en compression. Ralf Schaefer présentait l’un des codecs à l’étude, le V-PCC (Video-based point cloud compression for dynamic content). Celui-ci s’appuie sur les infrastructures logicielles et matérielles existantes pour permettre l’accès à court terme à des expériences immersives nouvelles.

Énergie, accessibilité : des enjeux de société

La Technoférence se concluait par une table ronde qui permettait, au-delà de la technologie, d’évoquer d’autres enjeux liés aux codecs vidéo. Ludovic Noblet de b<>com met en avant les contraintes commerciales : le besoin de “clarté et transparence du modèle de licensing” qui avait nui à l’accessibilité de HEVC, la nécessité de faire émerger des “business cases” qui sont “encore devant nous” notamment dans le cas des contenus immersifs. Wassim Hamidouche souligne de son côté “le défi énergétique” que représente la consommation vidéo, pour lequel “il reste beaucoup d’efforts à faire”. Julien Lemotheux, d’Orange, y ajoute une dimension sociétale : “Diminuer le débit nécessaire pour jouer une vidéo, c’est offrir le service à plus de personnes.” Autre question évoquée, l’appropriation des technologies par les artistes qui créent les contenus. L’implication des industries culturelles et créatives dans les projets collaboratifs est une piste selon Gérard Le Bihan d’Images & Réseaux. Car il faut aussi explorer et expérimenter “comment ces technologies vont modifier la façon de raconter les histoires”.

Pour finir, la discussion s’orientait vers l’intelligence artificielle qui a fait son apparition dans le monde de l’encodage-décodage vidéo. C’était aussi le moyen de réaliser la transition avec la prochaine Technoférence. Celle-ci se tiendra le 3 décembre, sur le thème “Embarquement pour l’Intelligence artificielle : porte Réseaux”.

Visuel : extrait de la présentation de Wassim Hamidouche de l’IETR.

 

Pour aller plus loin