J’aime la musique. J’aime encore plus la baladodiffusion. Si vous êtes comme moi, vous transportez toujours dans votre téléphone quelques dizaines de gigaoctets de chansons, de livres audio ou d’émissions de radio « podcastées » sur Internet. Comment ce contenu est-il encodé, et qu’est-ce qui détermine la qualité de l’expérience sonore qu’il vous procure? Voici quelques pistes de réponse.
Signal audio numérique 101
Le son que perçoit votre oreille est une onde, une vibration dans l’air ambiant. Plus la fréquence de l’onde est élevée, plus le son est aigu; la gamme des fréquences perceptibles varie selon l’individu et selon l’âge, mais en gros l’être humain est capable d’entendre des extrêmes graves qui vibrent environ 20 fois par seconde et des sons très aigus dont la fréquence atteint ou dépasse légèrement les 20 000 vibrations par seconde — en termes scientifiques, on parle d’ondes de 20 à 20 000 Hertz (ou Hz).
Mais il n’est pas possible de stocker une onde sur un disque ou dans une mémoire Flash: pour enregistrer un signal audio numériquement, il faut mesurer l’onde et encoder la mesure sous forme de bits. C’est ce que l’on appelle l’échantillonnage.
Or, un théorème très important en informatique spécifie que, pour être capable de représenter un signal de façon correcte, il faut l’échantillonner un nombre de fois par seconde égal au double de sa fréquence maximale. Pour bien échantillonner un son audible par un être humain, dont la fréquence maximale est d’un peu plus de 20 000 Hz, il faut donc le mesurer au moins 40 000 fois par seconde; sinon on risque de perdre des subtilités du signal, surtout dans les fréquences aigües. C’est pour cette raison que les disques compacts (vous vous rappelez des disques compacts?) étaient échantillonnés à environ 44 000 Hz — le double de la fréquence audible la plus élevée, avec une petite marge pour accommoder les oreilles ultra-efficaces!
En plus du nombre d’échantillons, il y a aussi la précision des mesures qui compte. Pour un disque compact, chaque échantillon mesurait l’onde avec une précision de 16 bits en stéréo; c’est devenu une sorte de standard avec lequel comparer les différents systèmes. Un système audio « haute résolution » peut donc être échantillonné plus de 44 000 fois par seconde, mesurer chaque échantillon avec une précision de plus de 16 bits, ou les deux à la fois.
Le signal et la mémoire
Or, 44 000 échantillons de 16 bits pour chaque seconde d’audio, ça prend de la place sur un disque ou dans une mémoire Flash. Grosso modo, un signal audio de qualité CD consomme un peu moins de 10 mégaoctets par minute.
À l’époque où les premiers lecteurs de musique numériques ont été mis sur le marché, la mémoire coûtait cher; il n’était pas rare de constater qu’un baladeur mp3 ne pouvait stocker que quelques dizaines de chansons à la fois, ou même moins. Par la suite, les collections musicales des internautes ont gonflé à un point tel que plusieurs d’entre nous avons des centaines d’albums et de balados avec nous en tout temps — sans compter qu’une bonne partie de la mémoire de nos téléphones est occupée par des photos, des vidéos et des applications. Dans un cas comme dans l’autre, la pression pour entasser toujours plus de contenu audio dans le moins d’espace-mémoire possible est toujours aussi forte.
La compression, avec ou sans perte
C’est la raison pour laquelle il existe une multitude de formats de fichiers audio qui tentent de minimiser l’espace requis.
Ces formats se divisent en deux catégories: les fichiers sans perte et les fichiers avec perte. Les détails sont d’une complexité ahurissante, mais en gros, tous les formats de fichier, avec ou sans perte, tirent profit de la même caractéristique de tous les signaux audio: un échantillon a tendance à ressembler à l’échantillon suivant. C’est la manière dont on profite de cette caractéristique qui détermine si un format appartient à la catégorie « avec perte » ou « sans perte ».
La compression sans perte
Par exemple, imaginez que vous avez sur votre ordinateur un enregistrement dans lequel un guitariste joue la même note pendant 5 secondes. Sur un CD, vous auriez besoin de 220 000 échantillons identiques consécutifs: 44 000 par seconde. C’est beaucoup d’espace perdu: il serait tout aussi possible de « dire » à votre ordinateur: « voici un échantillon, joue-le 220 000 fois ».
C’est le principe derrière les formats audio sans perte et aussi derrière les formats de photos et de vidéos sans perte, d’ailleurs: plutôt que d’enregistrer des copies redondantes de la même information, on enregistre une seule copie et on lui adjoint un décompte de répétitions. Il est ensuite possible de reconstruire le signal initial parfaitement, ce qui permet de dire que l’on n’a rien perdu.
Dans le cas du format sans perte FLAC, il est souvent possible d’obtenir une réduction de la taille du fichier de l’ordre de 30 à 70%.
La compression avec perte
Cependant, plus le signal varie rapidement et plus il est détaillé, moins la compression sans perte est efficace. On sauve plus d’espace en disant: « répète cet échantillon pendant 5 secondes » qu’en disant: « répète-le seulement pendant deux millièmes de seconde » !
Si l’on a besoin d’économiser encore plus d’espace, on peut aller plus loin en sacrifiant certains détails du signal d’origine. Les stratégies employées par les protocoles « avec perte » sont innombrables; par exemple, on peut décider de couper les fréquences très élevées qui ne sont perçues que par les oreilles les plus fines, ou bien de traiter deux échantillons consécutifs semblables comme s’ils étaient absolument identiques au risque de sacrifier certaines subtilités. Dans ce cas, le fichier résultant ne contient plus toute la richesse de l’enregistrement initial et il n’est plus possible de reconstruire celui-ci à partir du fichier; c’est ce qui justifie le qualificatif « avec perte ».
En pratique, l’encodage avec perte permet souvent de réduire la quantité de mémoire requise pour stocker un fichier audio de 90 à 95%, ou même plus si l’on est prêt à accepter une perte de précision conséquente.
En résumé
Si vous avez le choix entre deux algorithmes de compression, lequel devriez-vous choisir?
L’algorithme sans perte conservera toute la richesse du signal original, tout en consommant (à peu près) 2 à 3 fois moins d’espace-mémoire qu’un fichier non compressé. Pour votre musique favorite, que vous écouterez souvent et longtemps, c’est sans aucun doute votre meilleur choix.
L’algorithme avec perte consommera 10, 20, voire 30 fois moins d’espace que le fichier non compressé original, et peut-être 5 à 10 fois moins d’espace que son équivalent sans perte. Et pour la plupart des gens, la perte de précision est à peine perceptible — à moins de vraiment exagérer sur le taux de compression ou que vous utilisiez d’excellents écouteurs ou des hauts-parleurs de haut de gamme. Pour vos balados ou pour la musique de gym que vous écoutez dans un environnement bruyant avec les écouteurs-boutons fournis avec votre téléphone, vous ne ferez sans doute pas la différence.
Magasinez les écouteurs en ligne chez Best Buy Canada
Magasinez les hauts-parleurs en ligne chez Best Buy Canada