Myllaume

Espace numérique de Guillaume Brioudes

CC-BY-NC-SA

La page web comme un document

Nous n’avons pas attendu le web pour inventer l’hypertexte. Ce genre de document existe depuis que l’on a commencé à agglomérer de l’information. Un index, une bibliographie, un recueil de citations… ce sont autant de documents hypertextes qui ont émergé depuis que l’on sait écrire. A l’époque d’Internet, les moteurs de recherche ne sont finalement que des index, mais les plus grands du monde ; le web, porté par les algorithmes, nous permet de faire les choses en grand parce que automatiquement, à la chaine.

Dans le cas du web, l’hypertexte a cela de fascinant qu’il agit à tous les niveaux. Il permet à l’internaute de naviguer de site en site en site, de page en page, d’un contenu à l’autre. Ces pages sont elles-mêmes sont construites par de nombreux langages manipulés par les développeurs et qui, unis par l’hypertexte, donnent un rendu visuel à l’internaute. Sur le web, le texte est tantôt figuratif, tantôt performatif.

Document en abîme

Alors qu’on pourrait voir le web comme un document, le plus volumineux, il est aussi le plus atomisé. Les pages web les plus simples sont conçues comme des séries de balises réglées. Les plus complexes sont générées de toutes pièces par des algorithmes réunissant des données issues de différents serveurs. La page web prend des formes variées, si bien que la qualifier de document devient difficile : on est tout de suite pris dans une profonde mise en abîme ne sachant plus si le tweet à l’écran constitue un document, s’il s’agit de son texte, de la vidéo qu’il intègre ou bien l’accumulation de ses réponses et citations. Peut-être tout cela à la fois ? Ou bien le document est-il l’URL, une adresse et l’affichage qui en découle. Ce document là aussi a un nom, mais entre le rédacteur, les répondants et les développeurs de la page, on ne sait plus très bien qui est l’auteur. L’algorithme peut-être ; c’est un nouveau genre de personne ? Faut-il encore une fois se satisfaire de dire « un peu tout cela à la fois » ?

S’il faut admirer la richesse de ces documents accessibles depuis le monde entier, la plupart des internautes ne soupçonnent pas le quart de la richesse informative d’une page web. La plupart des moteurs de recherche ont cette capacité avec leurs algorithmes de donner du sens (« sémantiser ») les pages grâce à leur algorithme. C’est ainsi qu’une page n’est plus juste une adresse, mais aussi une description, une date de publication, un auteur, un sujet. En fonction de ces données, les internautes ne vont plus simplement chercher et trouver une page, mais ils vont demander aux moteurs de recherche un index sur un sujet donné, ou même s’il le précise, dans un certain intervalle de temps, par un certain auteur etc..

Document social

Les métadonnées Open Graph permettent pour une page web de porter elle-même des indications précises sur son contenu. Elle devient un document riche, social. Si elle est publiée sur les réseaux sociaux, des algorithmes vont aller capter une image de couverture, un auteur, un titre, et l’afficher avec l’URL de la page comme seule indication d’origine pour ces robots.

C’est du domaine des machines de comprendre totalement les pages web. Elle donnent un rendu visuel aux internautes selon ce qui a été désigné comme le plus pertinent par les développeurs. Sur des dizaines d’informations récoltées, des centaines déduites, seul quelques-unes vont être retenues pour affichage. Le spécialiste qui reçoit les rapports pourra goûter un peu plus de cette complexité. Une boîte noire

Le data-scientist peut réaliser ses propres algorithmes pour croiser les données en informations. Nous autres sommes tous face à une boîte-noire, incapables de comprendre ce qu’il se passe lorsque l’on clique. Dans le flux constant du web, la notion de document s’est abâtardie en information, elle même découpée en données. On les stocke sur des bases que l’on aspire et met sous forme de tableau. Sur ce modèle on arrive enfin à dégrossir ce qui de tout évidence n’a plus rien d’un document. Une fois l’analyse de ces données effectuées, nous pourrons générer un autre document. Le web n’est pas fait de documents, mais de données harmonisées par des algorithmes. Le document web est une illusion numérique.


Écrit par Guillaume Brioudes le