We want a < sarcasm/> HTML tag
Une des problématiques majeures du web lorsqu’on en vient au domaine des communications et plus particulièrement aux champs du traitement du language naturel, c’est l’ambiguïté des sens connotés (ou second degré). Combien de fois avez-vous été confronté à un texte et vous êtes-vous demandé si l’auteur était sérieux ou avez-vous mal interprété la phrase? Combien de fois Google vous a-t-il amené sur une page répondant à vos critères, mais ne traitant pas du sujet de la manière dont vous le souhaitez?
Que nous soyons humains ou machines, de nombreux textes de la toile se révèlent à nous et, si nous sommes tout à fait capable de comprendre, trier et catégoriser un texte, il est parfois difficile pour un humain d’en comprendre le sens exact et c’est tout à fait impossible pour une machine.
Dans une approche de web sémantique, le HTML et les autres langages de balisages jouent un rôle important dans la valeur accordée à certains mots, groupes de mots et à la structure des textes. La balise <h1/>, par exemple, indique un titre de premier niveau. Vous ne la voyez pas, mais le texte qu’elle balise, lui, vous apparaitra généralement comme un titre principal, vous saurez que ce titre définit de quoi parlera le reste de la page. Pour les moteurs de recherches, cette balise permet de dire: “ceci est le titre principal de cette page et tout le texte qui suit est en lien avec ce titre”. Les mots ainsi inclus dans cette balise, pour autant qu’ils aient un champs lexical en rapport avec d’autres mots dans le texte, prennent alors plus d’importance, d’où l’intérêt de faire attention à ses titres dans une optique de rédaction web. De la même manière, les balises <ul/>, <ol/>, <address/> etc, fournissent des renseignements importants sur l’importance du texte affiché.
Si l’agencement sémantique permet donc de donner une valeur et une structure aux mots utilisés dans une page web à une machine, il manque encore une chose importante: le sens du texte, et plus spécifiquement, le ton.
Le sarcasme est un des contre-sens ou contre-tons les plus utilisés, il est généralement facile à produire et facile à décoder grâce à l’intonation de l’émetteur. Le sens connoté du texte n’étant pas une variation mais bien une opposition du sens signifié. Mais sur le web, nous lisons du contenu qui n’a pas de mimiqueset qui est, de plus en plus, extrait de son contexte. Agrégateur RSS, News Reader, citations sur le go, aperçu etc.
L’idée, ce serait d’avoir une balise <sarcasm/> (ou <scm/>?) qui permettrait d’expliquer aux machines que nous exprimons l’inverse de ce qu’elles croient et de montrer aux humains, par une modification dans le texte, que ce qui est écrit est sarcastique. Cela se fait déjà chez les geeks, où les auteurs entourent leurs textes de paires de balises dans le même genre que <sarcasm></sarcasm>.
Farfelue comme idée, non?
Eh bien! Figurez-vous que le W3C (organisme de régulation des standards du web) s’est déjà penché sur la question et à répondu de manière on ne peut plus sarcastique (début juin 2009):
Bref, c’est pas pour demain. Mais histoire de rire et peut-être même de faire bouger l’industrie à ce sujet (rêvons un peu), je me permet de vous inviter à rejoindre ce groupe Facebook pour l’implémentation de ce tag dans la prochaine version des standards HTML.
Notez aussi qu’un site web “milite” pour la création de fontes (sous-ensembles d’une polices de caractères) sarcastiques. Il propose à cet effet d’avoir l’effet visuel inverse d’un texte en italique.
PS: Pas plus tard que mercredi, Michelle Blanc était victime d’une mauvaise interprétation d’un de ses tweets sur Haïti qui a été pris pour du sarcasme, justement.
MAJ 15-01-10 / Le Telegraph publie un article sur une compagnie ayant sortie une marque de ponctuation exprimant le sarcasme. Une affaire à suivre.


January 24th, 2010 at 03:54
[...] semaine dernière, je vous parlais du problème du traitement du langage naturel (ou traitement automatique des langues) et de la raison pour laquelle j’espérais voir [...]