Filtrage de l'information

Introduction :

De nos jours, la recherche et la diffusion de l’information sur Internet sont devenues de plus en plus fréquentes, ce qui submerge l’utilisateur d’informations dont la plupart sont inutiles. Afin de résoudre cette problématique de flux abondant, surtout sur les réseaux sociaux, un système de filtrage est nécessaire.

Dans ce cours nous allons présenter le concept de filtrage et les différentes techniques associées, comme l’algorithme EdgeRank, nous verrons également que le filtrage est utilisé à des fins publicitaires.

Le filtrage de l’information sur les réseaux sociaux

Les réseaux sociaux offrent une expérience unique à chaque utilisateur, en fonction des ses amis, de ses centres d’intérêts (pages ou hashtags suivis), et des liens sur lesquels il clique.

  • La personnalisation des contenus mis en avant se fait grâce à un filtrage du flux d’informations.
bannière definition

Définition

Le filtrage de l’information :

Le filtrage de l’information est un processus qui consiste à extraire d’une masse importante les informations les plus pertinentes. Il s’agit donc de proposer à l’utilisateur un contenu susceptible de correspondre à ses besoins, après que celui-ci ait défini ses centres d’intérêt.

C’est le profil de l’utilisateur, qui détermine les informations qui lui seront transmises.
La modélisation de l’utilisateur est un élément essentiel du filtrage, elle est basée sur des approches techniques, les trois principales sont le modèle canonique, le modèle explicite et le modèle automatique.

Le filtrage intègre aussi les opérations d’exploitation et de présentation des résultats. Les informations à mettre à la disposition de l’utilisateur sont extraites de sources différentes et évoluent dans le temps.

bannière à retenir

À retenir

L’outil de filtrage permet de repérer et d’extraire les données (les informations) qui correspondent à l’utilisateur.

Recherche ou filtrage d’informations ?

bannière rappel

Rappel

La recherche d’information désigne toute action ou méthode visant à collecter et à sélectionner d’une masse d’informations les données voulues en relation avec un sujet formulé explicitement par des mots-clés.

Le filtrage d’informations vise à identifier dans un flux de données le contenu qui correspond aux besoins « stables » d’un usager.

  • La connaissance de l’usager est un point central dans le filtrage de l’information.

Bien que « filtrage d’information » et « recherche d’information » puissent apparaître analogues, il existe des différences entre les deux.
La recherche d’information correspond à un fonds documentaire formé de données qui ont été déjà indexées. Les ressources sont alors considérées comme statiques.

  • En revanche, le filtrage d’information s’applique à une donnée dès son apparition dans le système. Le flux d’information est dynamique.
bannière à retenir

À retenir

Le système de recherche d’information utilise une sélection de documents à partir d’une base de données statique alors que le filtrage est une sélection et/ou souvent une élimination d’information à partir d’une source d’informations dynamique (un flux d’information).

Caractéristiques et techniques d’un système de filtrage

bannière à retenir

À retenir

Un système de filtrage est un système qui élimine les données redondantes ou indésirables en provenance d’une ou plusieurs sources extérieures à l’utilisateur.

bannière exemple

Exemple

Les serveurs de messageries électroniques filtrent les e-mails reçus en fonction des expéditeurs (s’ils sont autorisés ou non, pays d’origine) et du contenu (termes souvent utilisés dans les spam).

Le filtrage prend en compte le profil de l’usager qui spécifie au système ses caractéristiques. Il existe plusieurs techniques de filtrages dont le filtrage full-text, le filtrage basé sur l’indexation, le filtrage booléen, le filtrage vectoriel… nous nous intéresserons à deux principaux types de filtrage : le filtrage par contenu et le filtrage par collaboration.

Le filtrage par contenu

Le filtrage par contenu constitue l’approche la plus ancienne dont le but est d’établir une correspondance entre les ressources et les usagers. Le système analyse alors le contenu des ressources, puis effectue des recommandations.
Ce type de filtrage est approprié pour le matériel textuel. Il a pour avantage de faciliter l’entrée d’un nouvel item dans le système. Néanmoins, cette approche ne présente aucun aspect collaboratif.

Le filtrage par collaboration

C’est une approche plus récente dont le but est d’établir une correspondance entre les usagers en fonction de leurs profils.
Ici on suppose que l’usager apprécie des items semblables à ceux que d’autres usagers apprécient aussi.

Les principaux avantages de ce filtrage sont nombreux : la capacité de recommander des items dissemblables et l’utilisation des formats variés de ressources.

  • C’est dans l’ajout de nouveaux items que réside la principale problématique du filtrage par collaboration. Comment évaluer des contenus qui n’ont pas encore été consultés ? À qui les suggérer ? De plus, ce filtrage nécessite un nombre suffisant d’évaluations et d’usagers.

Algorithme EdgeRank

bannière definition

Définition

Algorithme EdgeRank :

L’algorithme Edgerank, aussi appelé algorithme de Facebook est un algorithme utilisé par le réseau social Facebook qui repose sur un principe de tri des informations et de choix des contenus.

L’algorithme fait l’inventaire de tout ce qui est publié par nos amis et par les pages que nous suivons, et il analyse les publications qui nous intéressent (signaux).

  • Il prédit ainsi ce qui pourrait nous intéresser, toutes les informations n’ont pas le même poids.

Ce poids, appelé score de pertinence, est calculé à partir de la formule suivante :

$$\text{Score (p)}= \text{A}\times \text{T}\times \text{F}$$ avec :

  • $\text{p}$ une publication postée par un ami (l’auteur) sur Facebook ;
  • $\text{A}$ l’affinité entre l’utilisateur et l’auteur ;
  • $\text{T}$ l’attractivité du contenu ;
  • $\text{F}$ la fraîcheur du contenu.
  • L’algorithme classe les messages et affiche en priorité ceux qui ont les meilleurs scores de pertinence.

Profilage publicitaire et ingénierie sociale

Modèle économique des réseaux sociaux

bannière rappel

Rappel

Un réseau social est un agencement de liens entre des individus (famille, collègues, groupe d’amis, une communauté, etc.) liés par des centres d’intérêt communs. Ces usagers génèrent le contenu web.

L’utilisation des réseaux sociaux est de plus en plus fréquente, mais, la question qui vient à l’esprit et qui peut susciter notre étonnement est : comment ces sites peuvent-ils etre rentables malgré leur accès gratuit ?

Les réseaux sociaux font appels à différents modèles économiques.

bannière exemple

Exemple

Les réseaux LinkedIn ou Skype utilisent le modèle freemium où l’utilisation et l’accès sont gratuits alors que certaines fonctions sont payantes.

Mais beaucoup de réseaux sont financés par les espaces de publicités présents sur leurs plateformes.

Profilage publicitaire sur les réseaux sociaux

Les publicités sont ciblées et programmées pour être envoyées à certains profils (selon les préférences et les intérêts des individus). En effet, elles sont sélectionnées préalablement par des algorithmes de profilage selon les sites visités et les informations divulguées sur Internet.

bannière à retenir

À retenir

Les modèles économiques des réseaux sociaux sont essentiellement basés sur la publicité ciblée, les jeux et les abonnements.
Les utilisateurs sont les principaux vecteurs de la communication publicitaire.

À partir de là, les algorithmes sélectionnent les contenus qui plaisent le plus à chaque individu et proposent un contenu personnalisé aux utilisateurs ce qui les retient sur la plateforme. Une forme d’ingénierie sociale s’installe.

bannière definition

Définition

Ingénierie sociale :

L’ingénierie sociale est l’ensemble des techniques utilisées pour modifier et changer intentionnellement des comportements de groupes sociaux.

Bulle et filtre, bonding et bridging

Chaque internaute a accès à sa propre version du web. Avec la notion de bulle de filtre, s’ajoute le fait qu’il ne voit que ce qu’il connaît déjà et ne s’ouvre plus sur le monde.

bannière definition

Définition

Bulle de filtre :

La bulle de filtre est un concept théorisé par Eli Pariser, qui désigne le filtrage de l’information par des algorithmes utilisés sur les réseaux sociaux. Ces algorithmes recommandent aux usagers des contenus en adéquation avec leurs préférences, renforçant ainsi leurs croyances et les enfermant dans une sorte de bulle personnalisée.

bulle de filtre illustration réseaux sociaux social media

Les relations sociales qui se nouent entre les individus constituent un capital social. Robert Putnam en 2001, établit une distinction entre deux formes de capital social qui s’opposent : le bonding et le bridging.

D’un côté les réseaux sociaux favorisent le bonding qui est la formation de liens affectifs entre des personnes semblables (de même âge, d’une même région…).
Cela ne les empêche pas de favoriser également le phénomène de bridging, par la création de ponts entre des personnes différentes (qui ne se ressemblent pas).

bannière à retenir

À retenir

Les affaires de fuites de données personnelles mettent en avant les questions liées aux modèles économiques des applications de réseautage social. Il faut toujours avoir en tête ce slogan :

« Quand c’est gratuit, c’est vous le produit ! »

Conclusion :

Le filtrage fait l’objet de nombreuses recherches. Le plus important ici est de comprendre le processus de filtrage et la façon dont les informations pertinentes sont sélectionnées et diffusées d’une manière rapide.