BrowseRank

Le BrowseRank se compare au PageRank  qui évalue la popularité d’une page selon le nombre de liens sur cette page. Le BrowseRank évalue l’importance d’une page selon la navigation des utilisateurs et leur comportement.

Auteurs

Les auteurs sont chinois et pour la plupart enseignent ou ont un poste de recherche dans des universités de Pékin: Yuting Liu, Bin Gao, Tie-Yan Liu, Ying Zhang, Zhiming Ma, Shuyuan He, Hang Li.

Le graphe du BrowseRank

Les points représentent les pages, et les relations ordonnées les transitions des utilisateurs entre les pages. En outre le temps passé par l’utilisateur sur les pages est aussi pris en compte.

Le graphe de navigation se veut plus efficace que le graphe des liens sur les pages, pour déterminer leur importance.  

Calcul du BrowseRank

Les informations sur le comportement du visiteur sont obtenues à partir du navigateur. Ce sont:
- Le nombre de visites.
- Le temps moyen passé sur la page.
Elles servent à construire le graphe. Il représente le processus de cheminement aléatoire des internautes. On suppose que quand un visiteur va sur une page et y reste, il vote implicitement pour cette page.

L’algorithme alors se base sur un processus de Markov en temps continu qui s’applique en prenant le graphe comme modèle pour déterminer une probabilité stationnaire de distribution du processus qui correspond à l’importance des pages.

Pour évaluer le temps passé, on fait la différence entre l’instant ou la page et chargée et celui où l’on charge une autre page. Pour la dernière page de la session, on reprend le temps moyen observé lorsqu’elle n’est pas la dernière ou des procédés similaires.

L’algorithme simplifié:

Entrée: données sur le comportement de l’internaute.
Sortie: score de l’importance de la page.
Algorithme:

  1. Construction du graphe de navigation.
  2. Estimation de qii pour toutes les pages.
  3. Estimation de la matrice de probabilité de transition de EMC
    puis obtention de la distribution de probabilité stationnaire par le méthode des puissances.
  4. Calcul de la distribution de probabilité stationnaire.

Le détail de l’algorithme est donné dans le document en référence.

Comparaison avec le PageRank

Le PageRank se base sur le graphe des liens entre pages et estime que plus il y a de liens vers une page et plus elle est importante et vue par de nombreux internautes.
Il utilise un processus de Markov en temps discret sur les liens pour évaluer leur importance.
Il a ces inconvénients:
- Les webmasters peuvent créer des fermes de liens pour donner de l’importance à une page ou pratiquer l’échange de liens.
- On ne tient pas compte du temps passé sur les pages qui serait un indicateur de leur qualité.

Critique du BrowseRank

Le critère du temps passé

Il est en réalité impossible de savoir si l’internaute est en train de lire la page, ou s’il a laissé le navigateur ouvert et est parti faire autre chose.
Une page courte, simple, claire sera lue rapidement sans pour autant être moins importante qu’une autre page plus longue, confuse ou ardue à décrypter. Par exemple, la page fournissant l’adresse d’une boutique se lit en quelques secondes et elle est cependant d’une importance cruciale!

La comparaison avec le PageRank

Google n’utilise pas l’algorithme du PageRank pour déterminer la position dans les résultats mais un algorithme de score des pages dont un brevet à été déposé en 2007. Le PageRank est un critère parmi d’autres pour déterminer le score d’une page.

Le score des pages établi par Google prend en compte une quantité de critères, bien plus que le BrowseRank, comme on peut le voir dans le résumé du brevet.

Le spam par liens réciproques ou fermes de lien est de mieux en mieux maîtrisé ce qui rend également cet argument peu fondé.

La notion de confiance

Le PageRank ne dépend pas seulement du nombre de lien, mais aussi de la pertinence et du poids des liens. Les liens provenant d’un site important comptent plus que ceux d’un site peu fréquenté.
Ces critères sont absents du BrowseRank.

Le spam

De même que les webmasters tentent d’utiliser le PageRank en leur faveur en créant des liens, ils tenteront de détourner le BrowseRank en faisant fonctionner des robots (des scripts) qui simuleront le comportement humain et stationneront sur leurs pages. De tels scripts peuvent s’exécuter en millions d’exemplaires.

Référence:

BrowseRank. Ce document est publié par le centre de recherche en Asie de Microsoft.


(c) 2008 Scriptol.org