Le PageRank est un algorithme d'analyse des liens développé par Larry Page et Sergey Brin en 1996 à l'Université de Stanford. Il constitue l'une des innovations majeures ayant permis à Google de s'imposer comme le moteur de recherche dominant. L'algorithme tire son nom de Larry Page, bien qu'il joue également sur le concept de "classement des pages" (Page Ranking).
Principe fondamental
Le PageRank repose sur une idée centrale : l'importance d'une page web peut être déterminée par la quantité et la qualité des liens qui pointent vers elle. Cette approche s'inspire du système de citations dans la littérature académique .
Analogie du surfeur aléatoire
Le modèle mathématique derrière PageRank peut être compris à travers l'analogie du "surfeur aléatoire" (random surfer) :
- Un utilisateur commence sur une page web aléatoire
- À chaque étape, il peut soit :
- Cliquer sur un lien de la page (avec une probabilité d)
- "Téléporter" vers une page aléatoire du web (avec une probabilité 1-d)
Le facteur d, appelé "damping factor", est traditionnellement fixé à 0,85.
En d'autres termes, le pagerank de A est la probabilité d'arriver sur A en cliquant sur un lien.
Formule mathématique
La formule classique du PageRank pour une page A est :
PR(A) = (1-d) + d * (PR(T1)/C(T1) + PR(T2)/C(T2) + ... + PR(Tn)/C(Tn))
Où :
- PR(A) est le PageRank de la page A
- PR(Ti) représente le PageRank des pages Ti qui pointent vers A
- C(Ti) est le nombre de liens sortants sur la page Ti
- d est le damping factor
Sources :
Évolutions modernes
Le surfeur raisonnable
Google a fait évoluer le concept vers un "surfeur raisonnable" qui suit des chemins plus logiques et pertinents. Ce modèle ne considère plus que tous les liens d'une page se valent, mais attribue une probabilité d'être cliqué en fonction de différentes caractéristiques qui peuvent être :
- La taille de la police
- Le type de lien
- Le nombre de mots dans l'ancre
- Le contexte (avant, après)
- Etc.
Sources :
- Reasonable Surfer Model: How Link Value Differs Based on Link - SeoByTheSea
- Google’s Reasonable Surfer Model Updated - SeoByTheSea
- Brevet Google : Ranking documents based on user behavior and/or feature data
PageRank thématique
Le PageRank moderne intègre une dimension thématique :
- Les liens sont pondérés selon leur contexte
- L'importance d'une page est évaluée par domaine thématique
- Les liens provenant de pages sur des sujets similaires ont plus de poids
Pour mieux mettre en avant des contenus pertinents, spécialisés et compétents dans la recherche Google et dans Google Actualités, Google a développé un "système d'autorité thématique" qui permet de déterminer quelles sources disposent de l'expertise nécessaire pour répondre aux requêtes se rapportant à l'actualité dans certains domaines spécialisés...
Source : Google Search Central
Pour aller plus loin sur le sujet
Applications pratiques
Calcul du PageRank interne
Bien qu'on n'ait pas accès au véritable PageRank, il est possible de simuler l'algorithme de PageRank sur le maillage interne de son site. Cela permet d'auditer la qualité du maillage interne et de voir comment l'autorité est distribuée au sein du site. Voici les étapes principales pour simuler ce calcul :
- Attribuer un PageRank initial à chaque page : Chaque page de votre site commence avec un "score" de PageRank égal.
- Simuler le flux de PageRank : En fonction des liens internes, le score de PageRank est "transféré" d'une page à l'autre.
- Répéter les calculs jusqu'à convergence : Après plusieurs itérations, les scores se stabilisent, ce qui permet d'évaluer la distribution du PageRank interne et de repérer les pages faibles ou trop isolées.
En analysant cette simulation, vous pouvez identifier les pages qui reçoivent peu de PageRank ou celles qui n'en transmettent pas efficacement à d'autres pages importantes. Cela vous permet d'ajuster votre maillage interne pour améliorer la distribution du PageRank au sein de votre site.
Indicateurs d'autorité
Bien qu'on n'ait plus accès au PageRank réel, plusieurs entreprises calculent des indicateurs d'autorité qui, bien qu'ils ne reflètent pas le PageRank exact de Google, permettent d'évaluer l'autorité des pages sur le web. Parmi les plus utilisés, on trouve :
- Citation Flow (Majestic) : Cet indicateur mesure la quantité de liens pointant vers une page, sans prendre en compte la qualité des liens. Un Citation Flow élevé signifie qu'une page reçoit beaucoup de liens, mais cela ne garantit pas nécessairement la qualité de ces liens.
- Domain Authority (Moz) : Cet indicateur mesure l'autorité d'un domaine sur une échelle de 0 à 100. Il prend en compte plusieurs facteurs, notamment la qualité et la quantité des backlinks, ainsi que la structure du site. Un score élevé en Domain Authority indique qu'un domaine est perçu comme ayant une forte autorité par les moteurs de recherche.
- Trust Flow (Majestic) : Ce score se concentre sur la qualité des liens pointant vers une page ou un domaine. Un Trust Flow élevé indique que la page ou le domaine est bien relié à des sources de confiance.
Ces outils peuvent être utilisés pour évaluer l'autorité relative des pages et des sites, et ainsi vous aider à optimiser vos stratégies de link building et à identifier les pages à fort potentiel.
Conclusion
Bien que l'algorithme original du PageRank ait considérablement évolué, ses principes fondamentaux continuent d'influencer l'organisation de l'information sur Internet. Sa capacité à mesurer l'importance relative dans un réseau de relations en fait un outil précieux bien au-delà du domaine de la recherche web.