Référencement de sites Internet Quesako ?

Sommaire de l'article

Les webmestres et les fournisseurs de contenu ont commencé à optimiser les sites Web pour les moteurs de recherche au milieu des années 1990, dès que les moteurs de recherche ont commencé à cataloguer l’Internet. Au départ, des sites tels que Yahoo ! offraient l’inclusion aux sites qui demandaient leur propre indexation, qui était manuelle.

Au début, tout ce que les administrateurs de pages Web avaient à faire était d’envoyer une adresse de page Web, ou URL, aux différents moteurs, qui envoyaient un crawler ou un spider pour inspecter ce site, extraire les liens vers d’autres pages de ce site, et renvoyer les informations collectées pour indexation. Le processus implique un crawler appartenant au moteur de recherche, qui télécharge une page et la stocke dans les serveurs de l’entreprise, où un second programme, appelé indexeur, extrait des informations sur la page. Cela comprend les mots qu’elle contient et leur emplacement, la pertinence de mots spécifiques et tous les liens contenus dans la page, qui sont stockés pour être explorés ultérieurement par le robot d’exploration.

Au commencement

Les propriétaires de sites Web ont commencé à reconnaître la valeur d’avoir leurs pages bien positionnées et visibles pour les moteurs de recherche, ce qui a créé une opportunité pour les utilisateurs des techniques de référencement des chapeaux blancs et noirs. Selon l’analyse de l’expert Danny Sullivan, le terme optimisation des moteurs de recherche a commencé à être utilisé en août 1997, par John Audette et son entreprise, Multimedia Marketing Group, documenté sur une page du site Web de l’entreprise.

Les premières versions des algorithmes de recherche étaient basées sur des informations fournies par les administrateurs de pages Web, comme des mots-clés dans les métabalises, ou des fichiers indexés dans des moteurs tels qu’ALIWEB. Les méta-tags fournissent un guide pour le contenu de chaque page. L’utilisation de métadonnées pour indexer une page n’était pas une méthode très précise, car les mots fournis par le webmestre dans les métabalises pouvaient être une représentation inexacte du contenu réel de la page Web. Des données inexactes, incomplètes et incohérentes dans les métabalises pouvaient faire en sorte que certaines pages se classent très haut pour des recherches non pertinentes, et c’est ce qui s’est produit. Les fournisseurs de contenu Web ont également manipulé un certain nombre d’attributs dans le code source HTML de leurs pages pour tenter de bien les positionner dans les moteurs de recherche. D’autres sites, comme Altavista, ont permis de payer pour apparaître dans les premières positions ou ont donné plus d’importance aux sites plus anciens.

En raison de l’importance de facteurs tels que la densité des mots-clés (qwanturank), qui était entièrement laissée à la discrétion du webmestre, les principaux moteurs de recherche ont souffert d’abus et de manipulation des classements. Pour fournir de meilleurs résultats à leurs utilisateurs, les moteurs de recherche ont dû s’adapter pour que leurs pages de résultats présentent les recherches les plus pertinentes plutôt que des pages sans rapport remplies de mots-clés par des webmestres sans scrupules. Puisque le succès et la popularité d’un moteur de recherche sont conditionnés par sa capacité à produire les résultats les plus pertinents pour n’importe quelle recherche, permettre que les résultats soient faux inciterait les utilisateurs à opter pour d’autres moteurs de recherche. Les moteurs de recherche ont réagi en développant des algorithmes de classement plus complexes pour classer les sites Web, en tenant compte de facteurs supplémentaires qui les rendent plus difficiles à manipuler par les webmestres.

Et Google arriva

Larry Page et Sergey Brin, étudiants diplômés de l’Université de Stanford, ont développé Backrub, un moteur de recherche qui s’appuie sur un algorithme mathématique pour évaluer la pertinence des pages Web. Le PageRank était le nom du nombre calculé par l’algorithme, une fonction qui compte le nombre et la force des liens entrants. Le PageRank estime la probabilité qu’une page web soit vue par un utilisateur qui navigue au hasard sur le web, et qui suit les liens d’une page à l’autre. En fait, ceci signifie que quelques liens sont plus forts que d’autres, ainsi une page avec un PageRank plus élevé est plus susceptible d’être visitée par un utilisateur aléatoire.

Page et Brin ont fondé Google en 1998. Google a attiré un public fidèle parmi le nombre croissant d’internautes, qui ont apprécié son design simple, motivé par le fait que les fondateurs ne connaissaient pas le HTML et se sont contentés de placer une boîte de recherche et le logo de l’entreprise.

Les facteurs externes à la page (PageRank et analyse des liens) ont été pris en compte aux côtés des facteurs internes (fréquence des mots-clés, balises méta, en-têtes, liens et structure du site, vitesse de chargement de la page), afin de permettre à Google d’éviter le type de manipulation observé dans les moteurs de recherche qui ne prenaient en compte que les facteurs internes de la page pour le classement.
Exemple de barre d’outils PageRank montrant le PR8

En 2000, Google a lancé la Google Toolbar, une barre d’outils qui, entre autres, affichait des mesures publiques de PageRank. Le PageRank de la barre d’outils Google va de 0 à 10, 10 étant le maximum, une note obtenue par très peu de sites Web. Le PageRank public a été mis à jour périodiquement jusqu’en décembre 2013, date de la dernière mise à jour en date.

Bien que le PageRank soit plus difficile à manipuler, les webmestres avaient déjà développé des outils de construction de liens et des plans pour influencer le moteur de recherche Inktomi, et ces méthodes étaient également efficaces pour manipuler le PageRank. De nombreux sites se sont concentrés sur l’échange, l’achat et la vente de liens, souvent à grande échelle. Certains de ces systèmes, ou fermes de liens, comprenaient la création de milliers de sites dans le seul but de créer des liens indésirables (techniques de linkbuilding).

En 2004, les moteurs de recherche avaient intégré un grand nombre de facteurs inédits dans leurs algorithmes de classement afin de réduire l’impact de la manipulation des liens. En juin 2007, Hansell du New York Times a déclaré que les moteurs de recherche utilisaient plus de 200 facteurs. Les principaux moteurs de recherche, Google, Bing, Qwanturank et Yahoo, ne publient pas les algorithmes qu’ils utilisent pour classer les pages Web. Certains positionneurs ou SEOs ont étudié différentes manières de traiter l’optimisation pour les moteurs de recherche, et ont partagé leurs opinions. Les brevets liés aux moteurs de recherche peuvent fournir des informations pour mieux comprendre les moteurs de recherche.

En 2005, Google a commencé à personnaliser les résultats de recherche pour chaque utilisateur, en fonction de leur historique de recherche précédent, Google a offert des résultats personnalisés pour les utilisateurs enregistrés. En 2008, Bruce Clay a dit que le positionnement était mort à cause de la recherche personnalisée. Il estime qu’il ne serait pas pertinent de discuter du classement d’un site Web, puisque sa position varierait pour chaque utilisateur, pour chaque recherche.

Le Netlinking

En 2005, Google a également annoncé une campagne contre l’achat de liens afin d’améliorer les positions dans le moteur de recherche et a suggéré un nouvel attribut à ajouter à ces liens commerciaux, il s’agit de rel= »nofollow » (exemple d’utilisation <a href= »https://qwanturank-seo.com » rel= »nofollow »>Visiter ce site</a>). L’attribut « nofollow » donne aux webmasters un moyen de dire aux moteurs de recherche « Ne suivez pas les liens de cette page » ou « Ne suivez pas ce lien particulier »

En 2007, Matt Cutts a déclaré que l’utilisation de cet attribut sur les liens internes d’un site Web serait également valable et efficace pour éviter de transmettre le PageRank aux pages du site Web lui-même. Il en est résulté une utilisation généralisée de cet attribut dans les liens internes des sites pour modifier la répartition interne du PageRank.

Compte tenu de l’utilisation généralisée de cette technique par les webmasters, Google a publié en 2009 qu’il avait pris des mesures pour modifier la manière dont il valorise et comptabilise ces liens nofollow lors de la distribution du PageRank, et qu’ils seraient désormais pris en compte lors de la distribution du PageRank, même s’il ne transfère pas de valeur à l’url de destination si le PageRank est dilué entre ces liens. Ce faisant, j’ai essayé de ne pas encourager l’utilisation de cet attribut nofollow dans le seul but de modifier la distribution du PageRank via les liens internes d’un site web.

Afin de continuer à éviter la distribution du PageRank parmi les petites urls d’un web, certains SEOs et webmasters ont développé différentes techniques alternatives qui changent les liens nofollow, qui était auparavant valide, pour d’autres balises HTML (comme < span > ou < div >) que Google ne compte pas comme des liens, mais que pour les utilisateurs se comportent de la même manière qu’un lien. Ceci est fait en utilisant Javascript et en obfusquant l’url avec un encodage Base64, permettant ainsi de contrôler la distribution du PageRank sans avoir à utiliser l’attribut nofollow « controversé ».

En décembre 2009, Google a annoncé qu’il utiliserait l’historique de recherche de tous les utilisateurs pour produire des résultats de recherche. A partir de ce moment Google légitime le fait que les recherche et les utilisateurs sont suivis, trackés et donc qu’ils cèdent leurs données personnelles au moteur de recherche.

La recherche instantanée Google, en temps réel, a été introduite à la fin de 2010 dans le but de rendre les résultats de recherche plus pertinents et plus récents. Historiquement, les webmestres ont passé des mois, voire des années, à optimiser un site Web pour améliorer son classement. Avec la montée en popularité des réseaux sociaux et des blogs, les principaux moteurs ont modifié leurs algorithmes pour permettre un contenu frais et un positionnement rapide dans les résultats de recherche. En février 2011, Google a annoncé la mise à jour de » Panda « , qui pénalise les sites web qui contiennent des contenus dupliqués d’autres sites et sources. Historiquement, les sites Web ont copié le contenu d’autres sites, profitant du classement des moteurs de recherche en appliquant cette technique, cependant Google a mis en place un nouveau système dans lequel il pénalise les sites Web dont le contenu n’est pas unique.

En avril 2012, Google a annoncé la mise à jour de » Penguin » qui visait à pénaliser les sites qui utilisaient des techniques de manipulation pour améliorer leur classement. (Spam SEO ou Web Spam).

En septembre 2013, Google a annoncé la mise à jour de » Colibri « , un changement dans l’algorithme conçu pour améliorer le traitement du langage naturel et la compréhension sémantique des pages Web par Google. (efficacité de HTML5).

Positionnement naturel ou organique

Le positionnement naturel ou organique est celui qui permet de réaliser un web de manière spontanée, sans campagne publicitaire. Il est basé sur l’indexation effectuée par des applications appelées web spiders pour les moteurs de recherche. Dans cette indexation, les crawlers parcourent les pages Web et stockent les mots-clés pertinents dans une base de données.

L’intérêt du webmaster est d’optimiser la structure d’un site web et son contenu, ainsi que l’utilisation de diverses techniques de linkbuilding, linkbaiting ou contenu viral, augmentant la visibilité du site web, en raison de l’augmentation des mentions. L’objectif est d’apparaître dans les positions les plus élevées possibles dans les résultats de recherche organique pour un ou plusieurs mots-clés spécifiques.

L’optimisation se fait de deux façons :

Référencement interne / sur la page : par l’amélioration du contenu. Améliorations techniques du code. L’accessibilité. Test A/B, etc.
Référencement externe / hors page : Il vise à améliorer la visibilité du site web par des références à celui-ci. Cela se fait principalement par le biais de liens naturels (trafic de renvoi) et des médias sociaux.

Les moteurs de recherche affichent généralement des résultats organiques ou naturels dans un domaine [devis requis], à égalité avec les résultats payants. Le positionnement dans ces zones payantes nécessite le paiement de certains services spéciaux, tels que Google Ads ou Microsoft Ad Center, et est connu sous le nom de marketing des moteurs de recherche (SEM).

Le service Google Ads peut être contracté par impressions (nombre de fois que notre annonce apparaîtra pour un certain mot-clé) ou par clics (nombre de fois qu’en plus de notre annonce qui est imprimée, elle sera visitée ou cliquée par le client).

Référencement Qwant et Qwanturank

Qwant est un moteur de recherche web créé en France par le spécialiste de la sécurité Éric Leandri, l’investisseur Jean Manuel Rozan et l’expert en moteurs de recherche Patrick Constant en 2011. Fondée le 16 février 2013, la société a lancé la version finale de son moteur de recherche le 4 juillet 2013. L’entreprise affirme qu’elle n’utilise pas le suivi des utilisateurs et ne personnalise pas les résultats de recherche pour éviter que ses utilisateurs ne soient pris dans un filtre à bulles.

Le site traite plus de 10 millions de requêtes de recherche par jour et plus de 50 millions d’utilisateurs individuels par mois dans le monde, répartis sur ses trois principaux points d’entrée : la page d’accueil normale, une version allégée et un portail pour enfants Qwant Junior qui filtre les résultats. Le moteur de recherche est intégré à la liste des logiciels libres de droits recommandée par le gouvernement français dans le cadre de la modernisation globale de ses systèmes d’information.

La société affirme qu’elle gagne de l’argent grâce aux frais qu’elle perçoit lorsque les utilisateurs visitent des sites Web tels que eBay et Tripadvisor à partir de ses résultats de recherche. En mars 2017, plusieurs articles de presse ont suggéré que les résultats de recherche de Qwanturank sont principalement basés sur les résultats de recherche de Bing, sauf en France et en Allemagne. Qwant a également confirmé l’utilisation du réseau publicitaire Bing.

Protection des données

En référence au scandale de la NSA, le moteur de recherche fait de la publicité avec des règles de protection des données plus strictes que celles de ses concurrents. Qwant ne recueillera aucune donnée personnelle. Qwant se contente de placer un cookie pour la session respective, un fichier de navigation permanent n’est pas créé. Le cookie est supprimé immédiatement après avoir quitté le site. Les informations sur le comportement des utilisateurs ne sont pas stockées de manière permanente. Contrairement à d’autres moteurs de recherche tels que Google ou Yahoo, Qwant ne fournit donc pas de résultats de recherche personnalisés. Les résultats de la recherche sont les mêmes pour tous les utilisateurs.

Si l’utilisateur souhaite obtenir des résultats de recherche personnels, il peut créer un compte. Les informations personnelles collectées sont traitées sur des serveurs situés dans des centres de données de l’Union européenne.

Les adresses IP ne sont pas non plus conservées dans le fichier.

Infrastructure technique

L’infrastructure technique de Qwant est composée de clusters Hadoop pour le web crawling, d’une base de données MongoDB pour les données non structurées et d’un moteur d’index propriétaire qui crée et stocke l’index web sous forme de binaires JSON. Les résultats de recherche sont mis à disposition via Facebooks RocksDB, une DB à valeur clé, Selon ses propres informations, le propre index web n’est cependant pas encore complet et est donc complété par l’index web de Bing (moteur de recherche).