Utilisateur:Jean-Luc W/CompteVisites

Cette page contient deux éléments statistiques, une analyse de la fréquentation sur WP en mathématiques et un tableau indiquant la fréquentation d'articles au hasard.

Fréquentation et mathématiques 2009

modifier

Après un an de statistiques disponibles, il devient possible de suivre l'évolution des articles et d'apporter de nouveaux éléments sur ce satisfait nos lecteurs. Le principe d'analyse est le même celui que l'année précédente. L'évolution de 150 articles à fréquentation au moins moyennement forte (plus de 1.000 par mois) sur 4 pays est riche d'informations. Les articles sont choisis uniquement dans le champ mathématique, ce qui offre l'avantage de permettre une comparaison plus aisée (il est probable que l'article Montréal ou Louis XIV n'est pas le même aura dans les pays francophones et les autres, en revanche les mathématiques sont relativement universelles, ce qui justifie le choix).

Les conclusions vont dans le même sens que celles de l'année dernière. L'analyse temporelle offre néanmoins un éclairage nouveau qui affine les résultats précédents.

Le principe analytique est toujours le même, le rapport moyen entre le nombre de visites d'un article dans chaque pays est établi. A partir de là, il devient possible de savoir si un article est populaire ou non. Un benchmark à 100 indique que l'article est normal, moins de 100 il ne remplit pas son quota et au delà de 100, il commence à véritablement satisfaire son public. Le traitement de l'axe temporel permet de savoir plus précisément quelles sont les contributions facteurs d'accroissement de l'audience.

Un paradoxe français

modifier

La progression de WP en français et en mathématiques est la plus forte des quatre langues analysées. Avec 26%, elle dépasse de peu la polonaise (23%) et clairement les deux WP les plus fréquentées : l'allemande et l'anglaise (15% pour chacune). La cause de cette progression s'explique par un comportement du visiteur de langue française différent de celui de ses voisins.

Pour comprendre cette différence, il est nécessaire de procéder à une analyse par niveaux des articles. Sur l'échantillon sélectionné, la moitié des articles (74 sur 150) traite de sujets accessibles dès le lycée. En revanche, il représente les trois quarts de notre fréquentation (72%), en langue anglaise il représente de l'ordre des deux tiers (66% exactement). Si cette différence n'est pas encore significative, elle le devient beaucoup plus sur son évolution, cette tranche d'articles représente pour la langue française les quatre cinquièmes de la croissance (78%), alors que pour la langue anglaise cette tranche ne correspond qu'à deux cinquièmes de la progression totale (42%).

Autrement dit, le facteur différenciant majeur est que pour les francophones, nous sommes dans la période où WP est en train de rentrer massivement dans les lycées et collèges. Probablement, les germanophones (les plus avancés en terme de maturité) ont déjà opéré cette révolution. Malgré une population internet probablement plus petite que celle des francophones, leurs articles sont en moyenne deux fois plus visités que les nôtres (2,18 fois pour être précis). Ce qui explique probablement une croissance trois fois plus soutenue chez nous pour les articles accessibles dès le niveau du collège (36% vs. 13% de croissance). Pour les francophones cette révolution se produit maintenant, pour nos voisins, elle a déjà eu lieu.

Ce qui est un peu paradoxal, c'est qu'il semble que les contributeurs francophones n'en aient guère conscience ou considèrent même que ce public n'est pas du ressort du WP : WP n'est pas un cours de math. En langue française, saviez vous que la multiplication n'est pas un sujet mathématique ? Nous ne connaissons que le produit (mathématiques). Cette innovation cocasse nous apporte une fréquentation dix fois plus faible que celle de nos amis allemands sur ce sujet. Cela vous étonne-t-il ? Un autre exemple est du même acabit. En français, la notion de puissance, pour les mathématiques élémentaire, n'existe plus. L'article est devenu puissance (algèbre). Nous n'avons manifestement pas mis nos lecteurs au courant, 356 cliquent sur cet article alors que, dans le même temps 9 342 cliquent sur puissance (mathématiques élémentaires).

Chez les anglophones, l'enjeu le plus important est maintenant composé des articles du deuxième cycle universitaire, leur croissance y est trois fois plus forte que la nôtre (24% contre 8%). Cette croissance ne tient pas compte des nouveaux articles, où ils ont une politique beaucoup plus dynamique que la notre (plus de 20 000 en mathématiques en langue anglaise contre un peu plus de 5 000 pour la langue française).

Les mécanismes de la croissance

modifier

Pour ce type d'article, c'est comme au cinéma pour les films de Walt Disney, certaines règles doivent être suivies très précisément. La correction d'erreurs qui peuvent paraître minimes ont des conséquences lourdes en terme d'audimat.

  • Nos lecteurs sont à la recherche d'un savoir précis et la moindre digression les perturbe. Au cours de l'année précédente, l'article Théorème de Thalès a subi des modifications qui pourraient paraître mineures. Aux yeux de notre public, elles ne le sont pas du tout et son volume a doublé. Initialement, l'article commençait par Dans certains pays d'Europe, dont la France, le théorème de Thalès désigne un théorème de géométrie qui, en dimension 2, affirme qu'une droite parallèle à l'un des côtés d'un triangle sectionne ce dernier en un triangle semblable (voir énoncé précis ci-dessous). Dans d'autres langues, notamment en anglais, ce résultat est connu sous le nom de théorème d'intersection. C'était une grave erreur, le sujet qu'ils recherchent n'est pas par quels termes le résultat est dénommé dans les différents pays, mais le contenu et la signification du théorème. La deuxième modification est le passage de la partie historique en deuxième position. C'est manifestement une très sage initiative, le lecteur souhaite se retrouver en terrain connu, avec les mêmes énoncés que ceux qu'il a déjà vu, quitte à entrer ensuite dans des détails didactiques. Un autre exemple significatif est l'article Pourcentage. Initialement, il commençait par l'histoire du symbole. Le croirez-vous, ce n'est pas l'information prioritaire. Le retrait de cette maladresse fait passer en un an l'audience de 6 183 à 15 323 et nous permet de rattraper les germanophones.
  • Un plan adapté est ce dont ils ont besoin. L'adaptation se joue sur plusieurs tableaux. Tout d'abord, il doit aller à l'essentiel (cf le paragraphe précédent), ensuite il doit être progressif et surtout limpide. Le meilleur exemple est probablement l'article pi. Il évite maintenant de faire usage de la notion de limite dès le premier paragraphe et il est limpide à la lecture. Sur ce type d'article, l'expérience montre l'existence d'un délai avant la montée en puissance de la fréquentation. Elle était encore faible en février, mais les résultats de mars et d'avril ne trompent pas, elle aura bientôt doublée en un an. Un semi bon exemple est nombre d'or. Un analyse rapide des chiffres laisse penser au doublement de la fréquentation en un an. Le résultat est trompeur, il est à moitié la conséquence d'une lumière sur au mois de février 2009. La progression n'est que d'un facteur 1,5. Le plan est clair, mais le contenu beaucoup trop érudit pour ce type de public, ce qui n'autorise probablement pas une progression comme est en train de vivre l'article pi.
  • L'erreur qui ne pardonne pas est le double sujet. L'article orthogonalité tombe dans ce travers. Malgré une première partie très didactique et d'un niveau lycée, sa fréquentation montre que c'est un four total. Le lycéen n'apprécie manifestement pas du tout de devoir quitter le film durant l'entracte (alors que l'universitaire n'est pas gêné). On trouve de nombreux articles qui cherchent à atteindre ce public à l'aide d'une première partie didactique, quitte à se rattraper avec une deuxième partie véritablement technique. On peut citer entier naturel ou encore raisonnement par récurrence. L'échec magistral est absolument garanti. Non seulement on perd les lycéens, mais manifestement les experts quittent majoritairement un article qu'ils croient ne pas être fait pour eux. Les articles orthogonalité ou entier naturel perdent au bas mot les quatre cinquièmes de leur audience et ce phénomène ne se limite pas à ces deux articles, on le trouve aussi dans raisonnement par récurrence et de très nombreux autres articles.
  • Une autre erreur qui ne pardonne pas est la présentation humaniste, du type Nombre réel. C'est très chic pour les labels, mais à l'exact encontre des besoins du véritable public (celui qui souhaite vraiment lire les articles). Le didactisme qui ne tient pas ses promesses est très sévèrement batonné. Le lecteur souhaite un véritable savoir fondé sur des vraies mathématiques et ne se contente jamais de métaphores, en pratique inutilisable. Une trop grande contextualisation noie nos chères petites têtes blondes. Ce comportement perdure très longtemps dans la scolarité. On retrouve ce péché dans un article comme variété (géométrie), qui pourtant touche un public plus haut en connaissance. Cette erreur est fréquente dans les articles labellisés. On peut citer comme exemple Vecteur ou encore Arithmétique modulaire. Si ce dernier article plait beaucoup aux chercheurs, il laisse totalement sur leur faim les très nombreux lecteurs qui souhaitent juste comprendre l'arithmétique de l'horloge.
  • Enfin, une mise en page brouillonne comme équation du second degré n'est pas sans conséquence. Cet article ne comporte que deux défauts. Il ne s'adresse qu'à ceux qui comprennent le formalisme littéral et il est mal mis en page. Cela lui fait perdre au bas mot 30 000 lecteurs.

En conclusion, en langue française, on obtient sans trop de difficulté une audience comparable à celle des germanophones. Les exemples sont légions : pourcentage (fr 15 323 vs. de 15 392), Théorème de Thalès (fr 21 348 vs de 17 881), Hexagone (fr 10 335 vs de 9 083). Si les allemands ratent leur article c'est la version francophone qui prend largement la tête (racine carrée fr 13 801 vs 5 956). Mais, en majorité, l'article allemand est beaucoup mieux fait (équation du second degré 16 297 vs 77 069 ou encore cercle 17 168 vs 76 808). Ils en arrivent à une fréquentation de plus du double de la notre.

Vers un découpage adapté ?

modifier

Nombreux, dont moi, procèdent d'un point de vue diamétralement opposé. Nos lycéens en culottes courtes sont finalement de bien tristes sires. Le théorème rigolo, le plaisir de l'approche historique ou humaniste d'une question, l'érudition même, ils en ont horreur. Mais leur horreur est exactement ce qui m'amuse, m'excite et même parfois me passionne.

Je prend plutôt plus de plaisir à écrire sur le ludique jeu de Hex, le technique Théorème du point fixe de Brouwer, la ludique énigme des trois maisons ou l'historique théorie des équations.

En fait, je suis persuadé que l'on peut et que l'on doit faire les deux. Le point de vue de lycéen est un état de fait, il doit en tant que tel être respecté. L'article polynôme sera bien fait le jour où nous aurons compris que son lecteur est avant tout un lycéen et non pas un agrégé en mathématiques, en histoire et en philosophie. Cela n'empêche en rien de faire aussi des articles comme polynôme formel, histoire des polynômes, ou de traiter des sujets un peu techniques comme le Nullstellensatz.

L'article alibi, qui commence par un petit paragraphe faussement didactique et qui n'apprend rien à son lecteur ne fonctionne pas. Un bon article historique, érudit ou encore technique est une solution qui me semble beaucoup adapté, plutôt que de tenter la rédaction d'un texte supposé ébahir aussi bien le lycéen que le docteur.

Données brutes

modifier

Fréquentation et mathématique 2008

modifier

L'objectif

modifier

On peut légitimement se poser la question de la corrélation entre le travail des contributeurs et la fréquentation des articles. Si un lecteur souhaite une information sur un sujet précis, ne va-t-il pas cliquer par défaut sur WP sans connaître à priori la qualité de l'article ? Si tel est le cas pourquoi existerait-il une corrélation ?

De plus, le nombre de passages pour un article est probablement beaucoup plus lié à la popularité du sujet qu'à la présence d'informations pertinentes dans l'article pour le lecteur. Un nombre de visites de 5623 pour les matrices ne signifie surement pas un article à la contribution quatre fois plus efficace que les 1235 sur les courbes elliptiques. Les deux sujets n'ont pas la même popularité.

Il existe néanmoins un avantage en mathématiques, les préférences culturelles et géographiques sont probablement moins marquées, par exemple qu'en histoire. Il devient possible de comparer les fréquentations sur les autres WP plus facilement. Biensur, un autre biais apparaît. Les 1914 visites de l'article Théorème d'incomplétude de Gödel ne sont pas nécessairement moins positifs que les 6073 de l'article anglais. La population anglophone est largement supérieure à celle française.

Cet avantage permet de se faire une idée sur cette corrélation. Le grand nombre de visites, plus de 5,6 millions analysés, permet d'établir des éléments de réponses. Comme toute analyse statistique, elle ne présente que des indications globales. Des biais visibles apparaissent. Les inclinaisons culturelles sont perceptibles. Malgré cela, quelques grandes lignes se dessinent.

Les résultats

modifier

L'étude ne concerne que les articles ayant au moins 1000 lecteurs en février 2008, ils représentent entre 15% et 20% des articles de mathématiques et les deux tiers de la fréquentation mathématiques. Quelques grandes lignes se dessinent :

  • 1) Les articles mathématiques sont bien lus, probablement de l'ordre de 2 millions de visites en février. Les visites ne sont pas le fruit d'un comportement aléatoire, les articles à faibles fréquentation par exemple moins de 60 visites mois, représentent la majorité des pages. En mathématiques, les deux tiers de l'audience concernent les articles de plus de 1 000 visites mois. Ces articles sont visités plusieurs fois par les mêmes personnes, au moins 4 fois dans le mois pour les articles à fort taux de satisfaction.
  • 2) Le référencement n'est que de peu d'importance pour ces articles (uniquement ceux correspondant au cinquième le plus lu en mathématiques). Le nombre de liens et le référencement Google n'apporte aucune aide à la fréquentation. Il existe une exception, si l'article est en lumière sur. Il bénéficie alors d'un effet d'appel visible, qui en revanche ne dure pas. Dès le lendemain, la fréquentation redevient ce qu'elle était naguère.
  • 3) La taille de l'article ne modifie que fort peu la fréquentation. La longueur d'un article n'est un rien un indicateur de sa fréquentation. Tout au plus, peut-on dire qu'il n'existe pas d'article vraiment court réussissant à doubler sa fréquentation naturelle. En revanche un article long peut parfaitement obtenir une faible fréquentation par rapport à son potentiel. Une fois encore, cette règle ne s'applique pas aux articles ayant moins de 1000 lecteurs mensuels.
  • 4) La pertinence de l'article modifie d'un rapport 4 la fréquentation. Pour être plus précis, une mauvaise prestation divise par un rapport allant jusqu'à 2 la fréquentation qui aurait été obtenue si l'article avait été moyen. Une bonne contribution permet de multiplier par un rapport allant jusqu'à 2 la fréquentation vis à vis d'un article moyen. Cette règle semble souffrir d'un faible taux d'exception, inférieur à 4%. Elle ne s'applique à priori pas de la même manière pour les articles ayant moins de 1000 lecteurs mensuels.

Le tableau du paragraphe un panel significatif de résultats indique la fréquentation qui aurait été obtenue si l'article avait été moyen dans la colonne potentiel, la colonne France indique quel fréquentation a effectivement eu lieu. La colonne Benchmark indique le pourcentage de fréquentation réellement obtenue par rapport à ce qu'aurait donné un article normal.

Une analyse au cas par cas

modifier

Une analyse au cas par cas est toujours un peu dangereuse. Si statistiquement les résultats globaux peuvent être déduits de l'analyse, une application de la méthode sur un unique article peut être interprétée de manière abusive. Ainsi, l'article Espace euclidien atteint à peine la moyenne, mais cet article est en France en concurrence avec géométrie euclidienne, situation différente des autres pays. En revanche, ce phénomène est pris en compte et s'annule en moyenne sur la totalité des articles. Certaines règles qualitatives semblent émerger. L'article analyse (mathématiques) est en concurrence avec Calculus en anglais, qui couvre une partie substantielle du programme des lycées et correspond à un nom très médiatisé, le résultat n'est probablement pas directement significatif.

Les potentiels les plus bas semblent s'expliquer par l'attitude des collégiens et lycéens. Une très vaste part du public d'article comme Application (mathématiques) ou Droite (mathématiques) semble être de cette nature. Les articles associés ne répondent pas à cette demande d'où un score très médiocre.

Un traitement technique n'est pas un handicap, au contraire. Les articles Division euclidienne, Identité de Bézout ne contiennent que cela. Les exemples comme dans coordonnées polaires ou racine carrée sont les bienvenus, un cas beaucoup plus technique frappant est celui du Critère d'irréductibilité de Mackey qui ne réalise qu'un petit 70 par mois alors que l'exemple d'application Représentations du groupe symétrique d'indice quatre fait presque trois fois mieux. L'essentiel est d'être en ligne avec le niveau du lecteur (à priori inférieur à celui du titre de l'article, sinon il n'irait pas le lire). Un article comme entier naturel semble l'oublier en parlant de Peano, Fredge etc... La sanction en terme de nombre de lecteurs est violente.

Le style littéraire peut faire fureur. Il tire très honorablement son épingle du jeu avec une riche histoire des mathématiques, il s'en sort très bien avec un article un peu hybride comme théorie de Galois. On peut se demander si un biais culturel n'est pas ici responsable du score (pas loin du double de son potentiel). Il est imaginable que cette gloire nationale tolère un traitement plus littéraire qui ne pardonne pas pour nombre réel. Un public un peu spécial existerait pour un tel article? Sans user d'un tel artifice courbe elliptique, pour le moins international et peu scolaire, touche probablement plus de passionnés que d'étudiants. Il évite avec bonheur la technicité avec un exceptionnel 71% au dessus de la moyenne. Un score encore meilleur est obtenu avec Théorème des deux carrés de Fermat. Cette approche mi didactique mi technique fait des merveilles. La contributrice aurait-elle la main en or ? En revanche sur addition, sans image et sans fioriture les allemands et les polonais imposent un score sévère à la vision française avec une perte d'un quart du potentiel.

Méthode utilisée

modifier

L'hypothèse sous-jacente est que le premier facteur explicatif de la fréquentation est l'intérêt intrinsèque du sujet. Le deuxième critère serait l'adéquation de l'article avec la demande. Les mathématiques offrant un cadre d'étude où les enjeux culturels sont suffisamment faibles pour une analyse inter-langue aisée.

Ma première étude statistique montre que cette hypothèse se révèle fausse sur les articles à petite fréquentation. Les écarts entre deux même sujets ne peuvent plus s'expliquer uniquement par les deux facteurs décrits plus haut. Il semble que le facteur de fréquentation minimum et incompressible ainsi que les référencements introduisent des biais trop forts pour une analyse convaincante.

J'ai alors restreint le champ d'analyse aux articles mathématiques qui, en France ont plus de 1000 lecteurs en février 2008. Une statistique aléatoire sur 150 articles choisis au hasard dans les listes disponibles (avec vérification du fait que le lien n'est pas une redirection) montre qu'ils représente 10% à 15% des articles avec une fréquentation correspondant approximativement au deux tiers du trafic.

Une fois ce rapport fait, le potentiel est calculé sur chaque pays en divisant le nombre de visites par le rapport de fréquentation en mathématiques moyen pour chaque pays. Ainsi les visiteurs anglophones sont divisés par un rapport 7 etc... Une fois ces quatre valeurs calculées, le potentiel est donné par la moyenne entre les quatre valeurs comparables, une par pays. Si un article est meilleur sur un pays, l'effet du gain est divisé par 4 par la moyenne, on obtient ainsi une idée de la norme de fréquentation inter-pays relativement indépendante de la qualité des contributeurs français.

Des biais apparaissent, ils touchent corps fini et coordonnées polaires qui se trouvent à des potentiels hors de l'épure, ils ont bénéficié d'un lumières sur en page d'accueil sur WP. Un biais culturel semble apparaître pour théorie de Galois. Pour le reste, il n'existe que quelques exceptions probabilité ou Intégrale (mathématiques) vraiment à coté des besoins en France et Division euclidienne ou Identité de Bézout incroyablement au dessus de son potentiel. Il reste alors 145 articles représentatifs. Ils se situent entre 50% et 200% de leur potentiel.

Une analyse rapide sur la taille ainsi que sur le nombre de liens et google (ils apparaissent tous en N°1) montre qu'il n'existe aucune corrélation. L'analyse des contenus devient significatif.

Si les liens et google ne sont plus explicatifs de leur position vis à vis de leur potentiel, cet écart s'explique par le fait que les lecteurs reviennent. Ainsi, un article qui correspond à la demande voit les trois quarts de ses visites faites par des personnes ayant déjà pris connaissance de la page. Il est rassurant de penser que 75% des clics sont le résultat d'une action pensée et non le fruit du hasard.

Un panel significatif de Résultats

modifier