Wikipédia:AutoWikiBrowser/Typos/Aide

Bienvenue sur la page d'aide de Wikipédia:AutoWikiBrowser/Typos

Comment ajouter une nouvelle entrée

modifier
  1. Les entrées sont classées par ordre alphabétique, il vous suffit donc de cliquer sur la lettre appropriée pour vous rendre directement à la section concernée.
  2. Rajoutez maintenant dans l'ordre alphabétique :
    <Typo word="mot" find="\bmot à corriger\b" replace="mot corrigé" />
    
  3. Et remplacez chacun des champs par le contenu approprié :
    • mot : le mot corrigé tout simplement. Cet attribut n'a en réalité pas d'incidence sur le fonctionnement de la règle concernée.
    • mot à corriger : ici on se sert des expressions régulières pour trouver le mot et exactement le mot. Le « \b » marque le début ou la fin d'un mot, qui sera détecté indépendamment de ce qu'il y a autour (crochets, ponctuation, etc.). Même si l'utilisation de cette liste est faite de façon semi-automatique, il faut éviter au mieux les faux-positifs qui ralentissent la vitesse de traitement.
    • mot corrigé : ici aussi on se sert des expressions régulières pour remplacer le mot par sa correction, en prenant compte les divers éléments testés, comme le pluriel ou les diverses formes du mots grâce aux balises $1, $2, etc.

Exemples

modifier

Prenons pour exemple la typo suivante :

<Typo word="huit" find="\b([hH])uits\b" replace="$1uit" />

([hH]) permet de trouver aussi bien « Huits » que « huits », ce qui évite d'avoir à utiliser plusieurs lignes pour une même correction.

De même pour ne pas avoir à doubler la correction, on utilise $1, qui représente ([hH]), c'est-à-dire un h minuscule ou un H majuscule, de façon à ce que la correction s'accorde avec le texte autour, que le mot soit au début, au milieu ou à la fin d'une phrase.

Plus compliqué

modifier

Maintenant avec un exemple plus compliqué :

<Typo word="connaissance" find="\b(c|C|méc|Méc|rec|Rec)onn?aiss?a(nce|nces|nt|nts|nte|ntes|ble)\b" replace="$1onnaissa$2" />

La racine du mot est « connaissance », mais on cherche à corriger tout aussi bien « méconnaissance » et « reconnaissable » que « connaissance ». Grâce à la liste de choix entre parenthèses ou chaque élément est séparé par un |, on peut atteindre chacun de ces préfixes. De même pour les suffixes, on cherche à corriger tous les dérivés de ce mots qui sont mal orthographiés.

Une autre façon de prendre en compte les suffixes consiste à rechercher uniquement les débuts de mot :

<Typo word="connaissance" find="\b(c|C|méc|Méc|rec|Rec)onn?aiss?" replace="$1onnaiss" />

Dans ce cas, on omet le « \b » final, car la fin de l'expression à rechercher ne coïncide pas avec la fin d'un mot. Cette méthode est particulièrement utile dans le cas des verbes. Ainsi par exemple,

<Typo word="abandonner" find="\b(a|A)bandon([aâeéèio])" replace="$1bandonn$2" />

permet de corriger n'importe quelle forme du verbe « abandonner » écrite fautivement avec un seul n, comme « abandona », « abandonées, « abandonèrent », « abandonions », etc. Les crochets [ ] constituent une façon pratique d'indiquer une liste de choix de caractères. Dans le cas ci-dessus, un seul caractère sera matché par la liste. Pour en matcher plusieurs, il faudrait ajouter un quantificateur (comme ? + *) à la fin de la liste.

Intéressons-nous plus particulièrement à « onn?aiss?a ». Ici le ? représente la présence ou l'absence du caractère précédent. Ainsi on arrive à matcher les dérivés de « connaissance » qui n'ont été écrits qu'avec un s ou qu'un seul n comme « conaissance » , « connaisance » ou pire encore « conaisance » !

On peut également ainsi gérer les mots au pluriel :

<Typo word="œufs" find="\boeuf(s?)\b" replace="$œuf$1" />

Ici, on place un s uniquement s'il y en avait un sur le mot d'origine, ce qui permet de manger des « œufs » aussi bien qu'un « œuf ».

Concernant le mot remplacé, l'utilisation des balises $1 et $2 permet une fois de plus de corriger tout aussi bien « méconnaissance » que « reconnaissable », en rajoutant les bons préfixes et suffixes à la base corrigée du mot, en tenant compte des majuscules éventuelles si le mot est en début de phrase.

Il est possible d'utiliser autant de balises que nécessaire : $1, $2, $3... D'ailleurs, on n'est pas obligé de toutes les prendre en compte, on peut se contenter de replacer ceux qui sont utiles :

<Typo word="désœuvrement" find="\b(D|d)(é|e|è)s(oeu|eu|œu)vr(é|ée|ement|és|ées)\b" replace="$1ésœuvr$4" />

On peut même épargner au logiciel la tâche de capturer inutilement certains groupes, en ajoutant ?: au début de ces groupes :

<Typo word="désœuvrement" find="\b(D|d)(?:é|e|è)s(?:oeu|eu|œu)vr(é|ée|ement|és|ées)\b" replace="$1ésœuvr$2" />

On notera que les groupes sans capture ne sont pas numérotés.

Cas des ligatures

modifier

Concernant les ligatures (œ, æ, ...), il n'est pas possible de gérer les majuscules et les minuscules dans une même entrée. Par exemple, une première devra gérer (OE|Oe) et remplacer par Œ, et une seconde repérer (oe) et remplacer par œ :

<Typo word="œuvre" find="\boeuvre(s?|r?)\b" replace="œuvre$1" />
<Typo word="œuvre" find="\b(OE|Oe)uvre(s?|r?)\b" replace="Œuvre$2" />

Liens externes

modifier

Pour une bonne introduction aux expressions régulières, voyez par exemple (en) Regular-Expressions.info