Discussion Wikipédia:AutoWikiBrowser/Typos

Dernier commentaire : il y a 11 mois par SyntaxTerror dans le sujet Faux positifs

2007200820092010
2011201220132014
20152016

Vous ne savez pas comment insérer une nouvelle correction ? Pensez à consulter l'aide !

Modèles ordinaux

modifier

Bonjour.
À la suite de cette discussion sur la pdd des conventions typo, une exception a été introduite à la recommandation de l'utilisation des modèles ordinaux. Cette exception figure dans ce paragraphe :
« Exception : lorsque le nombre ordinal est utilisé seul comme texte d’un lien interne, les formes 1{{er}}, 2{{e}}etc. sont à préférer car, dans ce cas, l’utilisation de modèles ordinaux comme {{1er}}, {{2e}}etc. ne donne pas le résultat escompté au passage de la souris sur le lien[(1)]. Exemple : [[2e régiment d'infanterie|2{{e}}]] donne 2e. »

  • (1).  Avec navigation sans gadget Popups.

J'ai corrigé « à la main » cette palette [1]. Un autre exemple → [2]. Serait-il possible de tenir compte de cette exception dans les corrections effectuées avec AWB ? Cordialement, Daniel*D, 20 janvier 2015 à 03:47 (CET) màj Daniel*D, 20 janvier 2015 à 10:58 (CET)Répondre

  Pour Effectivement 2e affiche l'infobulle définie dans {{2e}} et qu'il n'est pas envisageable de retirer. JackPotte ($) 20 janvier 2015 à 20:26 (CET)Répondre

Latin italique

modifier

Bonjour,

Le lexique des règles typographique suggère l'utilisation de l'italique pour certaine expression latine (non usuel). J'ai pris ici l’exemple de ad hoc afin de créer cette expression régulière qui permet de les passer toutes en latin -si besoin est:

<Typo word="latin ad hoc" find="(ad hoc)(?:\'{3})?(?:\s|$)" replace="''$1''" />

Pour des exemple d'utilisation voir ici

Pensez vous que je puisse la rajouter (ainsi que ces petites sœurs ?) à AutoWikiBrowser/Typos ? J’espère écrire tout ça au bonne endroit et avec le bon jargon : )

Toute remarque est la bien venu

Cdlt,

--Razoa (discuter) 15 février 2015 à 17:55 (CET)Répondre

Bonjour Razoa
Il me semble que cette expression régulière pose plusieurs problèmes : elle supprime l'espace suivant l'expression, supprime la fin de mise en gras, ne marche pas si elle est suivit d'un point ou d'une virgule...
Je propose en remplacement :
<Typo word="latin ad hoc" find="\b(ad hoc(''')?)(?=[\s,.)]|$)" replace="''$1''" />
Q'en pensez-vous ? — Zebulon84 (discuter) 15 mars 2015 à 13:09 (CET)Répondre
Bonjour Zebulon84,
Vous avez entièrement raison ! Je n'avais pas pensée a tester ces cas de figure. Merci beaucoup.
Une question, un poil technique. Pourquoi préféré le $ dans
\b(ad hoc(''')?)(?=[\s,.)]|$)
au \b
\b(ad hoc(''')?)(?=[\s,.)])\b
 ?
Personnellement, je ne sais laquelle des deux pratiques est la plus rapide.
Le \b indique un limite de mot. On ne désire pas une limite de mot juste après un point ou une virgule (blabla ad hoc. Blabla). Mettre cette limite avant n'est pas non plus valable si on est au niveau d'une fin de gras ('''blabla ad hoc''' blabla).
Zebulon84 (discuter) 15 mars 2015 à 13:45 (CET)Répondre
Merci pour l'explication.
Je vous est compris pour le point ou la virgule mais ma regex ne semble pas posé de problème. En effet aprés ah hoc il doit soit y avoir .,!? (un signe de ponctuation) où une limite de mots.
Concernant le cas de figure du fin de gras ('''blabla ad hoc''' blabla).
Somme nous d'accord pour postuler que la regex ne dois pas matcher ? En effet, ad hoc étant déjà en italique il n'y à rien à faire.
J'ai tester votre implémentation (https://www.regex101.com/r/dZ6oG8/8) et la mienne (https://www.regex101.com/r/dZ6oG8/7) et votre regex match deux fois dans ce cas là. La deuxième correspondant à ``` 0 foi puis $.
Cdlt,TApplencourt (discuter) 16 mars 2015 à 13:32 (CET)Répondre
J'avais loupé ce message.  
Effectivement la ponctuation ne gène pas puisqu'il s'agit d'un lookahead qui ne modifie pas la position, je me suis trompé sur ce point.
Mais si une expression est en gras elle n'est pas forcément en italique. Donc il faut transformer '''blabla ad hoc''' blabla en '''blabla ''ad hoc''''' blabla. Et pour ça le \b ne marche pas.
Cordialement, Zebulon84 (discuter)
Meaculpa (en italique ou pas ? :p), j'avais confondu italique et gras. Vous avez entièrement raison !
Merci de la patience et pour la pédagogie.
TApplencourt (discuter) 16 mars 2015 à 18:00 (CET)Répondre

16 mars 2015 à 13:46 (CET) Bonjour Razoa, est-ce que l'italique est réellement justifié dans toutes les règles qui ont été ajoutées ? En particulier, des mots comme "via" ne sont-il pas naturalisés (WP:TYPO#MOTS-ÉTRANGERS) et donc à écrire sans italique ? --NicoV (discuter) 16 mars 2015 à 08:28 (CET)Répondre

Bonjour NicoV,
Personnellement je suis de votre avis. Néanmoins, j'ai préféré me référer au fameux << Lexique des règles typographiques en usage à l'Imprimerie Nationale >>. Je suppose que leurs choix est aussi arbitraire que le notre (par exemple, il considère a priori comme étant francisé maintenant) et peut étre en retard de quelques années, mais ils on le mérite de l'autorité (je vous accorde le coté fallacieux de cette argument) et de la référence.
En conclusion : je suis partagé.
Razoa Si le choix est plus ou moins arbitraire, je pense qu'il faut éviter de mettre les règles ici car les contributeurs qui utilisent AWB ou WPCleaner ne sauront pas forcément quoi faire quand "via" sera détecté comme à mettre en italique (ce qui était mon cas ce matin quand WPCleaner détectait souvent des "via" à corriger). Dans les règles de typos pour AWB, il ne faudrait mettre que ce qui est sans équivoque. --NicoV (discuter) 16 mars 2015 à 10:04 (CET)Répondre
J'ai supprimé la règle concernant "via" car ce n'est en général pas une expression latine mais bien une expression française, cf. VIA. --NicoV (discuter) 16 mars 2015 à 11:02 (CET)Répondre
Parfait, merci TApplencourt (discuter) 16 mars 2015 à 13:32 (CET)Répondre

J'ai aussi une question concernant l'optimisation de ces règles (ainsi que le fonctionnement): ne faudrait-il pas ajouter un "\b" au début de chacune des règles pour qu'elle ne soit testée que sur les débuts de mots et pas en plein milieu ? --NicoV (discuter) 16 mars 2015 à 11:06 (CET)Répondre

J'ai appliqué la modification que j'ai proposé ci-dessus qui inclue un \b initial. — Zebulon84 (discuter) 16 mars 2015 à 12:56 (CET)Répondre

Optimisation des règles "Unité monnaie après"

modifier

Bonjour,

Les 2 règles "Unité monnaie après" sont très longues à exécuter avec WPCleaner sur certaines pages (par exemple, environ 40s pour la première sur mon PC pour Liste des îles d'Indonésie). Est-ce que l'on pourrait les optimiser ? Mes idées d'optimisation pour l'instant :

  • Commencer la règle par un \b pour éviter qu'elle ne se déclenche à chaque chiffre ?
  • Séparer la première règle en plusieurs, en fonction du nombre de groupes de chiffres ?
    • 1 règle pour un seul groupe de chiffres
    • 1 règle pour exactement 2 groupe de chiffres
  • Rendre non capturant les groupes qui n'ont pas besoin de l’être ?

--NicoV (discuter) 4 mars 2015 à 19:01 (CET)Répondre

(Bonjour,

Voici ma petite contribution.

Avant : <Typo word="Unité monnaie après" find="([0-9]+)( | +)*([0-9]+)?[.,]([0-9]+)( | +)?(€|\$|euros?|dollars?|USD|£|₤)" replace="$1$3.$4 $6" />

Changement :

- Doit commencer par un début de mot histoire d'optimiser
- Une regex par groupes de chiffre (A faire dans l'ordre N , N-1, etc. sinon la regex pour N-1 va matcher aussi pour N) 
- Support des \d.\d \d (comme décrit ici noter encore « 1 234 567 890,123 456 78 ¤ » qui affiche « 1 234 567 890,123 456 78 ¤ »)

Limitation :

- Ne gère pas le nombre sans virgule(comme avant remarquez)

Maintenant :

- Typo word="N groupes" ...
- Typo word="2 groupes" find="\b(\d+)\s+(\d+)[.,]([\s\d]*)(?:\s*)(€|\$|euros|dollars|USD|£|₤)\b" replace="$1$2.$3 $4"
- Typo word="1 groupe" find="\b(\d+)[.,]([\s\d]*)(?:\s*)(€|\$|euros|dollars|USD|£|₤)\b" replace="$1.$2 $3"

Une autre astuce plus, hum, violente est la suivante:

1- Supprimer tout les espace pour les mots qui match "\b([\d\s]+[.,]*+[\d\s]*)(€|\$|euros|dollars|USD|£|₤)\b"
2- Crée facilement la regex.

Mais je ne sais pas supprimer tout les espaces conditionnellement avec AWB.

En espérant avoir été un peu utile,

PS : Je n'arrive pas a tout indenter. Désolé... TApplencourt (discuter) 15 mars 2015 à 12:29 (CET))Répondre

Logorrhée

modifier

Bonjour,

un problème avec ce mot. Nom seulement l'orthographe correcte « logorrhée » est détectée mais il y a aussi suggestion d'une orthographe incorrecte en remplacement (« logohrée »).

J'ai essayé de comprendre comment fonctionne les regex mais en l'occurrence celle-ci paraît trop compliquée pour moi :)

Merci à celui qui corrigera cette erreur.

Kropotkine 113 (discuter) 23 avril 2015 à 09:12 (CEST)Répondre

J'ai simplifié cette regex, et corrigé la proposition. – Zebulon84 (discuter) 23 avril 2015 à 10:03 (CEST)Répondre

De la cupidité

modifier

Bonjour
Quelqu'un pourrait me dire comment rendre cupide la regex suivante et faire en sorte qu'elle ne prenne que

[[Nabal]] ([[:en:Nabal|en]])

plutôt que

[[Bible]], '''Abigaïl''' ('''אֲבִיגָיִל''' - ''la joie de son père'') était la femme de [[Nabal]] ([[:en:Nabal|en]])

Ça serait vraiment apprécié.
Merci ! - Simon Villeneuve 10 septembre 2015 à 04:21 (CEST)Répondre

En remplaçant . par quelque chose comme [^\]], ça fonctionne. Elle ne détectera pas un lien du type [] ([[Crochet (typographie)|[]]]), mais ça devrait suffire dans le cas général. Bonnes contributions — Ltrlg (discuter), le 10 septembre 2015 à 07:18 (CEST)Répondre
Merci ! Malheureusement, malgré mes lectures sur le sujet, je n'arrive toujours pas à comprendre comment maîtriser les expressions « ^ » et « $ ». - Simon Villeneuve 10 septembre 2015 à 11:21 (CEST)Répondre
^ a deux sens différents suivant le contexte : le premier est le dual de $ (début/fin d’unité de traitement), lorsqu’il se trouve en début d’expression (ou pas loin). Ici, il s’agit du second : au début d’un ensemble de caractères entre crochets, il permet de produire la négation de cet ensemble. Ainsi, [^\]] signifie n’importe quel caractère, sauf ], d’où les cas particuliers pour lesquels la solution proposée ne fonctionne pas. Bonnes contributions — Ltrlg (discuter), le 11 septembre 2015 à 00:32 (CEST)Répondre
C'est ce que j'ai fini par comprendre.
Lorsque tu dis « au début d'un ensemble de caractères entre crochets », cela signifie que [^\]\}] détectera n'importe quel caractère sauf ] et } ? J'avais tendance à écrire [^\]^\}]. - Simon Villeneuve 11 septembre 2015 à 00:38 (CEST)Répondre
Oui. L’autre forme serait inutilement longue : combiner tous les caractères sauf et ces quelques caractères serait soit un NOP (tout sauf a, plus b), soit contradictoire (tout sauf a, plus a). Une seule indication suffit donc. Dans cette deuxième forme, le second ^ est donc considéré comme un caractère normal et [^\]^\}] signifie tout sauf ], ^ et }. Bonnes contributions — Ltrlg (discuter), le 11 septembre 2015 à 00:50 (CEST)Répondre
Ok. Merci encore !
As-tu un texte à me conseiller sur les regex ? J'ai cherché avec Google en français et en anglais, mais sans grand succès. - Simon Villeneuve 11 septembre 2015 à 12:16 (CEST)Répondre
Pas vraiment : j’ai appris au fur et à mesure de mes besoins avec diverses sources, que j’ai oubliées depuis. Bonnes contributions — Ltrlg (discuter), le 11 septembre 2015 à 17:11 (CEST)Répondre

Simplification formatnum

modifier

Bonjour à tous,

à cause de mauvais remplacement occasionés par les anciennes regex relatives à formatnum qui faisaient ce genre de truc: 1 437 034 -> 1 437 034

J'ai essayé de simplifier et généraliser le code avec ce diff: https://fr.wiki.x.io/w/index.php?title=Wikip%C3%A9dia%3AAutoWikiBrowser%2FTypos&type=revision&diff=120229377&oldid=120225947

Le invoke String replace va remplacer les chiffres avec espace par l'équivalent sans espace.

Faites moi signe si vous avez des soucis avec cette nouvelle regex malgré mes tests.

-- Chico75 (blabla) 6 novembre 2015 à 16:30 (CET)Répondre

  Chico75 : ça n'a pas l'air de mieux marcher, et ça ne marche pas partout : [3]
Pour les nombres supérieurs à 999999, je me demande s'il ne serait pas possible de faire deux passages (voire plus pour les nombres plus grands, le second passage repérant {{formatnum:9999}} 999 et le modifiant en {{formatnum:9999999}}. Cordialement, Şÿℵדαχ₮ɘɼɾ๏ʁ 2 février 2016 à 08:39 (CET)Répondre
Je suis revenu à l'ancienne version qui marche aussi bien sinon mieux je pense. Cordialement, Şÿℵדαχ₮ɘɼɾ๏ʁ 21 février 2016 à 00:41 (CET)Répondre
  SyntaxTerror :: ça marche mal ces notifications, je n'ai rien dans ma liste concernant celle-ci, peut-être à cause des autres notifications sur la même page?
Sinon j'ai re-regardé le code et je pense voir ce qui causait le problème que tu as trouvé. Je referais des tests ces jours-ci pour voir si je peux améliorer. -- Chico75 (blabla) 24 mars 2016 à 04:52 (CET)Répondre
  Chico75 et SyntaxTerror : Pour info, j'ai créé une tâche phabricator liée à ce type d'utilisation, T130815, pour qu'il y ait une évolution côté AWB. --NicoV (discuter) 24 mars 2016 à 10:21 (CET)Répondre
Je ne suis pas spécialement expert AWB mais cette demande ne me semble pas possible avec les possibilités de l'API car elle ne traite pas les subts:
Et il n'y a rien dans AWB qui pourrait remplacer cette fonctionnalité de ce que j'en ai vu.
Je ne pense pas qu'on puisse s'amuser à traiter que la partie après subst, il y aurait sûrement trop de cas où ça ferait des trucs bizarres, surtout si le remplacement ne se fait que sur un bout de phrase/modèle, ce qui empêchera tout extension des modèles.
De plus cela pourrait avoir un impact sur les performances d'AWB qui devra faire un appel API en plus pour chaque 1er remplacement de typo, ce que les développeurs principaux peuvent juger bloquant pour la fonctionnalité.
J'ai aussi essayé de jeter un coup d'oeil à l'implémentation de l'API mais le code est vraiment obscur.
Enfin tout ça pour dire que je pense qu'il y a vraiment très peu de chances que ce demande aboutisse hélas :(
  SyntaxTerror : C'est vraiment bloquant si ça affiche {{subst:#invoke:String|replace|99999|%s|||false}}}} dans le commentaire de diff? Je comprend que ça puisse rebuter/faire peur à ceux qui ne connaissent pas les "parsers functions" (99% des wikipédiens probablement), mais ce qui compte c'est la modification et le rendu final je dirais non? -- Chico75 (blabla) 31 mars 2016 à 05:19 (CEST)Répondre
  Chico75 : Je n’ai jamais parlé de action=expandtemplates, mais de action=parse&onlypst. Expandtemplates ne traite pas les substs, Parse oui si on lui demande (onlypst) : je l’utilise dans le code de WPCleaner justement pour ces cas là. Exemple avec subst --NicoV (discuter) 31 mars 2016 à 06:49 (CEST)Répondre
  Chico75 : je sais pas trop, mais le but d'un diff c'est d'expliquer la modification, et là si 1% des gens comprennent il y a un problème. Le plus simple serait sans doute de supprimer le diff automatique avec la regex typo fixing, d'autres remplacement posent aussi des problème de compréhension, genre , → , ou les remplacement de <sup> qui n'indiquent que le 1er remplacement du genre (si je me souviens bien). En tous cas, le remplacement de la règle ne se justifie que si elle apporte un plus vraiment notable au vu du problème avec le diff, ce qui n'était pas le cas. Cordialement, Şÿℵדαχ₮ɘɼɾ๏ʁ 31 mars 2016 à 15:25 (CEST)Répondre

Apostrophe en tant que séparateur de milliers

modifier

Il a été fait mention par Nouill (d · c · b) dans une requête de bot de l'existence d'une notation suisse utilisant une apostrophe comme séparateur de milliers (par ex. 22'000 : [4]). Je ne sais pas s'il est possible de repérer les occurrences de ceci, mais je pense qu'il serait bien d'ajouter cette correction à la liste des typos. Je crains de faire des fautes ou des oublis, ma connaissance des regex n'étant pas encore très bonne, je laisse donc cela à d'autres plus compétents. Cordialement, Şÿℵדαχ₮ɘɼɾ๏ʁ 2 février 2016 à 08:39 (CET)Répondre

  SyntaxTerror : c'est possible de repérer les occurences avec une recherche sur un dump. Je ne peux pas le faire tout de suite mais j'essaye de regarder ça les prochains jours. L'ajout des les regex actuelles semble facile, dans les regex formatnum, il suffit de l'ajouter à la liste des séparateurs de groupes de chiffre qui est actuellement:
( |&nbsp;)
à
( |&nbsp;|')
Je testerai en même temps que le changement du message précédent. -- Chico75 (blabla) 24 mars 2016 à 05:02 (CET)Répondre
  Chico75 : j'ai depuis découvert comment utiliser les regexes et la recherche sur un dump avec AWB et j'ai déjà fait les changements dans les 129 articles concernés.
La regex que tu proposes semble convenir. Malgré tout, j'avais utilisé un modèle {{unité}} dans la plupart des corrections que j'ai faites, mais ça m'a demandé un sacré nombre de regexes pour arriver à un résultat satisfaisant (j'ai conservé ces regexes dans un fichier de préférences au cas où, mais il reste des améliorations à apporter). Si on se contente de mettre les nombres uniquement dans des mots magiques formatnum, c'est bien sûr beaucoup plus simple. Cordialement, Şÿℵדαχ₮ɘɼɾ๏ʁ 24 mars 2016 à 09:50 (CET)Répondre

Évidement

modifier

Bonjour, Je souhaitais signaler un faux positif : AWB corrige évidement en évidemment, ce qui est une erreur puisque le terme évidement existe aussi en langue française. Cordialement, --[[Utilisateur:|Lebronj23]] (discuter) 26 mars 2016 à 03:37 (CET)Répondre

  Lebronj23 : merci pour la remarque, c'est corrigé. Cordialement, Şÿℵדαχ₮ɘɼɾ๏ʁ 26 mars 2016 à 10:12 (CET)Répondre
Merci pour la correction :). --Lebronj23 (discuter) 26 mars 2016 à 13:08 (CET)Répondre

Simplification de la liste

modifier

Bonjour

Je ne modifiais pas cette page avant d'apprendre à utiliser les regexes il y a peu de temps, et la correction de la règle pour « évidemment » qui corrigeait aussi improprement « évidement » (voir message ci-dessus) m'a fait me rendre compte qu'on pourrait simplifier grandement la page : il y a beaucoup de règles en double pour le mot avec une majuscule ou sans. Ne pourrait on pas à la place utiliser une backreference pour cela ?

Par exemple, remplacer

<Typo word="évidemment" find="\b[eé]vid[aeé]mm[ae]n[ts]?\b" replace="évidemment" />
<Typo word="Évidemment" find="\b[EÉ]vid[ae]mm[aeé]n[ts]?\b" replace="Évidemment" />

par

<Typo word="évidemment" find="\b([eéEÉ])vid[aeé]mm[ae]n[ts]?\b" replace="$1videmment" /> ?

Vu le nombre de lignes que cela supprimerait, ça devrait accélérer un peu le traitement des pages. Cordialement, Şÿℵדαχ₮ɘɼɾ๏ʁ 26 mars 2016 à 10:22 (CET)Répondre

  SyntaxTerror : Le problème, c'est que la regex en une seule ligne ne marche pas... Elle ne remplacera par un "e" initial par "é" ou un "E" initial par "É"... --NicoV (discuter) 26 mars 2016 à 10:26 (CET)Répondre
En tout cas pour WPCleaner, ce qui accélèrerait le traitement des pages c'est de revoir les regex sur le unités en utilisant les subst et #invoke. --NicoV (discuter) 26 mars 2016 à 10:33 (CET)Répondre
En trafiquant un peu, on doit pouvoir faire une seule regex en conservant la capitalisation de la première lettre du mot. non ? -- Archimëa [Toc 2 Mi] 26 mars 2016 à 10:42 (CET)Répondre
Je ne vois pas comment on peut gérer dans une expression régulière des cas aussi complexes de remplacement d'un caractère ("e" devient "é", "E" devient "É", "é" ou "É" ne sont pas modifiés). Mais si il existe une solution, cool ! --NicoV (discuter) 26 mars 2016 à 10:53 (CET)Répondre
En effet, en y regardant, je crois que la détection est facile dans une seule regex, mais c'est le remplacement qui pose problème. -- Archimëa [Toc 2 Mi] 26 mars 2016 à 10:56 (CET)Répondre
Le seul truc que je vois serait bien compliqué : avoir un modèle qui met un accent aigu à une lettre ({{accent aigu}} ?), et subster l'appel à ce modèle dans le remplacement ({{subst:accent aigu|$1}}). --NicoV (discuter) 26 mars 2016 à 10:57 (CET)Répondre
Ah oui, pas bête, mais ca semble un peu compliqué pour pas grand chose, 2 règles changent pas grand chsoe finalement, sinon là il faut l'avis d'un spécialiste -- Archimëa [Toc 2 Mi] 26 mars 2016 à 11:11 (CET)Répondre
  NicoV : je ne comprends pas trop ta phrase « Elle ne remplacera par un "e" initial par "é" ou un "E" initial par "É"... », « evidemment » est fautif, il faut bien remplacer le « e » initial par un « é ». Cordialement, Şÿℵדαχ₮ɘɼɾ๏ʁ 26 mars 2016 à 11:57 (CET)Répondre
  SyntaxTerror : Oui, « evidemment » est fautif, et le problème est que la règle que tu proposes ("elle") ne détectera pas le problème et qu'elle ne proposera pas le bon remplacement : ([eéEÉ]) va matcher sur "e" et la règle proposera de le conserver tel quel ($1). --NicoV (discuter) 26 mars 2016 à 12:23 (CET)Répondre
Conflit d’édition :
Si tu détecte dans la même regex des lettres capitalisées et non-capitalisées comme ([EeéÉ]), tu n'aura qu'une possibilité de remplacement par $1, donc pas de possibilité de proposer une lettre capitalisée, ou pas. -- Archimëa [Toc 2 Mi] 26 mars 2016 à 12:27 (CET)Répondre
  NicoV et Archimëa : ha ouéééééé... okay alors.   Şÿℵדαχ₮ɘɼɾ๏ʁ 26 mars 2016 à 12:33 (CET)Répondre

┌─────────────────────────────────────────────────┘
J'ai trouvé cette règle qui me semble bizarre dans ce cas (elle en me semble servir à rien à priori) :

<Typo word="égout" find="\b(é|É|E)gout(s?)\b" replace="$1gout$2" />

Ça m'amène à proposer une règle pour remplacer les majuscules non accentuées sur tous les mots dont la première lettre est accentuée et en majuscule :

<Typo word="Électrique" find="\bE(chelle|clipse|cole|comusée|glise|lémentaire|paule|querre|quipage|tincelle|toile)(s?)\b" replace="É$1$2" />

La liste n'est pas complète, c'est juste un exemple, mais ça permettrait de fusionner des lignes comme :

<Typo word="Économie" find="\bEconomie(s?)\b" replace="Économie$1" />
<Typo word="Église" find="\bEglise(s?)\b" replace="Église$1" />
etc.

Qu'en pensez vous ?

La ligne pour "égout" semble effectivement inutile, vu que le remplacement correspond à la chaîne trouvée.
Pour le regroupement, je ne sais pas trop :
  • Au niveau performance, la différence doit être faible (on ne fait le \bE qu'une seule fois au lieu de chaque fois, mais c'est une comparaison directe)
  • Au niveau lisibilité, c'est moins bien (que ce soit l’expression elle-même ou le nom que l'on va donner à l'expression)
  • Certains sont déjà traités de manière plus large, comme <Typo word="École" find="\b[EÉ]coll?e(s?)\b" replace="École$1" />
--NicoV (discuter) 26 mars 2016 à 14:04 (CET)Répondre
Égout provient d'une modification très très ancienne. --NicoV (discuter) 26 mars 2016 à 14:10 (CET)Répondre
  NicoV : ça permettrait de corriger quelques trucs de plus, même s'il est plutôt rare de trouver ces mots avec une majuscule (mais ça peut être le cas dans des tableaux par exemple). Niveau lisibilité, une fois que la liste aura été faite, il n'y a pas de raison de la modifier : des mots avec une première lettre accentuée ne sont pas ajoutés tous les jours dans le vocabulaire français. On peut aussi mettre la liste dans le nom de la règle, en note ou dans la documentation, sous forme de liste déroulante par exemple. Le problème est que je n'arrive pas a trouver la liste des mots français commençant par une lettre accentuée. Şÿℵדαχ₮ɘɼɾ๏ʁ 26 mars 2016 à 14:29 (CET)Répondre

Joseph-Arthur

modifier

Les prénoms composés débutant par Joseph était très populaires au siècle dernier. Tellement qu'on identifiait les individus par leurs initiales.

Voilà que dans plusieurs page, lorsqu'on donne les années de naissance et de mort d'un individu on retrouve la forme suivante :

1879-1936 J.-A. Lavoie

Le problème se situe dans la lignes suivantes :

<Typo word="Unité énergie" find="([0-9]+)( | +)?([0-9]+)?( | +)?([0-9]+)?( | +)?([Jj]oules?|J|kJ|MJ|GJ|TJ|PJ|EJ|[Kk]ilowatt-heure|kWh|kW⋅h|Wh|MWh|GWh|TWh|[Tt]onnes? d'équivalent pétrole|tep|ktep|Mtep|calories?|cal)\b(?!\|)" replace="{{unité|$1$3$5|$7}}" />

Celle-ci interprète 1936 J comme étant 1936 joules et propose le modèle unité.

J'aurais aimé proposer une solution, mais j'avoue ne pas comprendre le (?!\|) à la fin. Quelqu'un pour me renseigner ? ---- VänBrøøken   (diskusjon) 6 juillet 2016 à 18:30 (CEST)Répondre

Que pensez-vous de remplacer (?!\|) par (?!\||\.-) ---- VänBrøøken   (diskusjon) 7 juillet 2016 à 01:12 (CEST)Répondre

Exposant

modifier

Bonjour,

Fin 2008 cette modification avait introduit le remplacement systématique de la syntaxe <sup></sup> vers {{exp|}}. J'ai retiré cette modif à la suite de cette discussion avec Chico75 : d'un, ce n'est pas une typo que d'utiliser les balises html, de deux, quand bien même ce choix aurait pu se justifier en 2008 (comme Chico75 l'a argumenté, on pouvait éventuellement considérer que le rédacteur habitué à la syntaxe wiki souhaite garder cette même syntaxe en toutes choses), il est largement obsolète avec l'implémentation de l'éditeur visuel et pose des problèmes quand on souhaite utiliser ce dernier, ce qui est devenu le choix majoritaire des nouveaux arrivants.

En parlant de problèmes, je ne sais pas si c'est le lieu, mais à tout hasard : ça fait 3 fois que je vois des utilisations inappropriées du modèle "unité" pour transformer, par exemple, 180m ou 180m2 : hors, dans certains articles (notamment ceux sur les isotopes, mais je suppose que ce n'est pas le seul endroit), ces notations ne veulent pas dire "180 mètres" ni "180 mètres carrés". Je comprends bien que des erreurs occasionnelles sont inévitables quand on traite un grand nombre d'article, c'est juste la répétition de cette erreur particulière qui m'avait quelque peu fait tiquer.

Cordialement, (discuter) 17 août 2016 à 19:34 (CEST)Répondre

Faux positif

modifier

Bonsoir, j'ai plusieurs fois des espaces ajoutés avant des liens internes, comme pour [[Emmanuel Carrère]], ''Werner Herzog'', Paris, Edilig, [[1982]] sur Werner Herzog. Cet règle semble ajouter un nouvel espace à chaque modification, sans s'arrêter. Bonne continuation --Framawiki 20 août 2016 à 20:47 (CEST)Répondre

Modèles Unité et Dunité

modifier

Bonjour, suite à cette discussion: [5], je viens voir avec vous si quelqu'un saurais rajouter le modèle Dunité (et pourquoi pas Tunité aussi pour les modèles en 3D) dans la liste des corrections. Je pense que ça pourrait être utile. Tearow (discuter) 1 septembre 2016 à 14:11 (CEST)Répondre

J'utilise dans AWB les règles suivantes :
  •  (?<= |\n|\()([0-9]*)(?: | +)?([0-9]+[.,]?[0-9]*)(?: | +)?[xX×*](?: | +)?([0-9]*)(?: | +)?([0-9]+[.,]?[0-9]*)(?: | +)?[xX×*](?: | +)?([0-9]*)(?: | +)?([0-9]+[.,]?[0-9]*)(?:(?: | +)?(m|mètres?|km|kilomètres?|mm|milimètres|cm|centimètres?|in|pouces?|pieds?))?\b
    vers {{volume|$1$2|$3$4|$5$6|$7}}
  • (?<= |\n|\()([0-9]*)(?: | +)?([0-9]+[.,]?[0-9]*)(?: | +)?[xX×*](?: | +)?([0-9]*)(?: | +)?([0-9]+[.,]?[0-9]*)(?:(?: | +)?(m|mètres?|km|kilomètres?|mm|milimètres|cm|centimètres?|in|pouces?|pieds?|minutes?))?\b
    vers {{Dunité|$1$2|$3$4|$5}}
mais il faut peut-être des adaptations pour les utiliser dans les typos, notamment pour la compatibilité avec WPCleaner.
Zebulon84 (discuter) 1 septembre 2016 à 18:48 (CEST)Répondre
Merci pour la réponse, malheureusement je ne m'y connais pas pour pouvoir donner d'avis sur les typos mais je vous remercie d'avoir pris le temps de répondre avec votre propre règle AWB, j'espère qu'elle finira par être utilisé. Tearow (discuter) 1 septembre 2016 à 21:35 (CEST)Répondre
Bonsoir, je reviens car j'aimerais savoir s'il serait possible d'utiliser les paramètres Dunité de Rehtse pour enfin clore cette requête, je préfère demander n'étant pas vraiment familier des typos je ne voudrais pas créé de problème.--Tearow (discuter) 13 décembre 2016 à 21:26 (CET)Répondre
Je ne suis pas un spécialiste de programmation, ces formules ne sont qu'un bricolage pas optimisé, c'est la raison pour laquelle je n'ai pas chercher à les placer dans la page des corrections typos, mais que je les ai laissé dans une page perso. Certains cas ne fonctionnent d'ailleurs pas et je n’ai pas compris pourquoi (par exemple le cas de figure 33,5 x {{unité|33.5|cm}}, pour lequel je n’arrive pas à faire proposer {{dunité|33.5|33.5|cm}}). De plus, je me souviens que certains ne souhaitent pas forcément accumuler les propositions de ce type, car tout le monde ne va pas aussi loin dans les modifs avec WPC. Si tu le souhaites, Tearow, tu peux aussi créer une page perso de correction typo pour reprendre des formules, en attendant que quelqu'un de plus pointu les améliore et les intègre dans le fichier commun.--Rehtse (échanger) 13 décembre 2016 à 23:02 (CET)Répondre
D’accord, merci de ta réponse Rehtse je vais essayer de me créé une page de typo, même si je sais pas trop comment ça marche je vais découvrir, en attendant que quelqu'un réussisse (si ça arrive un jour). Je pense que la requête peut être également conclue aussi.--Tearow (discuter) 14 décembre 2016 à 19:52 (CET)Répondre

Mois et patronymes

modifier

Les mois de janvier à juillet sont aussi des patronymes d'un certain nombre de personnes. Cela signifie qu'il y a des faux positifs lorsque ces personnes sont citées. Je propose de n'activer la suppression de la majuscule que si le mois est précédé ou suivi par un chiffre.

Si personne ne s'y oppose, je modifierai ça dans quelques jours.

Zebulon84 (discuter) 10 novembre 2016 à 17:52 (CET)Répondre

On peut peut-être également ajouter avant : si c'est précédé de : "mois de" (pour durant le mois de janvier et au mois de janvier) et "en" (pour en janvier) -- Archimëa [Toc 2 Mi] 10 novembre 2016 à 21:01 (CET)Répondre

Modèle NC remplacé par Image sur Commons

modifier

Bonjour, Une question de Pierre cb liée a l'utilisation d'AWB. Quelqu'un pourrait-il nous éclairer sur ce comportement ? Merci d'avance. Cordialement, Lebronj23 (discuter) 9 octobre 2017 à 21:26 (CEST)Répondre

C'est quand AWB remplace les redirections des modèles par le nom exact du modèle.
Il y a sur la liste Wikipédia:AutoWikiBrowser/Template redirects : NC = Modèle:NowCommons, qui remplace donc NC par le nom du modèle : Modèle:Image sur Commons
Je l'ai retiré de la liste [6], AWB ne remplacera plus ce modèle. -- Archimëa [Toc 2 Mi] 9 octobre 2017 à 21:48 (CEST)Répondre

faux-positifs avec les parkings pour la regex {{p.|X}} (modèle page)

modifier

Bonsoir,

Avec les pages que je modifie actuellement (aéroports), j'ai un certain nombre de faux-positifs avec cette regex concernant les parkings (parking P1 se trouve transformé en parking {{p.|1}}.

Ce serait judicieux de faire une vérification (par exemple avec une assertion arrière négative), comme quoi P1 n'est pas précédé du mot parking.

Je ne fait pas la correction moi, car je me sens pas encore trop de le faire, je préfère que quelqu'un plus expérimenté en regex s'en occupe.

Merci d'avance.

--Tractopelle-jaune (discuter) 1 avril 2018 à 18:00 (CEST)Répondre

J'ai eu aussi pas mal de faux positifs sur les pages d'avions, à cause de différentes références d'avion, de moteur... type P25. Plutôt que de multiplier les assertion négatives, je propose de limité la correction aux p minuscules, et éventuellement aux P suivit d'un point (« P.25 », « p25 », « p.25 », mais pas « P25 »). — Zebulon84 (discuter) 1 avril 2018 à 21:39 (CEST)Répondre
Ça me semble une bonne idée, je n'ai effectivement pas souvenir d'avoir vu, sur les 200-250 corrections que j'ai fait avec AWB pour le moment, le moindre remplacement pertinent (pour une indication de page) d'un P majuscule suivi directement d'un chiffre.
Donc, je pense que c'est une bonne idée, cela virera la plupart des faux-positifs liés à cette typo.
--Tractopelle-jaune (discuter) 1 avril 2018 à 22:05 (CEST)Répondre
  Fait.Zebulon84 (discuter) 2 avril 2018 à 01:39 (CEST)Répondre

Nombreux faux-positifs pour « Traffic » (avec T majuscule)

modifier

Bonsoir aux wikignomes,

J'ai une suggestion concernant la typo « Traffic » → « Trafic » (avec T majuscule).

J'ai pas mal de faux-positifs avec cette typo, cela concerne surtout des ouvrages d'arts et autres noms ou termes nord-américains (qui sont très friands du terme « Traffic » pour tous un tas de choses).

Est-ce que cela vous parait judicieux de ne la réserver qu'aux cas « traffic » (avec minuscule).

Depuis que j'utilise AWB, je dois pas être loin d'une quinzaine de faux-positifs avec cette typo, et je n'ai souvenir d'aucun remplacement pertinent avec T majuscule.

Et de mémoire, tous ces faux-positifs, concernaient la variante avec T majuscule.

D'autre part, il est peu vraisemblable en français d'avoir beaucoup de phrases commençant par ce mot, qui ne s'y prête pas vraiment.

Voilà, j'aurais pu modifier moi-même la typo, mais comme je suis relativement jeune dans l'utilisation d'AWB (quelques mois à peine), je préfère d'abord demander votre avis.

Bonne soirée.

--Tractopelle-jaune (discuter) 25 mai 2018 à 19:55 (CEST)Répondre

  Pour Les mots les plus courant dans une autre langue ne devraient pas figurer dans cette liste, car ça prend un temps fou à vérifier et corrigé, et le risque d'en laisser passer est grand. Dans le même ordre d'idée j'ai l'impression d'un rapport supérieur à 50 % de faux positif sur les corrections suivantes :
  • edition → édition (avec ou sans majuscule, ainsi qu'au pluriel) : mot anglais
  • special → spécial : mot anglais
  • érr → err : nom propre hispanophone
  • les unités avec une seule lettre : erreur fréquentes dans les codes en tout genre. J'ai déjà essayé de réduire les possibilités de faux positif, mais ça n'est pas encore suffisant.
Il y en a deux ou trois autres qui m’embête régulièrement, mais je ne les ai pas en tête à l'instant.
Zebulon84 (discuter) 25 mai 2018 à 21:20 (CEST)Répondre
Fait pour « Traffic », « edition » et « special ». — Zebulon84 (discuter) 30 mai 2018 à 01:40 (CEST)Répondre
Merci Zebulon84  , j'avais complémentent oublié cette discussion (j'ai plein de trucs sur le feu en ce moment, et un temps limité).
J'approuve bien entendu pour « edition » et « special », j'ai aussi pas mal de faux-positifs avec. Pour « érr », je n'ai pas d'avis, n'ayant pas souvenir d'avoir vu passer des corrections (justifiées ou pas). Mais pour moi, dès qu'il y a un peu trop de faux-positifs, la typo devrait être corrigée ou virée sans hésitation. Je préfère laisser 10 erreurs orthographiques ou typo, que de faire une seule fausse correction (qui bien souvent peut être bien plus problématique, en modifiant parfois le sens d'une phrase).
On devrait effectivement vraiment réserver ces corrections typos qu'à des choses utiles, avec un faible risque de faux-positifs. Sinon, ça n'en vaut pas la peine.
Quand on voit tout ce qu'enwiki fait avec les typos (en:WP:AWB/T), et le nombre de personnes qui les maintiennent, je trouve que l'on pourrait quand même mieux utiliser cet outil sur frwiki, quand c'est pertinent.
J'ai d'ailleurs ajouté deux typos l’autre jour (Armée rouge + Union soviétique), car il y pas mal d’occurrences problématiques, et le risque de faux-positifs est très faible.
Bonne journée.
--Tractopelle-jaune (discuter) 30 mai 2018 à 09:52 (CEST)Répondre

Modification infobox

modifier

Bonjour

L'infobox Modèle:Infobox_Organisation comporte une faute de grammaire : un champ est intitulé "succédé par" ce qui n'est pas correct et il conviendrait d'y substituer "remplacé par" (dans le modèle et dans les pages l'utilisant).

Je l'aurai bien fait à la main mais il y a environ 300 pages concernées... Est ce possible avec un bot ?

Merci d'avance

apc005 (discuter) 30 août 2018 à 19:15 (CEST)Répondre

Gestion des liens internes

modifier

Bonjour ; la syntaxe « find="\bmot à corriger\b" » est elle censée détecter les liens internes comme « [[mot à corriger]] », ou bien doit-on explicitement indiquer dans le find l'éventuelle présence des doubles crochets ? --LamBoet (discuter) 11 mars 2019 à 19:18 (CET)Répondre

Bonjour   LamBoet. "\bmot à corriger\b" est une expression régulière où \b indique le début où la fin d'un mot, qu'il soit ou non entre des crochets.
Pour trouver « [[mot à corriger]] » il faut chercher « \[\[mot à corriger\]\] ».
Mais ne fais pas d'ajouts à cette page sans en avoir parlé sur cette PdD avant. Cordialement, Şÿℵדαχ₮ɘɼɾ๏ʁ 11 mars 2019 à 19:46 (CET)Répondre
Merci @SyntaxTerror, mais je me suis peut-être mal exprimé : je ne cherche pas à trouver les crochets, mais juste à ce que leur présence éventuelle n'empêche pas le mot d'être trouvé. Autrement dit, le mot sera-t-il détecté même si les caractères qui l'encadrent sont des crochets (ou des signes de ponctuation) plutôt que des espaces ? Par exemple, dans cet ajout, dois-je prendre la peine d'écrire <Typo word="lépidoptère" find="(\[\[)?(l|L)epidoptère(s?)(\]\])?" replace="$1$2épidoptère$3$4" /> ? --LamBoet (discuter) 11 mars 2019 à 20:59 (CET)Répondre
  LamBoet : comme je l'ai dit, « /b » n'indique que le début ou la fin d'un mot, pas ce qu'il y a autour (crochets, parenthèses, ponctuation, début ou fin de ligne, etc.).
Tu peux tester des RegExes sur ce site : regex101.com (je t'ai d'ailleurs fait un exemple dessus).
Şÿℵדαχ₮ɘɼɾ๏ʁ 11 mars 2019 à 22:22 (CET)Répondre
  SyntaxTerror : Merci encore, mais pas besoin de tourner autour du pot : il suffisait vraiment de dire que oui, il sera détecté  . Je propose de l'indiquer explicitement dans Wikipédia:AutoWikiBrowser/Typos/Aide.
J'avais bien sûr déjà fait mes tests sur ce site, et si j'avais quand même un doute, c'est parce que malgré le test positif, mon ajout n'a pas déclenché de correction des quelques centaines d'occurrences de « [[Lepidoptère]] » (actuellement visibles ici). Est-ce que quelque chose m'échappe ? --LamBoet (discuter) 11 mars 2019 à 22:51 (CET)Répondre
  LamBoet : je ne comprends pas bien ce que tu cherches à faire.
As-tu bien compris que cette liste de corrections de typos sert uniquement lorsque des logiciels comme AutoWikiBrowser sont utilisés ? C'est-à-dire qu'il faut par exemple qu'un contributeur édite un article avec AWB, avec l'option RegEx Typo Fixing activée, pour que les typos contenues dans la liste soient corrigées.
L'ensemble des pages de wp.fr ne va pas être corrigé automatiquement lorsqu'on ajoute quelque chose à cette liste de typos. Cordialement, Şÿℵדαχ₮ɘɼɾ๏ʁ 12 mars 2019 à 00:12 (CET)Répondre
  SyntaxTerror : Ah, alors c'est effectivement ce que je n'avais pas compris. Je n'utilise pas ce logiciel, et à la lecture de cette introduction, je m'imaginais que des contributeurs l'utilisaient régulièrement pour faire une sorte de rechercher-remplacer automatisé sur toute l'encyclopédie.
Du coup, là encore, je me permets de suggérer d'améliorer le texte explicatif, qui parle de « corriger automatiquement » et de modifications prises en compte « en temps réel », ce qui peut prêter à confusion pour les non-initiés. --LamBoet (discuter) 12 mars 2019 à 01:08 (CET)Répondre
Il est déjà écrit que cette liste « est principalement utilisée par le logiciel AutoWikiBrowser. Elle peut aussi être utilisée par d'autres logiciels ». Il n'est écrit nulle part que les typos de cette liste vont être corrigées dans tout wp.fr. Şÿℵדαχ₮ɘɼɾ๏ʁ 12 mars 2019 à 22:09 (CET)Répondre
Je me doute bien que c'était clair pour ceux qui connaissent déjà  . Je viens de retoucher le texte en question, en espérant ne rien avoir écrit d'inexact. --LamBoet (discuter) 13 mars 2019 à 07:39 (CET)Répondre

Ajout d'un mot

modifier

Je n'ai plus de compte pour une raison que j'ignore, ça faisait longtemps que je n'avais pas toucher à mon compte. Mais utilisant la Typos, je peux suggérer d'ajouter ceci car le temps que je l'ajoute cela prendra 4 jours. Franchement, je comprend le délai, et je ne m'en souci pas, mais normalement je partage tout. Je vais recréer un compte aujourd'hui. À placer dans les A

<Typo word="abîmes" find="âb[i|ì|î]me(s?)\b" replace="abîme$1" />

<Typo word="Abîmes" find="Âb[i|ì|î]me(s?)\b" replace="Abîme$1" /> --Matraque2019 (discuter) 19 avril 2019 à 20:37 (CEST)Répondre

  Matraque2019 : testé sur le dump d'avril, 5 occurrences (corrigées).
Par contre, je ne suis pas assez fort en RegExes pour l'ajouter : je préfère l'avis d'autres dresseurs. Cordialement, Şÿℵדαχ₮ɘɼɾ๏ʁ 20 avril 2019 à 05:07 (CEST)Répondre

Demande d'évolution

modifier

Bonjour à tous,

J'utilise AWB et j'apprécie que 1 000 mètres soit remplacé par {{unité|1000|mètres}} (même si {{unité|1000 mètres}} serait mieux car plus simple).

Par contre, je regrette vivement que 1 000 habitants soit remplacé par {{format:1000}} habitants alors qu'il aurait dû être remplacé par {{unité|1000 habitants}}, et c'est vraiment très très très dommage.

Il en est de même pour les dates, j'apprécie que 1er Janvier 2001 soit remplacé par {{1er}} janvier 2001 mais la correction correcte aurait dû être {{date-|1 janvier 2001}}, là aussi c'est vraiment très très très dommage.

En effet, en typographie française, il y a une règle très basique :

Je ne sais pas comment programmer cela. Merci par avance à celui qui pourra faire évoluer AWB et ainsi faire progresser la typographie de notre encyclopédie.

Bien cordialement. AntonyB (discuter) 5 novembre 2019 à 15:23 (CET)Répondre

Exception d’élision pour certains mots

modifier

Comme l'a fait remarquer Patrick.Delbecq, il ne faut pas suggérer d’élision devant le mot onze et ses dérivés. Par exemple est-ce que remplacer

<Typo word="qu+voyelle" find="\b([Qq])ue ([AEIOUYaeéèêiouy])" replace="$1u'$2" />

par

<Typo word="qu+voyelle" find="\b([Qq])ue ([AEIUYaeéèêiuy])" replace="$1u'$2" />
<Typo word="qu+voyelle" find="\b([Qq])ue ([Oo])(?!nz|NZ)" replace="$1u'$2" />

pourrait corriger cela pour les « que ». Ayant un doute sur l'assertion négative vers l'avant, j'aimerais l'avis d'un spécialiste. Si cela marche, on pourrait aussi regrouper en un seul regex avec un « ou » mais ce n'est pas indispensable. Merci d'avance. --Ideawipik (discuter) 21 mars 2020 à 22:54 (CET)Répondre

Salut Ideawipik. Pas certain du résultat pour le | mis directement dans la contrainte négative (à tester), mais sinon ça semble bon. Peut-être possibilité de regrouper en une seule expression, mais à tester aussi.
<Typo word="qu+voyelle" find="\b([Qq])ue ([AEIUYaeéèêiuy]|[Oo](?!nz|NZ))" replace="$1u'$2" />
--NicoV (discuter) 19 avril 2020 à 11:34 (CEST)Répondre
 . Testé. Cela semble correct. Au pire une paire de parenthèses supplémentaires autour du nz|NZ aurait réglé le problème et dissipé le doute si cela avait été nécessaire. --Ideawipik (discuter) 19 avril 2020 à 13:21 (CEST)Répondre

: A en anglais

modifier

Bonjour, d’après mon expérience avec WPCleaner, la règle . À dans Wikipédia:AutoWikiBrowser/Typos#Règles orthographiques générales dans sa variante avec : ne génère que des faux positifs : on ne met pas de majuscule après les deux points en français, donc on n’écrit pas « blabla : À blabla ». En revanche, beaucoup d’ouvrages anglophones avec un sous-titre sont écrits sous la forme « The Typo: An Antology ». Cette forme matchcorrespond à la règle, et WPCleaner propose donc l’ajout d’un accent qui n’a pas sa place. Le seul moyen de l’éviter est de mettre le titre dans un {{langue|en}} (ce qui est une bonne chose). Y a-t-il une raison derrière la présence de ce : dans la regexp ? -- Okhjon (discuter) 13 avril 2020 à 14:05 (CEST)Répondre

Bonjour Okhjon. Il faut garder à l'esprit que les éléments de cette liste ne sont à considérer que comme des suggestions à valider au cas par cas par un utilisateur humain et non utilisables par un bot, contrairement à d'autres listes. Ainsi, même les « . A » ne sont pas tous erronés, comme dans le cas de phrases avec le verbe avoir et une omission du sujet.
Néanmoins, s'il y a trop de faux positif pour un cas, il me semble préférable de réduire les détections, ie modifier les regexp ou limiter leur usage. Il me semble que par défaut, WPCleaner exclut les détections dans le contenu des paramètres de modèles. Dans le cas présent, je pense que l'on peut supprimer le « |\: » ou le remplacer par « | \: » ou « |\s\: » pour ne pas détecter la typo anglaise qui normalement ne comporte pas d'espace entre le mot précédent et ce signe. Attendons juste quelques avis supplémentaires. --Ideawipik (discuter) 13 avril 2020 à 15:42 (CEST)Répondre
Bonjour Okhjon. Effectivement, cette règle génère beaucoup de faux positifs avec les : (mais pas que). Pas de problème pour moi à enlever ce cas de l’expression régulière. --NicoV (discuter) 18 avril 2020 à 09:14 (CEST)Répondre
Bonjour @NicoV et merci pour l’exemple. Que penses-tu de la solution d’Ideawipik au dessus ? -- Okhjon (discuter) 18 avril 2020 à 16:24 (CEST)Répondre
Je serais plutôt partisan d'enlever le « |\: » que de remplacer par « | \: » ou « |\s\: ». --NicoV (discuter) 18 avril 2020 à 16:34 (CEST)Répondre
Merci NicoV. Pourrais-tu aussi vérifier, stp, la proposition du message ci-dessus, pour éviter des suggestions de corrections indues (pas d'élision avec le mot onze et ses dérivés sauf rares exceptions. Exemple correct : « il n'a que onze ans »). Merci. Cordialement. --Ideawipik (discuter) 18 avril 2020 à 18:12 (CEST)Répondre
C’est fait, merci à vous deux. -- Okhjon (discuter) 18 avril 2020 à 21:28 (CEST)Répondre

Quand à

modifier

Bonjour,

Je n'utilise pas AWB mais apparemment il permet de remplacer plus ou moins automatiquement "quand à" par "quant à". Or, il peut y avoir des faux positifs, quand, à cause d'une erreur, un utilisateur a oublié une virgule. Le remplacement correct pourrait être aussi bien "quand, à" que "quant à". Exemple -- El Caro bla 24 juin 2021 à 17:26 (CEST)Répondre

Bonjour   El Caro. Tu as raison de signaler le cas. J'ai osé penser que l'outil avait seulement effectué, comme WPCleaner, une proposition de remplacement de « quand à » par « quant à » qui aura été validée manuellement par l'auteur de la modification. Quand on dit qu'il ne faut pas suivre aveuglément les propositions des outils… Ou alors, qu'il pourrait juste s'agir d'une erreur d'inattention.
Après examen, vu la vitesse d'édition, les modifications semblent entièrement automatisées (mode bot)   T. Le Berre.
En regardant rapidement la liste des remplacements, il y en a d'autres qui me font un peu peur dont les suivants :
  • « tout les » → « tous les » (à l'exception de ceux précédés d'un « malgré », « en » ou « avant »). Mais il y a plein d'autres faux positifs potentiels à commencer par ceux des exemples suivants inspirés de choses vues sur le wiki : « Tout les différencie, même s'ils ne diffèrent pas du tout les uns des autres en apparence. Son chien aime par-dessus tout les chats du voisin. Après tout les animaux sont sensibles. Il apprend bien à l’entraînement ; il oublie tout les jours de match. Bien que tout les oppose […]. plus que tout […]. Ces problèmes, nous/toi qui pensons/penses à tout les avions/sens délaissés. » L'absence de virgule qui n'est pas toujours une erreur ne justifie pas les remplacements.
  • des mots qui existent dans une autre langue et peuvent se trouver dans des citations ou des titres d'ouvrages. De même, l'action peut être intrusive et indésirable dans une citation en vieux français. Exemples simple avec l'anglais : « traffic » → « trafic », « unite » → « unité », « example » → « exemple », « waggon » (viel anglais) → « wagon », « Israel » → « Israël ».
  • des erreurs typographiques qui changent le sens par exemple : pour la sonde spatiale « mission Mars 2020 » → « mission mars 2020 » ; « Noirmoutier est une île de France et l'île Maurice s'appelait l'… » → « … Île-de-France ».
Il est un peu dommage que des bénévoles, comme Pautard, donnent de leur temps pour corriger des fautes courantes, si par derrière, des "bots" viennent rendre vains ces efforts.
Cette liste ne devrait contenir que des remplacements certains à 100 %. Une autre pourrait exister pour les corrections incertaines, demandant le contrôle ou l'avis d'un humain (mode semi-automatique). Dans le cas contraire, il serait préférable de désactiver ces "corrections additionnelles" (option RegEx Typo Fixing). J'imagine que ton message aura plus de visibilité sur la pdd de la page d'accueil Wikipédia:AutoWikiBrowser.Ideawipik (discuter) 25 juin 2021 à 17:29 (CEST)Répondre
Bonjour. Il est très dangereux d'effectuer des modifications automatiques quand il y a plusieurs mots dans une expression. Dans de tels cas, un outil automatique serait intéressant s'il permettait de faire des corrections à la chaîne sur plusieurs articles pour une même expression (exemple recherche sur « quand à » dans toute l'encyclopédie) et s'il permettait d'éviter de faire des retours arrière. Je ne pense pas que AutoWikiBrower soit le bon outil pour cela, car il modifie un seul article pour un grand nombre de corrections possibles. Ce qu'il faut c'est un outil qui modifie un grand nombre d'articles pour une seule expression semi-automatiquement, c'est-à-dire avec validation manuelle. Cordialement.Pautard (discuter) 25 juin 2021 à 17:38 (CEST)Répondre

Correction Défend / Deffend

modifier

Bonjour,

J'ai retiré : <Typo word="défendre" find="\b(d|D)[éèe]ff?[ea]nd" replace="$1éfend" />

J'ai constaté beaucoup de faux-positifs cette semaine en survolant les communes de France. Une solution serait d'enlever la détection du double F. Mais je ne sais pas trop dans quelle proprotion cela impacterait les cas étranges de "défend".

LD m'écrire 6 juillet 2021 à 01:19 (CEST)Répondre

Après vérification de ~260 pages avec insource:/(d|D)[éèe]ff[ea]nd/ ; je pense que la correction appropriée est sur insource:/(d|D)[éè]ff[ea]nd/ avec <Typo word="deffendre" find="\b(d|D)[éè]ff[ea]nd" replace="$1effend" /> (si on veut corriger le vieux-français ... )
En dehors des corrections sur le vieux-français, le français moderne ne semble pas avoir besoin de correction automatique ; et la correction du vieux-français me paraît délicate sur AWB, il est difficile d'être sûr que la règle « pas d'accent avec doublement d'une consonne » fut existante et appliquée   à chaque fois.
Bref, plutôt pour ne pas réintégrer ce type de correction dans AWB vu qu'a priori, il est préférable qu'un utilisateur WPCleaner regarde différentes suggestions commentées  
LD m'écrire 6 juillet 2021 à 01:51 (CEST)Répondre

Recherches pas assez restrictives

modifier

Bonjour. À modifier dans Wikipédia:AutoWikiBrowser/Typos#Syntaxe Wiki, à propos des modèles unité. Actuellement :

  • Division 1 franchit devient Division {{unité|1|franc}}hit, favorisant potentiellement un passage à la ligne précisément à l'endroit où il n'en faudrait pas ;
  • formations de D2 franchissent devient D{{unité|2|franc}}hissent, rendant le tout insécable (Diff #146563787) ;
  • (V.O. : 395 dollari l’oncia) devient (V.O. : {{unité|395|dollar}}i l’oncia) Diff #183668341),   T. Le Berre ;
  • Autres exemples : fransiscains, francophones, eurodéputés et autres résultats de cette recherche.

Il faudrait interdire, pour l'expression régulière, la présence d'une lettre alphabétique immédiatement devant, comme derrière. Ou forcer une présence différente, par exemple (écrit rapidement, on pourra trouver mieux et synthétiser) pour l'amont "(?<=[a-zA-ZÀ-ÖØ-öø-ÿ\.\)\,\;\:\*\#] )" et "(?<=\()" ; pour l'aval "(?=\.| |,|\<|\(|\)|\{|\s)" ou simplement une fin de mot "\b".
Note. Normalement, en début de ligne et de phrase, on ne devrait pas avoir de nombres en chiffres selon les règles typographiques (au moins les françaises), donc voir s'il faut conserver le point en amont.

Autre remarque. Dans les expressions actuelles. Si la substitution "Unité monnaie après xxx.xxx" est réalisée sans précautions (de l'ordre de celles proposées plus haut), avant la substitution suivante "Unité monnaie après xxx xxx.xxx" alors ce second motif ne sera jamais trouvé par l'outil et donc la ligne serait inutile. Et le remplacement réalisé incorrect. Je ne sais pas dans quelle ordre AWB considère la liste. — Ideawipik (discuter) 24 septembre 2021 à 23:02 (CEST)Répondre

Bonsoir Ideawipik   et merci pour ces remarques.
En somme, on peut résumer les modifications ainsi : \b(&nbsp;| )<regle>\b. Voire en utilisant la méthode de classe de caractères dans (?=) que tu suggères, mais en simplifiant avec \w + quelques caractères spéciaux acceptés par AWB. En fait, je n'ai jamais testé les ranges comme [À-Ö] en local et global ;, d'expérience en local, les caractères spéciaux sont relativement mal considérés (ex. « ne fonctionne pas), je testerais. Que penses-tu de l'autre ou l’autre ?
J'y vois un effet de bord non soulevé : cela empêchera les unités dans les tableaux car ils ne sont ni précédés d'une espace, ni d'un mot (est-ce vraiment utile d'ajouter {{unité}} dans un tableau ?).
Pour l'ordre des règles, elles devraient être appliquées dans l’ordre. A l'image des autres règles "locales" appliquées par l’outil. Mais je ne saurais dire sans effectuer des tests en ce sens. — LD (d) 24 septembre 2021 à 23:35 (CEST)Répondre

Faux positifs

modifier

Bonjour

J'ai remarqué sur Projet:Biologie/Labo des noms/Ressources en ligne que le regex typo fixing remplace les A de A Grammatical Dictionary of Botanical Latin et de A Dictionary of Botanical and Biographical Etymology par des À.

Mais je n'ai pas trouvé les règles impliquées (c'est bien le regex typo fixing, ça ne fait pas cela quand il est désactivé)

Aussi, sur la même page, dans (4ème, 8ème et 9ème édition), il ne remplace pas 4ème et 8ème, mais change 9ème en 9e.

Dans Projet:Côte d'Ivoire/Bibliographie sur la Côte d'Ivoire, au lieu de mettre un modèle {{n°}}, il fait ça : Arrêt n{{o}}E 0001-2000

Cordialement, Şÿℵדαχ₮ɘɼɾ๏ʁ 18 novembre 2023 à 02:19 (CET)Répondre

Retour à la page du projet « AutoWikiBrowser/Typos ».