Discussion:Régression linéaire
Notation
modifierla variance des y ne serait elle pas V(y) ?
Axel584, 30 novembre 2004 à 11:46
Variance des y en regression linéaire (du bistro)
modifierEn regardant l'article sur la Régression linéaire je me demandais si le libellé de la variance des y était correcte :
variance des yi = V(x) = ....
J'aurais intuitivement écrit : variance des yi = V(y) = ...
Mais comme j'en suis pas sur, je veux pas corriger en rajoutant une connerie :-)
Axel584 30 nov 2004 à 11:51 (CET)
- Il s'agit effectivement d'une coquille puisque des références à V(y) sont faites dans la suite : par exemple, dans le chapitre Régression_linéaire#Coefficient de corrélation linéaire, la symétrie des expressions des pentes a et a' , permet de confirmer qu'on a bien variance des yi = V(y). Bcoconni 30 nov 2004 à 14:17 (CET)
- S'il y a des coquilles, c'est à cause des fûts !
- Le contrepéteur fou --Jean-Jacques MILAN 30 nov 2004 à 21:10 (CET)
equation de la droite de régression
modifierPour resulta de la regression y a ecrie y=cov(x,y)/v(X) *(x - /x) + /y . j'aurai mit perso /y=a/x+b avec a=cov(x,y)/v(X)
je saisie mal pkoi y à (x - /x) au lieu de x et pkoi /y au lieu de b
- Attention la forme donnée dans l'article n'est pas la forme réduite
- s'écrit aussi en posant
- ce qui donne en développant
- et donc un
Vision pratique sur le sujet
modifierJe viens de rédiger une étude sur la régression linéaire : http://yves.demur.free.fr/reglin/reglin1105.pdf
Je ne suis pas un spécialiste de ce domaine mais je pense que ce document apporte un éclairage pratique. Je ne vois pas bien comment apporter cette "matière" à Wikipédia : peut être qu'un statisticien pourrait l'utiliser pour enrichir l'article actuel de Wikipédia, ou alors mon document pourrait-il avoir une place quelque part ?
Je fais un appel à suggestions. CordWikipédialement. Si vous répondez, signalez le moi par mail à yves.demur@m4am.net
- Pour information, il n'est pas dans notre habitude de répondre par email. Donc si quelqu'un vous réponds, vous trouverez sa réponse ici. Pyb 6 novembre 2005 à 00:48 (CET)
Coefficient de corrélation
modifierIl y a une erreur dans la formulation de la validité de la corrélation, en effet ce qui est impossible. Je pense qu'il faut inversé les 2 terme soit ≈0,82 valeur dépendante de l'intervale de confiance et du nombre de degrés de liberté.
- pardon d'avoir annulé votre intervention mais j'ai cru à du vandalisme en effet (priorité opératoire) alors que . Il est vrai que ≈0,82. Entre 0,86 et 0,82, je ne peux affimer lequel est choisi en première approximation (je pense avoir vu , mais je ne peux retrouver mes sources). Il est certain qu'un calcul plus sérieux, dépendant du nombre de mesures et de l'intervalle de confiance permet de moduler ce fameux seuil de validité. Si vous avez compétence à compléter l'article ce ne serait pas mal. HB 25 octobre 2006 à 22:47 (CEST)
- D'où vient ce seuil? Il me semble un peu arbitraire. IL ne correspond pas aux valeurs dont parlent mes profs. D'après eux, la significativité du R dépend du modèle considéré. Michaël Malter (d) 2 avril 2010 à 21:10 (CEST)
- Je pense qu'on devrait retirer le seuil de , seuil très bas et pouvant amener à de nombreuses erreurs.
- Seuil supprimé en attendant des sources pour une valeur précise. HB (d) 9 août 2010 à 14:40 (CEST)
- Je pense qu'on devrait retirer le seuil de , seuil très bas et pouvant amener à de nombreuses erreurs.
- D'où vient ce seuil? Il me semble un peu arbitraire. IL ne correspond pas aux valeurs dont parlent mes profs. D'après eux, la significativité du R dépend du modèle considéré. Michaël Malter (d) 2 avril 2010 à 21:10 (CEST)
Graphique
modifierJ'ai un commentaire à propos du graphique sensé illustrer ce qu'est une régression linéaire. En effet, l'autocorrélation des résidus fait que le modèle qui lie les deux variables n'est pas linéaire. Dans un modèle de régression linéaire, on considère qu'il y a une relation deterministe entre deux variables, mais que cette relation est bruitée par un bruit blanc (ce qui implique non autocorrélation). Il faudrait donc changer le graphique quitte à faire un graphique à partir de données simulées afin que celà corresponde parfaitement (ceci dans un soucis pédagogique).
Problème dans la conception de l'article
modifierLe gros problème de cet article est qu'il se limite au modèle linéaire simple. Pourtant le modèle linéaire est bien plus général. Il inclut les modèles linéaires à variables instrumentales, les modèles de panels à effets fixes et à effets aléatoires ou encore les modèles à coefficients aléatoires. --PAC2 (d)
- Entièrement d'accord avec toi sur ce point, il y a tromperie sur la marchandise . On ne parle dans cet article que de la régression linéaire simple, d'où l'idée suggérée sur la page de discussion de la fusion de le renommer en régression linéaire simple en le recentrant sur ce sujet avec l'objectif de rester le plus simple possible (suppression de la partie matricielle en particulier). Je sais que ton idée est de faire un grand article qui parlerait de tous les modèles linéaires en fusionnant les trois articles. Moi, je suis plutôt favorable finalement à trois articles: un qui prendrait la chose de haut présentant tous ces modèles linéaires dont je découvre l'existence et que tu pourrais décrire à l'envie, un article grand public sur la régression linéaire simple et un autre détaillant la régression linéaire multiple. Mais comme c'est toi qui au final semble posséder la meilleure vue d'ensemble sur ce domaine, je te laisse la choix de la décision finale. Mon souhait est cependant que quelqu'un ignorant tout de la régression et cherchant à se renseigner sur la régression simple (Bac +/- 1) puisse trouver facilement les informations qu'il cherche sans avoir à se perdre dans un article universitaire de trop haut niveau. HB (d) 3 juillet 2011 à 19:13 (CEST)
- Ok, ça va faire du boulot mais c'est pas grave :) --PAC2 (d) 5 juillet 2011 à 11:18 (CEST)
Large refonte de l'article
modifierSuite à cette discussion Discussion:Régression linéaire/Régression linéaire/Fusion abandonnée entre Régression linéaire, Modèle linéaire et Régression linéaire multiple, j'ai entrepris une large refonte de l'article. Le travail est encore en cours. --PAC2 (d) 16 septembre 2011 à 12:21 (CEST)
- Bon j'interviens avec beaucoup de retard mais qu'en est-il de la conservation d'un petit article permettant de parler de la régression linéaire simple (en) facilement accessible ? Il me semble qu'il a son utilité car c'est bien à la régression linéaire simple que la majorité des gens est d'abord confrontée et cette population ne sera pas satisfaite par le contenu de cet article généraliste.HB (d) 5 octobre 2011 à 08:13 (CEST)
- Pour moi la partie consacrée au modèle linéaire simple devrait faire l'affaire. Je ne vois pas l'utilité de consacrer une page spécifique à la régression linéaire simple. --PAC2 (d) 5 octobre 2011 à 10:35 (CEST)
Réécriture
modifierCet article est en cours de réécriture. J'espère avoir proposé un plan pertinent pour réécrire cet article. En particulier, par rapport aux versions précédentes, j'ai fait attention à laisser une place importante aux différentes variantes possibles alors que l'article précédente se concentrait exclusivement sur le modèle linéaire simple estimé par la méthode des moindres carrés. J'ai également fait attention à laisser une place importante aux applications et aux usages du modèle linéaire. Néanmoins, il est difficile de trouver des références pertinentes sur l'utilisation qui est faite du modèle linéaire dans les différentes disciplines académiques. Vos suggestions seront bienvenues. --PAC2 (d) 28 septembre 2011 à 13:42 (CEST)
- Je trouve que le passage
- «Pour cela, il est courant d'écrire le log du salaire comme une fonction linéaire du nombre d'années d'éducation et d'un certain nombre de facteurs observables ayant une influence potentielle sur le salaire, par exemple le nombre d'année d'expérience sur le marché du travail, le fait d'être une femme, etc. Dans ce cas, le modèle peut alors s'écrire :
- avec le salaire de l'individu i, le nombre d'années d'éducation de l'individu i, le nombre d'années d'expérience sur le marché du travail de l'individu i, une variable indicatrice valant 1 si i est une femme et 0 sinon et une variable aléatoire représentant l'ensemble des variables non observées dans les données pouvant expliquer le salaire de l'individu i.»
- complexifie la section, on n'a pas besoin de ces détails il me semble, je pense qu'il faudrait le supprimer. Je souhaiterais supprimer aussi les listes à puces qui sont inutiles dans cette même section.
- Comme c'est vous qui pilotez cette réécriture, je voudrais savoir ce que vous en pensez?--Jackverr (d) 20 mai 2012 à 12:37 (CEST)
- Sur l'exemple de l'équation de salaire, c'est vrai que c'est compliqué mais en même temps c'est plus concret et plus précis que de se contenter de citer des références d'articles. Je n'ai pas d'avis tranché. Les listes à puces sont effectivement provisoires et destinées à disparaître un jour. Pour le moment, je pense qu'on n'a plutôt intérêt à accumuler des références et du matériel. On élaguera et on améliorera la rédaction dans un second temps. --PAC2 (d) 20 mai 2012 à 13:42 (CEST)
- oui, mais on ne peut pas faire ça pour toutes les références sinon l'article devra s'appeler "Exemples de régression linéaire". Je trouve aussi que le formalisme mathématique ne correspond pas à ce qu'on lit dans la littérature sur le sujet. en particulier l'erreur aléatoire est plutôt appelée dans les articles, et le formalisme pour exprimer les hypothèses est trop complexe à mon gout. Mais bref , comme vous dites on verra plus tard. --Jackverr (d) 20 mai 2012 à 14:56 (CEST)
- Oui évidemment, on ne va pas développer tous les exemples. Si vous souhaitez supprimer le passage l'équation de salaire, je ne m'y oppose pas. Sur le formalisme, on trouve aussi bien la notation que la notation . Je suis tout à fait d'accord pour dire que pour le moment, l'article fait une trop grande place au formalisme. Je pense qu'il faut présenter les hypothèses de manière littéraire et laisser le formalisme en complément du texte. L'article doit à la fois être compréhensible par quelqu'un qui n'a jamais fait de math et doit en même temps permettre à ceux qui en ont fait de s'y retrouver. --PAC2 (d) 20 mai 2012 à 15:06 (CEST)
- oui, mais on ne peut pas faire ça pour toutes les références sinon l'article devra s'appeler "Exemples de régression linéaire". Je trouve aussi que le formalisme mathématique ne correspond pas à ce qu'on lit dans la littérature sur le sujet. en particulier l'erreur aléatoire est plutôt appelée dans les articles, et le formalisme pour exprimer les hypothèses est trop complexe à mon gout. Mais bref , comme vous dites on verra plus tard. --Jackverr (d) 20 mai 2012 à 14:56 (CEST)
- Sur l'exemple de l'équation de salaire, c'est vrai que c'est compliqué mais en même temps c'est plus concret et plus précis que de se contenter de citer des références d'articles. Je n'ai pas d'avis tranché. Les listes à puces sont effectivement provisoires et destinées à disparaître un jour. Pour le moment, je pense qu'on n'a plutôt intérêt à accumuler des références et du matériel. On élaguera et on améliorera la rédaction dans un second temps. --PAC2 (d) 20 mai 2012 à 13:42 (CEST)
Graphique de Galton
modifierC'est une excellente idée d'avoir mis le graphique montrant la régression de Galton. Je pense simplement que les intervalles de confiance représentés sur le graphique ne sont pas nécessaires et compliquent la lecture du graphique. Il suffit de mettre le nuage de points et la droite de régression. Cordialement --PAC2 (d) 15 mai 2012 à 10:23 (CEST)
- Pas de soucis, je refais le graphique sans les ellipses de confiance.--Jackverr (d) 15 mai 2012 à 22:24 (CEST)
- Bof, j'ai voulu changer la couleur, mais j'ai l'impression que ce n'est pas très "lisible", non?--Jackverr (d) 15 mai 2012 à 22:44 (CEST)
- Si, si c'est pas mal. --PAC2 (d) 15 mai 2012 à 22:54 (CEST)
- Bof, j'ai voulu changer la couleur, mais j'ai l'impression que ce n'est pas très "lisible", non?--Jackverr (d) 15 mai 2012 à 22:44 (CEST)
Mise en œuvre dans des logiciels de calcul numérique et de statistiques
modifier- Wikipédia n'est pas un guide pratique mais une encyclopédie. La question de la mise en œuvre d'une régression linéaire dans les logiciels de calcul numérique et de statistiques n'a rien à faire sur Wikipédia. Pour les manuels de logiciel, on peut les rédiger sur le projet Wikibooks. --PAC2 (discuter) 21 mars 2014 à 07:06 (CET)
Relecture souhaitée
modifierUne IP est venu me poser des questions sur la démonstration de la formule . Après avoir dans un premier temps botté en touche (la modification de l'article vers davantage de complexité me l'a rendu partiellement inaccessible), j'ai bien relu le passage et il me semble qu'il y a des points obscurs
- je me demande si il n'y a pas confusion entre (coefficient cherché) et estimateur de ce coefficient. Je me demande donc s'il ne faut pas lire au lieu de
- Selon les textes accessibles sur internet, il me semble que les estimateurs devraient s'écrire
- je ne comprends pas grand chose aux formules énoncés mais il me semble qu'il manque un 1/n devant var(U) dans cette formule
- je ne comprend pas le sens de cov (u, β1)
Je demande dons un relecture attentive du contenu de cet article, notamment des modifications intervenues depuis fin 2012. HB (discuter) 18 avril 2014 à 08:27 (CEST)
- Cela fait maintenant 10 jours que j'ai demandé une relecture de cet article sur cette page de discussion et auprès du projet stat, concernant plusieurs points qui me semblaient douteux. Il y plus de 30 personnes qui sont censées suivre l'article et en 10 jours,
- seul le premier point a donné lieu à une correction (merci Cdang)
- Sur le point 2) j'ai trouvé beaucoup de sources fournissant les formules sans démonstration mais pour celles qui fournissent une démonstration, elles se placent, il me semble dans le cas où les xi sont considérées comme fixés (voir page 2 de ce document, ou p 12 de celui-ci ou encore dans ce cours). Il me semble qu'il faudrait savoir (source claire à l'appui) si les xi sont considérés comme fixés ou aléatoires, savoir dans quels cas les formules sont valables et éventuellement se passer d'une démonstration qui me semblent nécessiter des xi fixes. Mais, comme le sujet me dépasse complètement, je ne peux pas corriger ce point
- Je suis presque sure que le point 3 est bien une erreur que je prends sur moi de corriger
- Je ne comprends toujours pas le point 4
- Une relecture m'a fait découvrir un point 5 : r = SCE/SCT que je pense devoir corriger sans risque en r² = SCE/SCT
Il est éminemment dommage que l'on ait décidé d'avoir une telle ambition sur cet article sans pouvoir assurer une maintenance a minima. J'ajoute donc un bandeau d'avertissement tant qu'une relecture n'a pas été faite, les erreurs corrigées ou supprimées et des sources ajoutées. HB (discuter) 29 avril 2014 à 14:34 (CEST)
Création de l'article ajustement affine
modifierJe sais que mon action risque de passer pour une exfiltration de la partie de l'article qui semble gérable et accessible au profane dans un autre article, mais je pense que cet article ne gagne rien à effectuer le grand écart entre l'élémentaire et l'économétrie.
- Le lecteur profane ne peut pas se satisfaire d'une présentation dans laquelle le résumé introductif parle d'entrée de jeu de regression linéaire multiple, d'espérance conditionnelle sans jamais évoquer la régression linéaire simple. Il n'a pas à tomber sur une définition de la régression linéaire simple faisant intervenir des expressions qui n'ont pas été définies (estimateur des moindres carrées ordinaires, valeur prédite, argmin), il doit pouvoir trouver un article lisible avec un bagage élémentaire en statistique descriptive.
- Le spécialiste des tests d'hypothèse, de l'anova, de l'analyse en composantes principales et de la théorie de l'estimation doit trouver ici un article de référence plus poussé sans se perdre dans du B-A-BA.
D'où la création de l'article élémentaire. Le choix du terme d'ajustement affine plutôt que régression linéaire simple provient du fait que la majorité des articles que j'ai lu portant le titre de regression linéaire simple fait appel à la théorie des estimateurs (dans la cadre d’ailleurs quasiment exclusif de la régression par la méthode des moindres carrés) alors que le terme d'ajustement affine se limite au tracé d'une droite sans évoquer le moins du monde l'estimation. Il est principalement employé au niveau stat Bac et bac+1, ce qui correspond quand même à une tranche non négligeable des lecteurs de WP. Les plus avancés pourront continuer à lire et améliorer cet article. HB (discuter) 29 avril 2014 à 14:34 (CEST)
J'ai lu l'article (que je découvre, puisque c'est un problème que je connais) et j'ai lu attentivement les discussions. mon avis est le suivant : soit le lecteur de l'article cherche à s'informer, alors il n'y comprend rien, les justifications, il s'en fiche, et si par malheur il lit cet article parce qu'il a besoin de faire un calcul et a fortiori écrire un module, il n'en tirera rien. Par contre, si le lecteur a besoin d'informations pour écrire un article, écrire un cours, il n'aura pas satisfaction, puisque les notions fondamentales de justification, moyenne et moindres carrés sont à peine évoquées. Concernant le plan que je proposerais ce pourrait être : 1- Différents type de données ; 2- méthodes de calcul 3- démonstrations.--Dlzlogic (discuter) 20 mai 2015 à 15:04 (CEST)
Coup de gueule
modifierDe mon point de vue, cet article est devenu illisible. Il y a plusieurs parties qui perturbent largement la lecture de l'article et rendent la compréhension très difficile :
- La partie : "Application à des modèles non linéaires" n'a à mon sens pas sa place ici. On pourrait se contenter de faire des liens dans la partie "Extensions" vers d'autres articles reliés.
- Dans la partie "Historique", on confond l'estimateur des moindres carrés et la régression linéaire. L'estimateur des moindres carrés est une méthode d'estimation souvent utilisée pour le modèle linéaire mais n'a à mon sens rien à voir avec le modèle linéaire. C'est Galton qui invente vraiment le modèle linéaire.
- On se perd dans des démonstrations. Il ne faut pas confondre un article encyclopédique avec un cours universitaire. Un article encyclopédique doit être centré sur la compréhension de la notion, pas sur la démonstration des différentes formules.
- De mon point de vue, les exemples purement calculatoires ne servent à rien.
- Le paragraphe "Démarche globale" ressemble plus à un cours où on prend l'élève par la main qu'à un article encyclopédique. Tous les lecteurs ne sont pas des bébés.
- La partie "Moindres carrés des écarts d'abscisse" me semble brouiller le message.
- Idem pour la partie sur la "régression orthogonale"
- Il est intéressant de faire le lien avec la droite de Tukey, mais en fin d'article dans la partie consacrée aux extensions.
- La partie "Modèle linéaire multiple" est inutile puisque redondante avec la partie Modèle général
- De mon point de vue, la mise en oeuvre dans des logiciels de statistiques divers et variés n'apporte rien à l'article.
--PAC2 (discuter) 10 août 2015 à 21:08 (CEST)
- j'approuve et vs souhaite bon courage pour transformer ce fatras pédant en article encyclopédique utile. Un résumé introductif rédigé selon les recommandations de WP:RI et un lien vers l'article linéarité seraient un minimum. PolBr (discuter) 11 août 2015 à 09:42 (CEST)
Grand nettoyage
modifierJe supprime la partie sur l'application à des modèles non linéaires qui parlent de méthode pour linéariser des équations non linéaires mais ne parle pas de régression linéaire.
Dans certains cas, on peut ajuster un modèle non linéaire en effectuant un changement de variable. Par exemple, si l'on a un modèle parabolique : <math>y \propto \sqrt{x}</math> il suffit de considérer <math>x' = \sqrt{x}</math> et de faire la régression sur (''x''', ''y''). Par exemple, lorsque l'on s'intéresse à l'[[oxydation à haute température]] d'un métal formant un oxyde protecteur, une étude théorique prédit que la prise de masse a un comportement parabolique en fonction du temps ([[loi d'oxydation de Wagner]]), Δ''m'' α √''t''. On peut mesurer cette prise de masse par [[thermogravimétrie]], mais le système qui mesure de très faibles variations de masse (de l'ordre du microgramme) est très sensible aux perturbations, ce qui génère du bruit. La régression linéaire avec ''x'' = √''t'' et ''y'' = Δ''m'' permet de caractériser la cinétique d'oxydation. De fait, pour une loi en puissance de ''x'' — ''y'' α ''x<sup>n</sup>'' où ''n'' est un nombre réel —, on peut poser ''x''' = ''x<sup>n</sup>''. Et de manière encore plus générale, si le modèle fait intervenir une fonction ƒ élémentaire dans une formule affine : ''y'' = ''a'' + ''b''·ƒ(''x'') on peut alors faire le changement de variable ''x''' = ƒ(''x'') pour avoir une relation affine : ''y'' = ''a'' + ''b''·''x'''. On peut parfois linéariser la relation en se plaçant en [[échelle logarithmique|diagramme logarithmique]] : : si ''y'' = ''ax<sup>n</sup>'', alors ln(''y'') = ln(''a'') + ''n''·ln(''x'') donc le changement de variable ''x''' = ln(''x'') et ''y''' = ln(''y'') donne une relation affine : ''y''' = ''a''' + ''n''·''x'''. La transformation peut être plus complexe. Par exemple, si une variable aléatoire suit une [[loi normale]], on peut déterminer les paramètres de la loi par régression linéaire par la méthode de la [[droite de Henry]]. Si une variable aléatoire suit une [[loi de Weibull]], alors on peut se ramener à un diagramme linéaire à partir de relevés de probabilités ''y'' = P(''x'')<ref group = "Note">La loi a une [[densité de probabilité]] continue, mais les valeurs sont nécessairement relevées de manière discrète.</ref> : * en considérant les probabilités cumulées : la [[fonction de répartition]] vaut <math>\mathrm{F}(x) = 1 - \operatorname{e}^{-(x/\lambda)^k}</math> ; * en effectuant le changement de variable ''x''' = ln(''x'') et ''y''' = ln(-ln(1 - F)), on a alors <math>y' = k(\ln x - \ln \lambda) = kx' - k \ln \lambda</math> ; la régression linéaire permet alors de déterminer les valeurs de ''k'' et de λ. Dans certains cas, on peut linéariser en se plaçant dans un espace de dimension supérieur. Si l'on est dans un espace à deux dimensions (''x'', ''y'') et que l'on veut ajuster un modèle polynomial de degré ''n'', : ƒ<sub>''a''<sub>0</sub>, ''a''<sub>1</sub>, …, ''a<sub>n</sub>''</sub>(''x'') = ''a''<sub>0</sub> + ''a''<sub>1</sub>''x'' + … + ''a<sub>n</sub>x<sup>n</sup>'' on peut définir les variables : ''x<sub>i</sub>'' = ''x<sup>i</sup>'' et effectuer une régression avec le modèle linéaire, la variable explicative étant le vecteur (''x''<sub>1</sub>, …, ''x<sub>n</sub>'') : : ''g''<sub>''a''<sub>0</sub>, ''a''<sub>1</sub>, …, ''a<sub>n</sub>''</sub>(''x''<sub>1</sub>, …, ''x<sub>n</sub>'') = ''a''<sub>0</sub> + ''a''<sub>1</sub>''x''<sub>1</sub> + … + ''a<sub>n</sub>x<sub>n</sub>''. {{loupe|régression polynomiale}} Dans le même ordre d'idées, si le modèle est un cercle, d'équation cartésienne : (''x'' - ''x''<sub>c</sub>)<sup>2</sup> + (''y'' - ''y''<sub>c</sub>)<sup>2</sup> = ''r''<sup>2</sup> ; on peut définir les variables : ''y''<sub>1</sub> = ''x''<sup>2</sup> + ''y''<sup>2</sup> ; : ''x''<sub>1</sub> = ''x'' ; : ''x''<sub>2</sub> = ''y'' ; et effectuer une régression avec le modèle linéaire, la variable expliquée étant ''y''<sub>1</sub> et la variable explicative étant le vecteur (''x''<sub>1</sub>, ''x''<sub>2</sub>) : : ƒ<sub>''a''<sub>0</sub>, ''a''<sub>1</sub>, ''a''<sub>2</sub></sub>(''x''<sub>1</sub>, ''x''<sub>2</sub>) = ''a''<sub>0</sub> + ''a''<sub>1</sub>''x''<sub>1</sub> + ''a''<sub>2</sub>''x''<sub>2</sub> et déduire ''x''<sub>c</sub>, ''y''<sub>c</sub> et ''r'' de : ''a''<sub>1</sub> = 2''x''<sub>c</sub> ; : ''a''<sub>2</sub> = 2''y''<sub>c</sub> ; : ''a''<sub>0</sub> = ''r''<sup>2</sup> - ''x''<sub>c</sub><sup>2</sup> - ''y''<sub>c</sub><sup>2</sup>. Bien que l'on ait effectué une régression par la méthode des moindres carrés dans l'espace (''x''<sub>1</sub>, ''x''<sub>2</sub>, ''y''<sub>1</sub>), on n'a pas le résultat que l'on obtiendrait avec une régression par la méthode des moindres carrés dans l'expace (''x'', ''y'').
Idem pour la partie sur la régression circulaire
Considérons maintenant des positions relevées sur une sphère ; il peut s'agir de localisations géographiques, mais un point d'une sphère de référence (centrée sur l'origine du repère et de rayon 1) peut aussi servir à représenter une orientation (voir ''[[Coordonnées sphériques#Utilisation|Coordonnées sphériques > Utilisation]]''). Une régression sur ces points n'est évidemment pas linéaire. En [[projection gnomonique]], un grand cercle ([[orthodromie]]) est représenté par une droite. Si l'on veut trouver la « meilleure orthodromie » pour un jeu de points — par exemple trouver l'orbite d'un satellite devant survoler au plus près un ensemble de sites —, on peut donc effectuer une régression linéaire sur la représentation gnomonique<ref>''[http://robert.mellet.pagesperso-orange.fr/rgrs_pol/regrs_03.htm Droite des moindres carrés]'', Robert Mellet</ref>.
Par ailleurs, je remplace la partie "Applications" par "Exemples d'applications" et je déplace cette partie à la fin de l'article afin que cela ne nuise pas à la compréhension de l'article.
Dans la partie "Modèle linéaire simple", je supprime le paragraphe suivant qui ne concerne pas du tout la régression linéaire :
Il a par ailleurs de nombreuses applications directes : il existe de nombreuses lois affines liant deux paramètres. Par ailleurs, pour une loi reliant plus de paramètres, lorsque l'on peut maîtriser des paramètres (comme c'est le cas en physique expérimentale), on étudie fréquemment l'influence d'un seul paramètre sur une quantité, influence qui peut parfois être modélisée par une loi affine. Ainsi, dans l'étude des gaz, la [[loi de Gay-Lussac]] est une loi liant de manière affine le volume d'un gaz et sa température, la pression et le nombre de molécules étant maintenus constants ; c'est un cas particulier de la [[loi des gaz parfaits]] : <math>\mathrm{P} \mathrm{V} = n \mathcal{R} \mathrm{T} \Longrightarrow \mathrm{V} = \mathrm{V}_0 (1 + \alpha (\mathrm{T} - \mathrm{T}_0))_{n\ \mathrm{et}\ \mathrm{P}\ \mathrm{constants}}\text{.}</math>
--PAC2 (discuter) 13 août 2015 à 20:41 (CEST)
La question de la mise en œuvre dans un logiciel de statistique n'a rien d'une question encyclopédique. Il existe des dizaines et des dizaines de possibilités pour mettre en œuvre un modèle linéaire dans tous les langages possibles. Je supprime donc cette partie.
== Mise en œuvre dans des logiciels de calcul numérique et de statistiques == La régression linéaire est un outil largement utilisé et est donc intégré dans les principaux logiciels de calcul et de statistiques. Citons par exemple : * [[Matlab]], [[Scilab]] et [[GNU Octave]], qui sur la forme traitent le problème comme la résolution d'un système d'équations linéaires surdéterminé ([[Division#Division matricielle|division matricielle]]), avec des fonctions complémentaires permettant d'avoir accès aux paramètres dérivés (comme la variance) ;<br /> voir ''[[wikibooks:fr:Découvrir Scilab/Calcul numérique#Régression linéaire|Wikibooks » Découvrir Scilab » Calcul numérique » Régression linéaire]]'' et ''[[Wikibooks:fr:Programmation Octave/Résoudre un Système d'équations linéaires#Résoudre le système|Wikibooks » Programmation Octave » Résoudre un Système d'équations linéaires » Résoudre le système]]'' ; * [[R (langage de programmation et environnement statistique)|R]], qui propose la méthode des moindres carrés ainsi que, pour les cas simples, la [[Méthode médiane-médiane|droite robuste de Tukey]] ;<br />voir ''[[wikibooks:fr:Programmation statistiques avec R/Quelques exemples#Régression linéaire|wikibooks » Programmation statistiques avec R » Quelques exemples » Régression linéaire]]'' et ''[[wikibooks:fr:Programmation statistiques avec R/Les méthodes d'optimisation et de régression#Régression linéaire| … » Les méthodes d'optimisation et de régression » Régression linéaire]]''.
--PAC2 (discuter) 13 août 2015 à 21:10 (CEST)
La partie "Démarche globale" n'a rien d'une partie encyclopédique. Je la supprime.
=== Démarche globale === Pour résumer, face à des données pour lesquelles on veut appliquer une loi affine : # On calcule le coefficient de corrélation ''r'', ce qui nous indique si une loi affine est pertinente. Si ce n'est pas le cas, il faut trouver une autre loi, ou bien envisager de collecter plus de données… # On détermine les coefficients de la droite, β<sub>0</sub> et β<sub>1</sub>, par régression linéaire. # On teste la non-nullité de β<sub>1</sub> ; si β<sub>1</sub> n'est pas significativement différent de zéro, on en conclut que les données ne sont pas corrélées. # On teste la non-nullité de β<sub>0</sub> ; si β<sub>0</sub> n'est pas significativement différent de zéro, on recalcule β<sub>1</sub> pour une droite passant par 0. # On calcule, pour un niveau de confiance donné, la précision sur β<sub>0</sub> et β<sub>1</sub>. # On calcule, pour un niveau de confiance donné, la précision sur ''y''.
--PAC2 (discuter) 13 août 2015 à 21:30 (CEST)
J'ai commencé le grand nettoyage de cet article mais il reste encore beaucoup à faire. Pour le moment, je pense qu'il faut avoir les parties suivantes :
- Histoire
- Usages ou applications : on explique quels sont les différents usages : inférence prédictive, inférence causale, etc.
- Présentation formelle :
- Modèle linéaire simple et modèle linéaire multiples
- Méthodes d'estimation
- Moindres carrés
- Estimation bayésienne, etc
- Extensions
- Robustesse
- Applications à des modèles linéaires
- Exemples d'applications dans différents domaines
--PAC2 (discuter) 13 août 2015 à 21:41 (CEST)
Je poursuis le grand nettoyage. Pour moi, les exemples numériques donnés n'apportent rien à la compréhension de la notion. Je les supprime pour clarifier l'article.--PAC2 (discuter) 5 septembre 2015 à 11:56 (CEST)
J'ai avancé et je commence à y voir plus clair mais il reste encore plusieurs chantiers. Merci d'être compréhensifs. --PAC2 (discuter) 6 septembre 2015 à 21:44 (CEST)
Pour moi, il reste encore pas mal de choses à faire :
- Développer la partie sur la droite de régression
- éclaircir le lien avec le coefficient de corrélation linéaire de Bravais-Pearson
- Faire le lien avec l'Analyse de la variance
- Développer des parties sur le modèle linéaire en fonction du type de données (série temporelle, données de panel, etc)
- développer la partie sur les tests
- développer la partie sur l'estimation, inclure d'autres méthodes d'estimation que les moindres carrés
- faire le lien avec la régression linéaire locale
- étoffer la partie sur le coefficient de détermination
- intégrer un lien vers le quartet d'Anscombe
- intégrer le modèle linéaire à équations simultanées
- expliciter l'interprétation des paramètres
- fusionner avec l'article régression linéaire multiple
- intégrer le cas des modèles dit log-linéaires
- relation avec les modèles de réseaux de neurones
- relation avec la méthode des k plus proches voisins
- faire une partie sur le modèle linéaire de probabilité et faire le lien avec la régression logistique et les modèle de régression binomiale
L'objectif est de faire un article synthétique qui couvre l'ensemble du sujet. --PAC2 (discuter) 8 septembre 2015 à 08:52 (CEST)
A vérifier (bis)
modifierMalgré mon alerte de 2014 (Discussion:Régression linéaire#Relecture souhaitée), ma demande sur les projets math et probabilité de décembre 2016[1], il semble que cet article ne soit pas suivi avec suffisamment de rigueur, ni suffisamment relu pour y corriger les erreurs mathématiques qu'il contient. Étant donné que la seule personne qui suive effectivement cet article (i.e. moi-même) n'a pas vraiment le niveau pour y effectuer une maintenance sérieuse et que je corrige aujourd'hui une erreur qui est présente dans l'article au moins depuis 2014, je repose le bandeau d'alerte. HB (discuter) 28 décembre 2016 à 09:00 (CET)
- HB : J'ai pas le temps de le faire tout de suite mais je vais essayer de m'y atteler dans les semaines à venir dés que j'aurai un peu de temps. Bien à toi, --Huguespotter (discuter) 28 décembre 2016 à 10:45 (CET)
Droite de regression
modifier- Discutez dans les chapitres prévus.
- Liens utiles : À recycler - À traduire - À fusionner - Orthographe à vérifier - Soupçons de copyright - Articles non neutres
Proposé par : 41.158.104.50 (discuter) 11 mars 2019 à 12:04 (CET)
Raisons de la demande de vérification
modifierÀ remplir par le proposant
Discussions et commentaires
modifierToutes les discussions vont ci-dessous.
La droite de regression est une droite d'ajustement lineaire obtenue par la methode des moindres carres.
- Qu'est-ce qu'il y a à discuter ? — Ariel (discuter) 11 mars 2019 à 12:27 (CET)
- Bonne question. Kelam (discuter) 11 mars 2019 à 13:36 (CET)
- Je pense que l'IP a été perturbé car en tapant droite de régression il est tombé sur cet article (pour le jeu des redirection) alors qu'il souhaitait probablement aboutir à la notion plus simple de droite d'ajustement affine. Faut-il modifier le redirect, Faut-il remplacer le redirect par une page d'homonymie pour laisser le lecteur choisir le niveau de son article ? Faut-il laisser les choses en l'état sachant que le RI (si on le lit) permet d'aboutir assez rapidement à l'article élémentaire ? HB (discuter) 11 mars 2019 à 19:55 (CET)
- Ah, d'accord, Merci HB .
- (1) A minima, il faut rediriger vers Ajustement affine, je vais le faire aussitôt après ce message.
- Ensuite (2) il faudrait quand même étoffer la section Régression linéaire#Droite de régression, peu utile en l'état, ou du moins mettre Ajustement affine comme article détaillé (idem, je vais le faire).
- Enfin (3) ce qui me paraît souhaitable, et je peux m'en occuper prochainement, c'est faire de « Droite de régression » un article court voire un article tout court (c'est-à-dire long !). Il y a en effet beaucoup à dire : ce que l'on entend par droite de régression, c'est l'ajustement de données (représentables dans un diagramme x-y) à une droite, compte tenu des incertitudes sur x et y. Et la régression linéaire classique est tout sauf utile dans les sciences expérimentales, car elle présuppose en fait que les incertitudes sur x et y soient égales (alors que x et y sont souvent des grandeurs n'ayant pas le même ordre de grandeur voire même pas la même dimension physique !), ce qui est passablement idiot. Elle présuppose aussi que les incertitudes soient indépendantes les unes des autres, ce qui n'est pas idiot mais pas assez général. Figurez-vous que ce sont les géochimistes qui ont fait avancer le schmilblick (dans le cadre des datations radiométriques via la recherche de la « meilleure isochrone »), avec York en 1959 (sauf erreur) et Williamson quelques années plus tard (en 1967 je crois). York a traité le cas d'incertitudes indépendantes mais différentes les unes des autres (écarts-type et ). Je ne sais plus si Williamson a juste amélioré l'algorithme de York ou s'il a aussi traité les cas d'erreurs corrélées sur x et y (prise en compte du coefficient de corrélation ), en tout cas ce dernier cas est traité aussi. Des cas plus généraux encore peuvent être traités dans le cadre de la théorie du problème inverse. Même votre serviteur y a ajouté son grain de sel il y a quelques décennies... — Ariel (discuter) 12 mars 2019 à 08:22 (CET)
- P.S. J'oubliais de dire, et c'est important, que les travaux sus-indiqués ne se contentent bien sûr pas de déterminer la « meilleure droite » mais incluent l'évaluation quantitative de la qualité de l'ajustement et la propagation des incertitudes (au final, pour déterminer l'intervalle de confiance de l'âge obtenu).
- Merci pour (1) et (2). Pour (3), je n'ai pas d'avis tranché entre étoffer les articles existants ou créer un article supplémentaire. Mais si vous voulez créer un article là-dessus, je dis Wikipédia:N'hésitez pas !. --Huguespotter (discuter) 12 mars 2019 à 11:32 (CET)
- [Erratum] J'ai écrit ci-dessus mon point (3) à la volée sans prendre le temps de regarder de près l'article Ajustement affine, mea culpa ! Ce que j'ai appelé « la régression linéaire classique » est celle qu'on m'a apprise quand j'étais petit, celle où l'on minimise la somme des carrés des distances euclidiennes des points à la droite, et c'est elle qui est « passablement idiote » dans les applications en sciences expérimentales. L'article Ajustement affine décrit la droite obtenue en minimisant la somme des carrés des distances verticales (ou horizontales), si vous me passez l'expression. Elle n'est pas idiote mais présuppose tout de même que les erreurs sur les sont négligeables et les incertitudes sur les toutes égales (ou le contraire pour les distances horizontales), ce qui limite fortement les applications. Le reste de ce que j'ai écrit reste valable, a priori. Et j'insiste sur le fait que si l'on parle d'ajustement de données, il est fondamental de parler dans la foulée de la qualité de l'ajustement et de la propagation des incertitudes. — Ariel (discuter) 13 mars 2019 à 07:14 (CET)
- Mais ce que vous appelez régression linéaire classique ne me semble pas du tout classique comme régression linéaire . Par contre, l'ajustement au moindre distances (au carré) mériterait en effet d'être traité dans l'article ajustement affine, car l'article ajustement affine pour moi a pour but d'expliquer un maximum de type d’ajustement affine. Bonne journée, --Huguespotter (discuter) 13 mars 2019 à 08:34 (CET)
- Vous avez sûrement raison, je l'ai appelée classique par nombrilisme, parce que c'est la première qu'on m'ait apprise et que plus tard j'ai dû passer pas mal de temps à expliquer aux uns ou aux autres que c'était sans intérêt pour l'ajustement linéaire de points expérimentaux. Mes excuses... — Ariel (discuter) 13 mars 2019 à 10:45 (CET)
- Mais ce que vous appelez régression linéaire classique ne me semble pas du tout classique comme régression linéaire . Par contre, l'ajustement au moindre distances (au carré) mériterait en effet d'être traité dans l'article ajustement affine, car l'article ajustement affine pour moi a pour but d'expliquer un maximum de type d’ajustement affine. Bonne journée, --Huguespotter (discuter) 13 mars 2019 à 08:34 (CET)
- Je pense que l'IP a été perturbé car en tapant droite de régression il est tombé sur cet article (pour le jeu des redirection) alors qu'il souhaitait probablement aboutir à la notion plus simple de droite d'ajustement affine. Faut-il modifier le redirect, Faut-il remplacer le redirect par une page d'homonymie pour laisser le lecteur choisir le niveau de son article ? Faut-il laisser les choses en l'état sachant que le RI (si on le lit) permet d'aboutir assez rapidement à l'article élémentaire ? HB (discuter) 11 mars 2019 à 19:55 (CET)
- Bonne question. Kelam (discuter) 11 mars 2019 à 13:36 (CET)
En présence de plusieurs articles qui semblent traiter du même sujet, il s’agit de bien comprendre les différences. L’ajustement affine est la détermination d’une droite qui approche une famille de points. Il y a plusieurs méthodes qui ne sont pas plus idiotes les unes que les autres, tout comme il y a plusieurs moyennes. La pertinence du choix d’un ajustement linéaire est justement le problème de la régression. Selon que la variable Y se conçoive comme dépendant d’une variable X et d’un bruit ε indépendant, sous la forme Y = Xβ + ε, ou que les variables X et Y soient toutes deux des fonctions affines d’une variable tierce Z avec des bruits indépendants εX et εY, le modèle n’est pas le même et du coup l’ajustement affine opportun ne sera pas le même. À mon avis, l’article « Ajustement affine » doit se concentrer sur les diverses méthodes, avec une redirection depuis « Droite de régression », tandis que l’article « Régression linéaire » doit se concentrer sur la formulation du modèle, ses limites et variantes et les tests d’adéquation. Ambigraphe, le 13 mars 2019 à 11:33 (CET)
- Pour singer une exclamation attribuée au Christ[a], il y a des moments où les matheux font chier. Pourquoi croyez-vous que l'article Ajustement affine ait 0 iw ? Réponse : parce que tous les articles en langue étrangère (au moins celles que je connais un tant soit peu) traitent de l'ajustement des équations linéaires (au sens strict) et des équations affines dans le même article, dont le titre est la transcription de « Régression linéaire ». Tout le monde (peut-être pas les matheux, qui se fichent de toute façon de l'ajustement de données expérimentales) parle de droite de régression (ou de régression linéaire, dont c'est souvent considéré comme un cas particulier) et non pas d'ajustement affine pour l'ajustement de données à une équation du type . En plus l'équation d'une droite n'est qu'une équation affine parmi tant d'autres (l'ajustement à une équation du type , vous appelez ça comment ?) Bref, je propose que (1) l'article Régression linéaire parle de l'ajustement d'une équation linéaire ou affine en général (c'est-à-dire à n'importe quel nombre de dimensions), avec bien sûr, je connais la différence, un petit couplet sur la distinction utile entre linéaire et affine (mais pour la régression ça ne change pas grand chose) ; et (2) que l'ajustement d'une droite (pour lequel la régression n'est pas nécessairement linéaire, selon ce qu'on sait sur les incertitudes portant sur les abscisses et les ordonnées) soit traité dans un article annonçant la couleur, c'est-à-dire « Droite de régression ». Pour terminer je signalerai que dans ce contexte le mot linéaire est ambigu puisqu'il peut faire référence à la linéarité du problème (quand on minimise une expression algébrique du second degré, dont les dérivées partielles sont des fonctions linéaires, et ce n'est pas toujours le cas quand on cherche la « meilleure droite ») ou à la linéarité de l'objectif (une relation linéaire ou affine : équations de droites, plans, hyperplans et autres relations linéaires/affines entre et ). — Ariel (discuter) 13 mars 2019 à 14:05 (CET)
- Pour connaître le contenu de cette anecdote apocryphe, il suffit de m'envoyer une demande sur papier libre, avec un chèque de 10 € et une enveloppe timbrée pour le retour.
Merci de mettre vos grossièretés ailleurs. Je vous réponds poliment point par point.
- Il n’est pas question ici de distinguer les cas affines et linéaires, puisque les statisticiens ont l’habitude de rajouter une donnée constante de valeur 1.
- Non, les matheux ne se désintéressent pas des problèmes de mesures de données expérimentales. Je veux bien considérer que la recherche de protocoles améliorant la précision des mesures soit un problème de physicien, mais la réflexion sur le traitement des erreurs de mesure préoccupe aussi des matheux, ne vous déplaise.
- Pour moi, la détermination d’une équation du type approchant un nuage de points dans l’espace est aussi un ajustement affine, et il y a plusieurs manières de le faire. Le fait qu’une manière soit plus pertinente qu’une autre repose sur le modèle de régression sous-jacent. Ce n’est pas toujours la même qui a le dessus.
Préconisez-vous de traiter l’ajustement à une droite dans « Droite de régression » et à un hyperplan plus général dans « Ajustement affine » ou ai-je mal compris ? Ambigraphe, le 13 mars 2019 à 14:31 (CET)
- (Toutes mes excuses pour mes propos irrévérencieux.) Pour moi l'article Régression linéaire devrait traiter les problèmes de régression linéaire en général (où la fonction à minimiser est algébrique du second degré), donc effectivement l'ajustement d'hyperplans pour lesquels les incertitudes ne portent que sur la « variable dépendante ». Avec pas trop de détails sur l'ajustement d'une droite (renvoi à l'article détaillé) mais en revanche un mot peut-être sur les problèmes linéarisables (ceux où la fonction à minimiser peut être approchée par une fonction algébrique du second degré dans un voisinage de la solution (en termes de valeurs ajustées) de taille comparable à l’hyper-volume d'incertitude des données. Pour la droite de régression (régression linéaire ou non selon ce qu'on sait des incertitudes), je pense que l'article devrait avoir ce titre et remplacer (amplifier, si l'on préfère) l'article Ajustement affine. — Ariel (discuter) 13 mars 2019 à 15:00 (CET)
- Il est important de comprendre que l’ajustement affine ne se réduit pas à la seule régression linéaire en statistique. Je pense notamment que le paragraphe sur les estimateurs devrait rejoindre l’article « Régression linéaire ». Ambigraphe, le 13 mars 2019 à 16:39 (CET)
Je ne me suis pas exprimé assez clairement quant au sens de l'expression « Régression linéaire ». Il ne s'agit pas d'optimiser une fonction (où est le vecteur des paramètres à optimiser) linéaire en , mais linéaire en ! Ainsi, quand seuls les sont sujets à erreur, optimiser une fonction du genre ou est un problème de régression linéaire alors qu'optimiser une fonction du genre n'en est pas un (de prime abord), et encore moins. L'expression « ajustement affine » me paraît à proscrire car n'est pas une fonction affine de a et b mais bien linéaire (le serait-elle, affine, que ça ne changerait d'ailleurs rien à la méthode de résolution). La notion de régression linéaire s'étend naturellement à plusieurs dimensions : il s'agit de l'optimisation de modèles du type linéaires en , pas seulement des équations d'hyperplans (aucune nécessité que la fonction soit linéaire en ). — Ariel (discuter) 14 mars 2019 à 10:48 (CET)
- Je suis tout à fait d'accord avec vous sur la différence entre regression linéaire (qui est linéaire en les paramètres) et ajustement affine (qui est affine en x) , mais je ne vois pas pourquoi il faudrait proscrire ajustement affine ? Et c'est justement tout l'enjeux de garder deux pages différentes. --Huguespotter (discuter) 14 mars 2019 à 12:25 (CET)
- Parce qu'« ajustement linéaire » est utilisé comme synonyme de « régression linéaire », et qu'« ajustement affine » laisse penser que la relation est affine vis-à-vis des paramètres. D'autre part, parce que l'expression « ajustement affine » me paraît peu employée pour désigner l'optimisation d'une droite dans un diagramme x-y alors que « droite de régression » est super-classique (au moins dans les domaines où je lis beaucoup ; on dit aussi least-square line (« droite des moindres carrés »), qui ne se limite pas au cas linéaire classique). Enfin, la raison essentielle qui justifie l'existence de deux pages distinctes est que la régression linéaire est tout un monde et que la recherche d'une droite de régression en est tout un autre, avec comme seule intersection des deux ensembles l'ajustement d'une droite quand les incertitudes expérimentales ne portent que sur les . — Ariel (discuter) 14 mars 2019 à 12:43 (CET)
- Eh bien l’ajustement affine n’est pas synonyme de régression linéaire. Je suis tout à fait d’accord que dans le cadre de la régression linéaire, c’est la linéarité des paramètres qui importe, et qu’il ne faut pas utiliser l’expression « ajustement affine » pour « régression linéaire », mais cela n’invalide pas l’existence d’un article « ajustement affine », dont le propos est de traiter l’ajustement affine, et pas la régression linéaire. Ambigraphe, le 14 mars 2019 à 17:15 (CET)
- Mais pourquoi diable vouloir à tout prix titrer par l'expression « ajustement affine » qui : (1) prête tout de même à confusion ; (2) est faussement générale puisque dès la première phrase on limite le sujet à l'obtention d'une droite (et non, par exemple, à celle d'un plan ou d'un hyperplan) ; (3) est largement moins utilisée (38 000 résultats selon Google) que « droite de régression » (133 000 résultats, ici) ; (4) n'a pas à ma connaissance de correspondance dans d'autres langues comme l'anglais ou l'espagnol, contrairement à la traduction littérale de « droite de régression » ? — Ariel (discuter) 15 mars 2019 à 07:20 (CET)
- Je vois que tout le monde est en train de s'énerver au sujet d'une décision que j'ai prise il y a 5 ans et que j'ai expliqué sur cette même page de discussion (il suffit de lire #Création de l'article ajustement affine) : exfiltrer de cet article réservé à des connaisseurs la partie élémentaire en lui donnant son nom élémentaire. J'ai aussi rappelé cette décision lors d'une discussion que j'avais initiée sur le thé il y a deux ans Projet:Mathématiques/Le Thé/Archives 21#Régression linéaire dans laquelle on retrouve les mêmes participants qu'ici. Inutile de s'écharper pour cela.Revenez à la situation ante-bellum (même si je reste persuadée que refuser de tenir compte du niveau de math de nos lecteurs est une grave erreur). Je suis de tout façon effarée de l'ambition affichée par ces articles de stat-proba. Je parle seulement d'ambition affichée car bien que je n'en comprenne qu'à peine la moitié, j'ai pourtant du, dans cet article et celui de loi normale, corriger plusieurs erreurs que mes collègue spécialistes avaient tranquillement laissé passer (voir#Relecture souhaitée et #A vérifier (bis). Préférer un article incompréhensible et faux, à un article élémentaire et juste, ou transformer l'article élémentaire et juste en un nouvel article incompréhensible et technique est un choix éditorial que je ne partage pas mais, comme je m'éloigne progressivment de WP, cela n'a pas une grande importance. HB (discuter) 15 mars 2019 à 07:51 (CET)
- Je pense que tout le monde reste convaincu de la pertinence de deux articles. Enfin en tous cas moi je le suis. et je n'ai rien contre le titre ajustement affine car l'article traite justement d'ajustement affine. Le problème d'appeler droite de régression l'article au lieu d'ajustement affine, c'est que alors la différence entre les deux articles à de gros risques de s'estomper, je pense. Il y existe en anglais l'article suivant Régression linéaire simple (en). Mais où il fait l'hypothèse suivante « It is common to make the additional stipulation that the ordinary least squares method should be used: the accuracy of each predicted value is measured by its squared residual (vertical distance between the point of the data set and the fitted line), and the goal is to make the sum of these squared deviations as small as possible. Other regression methods that can be used in place of ordinary least squares include least absolute deviations (minimizing the sum of absolute values of residuals) and the Theil–Sen estimator (which chooses a line whose slope is the median of the slopes determined by pairs of sample points). ... The remainder of the article assumes an ordinary least squares regression. »
- Ce que ne fait pas notre article, d'où le fait que les articles ne sont pas liés. --Huguespotter (discuter) 15 mars 2019 à 08:53 (CET)
- Je vois que tout le monde est en train de s'énerver au sujet d'une décision que j'ai prise il y a 5 ans et que j'ai expliqué sur cette même page de discussion (il suffit de lire #Création de l'article ajustement affine) : exfiltrer de cet article réservé à des connaisseurs la partie élémentaire en lui donnant son nom élémentaire. J'ai aussi rappelé cette décision lors d'une discussion que j'avais initiée sur le thé il y a deux ans Projet:Mathématiques/Le Thé/Archives 21#Régression linéaire dans laquelle on retrouve les mêmes participants qu'ici. Inutile de s'écharper pour cela.Revenez à la situation ante-bellum (même si je reste persuadée que refuser de tenir compte du niveau de math de nos lecteurs est une grave erreur). Je suis de tout façon effarée de l'ambition affichée par ces articles de stat-proba. Je parle seulement d'ambition affichée car bien que je n'en comprenne qu'à peine la moitié, j'ai pourtant du, dans cet article et celui de loi normale, corriger plusieurs erreurs que mes collègue spécialistes avaient tranquillement laissé passer (voir#Relecture souhaitée et #A vérifier (bis). Préférer un article incompréhensible et faux, à un article élémentaire et juste, ou transformer l'article élémentaire et juste en un nouvel article incompréhensible et technique est un choix éditorial que je ne partage pas mais, comme je m'éloigne progressivment de WP, cela n'a pas une grande importance. HB (discuter) 15 mars 2019 à 07:51 (CET)
- Mais pourquoi diable vouloir à tout prix titrer par l'expression « ajustement affine » qui : (1) prête tout de même à confusion ; (2) est faussement générale puisque dès la première phrase on limite le sujet à l'obtention d'une droite (et non, par exemple, à celle d'un plan ou d'un hyperplan) ; (3) est largement moins utilisée (38 000 résultats selon Google) que « droite de régression » (133 000 résultats, ici) ; (4) n'a pas à ma connaissance de correspondance dans d'autres langues comme l'anglais ou l'espagnol, contrairement à la traduction littérale de « droite de régression » ? — Ariel (discuter) 15 mars 2019 à 07:20 (CET)
- Eh bien l’ajustement affine n’est pas synonyme de régression linéaire. Je suis tout à fait d’accord que dans le cadre de la régression linéaire, c’est la linéarité des paramètres qui importe, et qu’il ne faut pas utiliser l’expression « ajustement affine » pour « régression linéaire », mais cela n’invalide pas l’existence d’un article « ajustement affine », dont le propos est de traiter l’ajustement affine, et pas la régression linéaire. Ambigraphe, le 14 mars 2019 à 17:15 (CET)
- Parce qu'« ajustement linéaire » est utilisé comme synonyme de « régression linéaire », et qu'« ajustement affine » laisse penser que la relation est affine vis-à-vis des paramètres. D'autre part, parce que l'expression « ajustement affine » me paraît peu employée pour désigner l'optimisation d'une droite dans un diagramme x-y alors que « droite de régression » est super-classique (au moins dans les domaines où je lis beaucoup ; on dit aussi least-square line (« droite des moindres carrés »), qui ne se limite pas au cas linéaire classique). Enfin, la raison essentielle qui justifie l'existence de deux pages distinctes est que la régression linéaire est tout un monde et que la recherche d'une droite de régression en est tout un autre, avec comme seule intersection des deux ensembles l'ajustement d'une droite quand les incertitudes expérimentales ne portent que sur les . — Ariel (discuter) 14 mars 2019 à 12:43 (CET)
Bandeau
modifierLe bandeau apposé en 2016 demandant des vérifications ne me semble plus d'actualité. Et s'il l'est, quel est la liste des points à vérifier ? Lacaravannepasse (discuter) 20 mars 2023 à 18:01 (CET)
- Je l'enlève pour le moment, s'il y a toujours des critiques par rapport à l'article, il n'y aura qu'à le remettre D Cat laz (discuter) 28 juin 2024 à 10:13 (CEST)
première ligne
modifier"En statistiques, en économétrie et en apprentissage automatique, un modèle de régression linéaire est un modèle de régression qui cherche à établir une relation linéaire entre une variable, dite expliquée, et une ou plusieurs variables, dites explicatives."
Pourquoi en économétrie ? Statistiques c'est la discipline, qui peut s'appliquer dans tous les domaines, économétrie c'est un domaine. C'est comme de dire : "en statistiques, en biologie, un modèle de régression" oui bon c'est en statistiques et la biologie, ou l'économétrie, ou n'importe quel domaine, autant enlever économétrie
Quant à l'apprentissage automatique, il utilise de la statistique en s'appropriant son langage pour ce qui est de la régression. Non ?
Parce que ce début de texte, ça fait très : "en statistiques, dans le monde financier, et dans le monde de l'IA...", oui enfin dans la vie en général dès qu'on a trois données (x_i,y_i), peut importe le domaine, on peut tracer une droite (ou un hyperplan) Y a pas que l'économie et l'IA ! Aurelien vdd (discuter) 13 octobre 2024 à 18:34 (CEST)
- J'en suis d'accord, je n'ai laissé que « En statistiques ». En revanche la régression linéaire, comme d'autres régressions, n'est pas employée que dans un contexte statistique. Quand en sciences une variable est supposée dépendre linéairement d'une autre, et qu'on mesure différentes instances du couple, on effectue aussi une régression linéaire alors que les deux variables ne sont pas des variables statistiques (leurs erreurs de mesure peut-être, en revanche). — Ariel (discuter) 13 octobre 2024 à 21:56 (CEST)
- Je n’ai pas compris. Dès lors qu’on réalise une série de mesures, il s’agit de statistique. Ambigraphe, le 14 octobre 2024 à 12:19 (CEST)
- Bonjour Ambigraphe . Si l'on mesure par exemple les rapports isotopiques 87Sr/86Sr et 87Rb/86Sr dans les différents minéraux d'une roche (une mesure de chacun des deux rapports dans chacun des minéraux) afin, grâce à une régression linéaire, d'en déduire quand elle a subi un épisode de métamorphisme (datation rubidium-strontium), il n'y a pas trace d'une statistique concernant les mesures (ce serait ridicule de chercher une statistique des propriétés de minéraux complètement différents). En vérité les probabilités — plutôt que les statistiques — interviennent bien (pour chaque mesure, généralement considérée comme gaussienne avec un écart type dépendant des conditions de la mesure), mais la recherche d'un âge ne ressortit pas au champ des statistiques, plutôt à celui de la modélisation. — Ariel (discuter) 14 octobre 2024 à 13:05 (CEST)
- Je ne comprends toujours pas. Je ne dis pas que tu as tort, je ne comprends juste pas pourquoi tes mesures ne ressortiraient pas de la statistique. Est-ce que tu veux dire que si tes mesures ne dérivent pas d’une même loi de probabilité (c’est-à-dire si elles ne correspondent pas à un échantillon au sens des probabilités), il ne s’agit pas de statistique ? Qu’est-ce qui fait sortir ton exemple de la définition de la statistique dans le RI de l’article dédié (plutôt bien faite à mon avis, à l’exception de l’ambitieux objectif « les rendre compréhensibles par tous ») ? Ambigraphe, le 17 octobre 2024 à 21:02 (CEST)
- Bonjour,
- dans votre exemple avec les rapports isotopiques, où la régression linéaire intervient-elle ? L'ensemble des rapports 87/86 constitue une première variable, quelle est la deuxième ?
- Je crois que vous vous compliquez inutilement le raisonnement. Il est communément admis dans les ouvrages de statistiques, je pourrais citer au hasard Verbeke, G. and Molenberghs, G. (2000), que la régression fait partie du champ d'études de ce qu'on a coutume d'appeler statistiques.
- La différence statistiques/probabilités, en gros c'est la différence entre opérations sur des données quantitatives et théorie de la mesure https://fr.wiki.x.io/wiki/Th%C3%A9orie_de_la_mesure.
- Le terme modélisation désigne plutôt un objectif et pas tant une discipline en soit, quoique le langage est assez souple. On pourrait faire une régression à but purement curieux, lors d'une recette de cuisine, entre la taille de muffins et la quantité de levure qu'on a mis initialement dans chacun d'eux. Est-ce de la modélisation ? Je dirais : oui si on passe plus de temps à faire des maths que de la cuisine. :) Aurelien vdd (discuter) 27 novembre 2024 à 23:14 (CET)
- ps : j'ai survolé l'article sur la datation, j'ai bien l'impression qu'il s'agit bien d'une régression entre x et y, où x = 87Sr/86Sr et et y = 87Rb/86Sr. Je me permets d'ajouter par rapport à votre remarque : même si la corrélation entre les deux était quasi-nulle, il s'agirait tout de même d'une statistique. En fait il faut différencier l'interprétation et la nature mathématique des objets. Aurelien vdd (discuter) 27 novembre 2024 à 23:20 (CET)
- Je ne comprends toujours pas. Je ne dis pas que tu as tort, je ne comprends juste pas pourquoi tes mesures ne ressortiraient pas de la statistique. Est-ce que tu veux dire que si tes mesures ne dérivent pas d’une même loi de probabilité (c’est-à-dire si elles ne correspondent pas à un échantillon au sens des probabilités), il ne s’agit pas de statistique ? Qu’est-ce qui fait sortir ton exemple de la définition de la statistique dans le RI de l’article dédié (plutôt bien faite à mon avis, à l’exception de l’ambitieux objectif « les rendre compréhensibles par tous ») ? Ambigraphe, le 17 octobre 2024 à 21:02 (CEST)
- Bonjour Ambigraphe . Si l'on mesure par exemple les rapports isotopiques 87Sr/86Sr et 87Rb/86Sr dans les différents minéraux d'une roche (une mesure de chacun des deux rapports dans chacun des minéraux) afin, grâce à une régression linéaire, d'en déduire quand elle a subi un épisode de métamorphisme (datation rubidium-strontium), il n'y a pas trace d'une statistique concernant les mesures (ce serait ridicule de chercher une statistique des propriétés de minéraux complètement différents). En vérité les probabilités — plutôt que les statistiques — interviennent bien (pour chaque mesure, généralement considérée comme gaussienne avec un écart type dépendant des conditions de la mesure), mais la recherche d'un âge ne ressortit pas au champ des statistiques, plutôt à celui de la modélisation. — Ariel (discuter) 14 octobre 2024 à 13:05 (CEST)
- Je n’ai pas compris. Dès lors qu’on réalise une série de mesures, il s’agit de statistique. Ambigraphe, le 14 octobre 2024 à 12:19 (CEST)