Quelle est la différence intuitive entre l'analyse discriminante linéaire et une machine à vecteur de support linéaire?


Réponse 1:

Ils sont presque différents.

LDA est utilisé pour réduire la dimensionnalité des vecteurs de caractéristiques. C'est comme un prétraitement avant la classification. Après réduction, les distances des entités entre les différentes classes seront plus grandes. Les distances des entités des mêmes classes seront plus petites. Ainsi, LDA est utile pour une classification ultérieure.

SVM est une approche d'apprentissage supervisé qui peut être utilisée pour la classification et la régression. En classification, il peut séparer les exemples de différentes classes avec une marge maximale.

Pour plus d'informations sur LDA et SVM, recherchez-les simplement sur google.


Réponse 2:

A2A.

Mostofsupervisedmachinelearningcanbelookedatusingthefollowingframework:Youhaveasetoftrainingpoints(xi,yi),andyouwanttofindafunction[math]f[/math]that"fitsthedatawell",thatis,[math]yif(xi)[/math]formost[math]i[/math].Most of supervised machine learning can be looked at using the following framework: You have a set of training points (x_i, y_i), and you want to find a function [math]f[/math] that "fits the data well", that is, [math]y_i \approx f(x_i)[/math] for most [math]i[/math].

Vous commencerez par faire ce qui suit:

  • Definetheformoff.Forinstance,wecandefine[math]f=wx+b[/math],forsomeconstants[math]w[/math]and[math]b[/math].Notethatthisisasetoffunctionsfordifferentvaluesof[math]w[/math]and[math]b[/math],youwillgetdifferentfunctions[math]f[/math],andyouwanttofindan[math]f[/math]fromthissetthatdoesthebest.Asyoumighthavenoticed,wehavebeentalkingaboutthisnotionofbest,whichisilldefineduptothispoint.So,weneedtomakethismoreconcrete.Thegoalhere,asstatedabove,istohave[math]yif(xi)[/math]formost[math]i[/math].Define the form of f. For instance, we can define [math]f = wx + b[/math], for some constants [math]w[/math] and [math]b[/math]. Note that this is a set of functions — for different values of [math]w[/math] and [math]b[/math], you will get different functions [math]f[/math], and you want to find an [math]f[/math] from this set that does the “best”.As you might have noticed, we have been talking about this notion of “best”, which is ill-defined up to this point. So, we need to make this more concrete. The goal here, as stated above, is to have [math]y_i \approx f(x_i)[/math] for most [math]i[/math].

Les deux étapes ci-dessus définissent respectivement la classe de fonction et la fonction de perte.

Selon la façon dont vous choisissez votre classe de fonction et la fonction de perte, vous obtenez différents modèles d'apprentissage supervisé [ou même des modèles d'apprentissage non supervisés]:

  • Classe de fonction linéaire avec fonction de perte d'erreur quadratique - Régression linéaire Classe de fonction linéaire avec fonction de perte logistique - Régression logistique Classe de fonction linéaire avec perte de charnière - Classe SVMFunction contenant un réseau de neurones avec perte d'entropie croisée - Réseaux de neurones

etc.

Examinons de plus près SVM et LDA en utilisant ce cadre. De toute évidence, ils ont une classe de fonctions identique - l'ensemble de toutes les frontières de décision linéaires. La différence est donc due à la façon dont nous définissons le «meilleur».

InSVM,line1isbetterthanline[math]2[/math]ifthemarginof[math]1[/math]islarger,thatis,itisfartherfrombothclasses.In SVM, line \ell_1 is better than line [math]\ell_2[/math] if the “margin” of [math]\ell_1[/math] is larger, that is, it is farther from both classes.

Ainsi, dans l'image ci-dessus, la ligne noire est préférée à la ligne grise.

InLDA,youassumethatpointsbelongingtoeachclassdefineaGaussiandistribution.Aline1isbetterthanline[math]2[/math]ifsmallerfractionofthetwoGaussianslieonthewrongsideof[math]1[/math]comparedto[math]2[/math].In LDA, you assume that points belonging to each class define a Gaussian distribution. A line \ell_1 is better than line [math]\ell_2[/math] if smaller fraction of the two Gaussians lie on the wrong side of [math]\ell_1[/math] compared to [math]\ell_2[/math].

Dans l'image ci-dessus, les ellipses indiquent les distributions gaussiennes définies par les points bleu et rouge. La probabilité diminue à mesure que vous vous éloignez du centre; une couleur plus foncée correspond donc à une probabilité plus élevée.

Encore une fois, la ligne noire est préférée à la ligne grise, car il n'y a que de petites parties des zones de couleur claire du mauvais côté de la ligne noire, tandis que, pour la ligne grise, les parties plus sombres sont également du mauvais côté.

Ce qui précède donne également une autre différence:

  • Pour un SVM, seuls les points proches de l'autre classe [«vecteurs de support»] affectent la frontière de décision. La modification des points autres que ceux-ci ne modifie pas la frontière de décision. Pour LDA, la distribution des points affecte la frontière de décision. Ainsi, par exemple, si vous inversez les points rouges horizontalement ou verticalement de sorte que la zone ombrée rouge reste la même, vous obtiendrez la même limite de décision.

Réponse 3:

A2A.

Mostofsupervisedmachinelearningcanbelookedatusingthefollowingframework:Youhaveasetoftrainingpoints(xi,yi),andyouwanttofindafunction[math]f[/math]that"fitsthedatawell",thatis,[math]yif(xi)[/math]formost[math]i[/math].Most of supervised machine learning can be looked at using the following framework: You have a set of training points (x_i, y_i), and you want to find a function [math]f[/math] that "fits the data well", that is, [math]y_i \approx f(x_i)[/math] for most [math]i[/math].

Vous commencerez par faire ce qui suit:

  • Definetheformoff.Forinstance,wecandefine[math]f=wx+b[/math],forsomeconstants[math]w[/math]and[math]b[/math].Notethatthisisasetoffunctionsfordifferentvaluesof[math]w[/math]and[math]b[/math],youwillgetdifferentfunctions[math]f[/math],andyouwanttofindan[math]f[/math]fromthissetthatdoesthebest.Asyoumighthavenoticed,wehavebeentalkingaboutthisnotionofbest,whichisilldefineduptothispoint.So,weneedtomakethismoreconcrete.Thegoalhere,asstatedabove,istohave[math]yif(xi)[/math]formost[math]i[/math].Define the form of f. For instance, we can define [math]f = wx + b[/math], for some constants [math]w[/math] and [math]b[/math]. Note that this is a set of functions — for different values of [math]w[/math] and [math]b[/math], you will get different functions [math]f[/math], and you want to find an [math]f[/math] from this set that does the “best”.As you might have noticed, we have been talking about this notion of “best”, which is ill-defined up to this point. So, we need to make this more concrete. The goal here, as stated above, is to have [math]y_i \approx f(x_i)[/math] for most [math]i[/math].

Les deux étapes ci-dessus définissent respectivement la classe de fonction et la fonction de perte.

Selon la façon dont vous choisissez votre classe de fonction et la fonction de perte, vous obtenez différents modèles d'apprentissage supervisé [ou même des modèles d'apprentissage non supervisés]:

  • Classe de fonction linéaire avec fonction de perte d'erreur quadratique - Régression linéaire Classe de fonction linéaire avec fonction de perte logistique - Régression logistique Classe de fonction linéaire avec perte de charnière - Classe SVMFunction contenant un réseau de neurones avec perte d'entropie croisée - Réseaux de neurones

etc.

Examinons de plus près SVM et LDA en utilisant ce cadre. De toute évidence, ils ont une classe de fonctions identique - l'ensemble de toutes les frontières de décision linéaires. La différence est donc due à la façon dont nous définissons le «meilleur».

InSVM,line1isbetterthanline[math]2[/math]ifthemarginof[math]1[/math]islarger,thatis,itisfartherfrombothclasses.In SVM, line \ell_1 is better than line [math]\ell_2[/math] if the “margin” of [math]\ell_1[/math] is larger, that is, it is farther from both classes.

Ainsi, dans l'image ci-dessus, la ligne noire est préférée à la ligne grise.

InLDA,youassumethatpointsbelongingtoeachclassdefineaGaussiandistribution.Aline1isbetterthanline[math]2[/math]ifsmallerfractionofthetwoGaussianslieonthewrongsideof[math]1[/math]comparedto[math]2[/math].In LDA, you assume that points belonging to each class define a Gaussian distribution. A line \ell_1 is better than line [math]\ell_2[/math] if smaller fraction of the two Gaussians lie on the wrong side of [math]\ell_1[/math] compared to [math]\ell_2[/math].

Dans l'image ci-dessus, les ellipses indiquent les distributions gaussiennes définies par les points bleu et rouge. La probabilité diminue à mesure que vous vous éloignez du centre; une couleur plus foncée correspond donc à une probabilité plus élevée.

Encore une fois, la ligne noire est préférée à la ligne grise, car il n'y a que de petites parties des zones de couleur claire du mauvais côté de la ligne noire, tandis que, pour la ligne grise, les parties plus sombres sont également du mauvais côté.

Ce qui précède donne également une autre différence:

  • Pour un SVM, seuls les points proches de l'autre classe [«vecteurs de support»] affectent la frontière de décision. La modification des points autres que ceux-ci ne modifie pas la frontière de décision. Pour LDA, la distribution des points affecte la frontière de décision. Ainsi, par exemple, si vous inversez les points rouges horizontalement ou verticalement de sorte que la zone ombrée rouge reste la même, vous obtiendrez la même limite de décision.