Quelle est la différence fondamentale entre la crête et la régression la moins carrée?


Réponse 1:

Dans les moindres carrés, vous signalez simplement la solution qui donne la plus petite somme d'erreurs au carré.

Dans Ridge, vous minimisez la somme des erreurs au carré plus une «pénalité» qui est la somme des coefficients de régression, multipliée par un facteur d'échelle de pénalité. La conséquence de ceci est que Ridge «rétrécira» les coefficients vers zéro, c'est-à-dire at a une préférence pour les coefficients proches de zéro.


Réponse 2:

Régression linéaire

La régression est une technique utilisée pour modéliser et analyser les relations entre les variables et souvent comment elles contribuent et sont liées à la production d'un résultat particulier ensemble.

Une régression linéaire fait référence à un modèle de régression entièrement composé de variables linéaires. À partir du cas simple, la régression linéaire à variable unique est une technique utilisée pour modéliser la relation entre une seule variable indépendante d'entrée (variable caractéristique) et une variable dépendante de la sortie à l'aide d'un modèle linéaire, c'est-à-dire une ligne.

Le cas le plus général est la régression linéaire à variables multiples où un modèle est créé pour la relation entre plusieurs variables d'entrée indépendantes (variables de fonction) et une variable dépendante de la sortie. Le modèle reste linéaire dans la mesure où la sortie est une combinaison linéaire des variables d'entrée. Nous pouvons modéliser une régression linéaire à variables multiples comme suit:

Y = a_1 * X_1 + a_2 * X_2 + a_3 * X_3 ……. a_n * X_n + b

Où a_n sont les coefficients, X_n sont les variables et b est le biais. Comme nous pouvons le voir, cette fonction n'inclut aucune non-linéarité et ne convient donc que pour la modélisation de données séparables linéairement. C'est assez facile à comprendre car nous pesons simplement l'importance de chaque variable caractéristique X_n en utilisant les coefficients de pondération a_n. Nous déterminons ces poids a_n et le biais sous-jacent à une descente de gradient stochastique (SGD). Consultez l'illustration ci-dessous pour une image plus visuelle!

Illustration de la façon dont Gradient Descent trouve les paramètres optimaux pour une régression linéaire

Quelques points clés sur la régression linéaire:

  • Rapide et facile à modéliser et est particulièrement utile lorsque la relation à modéliser n'est pas extrêmement complexe et si vous n'avez pas beaucoup de données.Très intuitif à comprendre et à interpréter.La régression linéaire est très sensible aux valeurs aberrantes.

Régression de crête

Une régression linéaire ou polynomiale standard échouera dans le cas où il y a une colinéarité élevée entre les variables de caractéristique. La colinéarité est l'existence de relations quasi linéaires entre les variables indépendantes. La présence d'une colinéarité élevée peut être déterminée de différentes manières:

  • Un coefficient de régression n'est pas significatif même si, en théorie, cette variable doit être fortement corrélée avec Y.Lorsque vous ajoutez ou supprimez une variable de caractéristique X, les coefficients de régression changent considérablement.Vos variables de caractéristique X ont des corrélations par paires élevées (vérifiez la matrice de corrélation) .

Nous pouvons d'abord examiner la fonction d'optimisation d'une régression linéaire standard pour avoir un aperçu de la façon dont la régression de crête peut aider:

min || Xw - y || ²

Où X représente les variables caractéristiques, w représente les poids et représente la vérité fondamentale. La régression de crête est une mesure corrective prise pour atténuer la colinéarité entre les variables prédictives de régression dans un modèle. La colinéarité est un phénomène dans lequel une variable caractéristique d'un modèle de régression multiple peut être prédite linéairement à partir des autres avec un degré de précision substantiel. Étant donné que les variables caractéristiques sont ainsi corrélées de cette façon, le modèle de régression final est assez restreint et rigide dans son approximation, c'est-à-dire qu'il présente une variance élevée.

Pour atténuer ce problème, Ridge Regression ajoute un petit facteur de biais au carré aux variables:

min || Xw - y || ² + z || en || ²

Un tel facteur de biais au carré éloigne les coefficients variables de caractéristique de cette rigidité, introduisant une petite quantité de biais dans le modèle mais réduisant considérablement la variance.

Quelques points clés sur Ridge Regression:

  • Les hypothèses de cette régression sont les mêmes que celles de la régression la moins carrée, sauf que la normalité n'est pas à supposer. Elle réduit la valeur des coefficients mais n'atteint pas zéro, ce qui suggère qu'aucune caractéristique de sélection de caractéristique