Quelle est la différence entre l'impureté de Gini et l'entropie dans l'arbre de décision?


Réponse 1:

L'impureté de Gini et l'entropie sont ce qu'on appelle un critère de sélection pour les arbres de décision. Essentiellement, ils vous aident à déterminer ce qu'est un bon point de partage pour les nœuds racine / décision sur les arbres de classification / régression (les exemples ci-dessous sont sur un arbre de classification). Les arbres de décision se divisent sur l'entité et le point de partage correspondant qui se traduit par le plus grand gain d'informations (IG) pour un critère donné (gini ou entropie dans cet exemple). En gros, nous pouvons définir le gain d'informations comme

IG = informations avant le fractionnement (parent) - informations après le fractionnement (enfants)

Pour une meilleure compréhension des parents et des enfants, consultez l'arbre de décision ci-dessous.

Une formule plus appropriée pour la formule de gain d'informations est ci-dessous.

Étant donné que les arbres de classification ont des divisions binaires, la formule peut être simplifiée dans la formule ci-dessous.

Deux critères communs I, utilisés pour mesurer l'impureté d'un nœud sont l'indice de Gini et l'entropie.

Pour mieux comprendre ces formules, l'image ci-dessous montre comment le gain d'informations a été calculé pour un arbre de décision avec le critère de Gini.

L'image ci-dessous montre comment le gain d'informations a été calculé pour un arbre de décision avec entropie.

Je ne vais pas entrer dans les détails à ce sujet car il convient de noter que différentes mesures d'impuretés (indice de Gini et entropie) donnent généralement des résultats similaires. Le graphique ci-dessous montre que l'indice de Gini et l'entropie sont des critères d'impureté très similaires. Je suppose que l'une des raisons pour lesquelles Gini est la valeur par défaut dans scikit-learn (bibliothèque Python) est que l'entropie peut être un peu plus lente à calculer (car elle utilise un logarithme).

Différentes mesures d'impuretés (indice de Gini et entropie) donnent généralement des résultats similaires. Merci à Data Science StackExchange et Sebastian Raschka pour l'inspiration pour ce graphique.

Si vous souhaitez en savoir plus sur le fonctionnement des arbres de décision, n'hésitez pas à cliquer ici pour en savoir plus.


Réponse 2:

Deux mesures pour choisir comment diviser un arbre. La mesure de Gini est la probabilité qu'un échantillon aléatoire soit classé incorrectement si nous choisissons au hasard une étiquette selon la distribution dans une branche.

L'entropie est une mesure de l'information (ou plutôt de son absence). Vous calculez le gain d'informations en effectuant une scission. Quelle est la différence d'entripies. Cela mesure comment vous réduisez l'incertitude sur l'étiquette.

Voir:

https: //en.m.wikipedia.org/wiki / ...