G

ジニ不純度

ジニ不純度はデータセットの不純度を測定し、主に決定木アルゴリズムで分割の評価に使用されます。

Gini Impurity is a statistical measure that quantifies the impurity or disorder in a dataset. It is commonly 機械学習で使用される, particularly in the construction of decision trees, to determine how well a split separates classes in classification ジニ不純度は次の式を用いて計算されます:

Gini = 1 – ∑(pi

where pi represents the proportion of instances belonging to class i. The value of Gini Impurity ranges from 0 to 1, where:

  • 0 完全に純粋なデータセット(すべてのインスタンスが単一のクラスに属する)を示し、
  • 1 最大の不純度(インスタンスがクラス間で均等に分散している)を示します。

In practice, Gini Impurity is calculated for each possible split in the dataset. The split that results in the lowest Gini Impurity is chosen, as it implies that the resulting child nodes are more homogeneous compared to the 親ノード. This measure is favored for its 計算効率 and its ability to encourage diversity among the classes in the resulting splits.

全体として、ジニ不純度は 決定木アルゴリズムにおいて重要な概念です, contributing to the model’s ability to classify data effectively and accurately.

コントロール + /