La Indice de Jaccard, also known as the Similarité de Jaccard coefficient, is a statistical measure used to quantify the similarity between two sets. It is defined as the size of the intersection divided by the size of the union of the two sets. This index is particularly useful in various fields such as fouille de données, ecology, and apprentissage automatique.
Mathématiquement, l'indice de Jaccard (J) s'exprime comme suit :
J(A, B) = |A ∩ B| / |A ∪ B|
Où :
- |A ∩ B| est le nombre d'éléments communs aux deux ensembles A et B (l'intersection).
- |A ∪ B| est le nombre total d'éléments uniques dans les deux ensembles A et B (l'union).
La valeur de l'indice de Jaccard varie de 0 à 1. Un indice de Jaccard de 0 indique que les deux ensembles sont complètement disjoints (aucun élément commun), tandis qu'une valeur de 1 indique que les deux ensembles sont identiques. Les valeurs comprises entre 0 et 1 reflètent différents degrés de similarité.
Par exemple, si l'ensemble A contient les éléments {1, 2, 3} et l'ensemble B contient {2, 3, 4}, l'indice de Jaccard serait :
J(A, B) = |{2, 3}| / |{1, 2, 3, 4}| = 2 / 4 = 0,5
L'indice de Jaccard est largement utilisé dans algorithmes de clustering, systèmes de recommandation, and analyzing the diversity of species in ecological studies. Its simplicity and effectiveness make it a popular choice for assessing similarity, especially in binary data.