Segmentation d'une population en groupes homogènes
|
Dans le marketing envoyer un message ciblé à une population ciblée est toujours ce qui donne les meilleurs résultats.
En gestion regrouper les pièces en familles permet d'en améliorer le traitement.
Dans l'atelier, regrouper les outils de presse en fonction de leur taille va pouvoir aider à la conception de cales pour standardiser leurs hauteurs. Cette standardisation permet de diminuer les temps de changements d'outils dans le cadre de la méthode SMED
le graphique suivant représente un exemple en deux dimensions. Le point rouge représente le centre de gravité du nuage. Les groupes sont encerclés. Le centre de gravité de chaque groupe est représenté par un point vert. Les traits verts représentent la dispersion de chaque groupe. Les traits bleus représentent la dispersion entre les groupes. Une bonne classification minimisera les traits verts tout en maximisant les traits bleus. Le principe consiste à initialiser les groupes de façon simple. Puis on fait varier un élément d'un groupe à un autre. Si la modification améliore la segmentation on la valide. On fait plusieurs initialisations pour trouver la meilleure solution (possibilité de minimum local).
Statistiquement la somme des longueurs vertes au carré pour un groupe sera appelée variance intra classe. De même la somme des longueurs bleues au carré (pondérées par rapport au nombre d'éléments de chaque groupe) sera appelée variance interclasses. La somme de ces deux variances donne la variance totale : somme des longueurs entre chaque point et le point rouge au carré.
Comme les traits bleus et les traits verts sont liés, pour augmenter le rapport variance interclasses / variance intraclasses il suffit de diminuer la variance intraclasse.
Cette statistique peut être généralisée pour plusieurs variables sous réserve de les ramener à des échelles comparables. Par exemple en les réduisant (division par l'écart-type). Dans le cas contraire si une variable contient le salaire et l'autre l'age on aura des échelles disproportionnées ce qui rendra invisible le rôle de l'age dans les résultats et n'en tiendra pas compte dans la segmentation.
Ici la représentation est moins aisée mais le principe est le même. J'ai représenté l'inertie intraclasse par des surfaces vertes, le but est de diminuer ces surfaces.
Ce qui est évident c'est qu'il ne faut pas que les groupes se chevauchent sinon une surface double se crée.
Dans l'animation on voit que certaines fois, en passant d'une étape à une autre la surface verte augmente et que donc l'algorithme se serait arrêté : c'est la présence de minima locaux présentée plus haut. Pour contrer ce phénomène et obtenir une bonne solution il faut faire plusieurs essais avec une initialisation différente à chaque fois.
La classification suivant une seule variable permet de trier un tableau de chiffres et de le segmenter. L'affectation de couleurs aux cellules de même classe va permettre de les visualiser et ainsi de prendre des décisions :
Pour ce faire j'ai conçu un classeur pouvant faire une colorisation de base (en classes égales). Il vérifie la normalité de la distribution par le test du khi2 et le test de Kolmogorov-Smirnov. Puis si vous le demandez, il modifie l'affectation des couleurs aux cellules avec l'algorithme vu ci-dessus.
Pour télécharger un classeur Excel permettant de colorier une zone, vérifier la normalité et améliorer la segmentation utilisez le système ci-dessous. C'est un outil de micro-paiement qui, en vous faisant appeler un numéro surtaxé vous permet d'obtenir un code d'accès au document pour moins de deux euros. Cela m'aide un peu afin de rentabiliser la maintenance de mon site merci. Le document chargé est modifiable, les macros sont visibles et il ne contient aucun mot de passe.
Entrez votre code d'accès - Enter your access code |
En plus des réalisations présentées sur ce site regardez mes références de réalisations professionnelles ainsi que mes coordonnées et mon CV format Word.