Clustering est une technique d' apprentissage machine fonctionne en regroupant des données similaires. Le clustering est un type d' apprentissage machine sans surveillance. L'algorithme n'a pas besoin d' être «formés» et peut regrouper des données dans des ensembles cohérents avec une notion " préconçu " de ce qui appartient ensemble. Cela diffère des systèmes d'apprentissage machine supervisé qui doivent être «formés» aux données de l'étiquette correctement . Clustering est principalement utilisé comme un mécanisme de reconnaissance des formes informatiques. Des algorithmes génératifs ou Probabilité

algorithmes de clustering à base génératives ou la probabilité tentent de classer des ensembles de données comme une sorte de répartition connue , un groupement commun de données numériques . Ce type d' algorithme peut être utilisé uniquement sur des données numériques . Algorithmes génératifs sont livrés avec plusieurs mises en garde. Le problème peut être insoluble si les données est autorisé à varier trop librement . Algorithmes génératifs supposent également que les données incarne une distribution connue , ce qui n'est pas toujours vrai . Ces types d'algorithmes font également pas compte de «bruit» dans les données.
K- means

K- means a été l'une des premières méthodes de classification à être développées. Il est simple à mettre en œuvre, mais il a l'inconvénient d'être extrêmement sensible à ses entrées de départ. K-means œuvres de clustering en divisant les données en un ensemble aléatoire de grappes , puis recalculer les points médians de chaque groupe et répéter le processus jusqu'à ce qu'il n'y a qu'un seul cluster. C'est ce qu'on appelle la convergence.
Fuzzy Clustering

lieu de données identifiant comme appartenant à des groupes spécifiques , les tentatives de classification floue pour déterminer la mesure dans laquelle un ensemble de données point appartient à un groupe . Les algorithmes qui sont utilisés pour faire classification floue sont connus comme " C- moyens algorithmes. " Dans l'approche de classification floue , un point de données peut appartenir à plus d'un groupe . Ce type de regroupement est utile lorsque les points de données peuvent avoir besoin d'appartenir à plus d'un groupe .
Agglomératif Clustering

groupement agglomératif a été l'un des premiers algorithmes de clustering pour être développé . Il reste en cours d'utilisation , car il est aussi l'un des algorithmes simples développés à ce jour. Classification Ascendante fonctionne en traitant chaque point de données individuel en tant que groupe et le regroupement avec le point de données le plus proche . Ce processus est répété jusqu'à ce que les données « converge », ou il ya un grand cluster contenant toutes les données . Le processus peut également être fait en sens inverse dans le même sens . En commençant par un cluster, toutes les données peuvent être divisés à plusieurs reprises jusqu'à ce que chaque point de données est son propre cluster.

Article précédent： Comment convertir les caractères non -ASCII dans Python
Article suivant： Comment déplacer VARCHAR2 à NCLOB