Jak prawidłowo wybrać algorytm klastrowania?

By Weronika Skotnicka

Algorytmy klastrowania obejmują klastrowanie hierarchiczne i klastrowanie oparte na centroidach. I algorytm maksymalnych oczekiwań, algorytm grupowania oparty na gęstości. Każdy ma swoje zalety i wady. Są używane w różnych środowiskach pracy. Wybór odpowiedniego algorytmu grupowania nie jest łatwy. Poniżej przedstawiono na tym etapie cztery główne algorytmy klastrowania.

1. Grupowanie oparte na łączności lub hierarchiczne

Metoda grupowania oparta na obliczaniu odległości między obiektami w całym zbiorze danych. Jest to klastrowanie oparte na łączności lub klastrowanie hierarchiczne. Zgodnie z „kierunkiem” algorytmu może łączyć informacje. I z kolei może rozkładać informacje. Najpopularniejszym typem jest typ klastra. Możesz zacząć od wprowadzenia wszystkich danych, a następnie połączyć te punkty danych. Stań się coraz większymi klastrami, aż do osiągnięcia limitu.

Hierarchiczny algorytm grupowania zwróci dane drzewa. Schemat drzewa przedstawia strukturę informacji. Zamiast konkretnego sortowania w klastrze. Ten algorytm nie jest odpowiedni dla zestawów danych bez hierarchii. Z domyślnej kategorii do wszystkich punktów danych. Liczba kategorii nie będzie miała istotnego wpływu na wynik końcowy. Nie wpływa również na domyślną metrykę odległości. Pomiar przybliżony i przybliżone oszacowanie uzyskują jego metrykę odległości.

2. Klastrowanie centroidu

Grupowanie centroidów jest najczęstszym modelem grupowania. Jego działanie jest proste. Dzieli każdy z gatunków zbioru danych na określone kategorie. Największym problemem jest to, że liczba skupień (k) jest dobierana losowo.

Matematyka i kod algorytmu grupowania centroidów są dość proste. Jego k-średnia ma pewne wady. Nie dotyczy wszystkich modeli. Jego wady są następujące.

1) Ustaw priorytet na środek klastra, a nie na granicę. Tak więc granica każdego klastra jest łatwo pomijana.

2) Nie można utworzyć struktury zbioru danych. Jego obiekty można podzielić na różne kategorie w wielu klastrach.

3) Musisz odgadnąć najlepszą liczbę kategorii (k). Lub wymagane jest wstępne obliczenie, aby określić tę rubrykę.

3. Algorytm maksymalizacji oczekiwań

Algorytm maksymalizacji oczekiwań pozwala uniknąć niektórych skomplikowanych sytuacji. Zapewnia większą dokładność. Oblicza powiązane prawdopodobieństwo każdego punktu zbioru danych ze wszystkimi określonymi klastrami. Głównym narzędziem wykorzystywanym w tym modelu grupowania jest Gaussian Mixture Model (GMM). Załóżmy, że punkty zbioru danych są zgodne z rozkładem Gaussa.

4. Klastrowanie na podstawie gęstości danych

Klastrowanie oparte na gęstości danych jest ulubieńcem naukowców zajmujących się danymi. Nazwa algorytmu pokazuje główne punkty modelu. Podziel zestaw danych na klastry. Licznik wprowadzi parametr ε, czyli odległość „sąsiada”. Tak więc, jeśli punkt docelowy leży w okręgu (kuli) o promieniu ε, należy do gromady.

Przestrzenne klastrowanie aplikacji na podstawie gęstości z szumem, określane jako DBSCAN. DBSCAN sprawdzi każdy obiekt krok po kroku. Zmień jego status na Widok. Podziel go na określone kategorie lub dźwięki. Dopóki nie przetworzy całego zestawu danych. Klastry wyznaczone przez DBSCAN mogą mieć dowolny kształt. Uzyskane w ten sposób wyniki będą dokładniejsze. Uzyskany w ten sposób wynik będzie dokładniejszy. Ten algorytm nie wymaga ręcznego ustawiania liczby klastrów. Algorytm może decydować automatycznie.

DBSCAN ma pewne wady. Jeśli zestaw danych składa się z klastrów o zmiennej gęstości, wyniki są słabe. Jeśli lokalizacja obiektu jest zbyt blisko, a parametry nie mogą być łatwo oszacowane. To nie jest dobry wybór.

Powyższe wprowadza cztery główne algorytmy klastrowania. Każdy z nich ma swoją pewność. Mam nadzieję, że możesz wybrać algorytm, który Ci odpowiada.