Adatbányászat K-Means fürtözéssel

A k- a klaszterezési algoritmus egy olyan adatbányászati és gépi tanulási eszköz, amelyet a megfigyelések csoportosítására használnak a kapcsolódó megfigyelések csoportjaihoz, anélkül, hogy ismereteket szereztek volna ezekről a kapcsolatokról. A mintavételezés során az algoritmus megpróbálja megmutatni, melyik kategóriába vagy klaszterbe tartoznak az adatok, a klaszterek számát az érték k.

A k- azt jelenti, hogy az algoritmus az egyik legegyszerűbb klaszterezési technika, és gyakran használják orvosi képalkotás, biometria és kapcsolódó területeken. Az előnye k- a klaszterezés az, hogy az adatokról (felügyelet nélküli formájáról) szólal meg, nem pedig az algoritmusról az algoritmus felügyeleti formájának használatával.

Ezt néha Lloyd's algoritmusaként említik, különösen a számítástechnikai körökben, mivel a szabványos algoritmust először 1957-ben Stuart Lloyd javasolta. A "k-eszköz" kifejezést James McQueen 1967-ben kitalálták.

A K-Means algoritmus függvényei

A k- Az algoritmus egy olyan evolúciós algoritmus, amely a működési módjától származik. Az algoritmus klasztereket veszi észre k csoportok, hol k bemeneti paraméterként szolgál. Ezután minden megfigyelést klaszterekhez hozzárendel a megfigyelés közelségében a klaszter átlagához viszonyítva. A klaszter átlagát ezután újraszámítjuk, és a folyamat újra elindul. Így működik az algoritmus:

Az algoritmus önkényesen kiválasztja k mint a kezdeti klaszterközpontok (az eszközök).
Az adatkészlet egyes pontjai a zárt klaszterhez vannak hozzárendelve az egyes pontok és az egyes klaszterközpontok közötti euklideszi távolság alapján.
Minden egyes klaszterközpont újracsomagolja az adott klaszter pontjai átlagaként.
A 2. és a 3. lépést addig ismételjük, amíg a klaszterek nem konvergálnak. A konvergencia a végrehajtástól függően másképpen definiálható, de általában azt jelenti, hogy sem a megfigyelések nem változtatják meg a klasztereket, ha a 2. és 3. lépést megismétlik, vagy hogy a változások nem teszik lényeges különbséget a klaszterek definíciójában.

A klaszterek számának kiválasztása

Az egyik fő hátránya a k- a klaszterezés jelenti azt a tényt, hogy meg kell adnia a klaszterek számát, mint bemenetet az algoritmusnak. A tervezett módon az algoritmus nem képes meghatározni a megfelelő számú klasztert, és a felhasználótól függ, hogy ezt előre meg tudja határozni.

Például, ha olyan embercsoport lenne, amelyet a bináris nemi identitás alapján csoportosítani kell, mint férfi vagy nő, k- a bemenetet használó algoritmust jelenti k = 3 az embereket három klaszterre kényszerítenék, amikor csak kettő, vagy pedig egy k = 2, természetesbb illeszkedést biztosítana.

Hasonlóképpen, ha az egyének egy csoportja könnyedén csoportosulna az otthoni állapot alapján, és az úgynevezett k- a bemenettel algoritmust jelent k = 20, az eredmények túlságosan általánosak lehetnek ahhoz, hogy hatékonyak legyenek.

Ezért gyakran érdemes kísérletezni különböző értékekkel k hogy azonosítsa az adatoknak leginkább megfelelő értéket. Azt is szeretné felfedezni más adatbányászati algoritmusok használatát a gép által megtanult tudás terén.