A besorolás egy olyan adatbányászati technika, amely kategóriákat rendel az adatgyűjteményhez a pontosabb előrejelzések és elemzések támogatása érdekében. Szint néven úgynevezett a Döntésfa , a besorolás egyike azon módszereknek, amelyek a nagyon nagy adatkészletek elemzését eredményezik.
Miért osztályozható?
Nagyon nagy adatbázisok válnak a normák a mai világban nagy adat . Képzelj el egy adatbázist több terabájtnyi adattal - egy terabájt egy billió bájt adat.
A Facebook önmagában 600 terabájtnyi új adatot dörömmöl minden nap (2014-től, amikor utoljára jelentette ezeket a specifikációkat). A nagy adatok elsődleges kihívása az, hogy hogyan lehet értelmezni.
A puszta hangerő azonban nem az egyetlen probléma: a nagy adatok változatosak, strukturálatlanok és gyorsan változóak. Figyelembe kell venni az audio- és videoadatokat, a közösségi médiafájlokat, a 3D-s adatokat vagy a térinformatikai adatokat. Ezeket az adatokat nem könnyű kategorizálni vagy szervezni.
Ennek a kihívásnak a kielégítésére számos, a hasznos információk kivonására szolgáló automatikus módszert fejlesztettek ki osztályozás .
A klasszifikáció működése
Annak veszélye, hogy túl messzire elmennek a tech-beszédben, beszéljünk arról, hogyan működik az osztályozás. A cél egy olyan osztályozási szabályok készítése, amelyek megválaszolják a kérdést, meghozzák a döntést vagy megjósolják a viselkedést. Az induláshoz olyan képzési adatok állnak rendelkezésre, amelyek bizonyos attribútumokat és valószínű eredményeket tartalmaznak.
Az osztályozási algoritmus feladata, hogy felfedezze, hogy az attribútumok halmaza eléri a következtetését.
Forgatókönyv: Talán egy hitelkártya-társaság igyekszik meghatározni, hogy melyik kilátónak kell hitelkártya-ajánlatot kapnia.
Ez lehet a képzési adatokészlete:
| Név | Kor | nem | Éves jövedelem | Hitelkártya ajánlat |
|---|---|---|---|---|
| gipsz Jakab | 25 | M | $39,500 | Nem |
| Jane Doe | 56 | F | $125,000 | Igen |
A "prediktor" oszlopok Kor , nem , és Éves jövedelem meghatározza a "prediktor attribútum" értékét Hitelkártya ajánlat . Egy edzéskészletben a prediktor attribútum ismert. Az osztályozási algoritmus aztán megpróbálja megállapítani, hogy a prediktor attribútum értékét hogyan érte el: milyen viszonyok vannak a prediktorok és a döntés között? Készít egy előrejelzési szabálykészletet, általában egy IF / THEN nyilatkozatot, például:
IF (kor> 18 VAGY Kor <75) ÉS Éves jövedelme> 40 000 THEN hitelkártya ajánlat = igen
Nyilvánvaló, hogy ez egy egyszerű példa, és az algoritmus sokkal nagyobb adatmintavételre lenne szüksége, mint az itt bemutatott két rekord. Továbbá, a becslési szabályok valószínűleg sokkal összetettebbek lesznek, ideértve az attribútum részleteinek rögzítésére szolgáló alszabályokat is.
Ezután az algoritmus az elemzésre kerülő adatok "előrejelző készletét" kapja, de ehhez hiányzik a predikciós attribútum (vagy döntés):
| Név | Kor | nem | Éves jövedelem | Hitelkártya ajánlat |
|---|---|---|---|---|
| Jack Frost | 42 | M | $88,000 | |
| Mary Murray | 16 | F | $0 |
Ez a prediktoradatok segítenek megbecsülni a becslési szabályok pontosságát, és a szabályokat mindaddig módosítják, amíg a fejlesztő a jóslatokat hatékony és hasznosnak nem tekinti.
Napi-napi példák a klasszifikációra
A klasszifikáció és más adatbányászati technikák a napi tapasztalataink mögött a fogyasztók.
Az időjárási előrejelzések felhasználhatják a besorolást, jelezve, hogy a nap esős, napos vagy felhős lesz. Az orvosi szakma elemezheti az egészségügyi állapotokat az orvosi eredmények megjóslásához. A Naive Bayesian típusú osztályozási módszer, feltételes valószínűséget használ a spam e-mailek kategorizálására. A csalások felderítése és a termékajánlatok között a színfalak mögött minden nap adatelemzést és előrejelzést készítenek.




