Az osztályozás használata az adatbányászatban

A besorolás egy olyan adatbányászati technika, amely kategóriákat rendel az adatgyűjteményhez a pontosabb előrejelzések és elemzések támogatása érdekében. Szint néven úgynevezett a Döntésfa , a besorolás egyike azon módszereknek, amelyek a nagyon nagy adatkészletek elemzését eredményezik.

Miért osztályozható?

Nagyon nagy adatbázisok válnak a normák a mai világban nagy adat . Képzelj el egy adatbázist több terabájtnyi adattal - egy terabájt egy billió bájt adat.

A Facebook önmagában 600 terabájtnyi új adatot dörömmöl minden nap (2014-től, amikor utoljára jelentette ezeket a specifikációkat). A nagy adatok elsődleges kihívása az, hogy hogyan lehet értelmezni.

A puszta hangerő azonban nem az egyetlen probléma: a nagy adatok változatosak, strukturálatlanok és gyorsan változóak. Figyelembe kell venni az audio- és videoadatokat, a közösségi médiafájlokat, a 3D-s adatokat vagy a térinformatikai adatokat. Ezeket az adatokat nem könnyű kategorizálni vagy szervezni.

Ennek a kihívásnak a kielégítésére számos, a hasznos információk kivonására szolgáló automatikus módszert fejlesztettek ki osztályozás .

A klasszifikáció működése

Annak veszélye, hogy túl messzire elmennek a tech-beszédben, beszéljünk arról, hogyan működik az osztályozás. A cél egy olyan osztályozási szabályok készítése, amelyek megválaszolják a kérdést, meghozzák a döntést vagy megjósolják a viselkedést. Az induláshoz olyan képzési adatok állnak rendelkezésre, amelyek bizonyos attribútumokat és valószínű eredményeket tartalmaznak.

Az osztályozási algoritmus feladata, hogy felfedezze, hogy az attribútumok halmaza eléri a következtetését.

Forgatókönyv: Talán egy hitelkártya-társaság igyekszik meghatározni, hogy melyik kilátónak kell hitelkártya-ajánlatot kapnia.

Ez lehet a képzési adatokészlete:

**Képzési adatok**

Név	Kor	nem	Éves jövedelem	Hitelkártya ajánlat
gipsz Jakab	25	M	$39,500	Nem
Jane Doe	56	F	$125,000	Igen

A "prediktor" oszlopok Kor , nem , és Éves jövedelem meghatározza a "prediktor attribútum" értékét Hitelkártya ajánlat . Egy edzéskészletben a prediktor attribútum ismert. Az osztályozási algoritmus aztán megpróbálja megállapítani, hogy a prediktor attribútum értékét hogyan érte el: milyen viszonyok vannak a prediktorok és a döntés között? Készít egy előrejelzési szabálykészletet, általában egy IF / THEN nyilatkozatot, például:

IF (kor> 18 VAGY Kor <75) ÉS Éves jövedelme> 40 000 THEN hitelkártya ajánlat = igen

Nyilvánvaló, hogy ez egy egyszerű példa, és az algoritmus sokkal nagyobb adatmintavételre lenne szüksége, mint az itt bemutatott két rekord. Továbbá, a becslési szabályok valószínűleg sokkal összetettebbek lesznek, ideértve az attribútum részleteinek rögzítésére szolgáló alszabályokat is.

Ezután az algoritmus az elemzésre kerülő adatok "előrejelző készletét" kapja, de ehhez hiányzik a predikciós attribútum (vagy döntés):

**Prediktoradatok**

Név	Kor	nem	Éves jövedelem	Hitelkártya ajánlat
Jack Frost	42	M	$88,000
Mary Murray	16	F	$0

Ez a prediktoradatok segítenek megbecsülni a becslési szabályok pontosságát, és a szabályokat mindaddig módosítják, amíg a fejlesztő a jóslatokat hatékony és hasznosnak nem tekinti.

Napi-napi példák a klasszifikációra

A klasszifikáció és más adatbányászati technikák a napi tapasztalataink mögött a fogyasztók.

Az időjárási előrejelzések felhasználhatják a besorolást, jelezve, hogy a nap esős, napos vagy felhős lesz. Az orvosi szakma elemezheti az egészségügyi állapotokat az orvosi eredmények megjóslásához. A Naive Bayesian típusú osztályozási módszer, feltételes valószínűséget használ a spam e-mailek kategorizálására. A csalások felderítése és a termékajánlatok között a színfalak mögött minden nap adatelemzést és előrejelzést készítenek.