A bayes-i spamszűrők kiszámítják annak a valószínűségét, hogy egy üzenet spam-e a tartalom alapján. Az egyszerű tartalomalapú szűrőktől eltérően a Bayes levélszemétszűrés megtanulja a levélszemét és a jó levelek használatát, így egy nagyon robusztus, alkalmazkodó és hatékony levélszemét-ellenes megközelítést eredményez, amely legfőképpen alig támaszkodik hamis várakozásokra.
Hogyan ismeri fel a levélszemét?
Gondolj arra, hogy hogyan észleli a levélszemetet. Gyors pillantás elég gyakran. Tudod, hogy néz ki a levélszemét, és tudod, hogy milyen jó levél néz ki.
Az a valószínűség, hogy a levélszemét úgy néz ki, mint a jó levél, körülbelül … nulla.
A tartalomalapú szűrők pontozása nem igazodik
Nem lenne jó, ha az automatikus spamszűrők is így működtek?
A tartalomalapú spamszűrők pontozása megpróbálja ezt. Szavakat és egyéb jellegzetességeket keresnek a spamre. Minden jellemző elemhez egy pontszámot rendelünk, és az egész üzenetre egy spam pontszámot számolunk ki az egyes pontszámokból. Néhány pontozó szűrő a legitim levél jellemzőit is megvizsgálja, csökkentve az üzenet végső pontszámát.
A pontozási szűrők megközelítése működik, de számos hátránya is van:
- A jellemzők listája a szűrő mérnökei által elérhető spamből (és jó levelezésből) épül fel. Ahhoz, hogy jól megértsük a tipikus spameket, bárki megkapja, a mailt több száz e-mail címen kell gyűjteni. Ez gyengíti a szűrők hatékonyságát, különösen azért, mert a a jó levelek jellemzői különbözőek lesznek minden ember számára , de ezt nem veszik figyelembe.
- A keresendő jellemzők többé-kevésbé kőbe vésve . Ha a spammerek erőfeszítik az alkalmazkodást (és a levélszemét úgy néz ki, mint a jó levél a szűrőkre), a szűrési jellemzőket manuálisan kell csípnie - még nagyobb erőfeszítés.
- Az egyes szavakhoz rendelt pontszám valószínűleg jó becslésen alapul, de még mindig önkényes. És mint a jellemzők listája, nem alkalmazkodik sem a spam változó világához, sem az egyéni felhasználók igényeihez.
Bayes-i spamszűrők önmagukban alkalmazzák, egyre jobbak és jobbak
A bayeszi spam szűrők egyfajta pontozó tartalomalapú szűrők is. A megközelítés azonban elhárítja a spamszűrők egyszerű értékelésével kapcsolatos problémákat, és ez radikálisan meg is történik. Mivel a pontozó szűrők gyengesége a jellemzők és azok pontszámainak kézzel készített listája, ez a lista megszűnik.
Ehelyett a bayeszi spamszűrők maguk készítik el a listát. Ideális esetben egy (nagy) csomó e-mailt kezdesz, amelyet spamnek minősítettek, és egy újabb csomó jó levelezést. A szűrők mindkettőt megvizsgálják, és elemzik a törvényes leveleket és a levélszemetet, hogy kiszámolják a különféle jellemzők valószínűségét spamben és jó mailben.
Hogyan értelmezi az e-mailt egy Bayes-i spamszűrő?
A Bayes levélszemétszűrő jellemzői a következők lehetnek:
- az üzenet szövege, természetesen, és
- annak fejléceit (például küldőket és üzenetet, például!), hanem az is
- más szempontok, például a HTML / CSS kód (például a színek és egyéb formázás), vagy akár
- szópárok, kifejezések és
- meta információ (ahol például egy adott kifejezés jelenik meg).
Ha egy szó, például a "Descartes" például soha nem jelenik meg a spamben, de gyakran a legitim e-mailben, akkor a valószínűsége, hogy a "Descartes" spamre utal, közel nulla. A "toner" viszont kizárólag és gyakran spamként jelenik meg. A "toner" nagyon nagy valószínűséggel található a levélszemétben, nem sokkal 1 alatt (100%).
Amikor új üzenet érkezik, a Bayes levélszemétszűrő elemzi, és a teljes üzenet valószínűsége a kiszámítása az egyedi jellemzők alapján történik.
Tegyük fel, hogy az üzenet "Descartes" és "toner" -t is tartalmaz. Ezekből a szavakból még nem tisztázott, hogy van-e spam vagy legitim mail. Más jellemzők (remélhetőleg és valószínűleg) jelzik azt a valószínűséget, amely lehetővé teszi, hogy a szűrő az üzeneteket spam vagy jó levélként osztályozza.
A Bayes Spam szűrők automatikusan megtanulják
Most, hogy van besorolási osztályunk, az üzenet a szűrő továbbfejlesztésére használható. Ebben az esetben a jó levelezést jelző "Descartes" valószínűsége csökken (ha a "Cartesian" és a "toner" tartalmú üzenet spam), vagy a "toner" valószínűségét újra kell vizsgálni.
Ezt az auto-adaptív technikát alkalmazva a Bayesian szűrők képesek megtanulják mind a saját, mind a felhasználó döntéseit (ha kézzel korrigálja a szűrők hibás értelmezését). A Bayes-szűrés alkalmazkodóképessége szintén biztosítja, hogy a leghatékonyabbak az egyes e-mail felhasználók számára. Bár a legtöbb ember levélszemétje hasonló tulajdonságokkal bír, a legitim levél jellegét tekintve mindenki más.
Hogyan tudnak spammerek elfogyasztani a Bayes-szűrőket?
A legitim levél jellemzői ugyanolyan fontosak a Bayes levélszemétszűréshez, mint a spam. Ha a szűrőket minden felhasználó számára kifejezetten kiképzik, akkor a spammerek még nehezebben fognak dolgozni mindenki (vagy akár a legtöbb ember) spamszűrőjén, és a szűrők szinte mindent tudnak alkalmazkodni a spamszal.
A spammerek csak jól átgondolt Bayes-szűrőket tudnak eljuttatni, ha spam üzenetük tökéletesen hasonlít a hagyományos e-mailre, amelyet mindenki kaphat.
A spammerek általában nem küldnek ilyen egyszerű e-maileket. Tegyük fel, hogy ez azért van, mert ezek az e-mailek nem junk e-mailként működnek.Szóval, valószínű, hogy nem fogják ezt csinálni, ha a szokásos, unalmas e-mailek az egyetlen módja annak, hogy a spamszűrőket megelőzzék.
Ha a spammerek általában túlnyomórészt hagyományos e-mailekre váltanak, az Inboxok sok spamjét láthatjuk újra, és az e-mailek olyan bosszantóak lehetnek, mint a Bayes-kor előtti napokban (vagy még rosszabb). Az is elrontja a piacon a legtöbb spamtípust, és így nem tart sokáig.
Erős jelzők lehetnek Bayes-i spamszűrők Achilles-sarka
Egy kivételt észlelhetünk a spammerek számára, hogy a szokásos tartalmukon keresztül is dolgozzanak a Bayes-szűrőkön. A Bayes-statisztikák természetéből adódóan egy olyan szó vagy jellemző, amely nagyon gyakran megjelenik a jó levelekben, annyira jelentős lehet, hogy az üzeneteket levélszemétként nézzük, és a szűrőt a szűrőként értékeljük.
Ha a spamküldők megtalálják a módját, hogy meghatározzák a biztos tűzzel kapcsolatos jó szócikkeket - a HTML visszaadott beérkezések használatával megnézheti, hogy mely üzeneteket nyitott meg - pl. Egy levélszemétbe ágyazhatja az egyiket, képzett Bayes-i szűrő.
John Graham-Cumming megpróbálta ezt, ha két Bayes-szűrőt működtet egymás ellen, a "rossz", amely alkalmazkodik ahhoz, hogy milyen üzeneteket találjanak át a "jó" szűrőn. Azt mondja, hogy működik, bár a folyamat időigényes és összetett. Nem hisszük, hogy sok mindent láthatunk, legalábbis nem nagy léptékben, és nem az egyének e-mail jellegzetességeinek megfelelően. A spammerek (megpróbálhatják) kitalálni néhány kulcsszót a szervezetek számára (például "Almaden" néha az IBM számára?).
Általában a levélszemét mindig (szignifikánsan) eltér a rendszeres levelezéstől, vagy nem lesz spam.
Az alsó sor: a bayeziai szűrés erőssége lehet a gyengesége
Bayes levélszemétszűrők vannaktartalomalapú szűrők hogy:
- vannakkifejezetten arra, hogy felismerje az egyéni e-mail felhasználó spamét és jó levelét, ami rendkívül hatékony és nehezen alkalmazkodik a spammerekhez.
- folyamatosan és sok erőfeszítés nélkül vagy kézi elemzésselalkalmazkodni a spammerek legújabb trükköké.
- vegye figyelembe az egyéni felhasználó jó levelét, és nagyonalacsony a hamis pozitívumok aránya.
- Sajnos, ha ez bizalmatlanná válik a bayeszi levélszemétszűrőkben, akkor aaz alkalmi hiba még súlyosabb. Az ellentétes hatásahamis negatívok (a levélszemét, amely pontosan úgy néz ki, mint a hagyományos levelek), potenciálisan zavarhatja és megzavarhatja a felhasználókat.