Tento velký jazykový model byl trénován na temném webu, aby vyhodnotil hrozby kybernetické bezpečnosti. Zde je to, co potřebujete vědět.

Popularita velkých jazykových modelů (LLM) prudce stoupá a na scénu neustále vstupují nové. Tyto modely, jako je ChatGPT, jsou obvykle trénovány na různých internetových zdrojích, včetně článků, webových stránek, knih a sociálních médií.

V bezprecedentním kroku vyvinul tým jihokorejských výzkumníků DarkBERT, LLM vyškolený na datových sadách převzatých výhradně z temného webu. Jejich cílem bylo vytvořit nástroj AI, který překonává stávající jazykové modely a pomáhá výzkumníkům hrozeb, donucovacím orgánům a profesionálům v oblasti kybernetické bezpečnosti v boji proti kybernetickým hrozbám.

Co je DarkBERT?

DarkBERT je model kodéru založený na transformátoru založený na architektuře RoBERTa. LLM byl trénován na milionech temných webových stránek, včetně dat z hackerských fór, podvodných webů a dalších online zdrojů spojených s nelegálními aktivitami.

Termín

instagram viewer
„temný web“ označuje skrytou internetovou sekci nedostupné přes standardní webové prohlížeče. Tato podsekce je známá tím, že obsahuje anonymní webové stránky a tržiště nechvalně proslulé nezákonnými aktivitami, jako je obchod s ukradenými daty, drogami a zbraněmi.

Trénovat DarkBERT, výzkumníci získali přístup na temný web prostřednictvím sítě Tor a shromáždili nezpracovaná data. Pečlivě filtrovali tato data pomocí technik, jako je deduplikace, vyvažování kategorií a předběžné zpracování vytvořit vylepšenou databázi tmavého webu, která byla poté během přibližně 15 dnů předána společnosti RoBERTa, aby vytvořila DarkBERT.

Možná použití DarkBERT v kybernetické bezpečnosti

DarkBERT skvěle rozumí jazyku kyberzločinců a vyniká v odhalování konkrétních potenciálních hrozeb. Dokáže zkoumat temný web a úspěšně identifikovat a označit hrozby kybernetické bezpečnosti, jako jsou úniky dat a ransomware, což z něj činí potenciálně užitečný nástroj pro boj s kybernetickými hrozbami.

Pro vyhodnocení účinnosti DarkBERT jej výzkumníci porovnali se dvěma renomovanými NLP modely, BERT a RoBERTa, která hodnotí jejich výkon ve třech zásadních případech použití souvisejících s kybernetickou bezpečností, výzkum, Vloženo na arxiv.org, označuje.

1. Monitorujte temná webová fóra pro potenciálně škodlivá vlákna

Monitorování temných webových fór, která se běžně používají k výměně nezákonných informací, je zásadní pro identifikaci potenciálně nebezpečných vláken. Jejich ruční kontrola však může být časově náročná, takže automatizace procesu je pro bezpečnostní experty výhodná.

Výzkumníci se zaměřili na potenciálně škodlivé aktivity v hackerských fórech a navrhli pokyny pro anotace pro pozoruhodná vlákna, včetně sdílení důvěrných dat a distribuce kritického malwaru nebo zranitelnosti.

DarkBERT překonal ostatní jazykové modely, pokud jde o přesnost, zapamatovatelnost a skóre F1, a ukázal se jako nejlepší volba pro identifikaci pozoruhodných vláken na temném webu.

2. Detekce stránek, které hostují důvěrné informace

Hackeři a skupiny ransomwaru využívají temný web k vytváření únikových stránek, kde zveřejňují důvěrná data ukradená organizacím, které odmítají vyhovět požadavkům na výkupné. Jiní kyberzločinci jen nahrávají uniklá citlivá data, jako jsou hesla a finanční informace, na temný web s úmyslem je prodat.

Ve své studii výzkumníci shromáždili data z notoricky známé skupiny ransomwaru a analyzoval stránky s únikem ransomwaru, které zveřejňují soukromá data organizací. DarkBERT překonal ostatní jazykové modely v identifikaci a klasifikaci takových stránek a ukázal, že rozumí jazyku používanému na podzemních hackerských fórech na temném webu.

DarkBERT využívá funkci fill-mask, která je součástí jazykových modelů rodiny BERT, k přesné identifikaci klíčových slov spojených s nelegálními aktivitami, včetně prodeje drog na temném webu.

Když bylo na stránce prodeje drog maskováno slovo „MDMA“, DarkBERT generoval slova související s drogami, zatímco jiné modely navrhovaly obecná slova a výrazy nesouvisející s drogami, jako jsou různé profese.

Schopnost DarkBERT identifikovat klíčová slova související s nezákonnými aktivitami může být cenná při sledování a řešení vznikajících kybernetických hrozeb.

Je DarkBERT přístupný široké veřejnosti?

DarkBERT je v současné době pro veřejnost nedostupný, ale výzkumníci jsou otevřeni žádostem o jeho použití pro akademické účely.

Využijte sílu AI pro detekci a prevenci hrozeb

DarkBERT byl předem vyškolen na data z temného webu a překonává stávající jazykové modely v různých případech použití v oblasti kybernetické bezpečnosti, čímž se staví jako zásadní nástroj pro pokrok ve výzkumu temného webu.

Umělá inteligence trénovaná na temném webu má potenciál být využita pro různé úkoly v oblasti kybernetické bezpečnosti, včetně identifikace webů prodávajících uniklé informace. důvěrná data, monitorování temných webových fór za účelem odhalování nezákonného sdílení informací a identifikace klíčových slov souvisejících s kybernetickou sítí hrozby.

Vždy byste si ale měli pamatovat, že stejně jako ostatní LLM je i DarkBERT nedokončenou prací a jeho výkon lze zlepšovat neustálým školením a dolaďováním.