An Intrusion-Detection Model Based on FuzzyClass-Association-Rule Mining Using Genetic Network Programming
Abstract—As the Internet services spread all over the world,many kinds and a large number of security threats are increasing. Therefore, intrusion detection systems, which can effectively detect intrusion accesses, have attracted attention. This paper describes a novel fuzzy class-associationrule mining method based on genetic network programming (GNP) for detecting network intrusions. GNP is an evolutionary optimization technique, which uses directed graph structures instead of strings in genetic algorithm or trees in genetic programming, which leads to enhancing the representation ability with compact programs derived from the reusability of nodes in a graph structure. By combining fuzzy set theory with GNP, the proposed method can deal with the mixed database that contains both discrete and continuous attributes and also extract many important class association rules that contribute to enhancing detection ability. Therefore, the proposed method can be flexibly applied to both misuse and anomaly detection in network-intrusion-detection problems. Experimental results with KDD99Cup and DARPA98 databases from MIT Lincoln Laboratory show that the proposed method provides competitively high detection rates compared with other machine-learning techniques and GNP with crisp data mining.
چکیده
امروزه گسترش تکنولوژی بخصوص شبکه های رایانه ای و وابسته شدن هرچه بیشتر مردم به این تکنولوژی بر کسی پوشیده نیست. در کنار آن فعالیت های مخربانه عده ای سودجو جهت آسیب رسانی به اطلاعات دیگران در این حوزه، شکل های جدیدی بخود گرفته و همچنان در موازات پیشرفت تکنولوژی، این فعالیت های مخربانه نیز پیشرفت چشمگیری داشته است. از جمله این فعالیت های مخربانه، حملات متنوع و پیچیده به شبکه های رایانه ای می باشد.
این مقاله یک روش جدید کلاس بندی مجموعه قوانین فازی مبتنی بر الگوریتم ژنتیک شبکه ای را بیان می کند، بوسیله ی اتصال نظریه مجموعه فازی با GNP این روش برای هر دو مجموعه داده پیوسته و گسسته به کار می اید.
بنابراین روش پیشنهادی انعطاف پذیر بوده و بر روی پایگاه های تشخیص Anomalو misuse عمل می کند.
نتایج پیاده سازی بر روی پایگاه داده های99 Darpa98 ,KDD نشان می هد که برای هر دو مسئله تشخیص نفوذ،روش پیشنهادی این مقاله در مقابل دیگر روشها داده کاوی نتایج بهتری میدهد.
کلمات کلیدی: قوانین انجمن فازی،رقابت تکاملی،تابع عضویت فازی،تشخیص نفود.
A network intrusion detection system based on a Hidden Naive Bayes multiclass classifier
a b s t r a c t
With increasing Internet connectivity and traffic volume, recent intrusion incidents have reemphasized the importance of network intrusion detection systems for combating increasingly sophisticated network attacks. Techniques such as pattern recognition and the data mining of network events are often used by intrusion detection systems to classify the network events as either normal events or attack events. Our research study claims that the Hidden Naïve Bayes (HNB) model can be applied to intrusion detection problems that suffer from dimensionality, highly correlated features and high network data stream volumes. HNB is a data mining model that relaxes the Naïve Bayes method’s conditional independence assumption. Our experimental results show that the HNB model exhibits a superior overall performance in terms of accuracy, error rate and misclassification cost compared with the traditional Naïve Bayes model, leading extended Naïve Bayes models and the Knowledge Discovery and Data Mining (KDD) Cup 1999 winner. Our model performed better than other leading state-of-the art models, such as SVM, in predictive accuracy. The results also indicate that our model significantly improves the accuracy of detecting denial-of-services (DoS) attacks
سیستم کشف نفوذ مبتنی بر دسته کننده ی چند دسته ای مخفی Naive Bayes
چکیده :
با توجه به افزایش اتصال به اینترنت و حجم بالای ترافیک، سیستم کشف نفوذ اهمیت بالایی پیدا کرده است. اغلب تکنیک ها نظیر شناسایی الگو و داده کاوی رویدادهای شبکه توسط سیستم های کشف نفوذ مورد استفاده قرار می گیرد تا رویدادهای شبکه به صورت رویدادهای عادی یا رویدادهای تهاجمی دسته بندی شود. این مقاله مدعی است که مدل Hidden Nave Bayes( HNB) را می توان برای کشف نفوذ در سیستم هایی به کاربرد که با مشکلاتی از جمله ابعادی بودن ، ویژگی ها ی بی نهایت وابسته و حجم های جریان بالای داده در شبکه روبرو هستند. HNB یک مدل داده کاوی است که فرضیه استقلال شرطی روش Naive Bayes را ساده می کند. نتایجات نشان می دهد که در مدل HNB عملکرد کلی برتر برحسب دقت، نرخ خطا و هزینه دسته بندی اشتباه در مقایسه با مدل سنتی NB وجود دارد. و این موضوع باعث استفاده گسترده از این مدل گردیده است. این مدل از نظر دقت بهتر از دیگر مدل ها با فناوری پیشرو نظیر SVM عمل کرده و همچنین نتایج مشخص می سازد که این مدل به طور چشمگیری باعث بهبود دقت کشف حملات در خدمات (DOS) می گردد.
مقدمه:
براساس گزارش های امنیتی اینترنتی جدید، حجم و پیچیدگی حملات هدفمند شبکه در سال های اخیر افزایش یافته است. تعداد رو به رشد تهدیدات امنیتی و آسیب پذیری اهدافی همچون سیستم های شبکه نظامی ، دولتی و تجاری مستلزم انواع اقدامات امنیتی سایبری می باشد. کشف نفوذ یک اقدام امنیتی است که به تعیین هویت مجموعه ای از اقدامات بد اندیش کمک می کند. کشف نفوذ به دلیل مسائلی مانند دقت کشف، سرعت کشف و ماهیت دینامیک شبکه ها برای پردازش حجم های بالای داده در سیستم های شبکه ای پراکنده یک مسئله دشوار است. این ملاحظات به کشف نفوذ ی منجر شده بود که شامل کشف سوء استفاده و کشف وضعیت غیر عادی می باشد . کشف سوء استفاده به الگوریتم یادگیری تکیه می کند که از طریق یک مجموعه داده تشکیل شده بود که هر مثال در این مجموعه داده به دو صورت برچسب زده می شود که یا یک رویداد معمولی است و در غیر اینصورت نفوذ صورت گرفته است . هر چند الگوریتم نمی تواند حملاتی را کشف نماید که در مجموعه آموزش دهنده منظور نشده اند ، اما می تواند با مثال های جدید حمله از طریق مجموعه داده، حمله جدید کشف گردد. مدل هایی از رویداد های عادی در کشف وضعیت غیر عادی ایجاد می گردند و رویداد هایی کشف می شوند که از این مدل ها منحرف شوند. این روش می تواند انواع جدید رویداد های تهاجمی را کشف نماید چون تنها به رویداد های عادی شناخته شده تکیه می کند . روش کشف وضعیت غیر عادی علی رغم مزیت هایش از نرخ بالا ی هشدار های اشتباه به دلیل رویداد های عادی از قبل مشاهده نشده مشکل دارد . مدل های هیبردی از کشف سوء استفاده و رویکرد های کشف وضعیت غیر عادی بهره می برند تا عملکرد پیش بینی را بهبود بخشند.
مجموعه داده های بزرگ از طریق داده کاوی کشف گردیده و تجزیه تحلیل می شوند تا الگو ها و مدل های قابل فهم و سودمند را کشف نمایند . داده کاوی رویداد های شبکه اغلب برای تمییز رویداد های حمله از رویداد های عادی از طریق استفاده از روش های مختلف نظیر کشف عامل بیرونی ، خوشه بندی داده بر طبق مقوله ها ، مدل های دسته کننده برای پیش بینی مقوله ها و مدل های مبتنی بر قاعده رابطه استفاده ابزاری می گردد .
دسته بندی عبارتست از شناسایی برچسب ها از مثال ها که به طور نوعی از طریق مجموعه ویژگی ها توصیف می گردند . مدل های دسته کننده یادگیری از داده آموزش معین یاد می گیرند و برچسب های دسته را برای مثال هایی از داده جدید می فهمند . محققان از مدل های دسته کننده بیشماری نظیر کشف مبتنی بر قاعده ، شبکه های عصبی ، منطق فازی ، مدل مارکوف مخفی ، مدل جنگل تصادفی ، داده کاوی و تحلیل بیسی برای مشکل کشف نفوذ استفاده کرده اند .
مدل کشف نفوذ ما یک دسته کننده چند نمایی می باشد که برای دسته بندی رویداد های شبکه به صورت عادی یا رویداد های تهاجمی نظیر DOS ، probe ، U2R و R2I استفاده می کند . مدل مبتنی بر روش داده کاوی جدید می باشد که ( Hidden Naive Bayes( HNB نامیده شد . مدل دسته کننده HNB برا چندین مجموعه داده استفاده می گردد و نتایج نوید بخشی را در مقایسه با NB سنتی و روش های توسعه یافته اش نشان می دهد. هیچ نوع تحقیق سیستماتیک در رابطه با دانش ما وجود ندارد که به قابل اعمال بودن و تاثیرات استفاده از HNB مبتنی بر دسته کننده در حوزه کشف نفوذ بپردازد . مطالعه تحقیق آزمایشی ما در واقع NB سنتی را کشف می کند و رویکرد های NB توسعه یافته از نظر ساختار، نظیر رویکرد جدید HNB را رهبری می کند . دیگر مطالعه تحقیقاتی رقابتی در حوزه کشف نفوذ در دانش ما وجود ندارد که NB سنتی و رویکرد های NB توسعه یافته ساختاری به طور جامع بپردازد . ما در بررسی خودمان روش های NB و NB ارتقاء یافته را با گسسته سازی پیشرو و روش های انتخاب مشخصه را برای افزایش دقت و کاهش الزامات مشکل کشف نفوذ نقویت کرده ایم . مدل دسته کننده مبتنی بر HNB بر اساس نتایج مطالعه در این مقاله همانند سیستم کشف نفوذ ساده و عملی با دقت و هزینه پیشگویی بهتر برجسته می گردد .
روش NB که ساده ترین شکل شبکه بیسی می باشد ، یک روش داده کاوی معروف است که برای چندین دامین اعمال شده است . سادگی روش به فرضیه ای تکیه می کند که کل ویژگی ها مستقل از همدیگر می باشند . روش HNB که این فرضیه را ساده می سازد ، به طور موفقیت آمیزی برای داده کاوی وب بکار گرفته شده. اطلاعات پیشینه در مورد روش های NB و پیشرفت هایش در بخش کار مرتبط مقاله ارایه می گردند .
این مطالعه به دلیل عملکرد خوب اش در کار های ابتدایی در دیگر حوزه ها از مدل دسته کننده HNB برای مشکل کشف نفوذ استفاده می کند . در بخش روش تحقیق به معرفی دلیل منطقی در استفاده از مدل HNB پرداخته و مدل و چارچوب مفهومی را معرفی می کند .
از مجموعه داده کشف نفوذ KDD Cup 1999 ( KDD 1999) برای تست استفاده شده که با توجه به مشکل کشف نفوذ ، روش های NB سنتی از نظر ساختاری و روش برنده KDD 99 برحسب دقت کشف ، نرخ خطا و هزینه دسته بندی اشتباه توسعه یافته اند و به دلیل چالش های مرتبط با مجموعه داده یک سری مجموعه داده را با چندین روش گسسته سازی و انتخاب مشخصه پیش پردازش کرده اند .
در بخش آزمایشات و نتایج در مورد راه اندازی آزمایشات توضیح داده شده . همچنین نتایج کسب شده با دسته کننده HNB را با نتایج کسب شده از دسته کننده NB سنتی ارایه نموده و مقایسه کرده است . در نهایت ، نتایج را با نتایج کسب شده از مدل های با فناوری بالا از مطالعات ابتدایی تر مقایسه کرده است . نتیجه گیری های مطالعه در بخش آخر معرفی می شوند .
برای مطالعه بیشتر پیرامون این مقاله می توانید به لینک زیر مراجعه نمایید.
http://www.sciencedirect.com/science/article/pii/S0957417412008640
باافزایش استفاده از کامپیوترو شبکه کامپیوتری، امنیت سیستم های کامپیوتری بسیار پراهمیت شده است. هر روزه حملات از انواع جدیدی برای صنایع بوجود آمده است. ازآنجائیکه تهدیدات سال به سال به یک موضوع جدی تبدیل شده است، تکنولوژی شناسایی نفوذها برای امنیت کامپیوتروشبکه ضروری می باشند. انواع راهکارهای شناسایی این نفوذها برای رفع کردن این موضوع جدی مطرح شده است. اما مشکل اصلی، کارایی می باشد. افزایش نرخ شناسایی و کاهش نرخ هشدار اشتباه در حوزه شناسایی نفوذ مهم است. برای شناسایی نفوذ، راهکارهای متفاوت در طی دهه گذشته توسعه داده شده و مطرح گردیده است .
روشی که در این پایان نامه از آن استفاده شده هوش ازدحامی است که از مزیتهای این روش قابلیت خودسازماندهی و رفتار توزیع شده را می توان نام برد که برای تشخیص نفوذ مناسب می سازد.
یکی از الگوریتم های هوش ازدحامی کلونی مورچه ها می باشد که علاوه بر مسائل بهینه سازی در الگوریتم های داده کاوی هم مورد استفاده قرار گرفته است.
این پایان نامه الگوریتم کلونی مورچه ها را برای استخراج قواعد تصمیم گیری بهبود داده است. ابتدا یک تابع ارزیابی برای تولید قواعد جدید به منظور افزایش دقت تصمیم گیری ایجاد و سپس یک روش وزندهی به منظور مقابله با مشکلات موجود در تولید قواعد در مجموعه داده های نامتعادل به کار گرفته شده است.
نتایج آزمایش ها در این پایان نامه نشان داده که با انتخاب تابع هدف مناسب و با در نظر گرفتن نامتعادل بودن مجموعه داده مورد آزمایش توانسته الگوریتم Ant-miner را به عنوان یک روش پایه استخراج قوانین طبقه بندی بر پایه کلونی مورچه در حوزه داده کاوی و تشخیص نفوذ بهبود بخشد.
منابع و مراجع:
دانشگاه خوارزمی http://www.khu.ac.ir
ایران داک http://www.irandoc.ac.ir
با توجه به افزایش حجم داده ها و اهمیت آنها در حوزه های مختلف تکنیک های آماری و ابزار مدیریت سنتی برای آنالیز این داده ها کافی نیست. داده کاوی کوششی برای بدست آوردن اطلاعات مفید از میان داده هاست
کتاب مفاهیم و تکنیک های داده کاوی ، نوشته مهدی اسماعیلی این منبع که ترجمه و گردآوری خوبی از کتاب معروف "Data Mining: Concepts and Techniques" نوشته Han و Kamber می باشد.یکی از کتاب هایی است که مفاهیم و الگوریتم های مورد استفاده در زمینه داده کاوی را به زبانی ساده و کامل همراه با مثال های عددی تشریح کرده است.
در این کتاب خواهید خواند:
این کتاب را می توان به صورت رایگان از لینک زیر دانلود نمایید.
لینک دانلود : http://www.irstu.com/?p=13971
در بحث شناسایی نفوذ سیستم با استفاده ار داده های استاندارد مثل KDD cup و مجموعه داده DARPA تست می شود. هر کدام از این مجموعه داده را در ادامه با جزئیات خواهیم دید.
این مجموعه داده برای سومین مسابقه بین المللی ابزارهای داده کاوی و کشف دانش مورد استفاده قرار گرفته است. فعالیت مسابقه ساختن سیستم شناسایی نفوذ برای تشخیص ارتباطات خوب و بد بود. به زبان دیگر ما می توانیم بگوییم که با کمک این مجموعه داده ما می توانیم متجاوزین و حمله کنندگان را تشخیص دهیم. این پایگاه داده حاوی یک مجموعه داده استاندارد برای بررسی می باشد که دارای نفوذهای متنوع شبیه سازی شده در کاربردهای نظامی است.
این مجموعه داده جستجویی در پایگاه داده توسط ترجیح کابران برای اقلام مختلف می باشد. پبشنهاد اقلام برای کاربران و تاریخچه پیشینه دنبال شده توسط کابران. در مقایسه با دیگر مجموعه داده هایی که تا حال منتشر گردیده است این مجموعه دارای مقیاس بزرگتر می باشد. همچنین این مجموعه داده حاوی اطلاعات با ارزش تری در حوزه های چندگانه از جمله پروفایل کاربر، گراف عمومی، دسته بندی اقلام دارد که ممکن است موجب استخراج ایده های با دقت و روشهای جدید گردد. برای کابران این مجموعه داده که میلیونها نفر هستند اطلاعاتی همچون کلمات کلیدی پروفایل و تاریخچه دنبال شده، برای تولید یک مدل تخمین گر خوب در دسترس است. برای حفاظت کردن از استقلال کاربران، ID مربوط به کاربران و اقلام پیشنهادی بصورت اعداد تصادفی انتخاب می گردند که هیچ گونه طبقه بندی فاش نشود. بعلاوه، اطلاعات آنها وقتی بصورت زبان چینی باشد بصورت رشته ها و اعداد تصادفی کدگذاری می گردد. بنابراین هیچ رقیبی که به زبان چینی آشناست، سودی از آن عاید نمی شود. برچسب زمان اگر توصیه نیاز باشد تهیه می گردد.
سیستمهای کامپیوتری و خوشه تکنولوژی (قبلا گروه ارزیابی شناسایی نفوذDAPRA) تحت نظر نمایندگی پروژه های تحقیقاتی پیشرفته دفاعی(DAPRA ITO) و آزمایشگاه تحقیقات نیروی هوایی (AFRL/SNHS) اولین مجموعه داده استاندارد را برای ارزیابی سیستمهای شناسایی نفوذ شبکه های کامپیوتری جمع آوری و منتشر کرد. ما همچنین با آزمایشگاه تحقیقات نیروی هوایی هماهنگ بودیم که اولین، تکرار پذیر و همچنین ارزیابی مهم آماری سیستم های شناسایی نفوذ در سال 1998 و 1999 انجام شد. این ارزیابی ها شانس شناسایی و احتمال هشدار اشتباه هر سیستم تحت آزمایش را اندازه گیری می کرد. این ارزیابی بطور موثری به حوزه تحقیقاتی شناسایی نفوذ با ارائه جهت برای تلاش محققان و همچنین درجه بندی عملی برای کارهای تحقیقاتی در این زمینه کمک می کند. برای همه محققان کاربر روی مسائل عمومی ایستگاه کار و شناسایی نفوذ شبکه دارای جذابیت می باشد. تخمین طوری طراحی شده است که برای تمرکز بر روی موضوع تکنولوژی و برای تشویق کردن برای مشارکت ممکن هر چه بیشتر بوسیله از هم باز کردن نگرانیهای امنیت و استقلال و بوسیله تهیه انواع داده ها که بطور معمول توسط اکثریت سیستمهای شناسایی نفوذ مورد استفاده قرار می گیرند، آسان باشد.
جدول 1 : بررسی ویژگی های رکوردهای موجود در KDD CUP 99 مرجع[1]
نوع ویژگی |
توضیحات |
نام ویژگی |
ردیف |
Numeric |
مدت زمان اتصال |
duration |
1 |
Nominal |
نوع پروتکل TCP,UDP,ICMP |
protocol_type |
2 |
Nominal |
نوع سرویس شبکه Telnet,Http,etc. |
service |
3 |
Nominal |
نرمال یا اشکال داشتن اتصال را مشخص می کند |
flag |
4 |
Numeric |
تعداد بایت های داده از منبع به مقصد |
src_bytes |
5 |
Numeric |
تعداد بایت های داده از مقصد به منبع |
dst_bytes |
6 |
Nominal |
اگر 1 باشد یعنی اتصال از یک پورت است در غیر این صورت 0 می شود |
land |
7 |
Numeric |
تعداد قطعات اشتباه |
wrong_fragment |
8 |
Numeric |
تعداد بسته های urgent |
urgent |
9 |
Numeric |
تعداد شاخص های hot را نمایش میدهد |
hot |
10 |
Numeric |
تعداد login های دارای نقص |
num_failed_logins |
11 |
Nominal |
اگر 1 باشد یعنی موفقیت آمیز بوده درغیر اینصورت 0 می شود |
logged_in |
12 |
Numeric |
تعداد شرط های compromised |
num_compromised |
13 |
Numeric |
با 0 و یا 1 شدن وضعیت root shell را مشخص می کند |
root_shell |
14 |
Numeric |
با 0 و یا 1 شدن وضعیت su root را مشخص می کند |
su_attempted |
15 |
Numeric |
تعداد دسترسی هایی که به root انجام گرفته است |
num_root |
16 |
Numeric |
تعداد فایل های عملیاتی ایجاد شده |
num_file_creations |
17 |
Numeric |
تعداد هسته های آماده |
num_shells |
18 |
Numeric |
تعداد عملیات روی فایل های کنترل دستیابی |
num_access_files |
19 |
Numeric |
تعداد دستورات خارج شده در نشست ftp |
num_outbound_cmds |
20 |
Nominal |
با 0 و یا 1 شدن مشخص می کند که آیا login عضو لیست hot شده یا نه |
is_hot_login |
21 |
Nominal |
با 0 و یا 1 شدن وضعیتguest بودن login را مشخص می کند |
Is_guest_login |
22 |
Numeric |
تعداد اتصالاتی که از یک host در یک اتصال جاری بیش از 2 ثانیه بطول بکشد |
count |
23 |
Numeric |
تعداد اتصالاتی که از یک سرویس در یک اتصال جاری بیش از 2 ثاتیه بطول بکشد |
srv_count |
24 |
Numeric |
درصد اتصالاتی که اشکال SYN دارند |
serror_rate |
25 |
Numeric |
درصد اتصالاتی که اشکال SYN در سرویس دارند |
srv_serror_rate |
26 |
Numeric |
درصد اتصالاتی که اشکال REJ دارند |
rerror_rate |
27 |
Numeric |
درصد اتصالاتی که اشکال REJ در سرویس دارند |
srv_rerror_rate |
28 |
Numeric |
درصد اتصالاتی به سرویس های یکسان |
same_srv_rate |
29 |
Numeric |
درصد اتصالاتی به سرویس های مختلف |
diff_srv_rate |
30 |
Numeric |
درصد اتصالاتی به host های مختلف |
srv_diff_host_rate |
31 |
Numeric |
تعداد host های مقصد |
dst_host_count |
32 |
Numeric |
تعداد سرویس host های مقصد |
dst_host_srv_count |
33 |
Numeric |
درصد اتصالاتی که از یک host با یک سرویس به یک host مقصد در یک بازه زمانی انجام شده است |
dst_host_same_srv_rate |
34 |
Numeric |
درصد اتصالاتی که از یک host با سرویس های مختلف به یک host مقصد در یک بازه زمانی انجام شده است |
dst_host_diff_srv_rate |
35 |
Numeric |
درصد اتصالاتی که از یک host با یک پورت منبع انجام شده است |
dst_host_same_src_port_rate |
36 |
Numeric |
درصد اتصالاتی که از یک host به host دیگر با سرویس متفاوت انجام شده است |
dst_host_srv_diff_host_rate |
37 |
Numeric |
نرخ اشکالات SYN در host منبع |
dst_host_serror_rate |
38 |
Numeric |
نرخ اشکالات SYN سرویس host منبع |
dst_host_srv_serror_rate |
39 |
Numeric |
نرخ اشکالات host منبع |
dst_host_rerror_rate |
40 |
Numeric |
نرخ اشکالات سرویس host منبع |
dst_host_srv_rerror_rate |
41 |