روش تشخیص نفوذ مبتنی بر استخراج قوانین انجمنی فازی با استفاده از برنامه نویسی ژنتیک شبکه ای

An Intrusion-Detection Model Based on FuzzyClass-Association-Rule Mining Using Genetic Network Programming

Abstract—As the Internet services spread all over the world,many kinds and a large number of security threats are increasing. Therefore, intrusion detection systems, which can effectively detect intrusion accesses, have attracted attention. This paper describes a novel fuzzy class-associationrule mining method based on genetic network programming (GNP) for detecting network intrusions. GNP is an evolutionary optimization technique, which uses directed graph structures instead of strings in genetic algorithm or trees in genetic programming, which leads to enhancing the representation ability with compact programs derived from the reusability of nodes in a graph structure. By combining fuzzy set theory with GNP, the proposed method can deal with the mixed database that contains both discrete and continuous attributes and also extract many important class association rules that contribute to enhancing detection ability. Therefore, the proposed method can be flexibly applied to both misuse and anomaly detection in network-intrusion-detection problems. Experimental results with KDD99Cup and DARPA98 databases from MIT Lincoln Laboratory show that the proposed method provides competitively high detection rates compared with other machine-learning techniques and GNP with crisp data mining.


چکیده

امروزه گسترش تکنولوژی بخصوص شبکه های رایانه ای و وابسته شدن هرچه بیشتر مردم به این تکنولوژی بر کسی پوشیده نیست. در کنار آن فعالیت های مخربانه عده ای سودجو جهت آسیب رسانی به اطلاعات دیگران در این حوزه، شکل های جدیدی بخود گرفته و همچنان در موازات پیشرفت تکنولوژی، این فعالیت های مخربانه نیز پیشرفت چشمگیری داشته است. از جمله این فعالیت های مخربانه، حملات متنوع و پیچیده به شبکه های رایانه ای می باشد.

این مقاله یک روش جدید کلاس بندی مجموعه قوانین فازی مبتنی بر الگوریتم ژنتیک شبکه ای را بیان می کند، بوسیله ی اتصال نظریه مجموعه فازی با GNP این روش برای هر دو مجموعه داده پیوسته و گسسته به کار می اید.

بنابراین روش پیشنهادی انعطاف پذیر بوده و  بر روی پایگاه های تشخیص Anomalو misuse عمل می کند.

نتایج پیاده سازی بر روی پایگاه داده های99 Darpa98 ,KDD نشان می هد که برای هر دو مسئله تشخیص نفوذ،روش پیشنهادی این مقاله  در مقابل دیگر روشها داده کاوی نتایج بهتری میدهد.

کلمات کلیدی:  قوانین انجمن فازی،رقابت تکاملی،تابع عضویت فازی،تشخیص نفود.

سیستم کشف نفوذ مبتنی بر دسته کننده ی چند دسته ای مخفی Naive Bayes

A network intrusion detection system based on a Hidden Naive Bayes multiclass classifier

a b s t r a c t

With increasing Internet connectivity and traffic volume, recent intrusion incidents have reemphasized the importance of network intrusion detection systems for combating increasingly sophisticated network attacks. Techniques such as pattern recognition and the data mining of network events are often used by intrusion detection systems to classify the network events as either normal events or attack events. Our research study claims that the Hidden Naïve Bayes (HNB) model can be applied to intrusion detection problems that suffer from dimensionality, highly correlated features and high network data stream volumes. HNB is a data mining model that relaxes the Naïve Bayes method’s conditional independence assumption. Our experimental results show that the HNB model exhibits a superior overall performance in terms of accuracy, error rate and misclassification cost compared with the traditional Naïve Bayes model, leading extended Naïve Bayes models and the Knowledge Discovery and Data Mining (KDD) Cup 1999 winner. Our model performed better than other leading state-of-the art models, such as SVM, in predictive accuracy. The results also indicate that our model significantly improves the accuracy of detecting denial-of-services (DoS) attacks

 


سیستم کشف نفوذ مبتنی بر دسته کننده ی چند دسته ای مخفی Naive Bayes

چکیده :

با توجه به افزایش اتصال به اینترنت و حجم  بالای ترافیک، سیستم کشف نفوذ اهمیت بالایی پیدا کرده است. اغلب تکنیک ها نظیر شناسایی الگو و داده کاوی رویدادهای شبکه توسط سیستم های کشف نفوذ مورد استفاده قرار می گیرد تا رویدادهای شبکه به صورت رویدادهای عادی یا رویدادهای تهاجمی دسته بندی شود. این مقاله مدعی است که مدل Hidden Nave Bayes( HNB) را می توان برای کشف نفوذ در سیستم هایی به کاربرد که با مشکلاتی از جمله ابعادی بودن ، ویژگی ها ی  بی نهایت وابسته و حجم های جریان بالای داده در شبکه روبرو هستند. HNB یک مدل داده کاوی است که فرضیه استقلال شرطی روش Naive Bayes را ساده می کند. نتایجات نشان می دهد که در مدل HNB عملکرد کلی برتر برحسب دقت، نرخ خطا و هزینه دسته بندی اشتباه در مقایسه با مدل سنتی NB وجود دارد. و این موضوع باعث استفاده گسترده از این مدل گردیده است. این مدل از نظر دقت بهتر از دیگر مدل ها با فناوری پیشرو نظیر SVM عمل کرده و همچنین نتایج مشخص می سازد که این مدل به طور چشمگیری باعث بهبود دقت کشف حملات در خدمات (DOS) می گردد.

مقدمه:

براساس گزارش های امنیتی اینترنتی جدید، حجم و پیچیدگی حملات هدفمند شبکه در سال های اخیر افزایش یافته است. تعداد رو به رشد تهدیدات امنیتی و آسیب پذیری اهدافی همچون سیستم های شبکه نظامی ، دولتی و تجاری مستلزم انواع اقدامات امنیتی سایبری می باشد. کشف نفوذ یک اقدام امنیتی است که به تعیین هویت مجموعه ای از اقدامات بد اندیش کمک می کند. کشف نفوذ به دلیل مسائلی مانند دقت کشف، سرعت کشف و ماهیت دینامیک شبکه ها برای پردازش حجم های بالای داده در سیستم های شبکه ای پراکنده یک مسئله دشوار است. این ملاحظات به کشف نفوذ ی منجر شده بود که شامل کشف سوء استفاده و کشف وضعیت غیر عادی می باشد . کشف سوء استفاده به الگوریتم یادگیری تکیه می کند که از طریق یک مجموعه داده تشکیل شده بود که هر مثال در این مجموعه داده به دو صورت برچسب زده می شود که یا یک رویداد معمولی است و در غیر اینصورت نفوذ صورت گرفته است . هر چند الگوریتم نمی تواند حملاتی را کشف نماید که در مجموعه آموزش دهنده منظور نشده اند ، اما می تواند با مثال های جدید حمله از طریق مجموعه داده، حمله جدید کشف گردد. مدل هایی از رویداد های عادی در کشف وضعیت غیر عادی ایجاد می گردند و  رویداد هایی کشف می شوند که از این مدل ها منحرف شوند. این روش می تواند انواع جدید رویداد های تهاجمی را کشف نماید چون تنها به رویداد های عادی شناخته شده تکیه می کند . روش کشف وضعیت غیر عادی علی رغم مزیت هایش از نرخ بالا ی هشدار های اشتباه به دلیل رویداد های عادی از قبل مشاهده نشده مشکل دارد . مدل های هیبردی از کشف سوء استفاده و رویکرد های کشف وضعیت غیر عادی بهره می برند تا عملکرد پیش بینی را بهبود بخشند.

مجموعه داده های بزرگ از طریق داده کاوی کشف گردیده و تجزیه تحلیل می شوند تا الگو ها و مدل های  قابل فهم و سودمند را کشف نمایند . داده کاوی رویداد های شبکه اغلب برای تمییز رویداد های حمله از رویداد های عادی از طریق استفاده از روش های مختلف نظیر کشف عامل بیرونی  ، خوشه بندی داده بر طبق مقوله ها ، مدل های دسته کننده برای پیش بینی مقوله ها و مدل های مبتنی بر قاعده رابطه استفاده ابزاری می گردد .

دسته بندی عبارتست از شناسایی برچسب ها از مثال ها که به طور نوعی از طریق مجموعه ویژگی ها توصیف می گردند . مدل های دسته کننده یادگیری از داده آموزش معین یاد می گیرند و برچسب های دسته را برای مثال هایی از داده جدید می فهمند . محققان از مدل های دسته کننده بیشماری نظیر کشف مبتنی بر قاعده ، شبکه های عصبی ، منطق فازی ، مدل مارکوف مخفی ، مدل جنگل تصادفی ، داده کاوی  و تحلیل بیسی برای مشکل کشف نفوذ استفاده کرده اند .

مدل کشف نفوذ ما یک دسته کننده چند نمایی می باشد که برای دسته بندی رویداد های شبکه به صورت عادی یا رویداد های تهاجمی نظیر DOS ، probe ، U2R و R2I استفاده می کند . مدل مبتنی بر روش داده کاوی جدید می باشد که ( Hidden Naive Bayes( HNB نامیده شد . مدل دسته کننده HNB برا چندین مجموعه داده استفاده می گردد و نتایج نوید بخشی را در مقایسه با NB سنتی و روش های توسعه یافته اش نشان می دهد. هیچ نوع تحقیق سیستماتیک در رابطه با دانش ما وجود ندارد که به قابل اعمال بودن و تاثیرات استفاده از HNB مبتنی بر دسته کننده در حوزه کشف نفوذ بپردازد . مطالعه تحقیق آزمایشی ما در واقع NB سنتی را کشف می کند و رویکرد های NB توسعه یافته از نظر ساختار، نظیر رویکرد جدید HNB را رهبری می کند .  دیگر مطالعه تحقیقاتی رقابتی در حوزه کشف نفوذ در دانش ما وجود ندارد که NB سنتی و رویکرد های NB توسعه یافته ساختاری به طور جامع بپردازد . ما در بررسی خودمان روش های NB و NB ارتقاء یافته را با گسسته سازی پیشرو و روش های انتخاب مشخصه را برای افزایش دقت و کاهش الزامات مشکل کشف نفوذ نقویت کرده ایم . مدل دسته کننده مبتنی بر HNB بر اساس نتایج مطالعه در این مقاله همانند سیستم کشف نفوذ ساده و عملی با دقت و هزینه پیشگویی بهتر برجسته می گردد .

روش NB که ساده ترین شکل شبکه بیسی می باشد ، یک روش داده کاوی معروف است که برای چندین دامین اعمال شده است . سادگی روش به فرضیه ای تکیه می کند که کل ویژگی ها مستقل از همدیگر می باشند . روش HNB که این فرضیه را ساده می سازد ، به طور موفقیت آمیزی برای داده کاوی وب بکار گرفته شده. اطلاعات پیشینه در مورد روش های NB و پیشرفت هایش در بخش کار مرتبط مقاله ارایه می گردند .

این مطالعه به دلیل عملکرد خوب اش در کار های ابتدایی در دیگر حوزه ها از مدل دسته کننده HNB برای مشکل کشف نفوذ استفاده می کند . در بخش روش تحقیق به معرفی دلیل منطقی در استفاده از مدل HNB پرداخته و مدل و چارچوب مفهومی را معرفی می کند .

از مجموعه داده کشف نفوذ  KDD Cup 1999 ( KDD 1999) برای تست استفاده شده که با توجه به مشکل کشف نفوذ ، روش های NB سنتی از نظر ساختاری و روش برنده KDD 99 برحسب دقت کشف ، نرخ خطا و هزینه دسته بندی اشتباه توسعه یافته اند و به دلیل چالش های مرتبط با مجموعه داده یک سری مجموعه داده را با چندین روش گسسته سازی و  انتخاب مشخصه پیش پردازش کرده اند .

در بخش آزمایشات و نتایج در مورد راه اندازی آزمایشات توضیح داده شده . همچنین نتایج کسب شده با دسته کننده HNB را با نتایج کسب شده از دسته کننده NB سنتی ارایه نموده و مقایسه کرده است . در نهایت ، نتایج را با نتایج کسب شده از مدل های با فناوری بالا از مطالعات ابتدایی تر مقایسه کرده است . نتیجه گیری های مطالعه  در بخش آخر معرفی می شوند .

برای مطالعه بیشتر پیرامون این مقاله می توانید به لینک زیر مراجعه نمایید.

 http://www.sciencedirect.com/science/article/pii/S0957417412008640

 

استخراج قواعد طبقه بندی براساس بهینه سازی کلونی مورچه ها برای سیستم تشخیص نفوذ

باافزایش استفاده از کامپیوترو شبکه کامپیوتری، امنیت سیستم های کامپیوتری بسیار پراهمیت شده است. هر روزه حملات از انواع جدیدی برای صنایع بوجود آمده است. ازآنجائیکه تهدیدات سال به سال به یک موضوع جدی تبدیل شده است، تکنولوژی شناسایی نفوذها برای امنیت کامپیوتروشبکه ضروری می باشند. انواع راهکارهای شناسایی این نفوذها برای رفع کردن این موضوع جدی مطرح شده است. اما مشکل اصلی، کارایی می باشد. افزایش نرخ شناسایی و کاهش نرخ هشدار اشتباه در حوزه شناسایی نفوذ مهم است. برای شناسایی نفوذ، راهکارهای متفاوت در طی دهه گذشته توسعه داده شده و مطرح گردیده است .

روشی که در این پایان نامه از آن استفاده شده هوش ازدحامی است که از مزیتهای این روش قابلیت خودسازماندهی و رفتار توزیع شده را می توان نام برد که برای تشخیص نفوذ مناسب می سازد.

یکی از الگوریتم های هوش ازدحامی کلونی مورچه ها می باشد که علاوه بر مسائل بهینه سازی در الگوریتم های داده کاوی هم مورد استفاده قرار گرفته است.

این پایان نامه الگوریتم کلونی مورچه ها را برای استخراج قواعد تصمیم گیری بهبود داده است. ابتدا یک تابع ارزیابی برای تولید قواعد جدید به منظور افزایش دقت تصمیم گیری ایجاد و سپس یک روش وزندهی به منظور مقابله با مشکلات موجود در تولید قواعد در مجموعه داده های نامتعادل به کار گرفته شده است.

نتایج آزمایش ها در این پایان نامه نشان داده که با انتخاب تابع هدف مناسب و با در نظر گرفتن نامتعادل بودن مجموعه داده مورد آزمایش توانسته الگوریتم Ant-miner را به عنوان یک روش پایه استخراج قوانین طبقه بندی بر پایه کلونی مورچه در حوزه داده کاوی و تشخیص نفوذ بهبود بخشد.

منابع و مراجع:

دانشگاه خوارزمی     http://www.khu.ac.ir

ایران داک       http://www.irandoc.ac.ir 

معرفی کتاب مفاهیم و تکنیک های داده کاوی

با توجه به افزایش حجم داده ها و اهمیت آنها در حوزه های مختلف تکنیک های آماری و ابزار مدیریت سنتی برای آنالیز این داده ها کافی نیست. داده کاوی کوششی برای بدست آوردن اطلاعات مفید از میان داده هاست

کتاب مفاهیم و تکنیک های داده کاوی ، نوشته مهدی اسماعیلی این منبع که ترجمه و گردآوری خوبی از کتاب معروف "Data Mining: Concepts and Techniques" نوشته Han و Kamber می باشد.یکی از کتاب هایی است که مفاهیم و الگوریتم های مورد استفاده در زمینه داده کاوی را به زبانی ساده و کامل همراه با مثال های عددی تشریح کرده است.

در این کتاب خواهید خواند:

  • فصل 1 :مفاهیم و چالش های داده کاوی
  • فصل2:مفاهیم آماری و تکنیک های آماده سازی داده
  • فصل3:انبار داده ها و تکنولوژی OLAP
  • فصل 4 و5 : قوانین انجمنی و الگوریتم های مربوط به آن
  • فصل6و7:مفاهیم و الگوریتم های دسته بندی به همراه مثال های عددی
  • فصل 8 و9:الگوریتم های مختلف خوشه بندی
  • فصل10:موضوعات مرتبط با داده کاوی از جمله متن کاوی، وب کاوی، کاوش داده هایی با ساختارهای پیچیده و ... اشاره ای دارد.


این کتاب را می توان به صورت رایگان از لینک زیر دانلود نمایید.

لینک دانلود : http://www.irstu.com/?p=13971

دیتاست های مورد استفاده در سیستم های تشخیص نفوذ

 

1) آشنایی با مجموعه داده های مربوط به تشخیص نفوذ:

در بحث شناسایی نفوذ سیستم با استفاده ار داده های استاندارد مثل KDD cup و مجموعه داده DARPA تست می شود. هر کدام از این مجموعه داده را در ادامه با جزئیات خواهیم دید.

(1-1 مجموعه داده cup-99  KDD

این مجموعه داده برای سومین مسابقه بین المللی ابزارهای داده کاوی و کشف دانش مورد استفاده قرار گرفته است. فعالیت مسابقه ساختن سیستم شناسایی نفوذ برای تشخیص ارتباطات خوب و بد بود. به زبان دیگر ما می توانیم بگوییم که با کمک این مجموعه داده ما می توانیم متجاوزین و حمله کنندگان را تشخیص دهیم. این پایگاه داده حاوی یک مجموعه داده استاندارد برای بررسی می باشد که دارای نفوذهای متنوع شبیه سازی شده در کاربردهای نظامی است.

(1-2 مجموعه داده KDD cup-2010

این مجموعه داده جستجویی در پایگاه داده توسط ترجیح کابران برای اقلام مختلف می باشد. پبشنهاد اقلام برای کاربران و تاریخچه  پیشینه دنبال شده توسط کابران. در مقایسه با دیگر مجموعه داده هایی که تا حال منتشر گردیده است این مجموعه دارای مقیاس بزرگتر می باشد. همچنین این مجموعه داده حاوی اطلاعات با ارزش تری در حوزه های چندگانه از جمله پروفایل کاربر، گراف عمومی، دسته بندی اقلام دارد که ممکن است موجب استخراج ایده های با دقت و روشهای جدید گردد. برای کابران این مجموعه داده که میلیونها نفر هستند اطلاعاتی همچون کلمات کلیدی پروفایل و تاریخچه دنبال شده، برای تولید یک مدل تخمین گر خوب در دسترس است. برای حفاظت کردن از استقلال کاربران، ID مربوط به کاربران و اقلام پیشنهادی بصورت اعداد تصادفی انتخاب می گردند که هیچ گونه طبقه بندی فاش نشود. بعلاوه، اطلاعات آنها وقتی بصورت زبان چینی باشد بصورت رشته ها و اعداد تصادفی کدگذاری می گردد. بنابراین هیچ رقیبی که به زبان چینی آشناست، سودی از آن عاید نمی شود. برچسب زمان اگر توصیه نیاز باشد تهیه می گردد.

(1-3مجموعه داده DARPA

سیستمهای کامپیوتری و خوشه تکنولوژی (قبلا گروه ارزیابی شناسایی نفوذDAPRA) تحت نظر نمایندگی پروژه های تحقیقاتی پیشرفته دفاعی(DAPRA ITO) و آزمایشگاه تحقیقات نیروی هوایی (AFRL/SNHS) اولین مجموعه داده استاندارد را برای ارزیابی سیستمهای شناسایی نفوذ شبکه های کامپیوتری جمع آوری و منتشر کرد. ما همچنین با آزمایشگاه تحقیقات نیروی هوایی هماهنگ بودیم که اولین، تکرار پذیر و همچنین ارزیابی مهم آماری سیستم های شناسایی نفوذ در سال 1998 و 1999 انجام شد. این ارزیابی ها شانس شناسایی و  احتمال هشدار اشتباه هر سیستم تحت آزمایش را اندازه گیری می کرد. این ارزیابی بطور موثری به حوزه تحقیقاتی شناسایی نفوذ با ارائه جهت برای تلاش محققان  و همچنین درجه بندی عملی برای کارهای تحقیقاتی در این زمینه کمک می کند. برای همه محققان کاربر روی مسائل عمومی ایستگاه کار و شناسایی نفوذ شبکه دارای جذابیت می باشد. تخمین طوری طراحی شده است که برای تمرکز بر روی موضوع تکنولوژی و برای تشویق کردن برای مشارکت ممکن هر چه بیشتر بوسیله از هم باز کردن نگرانیهای امنیت و استقلال و بوسیله تهیه انواع داده ها که بطور معمول توسط اکثریت سیستمهای شناسایی نفوذ مورد استفاده قرار می گیرند، آسان باشد.

 

جدول 1 : بررسی ویژگی های رکوردهای موجود در KDD CUP 99  مرجع[1]

 

نوع ویژگی

توضیحات

نام ویژگی

ردیف

Numeric

مدت زمان اتصال

duration

1

Nominal

نوع پروتکل TCP,UDP,ICMP

protocol_type

2

Nominal

نوع سرویس شبکه Telnet,Http,etc.

service

3

Nominal

نرمال یا اشکال داشتن اتصال را مشخص می کند

flag

4

Numeric

تعداد بایت های داده از منبع به مقصد

src_bytes

5

Numeric

تعداد بایت های داده از مقصد به منبع

dst_bytes

6

Nominal

اگر 1 باشد یعنی اتصال از یک پورت است در غیر این صورت 0 می شود

land

7

Numeric

تعداد قطعات اشتباه

wrong_fragment

8

Numeric

تعداد بسته های urgent

urgent

9

Numeric

تعداد شاخص های hot را نمایش میدهد

hot

10

Numeric

تعداد login های دارای نقص

num_failed_logins

11

Nominal

اگر 1 باشد یعنی موفقیت آمیز بوده درغیر اینصورت 0 می شود

logged_in

12

Numeric

تعداد شرط های compromised

num_compromised

13

Numeric

با 0 و یا 1 شدن وضعیت root shell را مشخص می کند

root_shell

14

Numeric

با 0 و یا 1 شدن وضعیت su root را مشخص می کند

su_attempted

15

Numeric

تعداد دسترسی هایی که به root انجام گرفته است

num_root

16

Numeric

تعداد فایل های عملیاتی ایجاد شده

num_file_creations

17

Numeric

تعداد هسته های آماده

num_shells

18

Numeric

تعداد عملیات روی فایل های کنترل دستیابی

num_access_files

19

Numeric

تعداد دستورات خارج شده در نشست ftp

num_outbound_cmds

20

Nominal

با 0 و یا 1 شدن مشخص می کند که آیا login عضو لیست hot شده یا نه

is_hot_login

21

Nominal

با 0 و یا 1 شدن وضعیتguest بودن login را مشخص می کند

Is_guest_login

22

Numeric

تعداد اتصالاتی که از یک host در یک اتصال جاری بیش از 2 ثانیه بطول بکشد

count

23

Numeric

تعداد اتصالاتی که از یک سرویس در یک اتصال جاری بیش از 2 ثاتیه بطول بکشد

srv_count

24

Numeric

درصد اتصالاتی که اشکال SYN دارند

serror_rate

25

Numeric

درصد اتصالاتی که اشکال SYN در سرویس دارند

srv_serror_rate

26

Numeric

درصد اتصالاتی که اشکال REJ دارند

rerror_rate

27

Numeric

درصد اتصالاتی که اشکال REJ در سرویس دارند

srv_rerror_rate

28

Numeric

درصد اتصالاتی به سرویس های یکسان

same_srv_rate

29

Numeric

درصد اتصالاتی به سرویس های مختلف

diff_srv_rate

30

Numeric

درصد اتصالاتی به host های مختلف

srv_diff_host_rate

31

Numeric

تعداد host های مقصد

dst_host_count

32

Numeric

تعداد سرویس host  های مقصد

dst_host_srv_count

33

Numeric

درصد اتصالاتی که از یک host با یک سرویس به یک host مقصد در یک بازه زمانی انجام شده است

dst_host_same_srv_rate

34

Numeric

درصد اتصالاتی که از یک host با سرویس های مختلف به یک host مقصد در یک بازه زمانی انجام شده است

dst_host_diff_srv_rate

35

Numeric

درصد اتصالاتی که از یک host با یک پورت منبع انجام شده است

dst_host_same_src_port_rate

36

Numeric

درصد اتصالاتی که از یک host به host  دیگر با سرویس متفاوت انجام شده است

dst_host_srv_diff_host_rate

37

Numeric

نرخ اشکالات SYN در host منبع

dst_host_serror_rate 

38

Numeric

نرخ اشکالات SYN سرویس host منبع

dst_host_srv_serror_rate

39

Numeric

نرخ اشکالات host منبع

dst_host_rerror_rate

40

Numeric

نرخ اشکالات سرویس host منبع

dst_host_srv_rerror_rate

41

 

 [1]KDDCup,1999.Availableon:http://kdd.ics.uci.edu/databases/kddcup99/ kddcup99.html, Ocotber 2007.