دیتاست های مورد استفاده در سیستم های تشخیص نفوذ

 

1) آشنایی با مجموعه داده های مربوط به تشخیص نفوذ:

در بحث شناسایی نفوذ سیستم با استفاده ار داده های استاندارد مثل KDD cup و مجموعه داده DARPA تست می شود. هر کدام از این مجموعه داده را در ادامه با جزئیات خواهیم دید.

(1-1 مجموعه داده cup-99  KDD

این مجموعه داده برای سومین مسابقه بین المللی ابزارهای داده کاوی و کشف دانش مورد استفاده قرار گرفته است. فعالیت مسابقه ساختن سیستم شناسایی نفوذ برای تشخیص ارتباطات خوب و بد بود. به زبان دیگر ما می توانیم بگوییم که با کمک این مجموعه داده ما می توانیم متجاوزین و حمله کنندگان را تشخیص دهیم. این پایگاه داده حاوی یک مجموعه داده استاندارد برای بررسی می باشد که دارای نفوذهای متنوع شبیه سازی شده در کاربردهای نظامی است.

(1-2 مجموعه داده KDD cup-2010

این مجموعه داده جستجویی در پایگاه داده توسط ترجیح کابران برای اقلام مختلف می باشد. پبشنهاد اقلام برای کاربران و تاریخچه  پیشینه دنبال شده توسط کابران. در مقایسه با دیگر مجموعه داده هایی که تا حال منتشر گردیده است این مجموعه دارای مقیاس بزرگتر می باشد. همچنین این مجموعه داده حاوی اطلاعات با ارزش تری در حوزه های چندگانه از جمله پروفایل کاربر، گراف عمومی، دسته بندی اقلام دارد که ممکن است موجب استخراج ایده های با دقت و روشهای جدید گردد. برای کابران این مجموعه داده که میلیونها نفر هستند اطلاعاتی همچون کلمات کلیدی پروفایل و تاریخچه دنبال شده، برای تولید یک مدل تخمین گر خوب در دسترس است. برای حفاظت کردن از استقلال کاربران، ID مربوط به کاربران و اقلام پیشنهادی بصورت اعداد تصادفی انتخاب می گردند که هیچ گونه طبقه بندی فاش نشود. بعلاوه، اطلاعات آنها وقتی بصورت زبان چینی باشد بصورت رشته ها و اعداد تصادفی کدگذاری می گردد. بنابراین هیچ رقیبی که به زبان چینی آشناست، سودی از آن عاید نمی شود. برچسب زمان اگر توصیه نیاز باشد تهیه می گردد.

(1-3مجموعه داده DARPA

سیستمهای کامپیوتری و خوشه تکنولوژی (قبلا گروه ارزیابی شناسایی نفوذDAPRA) تحت نظر نمایندگی پروژه های تحقیقاتی پیشرفته دفاعی(DAPRA ITO) و آزمایشگاه تحقیقات نیروی هوایی (AFRL/SNHS) اولین مجموعه داده استاندارد را برای ارزیابی سیستمهای شناسایی نفوذ شبکه های کامپیوتری جمع آوری و منتشر کرد. ما همچنین با آزمایشگاه تحقیقات نیروی هوایی هماهنگ بودیم که اولین، تکرار پذیر و همچنین ارزیابی مهم آماری سیستم های شناسایی نفوذ در سال 1998 و 1999 انجام شد. این ارزیابی ها شانس شناسایی و  احتمال هشدار اشتباه هر سیستم تحت آزمایش را اندازه گیری می کرد. این ارزیابی بطور موثری به حوزه تحقیقاتی شناسایی نفوذ با ارائه جهت برای تلاش محققان  و همچنین درجه بندی عملی برای کارهای تحقیقاتی در این زمینه کمک می کند. برای همه محققان کاربر روی مسائل عمومی ایستگاه کار و شناسایی نفوذ شبکه دارای جذابیت می باشد. تخمین طوری طراحی شده است که برای تمرکز بر روی موضوع تکنولوژی و برای تشویق کردن برای مشارکت ممکن هر چه بیشتر بوسیله از هم باز کردن نگرانیهای امنیت و استقلال و بوسیله تهیه انواع داده ها که بطور معمول توسط اکثریت سیستمهای شناسایی نفوذ مورد استفاده قرار می گیرند، آسان باشد.

 

جدول 1 : بررسی ویژگی های رکوردهای موجود در KDD CUP 99  مرجع[1]

 

نوع ویژگی

توضیحات

نام ویژگی

ردیف

Numeric

مدت زمان اتصال

duration

1

Nominal

نوع پروتکل TCP,UDP,ICMP

protocol_type

2

Nominal

نوع سرویس شبکه Telnet,Http,etc.

service

3

Nominal

نرمال یا اشکال داشتن اتصال را مشخص می کند

flag

4

Numeric

تعداد بایت های داده از منبع به مقصد

src_bytes

5

Numeric

تعداد بایت های داده از مقصد به منبع

dst_bytes

6

Nominal

اگر 1 باشد یعنی اتصال از یک پورت است در غیر این صورت 0 می شود

land

7

Numeric

تعداد قطعات اشتباه

wrong_fragment

8

Numeric

تعداد بسته های urgent

urgent

9

Numeric

تعداد شاخص های hot را نمایش میدهد

hot

10

Numeric

تعداد login های دارای نقص

num_failed_logins

11

Nominal

اگر 1 باشد یعنی موفقیت آمیز بوده درغیر اینصورت 0 می شود

logged_in

12

Numeric

تعداد شرط های compromised

num_compromised

13

Numeric

با 0 و یا 1 شدن وضعیت root shell را مشخص می کند

root_shell

14

Numeric

با 0 و یا 1 شدن وضعیت su root را مشخص می کند

su_attempted

15

Numeric

تعداد دسترسی هایی که به root انجام گرفته است

num_root

16

Numeric

تعداد فایل های عملیاتی ایجاد شده

num_file_creations

17

Numeric

تعداد هسته های آماده

num_shells

18

Numeric

تعداد عملیات روی فایل های کنترل دستیابی

num_access_files

19

Numeric

تعداد دستورات خارج شده در نشست ftp

num_outbound_cmds

20

Nominal

با 0 و یا 1 شدن مشخص می کند که آیا login عضو لیست hot شده یا نه

is_hot_login

21

Nominal

با 0 و یا 1 شدن وضعیتguest بودن login را مشخص می کند

Is_guest_login

22

Numeric

تعداد اتصالاتی که از یک host در یک اتصال جاری بیش از 2 ثانیه بطول بکشد

count

23

Numeric

تعداد اتصالاتی که از یک سرویس در یک اتصال جاری بیش از 2 ثاتیه بطول بکشد

srv_count

24

Numeric

درصد اتصالاتی که اشکال SYN دارند

serror_rate

25

Numeric

درصد اتصالاتی که اشکال SYN در سرویس دارند

srv_serror_rate

26

Numeric

درصد اتصالاتی که اشکال REJ دارند

rerror_rate

27

Numeric

درصد اتصالاتی که اشکال REJ در سرویس دارند

srv_rerror_rate

28

Numeric

درصد اتصالاتی به سرویس های یکسان

same_srv_rate

29

Numeric

درصد اتصالاتی به سرویس های مختلف

diff_srv_rate

30

Numeric

درصد اتصالاتی به host های مختلف

srv_diff_host_rate

31

Numeric

تعداد host های مقصد

dst_host_count

32

Numeric

تعداد سرویس host  های مقصد

dst_host_srv_count

33

Numeric

درصد اتصالاتی که از یک host با یک سرویس به یک host مقصد در یک بازه زمانی انجام شده است

dst_host_same_srv_rate

34

Numeric

درصد اتصالاتی که از یک host با سرویس های مختلف به یک host مقصد در یک بازه زمانی انجام شده است

dst_host_diff_srv_rate

35

Numeric

درصد اتصالاتی که از یک host با یک پورت منبع انجام شده است

dst_host_same_src_port_rate

36

Numeric

درصد اتصالاتی که از یک host به host  دیگر با سرویس متفاوت انجام شده است

dst_host_srv_diff_host_rate

37

Numeric

نرخ اشکالات SYN در host منبع

dst_host_serror_rate 

38

Numeric

نرخ اشکالات SYN سرویس host منبع

dst_host_srv_serror_rate

39

Numeric

نرخ اشکالات host منبع

dst_host_rerror_rate

40

Numeric

نرخ اشکالات سرویس host منبع

dst_host_srv_rerror_rate

41

 

 [1]KDDCup,1999.Availableon:http://kdd.ics.uci.edu/databases/kddcup99/ kddcup99.html, Ocotber 2007.