در بحث شناسایی نفوذ سیستم با استفاده ار داده های استاندارد مثل KDD cup و مجموعه داده DARPA تست می شود. هر کدام از این مجموعه داده را در ادامه با جزئیات خواهیم دید.
این مجموعه داده برای سومین مسابقه بین المللی ابزارهای داده کاوی و کشف دانش مورد استفاده قرار گرفته است. فعالیت مسابقه ساختن سیستم شناسایی نفوذ برای تشخیص ارتباطات خوب و بد بود. به زبان دیگر ما می توانیم بگوییم که با کمک این مجموعه داده ما می توانیم متجاوزین و حمله کنندگان را تشخیص دهیم. این پایگاه داده حاوی یک مجموعه داده استاندارد برای بررسی می باشد که دارای نفوذهای متنوع شبیه سازی شده در کاربردهای نظامی است.
این مجموعه داده جستجویی در پایگاه داده توسط ترجیح کابران برای اقلام مختلف می باشد. پبشنهاد اقلام برای کاربران و تاریخچه پیشینه دنبال شده توسط کابران. در مقایسه با دیگر مجموعه داده هایی که تا حال منتشر گردیده است این مجموعه دارای مقیاس بزرگتر می باشد. همچنین این مجموعه داده حاوی اطلاعات با ارزش تری در حوزه های چندگانه از جمله پروفایل کاربر، گراف عمومی، دسته بندی اقلام دارد که ممکن است موجب استخراج ایده های با دقت و روشهای جدید گردد. برای کابران این مجموعه داده که میلیونها نفر هستند اطلاعاتی همچون کلمات کلیدی پروفایل و تاریخچه دنبال شده، برای تولید یک مدل تخمین گر خوب در دسترس است. برای حفاظت کردن از استقلال کاربران، ID مربوط به کاربران و اقلام پیشنهادی بصورت اعداد تصادفی انتخاب می گردند که هیچ گونه طبقه بندی فاش نشود. بعلاوه، اطلاعات آنها وقتی بصورت زبان چینی باشد بصورت رشته ها و اعداد تصادفی کدگذاری می گردد. بنابراین هیچ رقیبی که به زبان چینی آشناست، سودی از آن عاید نمی شود. برچسب زمان اگر توصیه نیاز باشد تهیه می گردد.
سیستمهای کامپیوتری و خوشه تکنولوژی (قبلا گروه ارزیابی شناسایی نفوذDAPRA) تحت نظر نمایندگی پروژه های تحقیقاتی پیشرفته دفاعی(DAPRA ITO) و آزمایشگاه تحقیقات نیروی هوایی (AFRL/SNHS) اولین مجموعه داده استاندارد را برای ارزیابی سیستمهای شناسایی نفوذ شبکه های کامپیوتری جمع آوری و منتشر کرد. ما همچنین با آزمایشگاه تحقیقات نیروی هوایی هماهنگ بودیم که اولین، تکرار پذیر و همچنین ارزیابی مهم آماری سیستم های شناسایی نفوذ در سال 1998 و 1999 انجام شد. این ارزیابی ها شانس شناسایی و احتمال هشدار اشتباه هر سیستم تحت آزمایش را اندازه گیری می کرد. این ارزیابی بطور موثری به حوزه تحقیقاتی شناسایی نفوذ با ارائه جهت برای تلاش محققان و همچنین درجه بندی عملی برای کارهای تحقیقاتی در این زمینه کمک می کند. برای همه محققان کاربر روی مسائل عمومی ایستگاه کار و شناسایی نفوذ شبکه دارای جذابیت می باشد. تخمین طوری طراحی شده است که برای تمرکز بر روی موضوع تکنولوژی و برای تشویق کردن برای مشارکت ممکن هر چه بیشتر بوسیله از هم باز کردن نگرانیهای امنیت و استقلال و بوسیله تهیه انواع داده ها که بطور معمول توسط اکثریت سیستمهای شناسایی نفوذ مورد استفاده قرار می گیرند، آسان باشد.
جدول 1 : بررسی ویژگی های رکوردهای موجود در KDD CUP 99 مرجع[1]
نوع ویژگی |
توضیحات |
نام ویژگی |
ردیف |
Numeric |
مدت زمان اتصال |
duration |
1 |
Nominal |
نوع پروتکل TCP,UDP,ICMP |
protocol_type |
2 |
Nominal |
نوع سرویس شبکه Telnet,Http,etc. |
service |
3 |
Nominal |
نرمال یا اشکال داشتن اتصال را مشخص می کند |
flag |
4 |
Numeric |
تعداد بایت های داده از منبع به مقصد |
src_bytes |
5 |
Numeric |
تعداد بایت های داده از مقصد به منبع |
dst_bytes |
6 |
Nominal |
اگر 1 باشد یعنی اتصال از یک پورت است در غیر این صورت 0 می شود |
land |
7 |
Numeric |
تعداد قطعات اشتباه |
wrong_fragment |
8 |
Numeric |
تعداد بسته های urgent |
urgent |
9 |
Numeric |
تعداد شاخص های hot را نمایش میدهد |
hot |
10 |
Numeric |
تعداد login های دارای نقص |
num_failed_logins |
11 |
Nominal |
اگر 1 باشد یعنی موفقیت آمیز بوده درغیر اینصورت 0 می شود |
logged_in |
12 |
Numeric |
تعداد شرط های compromised |
num_compromised |
13 |
Numeric |
با 0 و یا 1 شدن وضعیت root shell را مشخص می کند |
root_shell |
14 |
Numeric |
با 0 و یا 1 شدن وضعیت su root را مشخص می کند |
su_attempted |
15 |
Numeric |
تعداد دسترسی هایی که به root انجام گرفته است |
num_root |
16 |
Numeric |
تعداد فایل های عملیاتی ایجاد شده |
num_file_creations |
17 |
Numeric |
تعداد هسته های آماده |
num_shells |
18 |
Numeric |
تعداد عملیات روی فایل های کنترل دستیابی |
num_access_files |
19 |
Numeric |
تعداد دستورات خارج شده در نشست ftp |
num_outbound_cmds |
20 |
Nominal |
با 0 و یا 1 شدن مشخص می کند که آیا login عضو لیست hot شده یا نه |
is_hot_login |
21 |
Nominal |
با 0 و یا 1 شدن وضعیتguest بودن login را مشخص می کند |
Is_guest_login |
22 |
Numeric |
تعداد اتصالاتی که از یک host در یک اتصال جاری بیش از 2 ثانیه بطول بکشد |
count |
23 |
Numeric |
تعداد اتصالاتی که از یک سرویس در یک اتصال جاری بیش از 2 ثاتیه بطول بکشد |
srv_count |
24 |
Numeric |
درصد اتصالاتی که اشکال SYN دارند |
serror_rate |
25 |
Numeric |
درصد اتصالاتی که اشکال SYN در سرویس دارند |
srv_serror_rate |
26 |
Numeric |
درصد اتصالاتی که اشکال REJ دارند |
rerror_rate |
27 |
Numeric |
درصد اتصالاتی که اشکال REJ در سرویس دارند |
srv_rerror_rate |
28 |
Numeric |
درصد اتصالاتی به سرویس های یکسان |
same_srv_rate |
29 |
Numeric |
درصد اتصالاتی به سرویس های مختلف |
diff_srv_rate |
30 |
Numeric |
درصد اتصالاتی به host های مختلف |
srv_diff_host_rate |
31 |
Numeric |
تعداد host های مقصد |
dst_host_count |
32 |
Numeric |
تعداد سرویس host های مقصد |
dst_host_srv_count |
33 |
Numeric |
درصد اتصالاتی که از یک host با یک سرویس به یک host مقصد در یک بازه زمانی انجام شده است |
dst_host_same_srv_rate |
34 |
Numeric |
درصد اتصالاتی که از یک host با سرویس های مختلف به یک host مقصد در یک بازه زمانی انجام شده است |
dst_host_diff_srv_rate |
35 |
Numeric |
درصد اتصالاتی که از یک host با یک پورت منبع انجام شده است |
dst_host_same_src_port_rate |
36 |
Numeric |
درصد اتصالاتی که از یک host به host دیگر با سرویس متفاوت انجام شده است |
dst_host_srv_diff_host_rate |
37 |
Numeric |
نرخ اشکالات SYN در host منبع |
dst_host_serror_rate |
38 |
Numeric |
نرخ اشکالات SYN سرویس host منبع |
dst_host_srv_serror_rate |
39 |
Numeric |
نرخ اشکالات host منبع |
dst_host_rerror_rate |
40 |
Numeric |
نرخ اشکالات سرویس host منبع |
dst_host_srv_rerror_rate |
41 |