اینترنت امروز بخشی از زندگی روزمره و یک ابزار ضروری است. این موضوع به مردم در حوزههای زیادی مانند کسب و کار، سرگرمی و تحصیل و غیره کمک میکند. به ویژه، اینترنت به عنوان یکی از اجزا مهم مدلهای کسب و کار استفاده می شود(Shon & Moon, 2007). در عملیات تجاری، هم شرکت و هم مشتریان از برنامههای کاربردی اینترنت نظیر وبسایت و پست الکترونیکی در فعالیتهای تجاری بهره میگیرند. از این رو، امنیت اطلاعاتی استفاده از اینترنت به عنوان یک رسانه گروهی باید با دقت مورد توجه قرار گیرد. تشخیص نفوذ، مسئله تحقیقاتی مهمی برای شبکههای تجاری و شخصی است.
از آنجایی که خطرات زیادی ناشی از حملات شبکهها در محیط اینترنت وجود دارد، سیستمهای مختلفی برای جلوگیری از حملات اینترنتی طراحی شده است. به خصوص، سیستمهای تشخیص نفوذ (IDS) به شبکه مورد نظر کمک میکنند تا در برابر حملات خارجی مقاومت کند. به عبارتی، هدف طراحی سیستمهای تشخیص نفوذ این است که یک دیواره دفاعی برای رویارویی با حملات سیستمهای کامپیوتری در اینترنت ایجاد کنند. از این سیستمها میتوان برای شناسایی انواع مختلف ارتباطات مخرب شبکهها و نحوه کاربرد سیستمهای کامپیوتری استفاده کرد، حال آنکه دیواره آتش متداول نمیتواند این وظیفه را انجام دهد. تشخیص نفوذ بر این فرض استوار است که رفتار متجاوزان متفاوت از رفتار یک کاربر قانونی است (Stallings, 2006).
به طور کلی، IDS ها را میتوان به دو گروه تقسیم کرد: تشخیص ناهنجاری و سوء استفاده (امضا) بر مبنای رویکردهای تشخیصی آنها (Anderson, 1995; Rhodes, Mahaffey, & Cannady, 2000). تشخیص ناهنجاری تلاش میکند تعیین کند که آیا انحراف از الگوهای استفاده معمول طراحی شده میتواند به عنوان نفوذ نشان داده شود. از سوی دیگر، تشخیص سوء استفاده برای شناسایی موارد نفوذ، از الگوهای حملات شناخته شده یا نقاط ضعف سیستم استفاده می شود.
در ادبیات، تعدادی از سیستمهای تشخیص ناهنجاری بر مبنای بسیاری از تکنیکهای مختلف یادگیری ماشین طراحی شدهاند (مقایسه با بخش 3). به عنوان مثال، در برخی تحقیقات از تکنیکهای یادگیری واحد نظیر الگوریتمهای ژنتیکی، شبکههای عصبی، ماشینهای بردار پشتیبانی و غیره اعمال می کنند. از سوی دیگر، این تکنیکها به عنوان دستهبند طراحی شدهاند و برای دستهبندی یا تشخیص دسترسی عادی یا حملهای بودن دسترسی آینده به اینترنت بکار گرفته میشوند. با این حال، هیچ بازنگری در حوزه تشخیص نفوذ اینگونه تکنیکهای مختلف یادگیری ماشین وجود ندارد.
بنابراین، این مقاله با هدف نقد و بررسی 55 سیستم یا تحقیق مرتبط انتشار یافته بین سال 2000 تا 2007 ارائه میشود و در آن نوع فنآوریها مورد استفاده، نوع آزمایشات صورت گرفته و همچنین موضوعاتی که باید در تحقیقات آینده بر مبنای دورنمای یادگیری ماشین مدنظر قرار گیرد، مورد مطالعه قرار گرفته است.
این مقاله به این شرح است: بخش 2 یک مرور کلی از تکنیکهای یادگیری ماشین و تعدادی از تکنیکهای مربوط به تشخیص نفوذ را شرح و ارائه می دهد. بخش 3 تحقیقات مرتبط بر مبنای انواع طرح دستهبندی، خطوط مبنای منتخب، مجموعه دادههای بکار رفته در آزمایشات و غیره را مقایسه می کند. نتیجهگیری و بحث در مورد تحقیقات آینده نیز در بخش 4 آمده است.