دسته بندی متون، نقش بسیار مهمی را در توسعه اطلاعات متنی وب سایت ها، بالاخص در شبکه های اجتماعی ، وبلاگ ها وب سایت ها ایفا می کند. هرچه بیشتر افراد در این شبکه ها و وب سایت ها ، حضور به هم رسانند و در آن جا شرکت کنند، تعداد این داده ها بیشتر خواهد شد. دسته بندی متون ، به عنوان سامان دهید خودکار اسناد بر مبنای دسته بندی های از پیش تعیین شده، تعریف می شود. الگوریتم دسته بندی متون، به مقیاس فاصله و یا مقیاس شباهت متن هایی بستگی دارد که اسناد آن ها را با هم مقایسه می کنیم. مقیاس شباهت، نقش بسیار مهمی را در دسته بندی اسناد، بازی می کند. نوع داده های ساختار بندی شده و داده های متنی که شامل اطلاعات معنایی می باشند، بر طبق واژگان اسناد ، تغییر می یابند. بنابراین الگوریتم دسته بندی، از اطلاعات معنایی، بر حسب رسیدن به نتایج بهینه استفاده می کند.
در حوزه دسته بندی داده های متنی، اسناد، به شکل واژگان و میزان فراوانی آنها ، نشان داده می شوند. این رویکرد نمایشی، یک از مهم ترین رویکردهایی است که ویژگی ” مجموعه ای از واژگان” (BOW) نامیده می شود. در این رویکرد، هر واژه، متشکل از یک بعد در فضای برداری می باشد که مستقل از دیگر واژگان در همان اسناد است. (سالتون و یانگ 1973). رویکرد BOW، بسیار ساده است و به صورت متداول، مورد استفاده قرار می گیرد، هرچند که هنوز، محدودیت های خاص خود را دارد. محدودیت اصلی این رویکرد، استقلال و عدم وابستگی، بین واژگان می باشد.
از این رو اسناد در این مدل، با توجه به واژگان خود، نشان داده می شوند که در اصل، موقعیت آن ها در متن و یا بعد معنایی آن ها و یا ارتباط نحوی بین واژگان دیگر، نادیده گرفته شده است. بنابراین ما می توانیم برای سهولت در کار خود، چندین واژه را به چندین قسمت مختلف تقسیم بندی کنیم. همین کار را هم باید ، برای واژگان چند معنایی در یک واحد استفاده کنیم. به طور مثال واژه ارگان، به اندام انسان بر می گردد، البته اگر در متون بیولوژی و زیست شناسی، مورد استفاده قرار گیرد. اما ، ممکن است در متن موسیقی، به معنای آلات موسیقی باشد. به علاوه، ما باید به کلمات مترادف با اجزای مختلف، توجه کنیم. (وانگ و دومنیکن، 2008). استینباخ و همکاران (2000)، در رابطه با این بحث ، بیان کردند که هر دسته بندی واژگانی، دارای دو نوع واژه و لغت می باشد : یکی هسته واژه است که به موضوع دسته بندی بر می گردد و دیگری، کل واژه می باشد که دارای توزیع یکسانی در دسته بندی های مختلف می باشد. بنابراین دو سندی که از دسته بندی های مختلف گرفته شده اند، می توانند واژگان کلی و تعمیم یافته را با هم به اشتراک گذاشته و نمایش BOW را مد نظر قرار دهند.
ما در راستای این مسئله، چندین روش را به شما پیشنهاد می کنیم که از مقیاس ارتباط بین واژگان در وضوح معنایی واژگان (WSD)، حوزه دسته بندی بازیابی اطلاعات و متن، استفاده می کند. ارزیابی رابطه معنایی، بر حسب سیستم بر مبنای دانش، رویکرد های آماری و روش ترکیبی ای انجام می شود که متشکل از اطلاعات آماری و هستی شناسی (آنتالوژی) می باشد. (نصیر و همکاران، 2013).سیستم بر مبنای دانش، از نظریه هستی شناسی ، برای بالا بردن نمایش واژگان استفاده می کند و دارای روابط معنایی بین واژگان می باشد. به طور مثال : لی و همکاران 1993، ……نام نویسندگان در ص 2). به طور مثال ، (بلودورن، 2006) و (سیولاس، 2000)، بیان می کنند که از فاصله بین واژگان در WordNet، برای شباهت معنایی بین کلمات استفاده می کنیم.تحقیق (بلوهورن و همکاران، 2006)، از بیانیه های مفهومی با توجه به مقیاس فاصله بین دو واژه متفاوت برگرفته شده از WordNet، استفاده کردند. مثل IPL(طول فاصله تغییر یافته)، مقیاس Wu-Palmer،مقیاس Resnik. تحقیقات اخیر ژانگ و همکاران (2013) از HowNet استفاده کردند که دانش معنایی به زبان چینی می باشد. دومین نوع محاسبه ارتباط معنایی بین واژگان، سیستم بر مبنای مجموعه متون و نوشته هایی می باشد که در آن ، تحلیل های آماری، بر حسب رابطه این واژگان در مجموعه اسناد آموزشی انجام شده تا شباهت نهانی بین واژگان را نشان دهد. (ژانگ 2012). یکی از مشهورترین سیستم ها بر مبنای مجموعه داده های متنی، تحلیل معنای پنهانی (LSA) می باشد که مشکل مترادف ها را حل می کند. در نهایت، رویکرد آخری، رویکرد ترکیبی نامیده می شود. از این رو آن ها، اطلاعات بدست آمده از تحلیل های آماری و هستی شناسی مجموعه متون و داده ها را با هم ترکیب می کنند.(نصیر و همکاران،2013). تحقیقات اخیر ژانگ و همکاران هم در این زمینه بود.
ما در تحقیقات قبلی، چندین کرنل معنایی بر مبنای مجموعه ای از متون و نوشته ها مثل HOSK( کرنل معنایی با رتبه بالا) ، (آلتونل و همکاران، 2013)، IHOSK (کرنل معنایی با تکرار رتبه بالا)، _آلتونل و همکاران، 2014) و HOTK( کرنل واژه ای رتبه بالاتر ) پیشنهاد دادیم. ما در این تحقیقات، اهمیت بهبود عملکرد دسته بندی را در کرنل های سنتی SVM مثل کرنل خطی، کرنل چند جمله ای و کرنل RBF را به واسطه مزیت رابطه ترتیبی بین واژگان و اسناد، نشان می دهیم. به طور مثال HOSK، بر مبنای رابطه ترتیبی بین اسناد می باشد. IHOSK ، نیز شبیه به HOSK می باشد. از این رو هر دوی آن ها، از طریق استفاده از رتبه های بالاتر،یک کرنل معنایی را برای SVM نشان می دهند .اگرچه ، IHOSK، از مسیر رتبه بالاتر بین هر دو سند و واژگان پشت سر هم استفاده می کند. بنابراین عملکرد IHOSK، اولویت دارد و پیچیدگی آن، بیشتر از کرنل های دیگر می باشد. یک رویکرد ساده به نام HOTK، از مسیرهای ترتیبی بین واژگان استفاده می کند. این مدل شبیه به الگوریتم های یادگیری رتبه بالاتر (HONB) (گانیز و همکاران، 2009) و HOS (smoothing با رتبه بالاتر) (پویراز و همکاران، 2014) می باشد.
ما در این مقاله، رویکرد جدیدی را برای کرنل معنایی SVM پیشنهاد می دهیم که نام آن ، CMK (کرنل معنایی کلاس ها(دسته بندی ها) می باشد. این رویکرد پیشنهادی، روند نمایش واژگان اسناد را بر مبنای ارزش کلاسی واژگان، در BOW نشان می دهد. (بردار سند، از طریق فراوانی واژگان ، نشان داده می شود). در ضمن، این رویکرد،اهمیت معنای واژگانی را برای هر کلاس افزایش داده و در عین حال، از اهمیت کل واژگانی، می کاهد که برای مجزا کردن کلاس ها و دسته بندی ها، مفید نمی باشند. این رویکرد، معایب BOW که در بالا قید کردیم را کاهش داده و توانایی پیش بینی را در مقایسه با کرنل های خطی استاندارد،آن ها از طریق افزایش اهمیت دسته بندی مفاهیم خاصی، افزایش می دهد. این مفاهیم، با هم مترادف بوده و در یک کلاس و دسته بندی، به هم مربوط و مرتبط می باشند. رویکرد مورد هدف ما، بر روی استفاده از این دسته بندی اطلاعات خاص در فرآیند هموار(smoothing) کرنل معنایی، تاکید دارد. ارزش معنایی این واژگان، مطابق با اصل Helmholtz( Balinsky و همکاران،2010 ، 2011)، برگرفته شده از نظریه Gestalt، بر مبنای زمینه این دسته بندی ها ،مورد ارزیابی قرار می گیرد.
ما چندین آزمون بر روی پایگاه داده های مختلف ، انجام دادیم و پارامترها را بالاخص در زمینه مجموعه های آموزشی، مورد ارزیابی قرار دادیم. نتایج آزمایشی ما نشان دادند که CMK، عملکرد کرنل های دیگر، مثل کرنل خطی، کرنل چند جمله ای و RBF را مورد بررسی قرار می دهد. لطفا توجه داشته باشید که SVM ای با کرنل خطی پذیرفته می شود، به عنوان بهترین عملکرد الگوریتمی، جهت دسته بندی متون مورد توجه قرار گرفته است و در محیط مجازی، مطابق با استاندارد ها نمی باشد. در کرنل خطی، رابطه درونی بین دو بردار سند، به عنوان تابع کرنل مورد استفاده قرار می گیرد که شامل اطلاعاتی راجع به واژگانی می باشد که این اسناد را به اشتراک می گذارند. این رویکرد، به عنوان روش first-order (اولین رتبه)، مورد توجه قرار گرفته و زمینه ها و دیدگاه آن، شامل تنها خود اسناد می باشد. اگرچه، CMK، می تواند از ارزش های معنایی واژگان برای همه کلاس ها و دسته بندی، استفاده کند. اگر این دو واژه، بر حسب یک طبقه مشخص، از اهمیت بالایی برخوردار باشند، پس ارزش مربوط به ارتباطات معنایی، نیز، به طبع، بالاتر خواهد رفت. CMK، در مغایرت با سایر کرنل های معنایی که در وضعیت های نظارت نشده، از WordNet و یا Wikipedia، استفاده می کنند، مستقیما با دسته بندی اطلاعات، در کرنل معنایی در ارتباط است. بنابراین ، CMK، به عنوان کرنل معنایی نظارت شده مورد توجه قرار می گیرد.
یکی از مهم ترین مزیت این رویکرد فرضی، پیچیدگی نسبتا پایین آن می باشد. CMK، نسبت به رویکردهای مبتنی بر دانش و پیش زمینه های آن، از پیچیدگی کمتر و از انعطاف پذیری بیشتری، برخورد دارمی باشد. ازاین رو CMK، بر مبنای مجموعه نوشته ها، ساخته شده و همیشه به روز رسانی می شود. به همین نحو، این رویکرد، هیچ مشکلی در زمینه رابطه معنایی بین واژگانی که به دامنه خاصی از نوشته ها مربوط هستند، ندارد. مزیت دیگر CMK، به شرح زیر می باشد: CMK، به راحتی می تواند با پیش زمینه سیستم های بر مبنای دانش ترکیب شود که از Wikipedia و یا WordNet استفاده می کنند. در نتیجه، CMK، بیشتر بر حسب دقت واژگان و زمان اجرا، شبیه به رویکرد های مشابه بوده که نتایج برگرفته از آن، در آزمایشات ما مشهود است.
بقیه مقاله به شرح زیر ساماندهی شده است:
قسمت 2 ، به پیش زمینه اطلاعات مرتبط با رویکردهای SVM، کرنل های معنایی و محاسبات معنایی، اختصاص داده شده است. قسمت 3، تجزیه و تحلیل کرنل فرضی را برای الگوریتم دسته بندی متون، نشان می دهد. تنظیمات آزمایشی، در قسمت 4 و نتایج آزمایشی ، شامل نکات مورد نظر در مباحث، در قسمت 5، مورد بررسی قرار می گیرند. در نهایت، ما نتیجه گیری ها را به قسمت 6 اختصاص داده و در این قسمت، راجع به کارهای آینده، بحث خواهیم کرد.