طبقه بندی متون فارسی در رپیدماینر

گاهی کاربران سایت به من مراجعه میکنن و صحبت از پیاده سازی کارشون در زمینه طبقه بندی متون فارسی میکنن. با اونها که صحبت میکنم متاسفانه اصلا اطلاعات درستی در خصوص پروژشون ندارن. در ابتدا باید بگم به منظور طبقه بندی متون فارسی باید پلاگین text analysis رپیدماینر رو نصب کنید. پس از نصب حدود ۵۰ کامپوننت در اختیار شما قرار میده که به کمک اون می تونید به پردازش متون فارسی اقدام کنید.

در سایت رسمی خود رپیدماینر قید شده که می شه با این نرم افزار متون فارسی رو پردازش کرد و من هم انجام دادم و مطمئنم میشه. در ضمن برخی دوستان معتقد هستند که خروجی مرحله به مرحله از این نرم افزار ممکن نیست که باید خدمتشون عرض کنم برعکس میشه از هر قسمت اون خروجی گرفت.

یکی از مهمترین قسمت های کار با متن در رپیدماینر ، توکنیزه کردن یا توکنایز کردن (Tokenization) هست که رپید ماینر بر اساس فرمولی که یا شما بهش میدید یا خودش در میاره شروع به تکه تکه کردن متن به جهت آموزش مدل میکنه.

فرقی برای رپیدماینر نداره که چه متنی رو تکه تکه میکنه اون فقط یکسری کلمات رو از هم جدا می کنه.

هر چند ریشه یابی فارسی یا stem در رپیدماینر وجود نداره اما میشه برای ریشه یابی برخی لغات فارسی از کامپوننت ریشه یاب عربی رپیدماینر استفاده کرد.

مقالات علمی رو که مطالعه میکردم به این نتیجه رسیدم که برخی از دوستانی که روی این بخش ها کار کردن معمولا اشاره ای به مکانیزه بودن این بخش نکردن و معمولا پیش پردازش ها دستی بوده. هر چند تا حدودی رپید ماینر به کمک ما میاد ولی باز هم محدودیت هایی داره

به جهت صحبت در خصوص پروژه های طبقه بندی فارسی با من از طریق تلگرام به نشانی research_moghimi@ ارتباط برقرار کنید یا به من از طریق research.moghimi@gmail.cim ایمیل بزنید

نظر دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پاسخ من را به ایمیلم ارسال کن