دسته بندی متون فارسی و سایر زبا نها

برنامه ­ی نوشته شده به زبان Java می­باشد. کار برنامه، دسته ­بندی متون فارسی می­باشد و این دسته ­بندی می­تواند برای زبان­های دیگر مانند انگلیسی نیز بکار رود. دیتابیس به کار رفته در این برنامه، شامل چندین متن برپسب­گ ذاری شده در زمینه ­های ادبیات، ورزشی، تاریخی، بهداشتی، اقتصادی، دینی، سیاسی و … می­باشد. اگر دیتابیسی که برای آموزش لازم را خود کارفرما داشته باشد، می­توان از دیتابیس وی نیز استفاده نمود برای آموزش. این برنام، با گرفتن فایل­های مورد نظر، با استفاده از الگوریتم­های KNN و Naïve Bayes، کار دسته­ بندی را انجام می­دهد. از دیگر کارهای انجام شده می­توان به شباهت دو متن نام برد. با دادن دو متن به زبان­های فارسی، انگلیسی و …، این برنامه، میزان شباهت این دو متن را پیدا می­کند. درصد درستی فایل­های دسته­ بندی شده برای دیتابیسی که در دسترس است، برای تاپیک­های محتلف، میزان متفاوتی می­باشد. مثلا برای تاپیک ورزشی، این میزان بالای ۹۰% و برای تاپیکی مانند سیاسی، این میزان حدود ۵۰% است. دیتابیس در دست اجرا، دیتابیسی از چند وبلاگ ایرانی است که موضوع هر یک، با برچسبی مشخص گردیده.

حتما آن را پیشنهاد می کنم از این محصول استفاده کنید. برای دریافت این محصول با ما تماس بگیرید: Research.moghimi@gmail.com یا با آی دی تلگرام بنده به آدرس Research_moghimi@ در ارتباط باشید

نظر دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پاسخ من را به ایمیلم ارسال کن