محتوای محصول: بخش بندی یا دسته بندی معنایی هر آبجکتی(در اینجا صفحات یکتای نشست های کاربران) به کمک ورد نت و استفاده از مفهوم هر کلمه در هر آبجکت

آشنایی با وردنت:

وردنت یک پایگاه داده لغوی بزرگ از لغات انگلیسی است. این بانک اطلاعاتی اسم ها، فعل ها، صفت ها و قیدها را به مجموعه ای از لغات مترادف دسته بندی می نماید که هر دسته یک مفهوم مجزا را بیان می کند. مجموعه مترادف ها با استفاده از روابط معنایی-مفهومی و ارتباطات لغوی به یکدیگر پیوند داده شده اند. شبکه بدست آمده که شبکه ای است از لغات و مفاهیم مرتبط از لحاظ معنایی، می تواند توسط مرورگرها پیمایش شود. به علاوه وردنت به صورت رایگان و برای عموم در دسترس و قابل بارگذاری است. ساختار وردنت از آن یک ابزار مفید جهت زبان شناسی محاسباتی و  پردازش زبان طبیعی بوجود آورده است.

می توان گفت که وردنت مشابه یک لغت نامه است که لغات را بر اساس معانیشان دسته بندی می کند. گرچه چندین تفاوت مهم بین وردنت و دیگر لغت نامه ها وجود دارد. اول اینکه وردنت تنها شکل کلمات – رشته هایی از حروف – را پیوند نمی دهد بلکه مفاهیم لغات را نیز مرتبط می سازد. در نتیجه لغاتی که در نزدیکی یکدیگر در شبکه یافت می شوند، قرابت معنایی نیز دارند. دومین تفاوت این است که وردنت روابط معنایی میان لغات را برچسب گذاری می کند، در حالی که دسته بندی های لغات در یک لغت نامه از هیچگونه الگوی مشخصی جز مشابهت معنایی پیروی نمی نماید.

ورودی: رکورد هایی که در هر سطر آن آبجکت هایی با ویرگول از هم جدا شده باشند. مانند نشست های کاربران – به عنوان تست یک مجموعه ۲۰ هزارتایی قرار داده شده است. همچنین دسته ها نیز پس از دانلود قابل دسترسی می باشند. شما می توانید این دسته ها را کم کنید، تغییر دهید یا به تعداد آن اضافه کنید. در هر دسته، کلمات مرتبط با آن دسته قرار دارد. این کلمات را از دیکشنری یا هر جای دیگری میتوانید پیدا کرده و به فایل اضافه کنید تا خروجی دقیقتری داشته باشید.

خروجی : همان آبجکت ها از هم جدا شده اند. البته در دسته هایی که ما تعیین کرده ایم.

مثال: ما هزار عدد نشست داریم، سه دسته به نام های ورزشی، اقتصادی و سیاسی در نظر می گیریم، برای هر کدام از این سه دسته کلمات مناسب را از فایل مربوطه که در این پکیج وجود دارد در سیستم لود می کنیم. (بعد از خرید از راهنمای فارسی استفاده کنید). سپس با لود کردن نشست ها و اجرای برنامه تمام محتویات (صفحات)یکتای این هزار نشست در سه دسته اقتصادی و سیاسی و ورزشی دسته بندی می شوند.

برای آشنایی بیشتر با وردنت و معناشناسی و روابط معنایی به اینجا و اینجا مراجعه کنید.

کدها : به زبان سی شارپ

موتور معنایی وردنت: فقط DLL های این موتور موجود است.

توضیحات : در این بسته ۵ عدد فایل وجود دارد که شامل دسته های سیاسی، تاریخی، سرگرمی ، اقتصادی، فضایی می باشد. در واقع قرار است تمام صفحات یکتای سایت را از اسم صفحات به ۵ دسته؛ دسته بندی کنیم.  خروجی ها فایل های اکسل به ازای هر دسته می باشند که حاوی صفحاتی می باشند که از نظر معنایی بیشترین شباهت به یکی از دسته های ورودی را دارند. فایل های ورودی قابلیت افزودن دارند تا دیکشنری آنها بزرگتر شود.  پس از پیش پردازش تمام صفحات یکتای سایت و حذف برخی موارد مانند اعداد و …؛ تک تک صفحات به کمک دیکشنری بزرگ ورد نت با ورودی ها مقایسه شده و از خروجی وردنت عددی می گیرند. دقت کنید که وردنت از تمام مناظر مختلف مانند فعل و فاعلی، مجهول بودن و … با موضوع برخورد کرده و بهترین نتیجه را به خروجی می آورد. ورد نت برای هر دسته یک عدد تولید می کند و شباهت صفحه مورد نظر به هر کدام از دسته ها بیشتر بود به آن دسته روانه می شود.

دقت کنید که کار با وردنت زمان زیادی از سیستم برای پردازش می گیرد. پس باید با سعه صدر برخورد کنید.

 

 

دیدگاه‌ها (0)

نقد و بررسی‌ها

هیچ دیدگاهی برای این محصول نوشته نشده است.

اولین کسی باشید که دیدگاهی می نویسد “دسته بند معنایی آبجکت ها”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پاسخ من را به ایمیلم ارسال کن