دیتاماینینگ یار

واژه نامه احساسات فارسی که به صورت رایگان در دسترس است

چکیده:

مردم برای تصمیم گیری کاملاً آگاهانه برای خرید محصولات یا خدمات ، باید نظرات دیگران را بدانند. شرکت ها و سازمان ها باید نگرش مردم نسبت به محصولات و خدمات خود را کاهش دهند و از بازخورد مشتریان برای بهبود محصولات خود استفاده کنند. تکنیک های تجزیه و تحلیل احساسات این نیازها را پوشش می دهند. در حالی که اکثر کاربران اینترنت انگلیسی زبان نیستند ، بیشتر مقاله های تحقیقاتی در زمینه تحلیل احساسات به زبان انگلیسی متمرکز هستند. منابع برای زبانهای دیگر کم است. در این مقاله ، ما یک واژه نامه احساسات فارسی را معرفی می کنیم که شامل ۱۵۰۰ کلمه به همراه برچسب های بخشی از سخنرانی و امتیازات قطب آنها است. ما برای ارزیابی عملکرد این منبع در یک کار تجزیه و تحلیل احساسات از دو الگوریتم یادگیری ماشین استفاده کرده ایم. فرهنگ لغت به صورت رایگان در دسترس است و می توانید آن را از وب سایت ما بارگیری کنید.

مقدمه

در سال های اخیر ، با رشد سریع اینترنت ، افراد در سراسر جهان نظرات خود را در مورد موضوعات مختلف به اشتراک می گذارند. این حجم عظیم داده غیرساختاری موجود به صورت آنلاین به زبانهای مختلف برای شرکتها و سازمانها برای بهبود محصولات و خدمات خود بسیار مفید است (Poria و همکاران ، ۲۰۱۴). رشته متناظر علم و فناوری ، تجزیه و تحلیل احساسات (SA) نامیده می شود. تکنیک های SA شامل تعدادی از وظایف ، از جمله شناسایی قطبیت (مثبت / منفی) یا احساسات (شاد ، غمگین ، عصبانی و غیره) که بیان شده در متن یا در یک جمله هستند (ترنی ، ۲۰۰۲).

………………………….

۲-کارهای انجام شده

تجزیه و تحلیل داده ها برای شرکت های کوچک و بزرگ مهم است. آنها نظرات خود را از متن موجود در اینترنت جمع آوری می کنند. تجزیه و تحلیل این نظرات تأثیر زیادی در روابط مجدد مشتری دارد. شرکت ها برای بهبود محصولات خود از نظرات مشتریان در مورد ویژگی های منفی محصولات استفاده می کنند (کمبریا و همکاران ، ۲۰۱۶). علاوه بر این ، تجزیه و تحلیل احساسات فقط به بررسی محصولات محدود نمی شود بلکه در زمینه های دیگر مانند سیاست ، ورزش و غیره نیز مورد استفاده قرار می گیرد. در این بخش ، ما در مورد طبقه بندی احساسات پیش زمینه ای ارائه می دهیم و در مورد کارهای مرتبط بحث می کنیم.

۲٫۱ انواع تحلیل احساسات

رویکردهای طبقه بندی احساسات را می توان به سه گروه تقسیم کرد: رویکردهای آماری ، رویکردهای دانش بنیان و رویکردهای ترکیبی.

رویکردهای آماری از الگوریتم های یادگیری ماشین مانند SVM یا Naïve Bayes برای طبقه بندی متن استفاده می کنند. آنها می توانند از روش های یادگیری نظارت شده یا بدون نظارت استفاده کنند. روش های تحت نظارت برای طبقه بندی متن از داده های دارای برچسب استفاده می کنند ، در حالی که روش های بدون نظارت فقط از داده های خام استفاده می کنند (Maynard & Funk، ۲۰۱۱). از رویکردهای آماری معمولاً استفاده می شود ، به عنوان مثال ، برای شناسایی دارندگان احساسات و هدف (کامبریا و همکاران ، ۲۰۱۳).

رویکردهای دانش بنیان متن را بر اساس طبقه بندی تأثیرگذار بر اساس وجود کلمات تأثیرگذار بدون ابهام مانند غمگین ، شاد ، ترس ، یا بی حوصله طبقه بندی می کنند (Cambria، ۲۰۱۶). آنها از واژگان برای محاسبه آمار کلمات مثبت و منفی در متن داده شده استفاده می کنند: به عنوان مثال ، کلمه خوب مثبت شناخته شده و کلمه منفی بد شناخته شده است. فرهنگ لغت می تواند شامل کلمات یا عبارات منفرد باشد. مزیت رویکردهای دانش بنیان این است که آنها به داده های آموزش دیده نیاز ندارند. عیب اصلی عدم مقیاس پذیری است.

رویکردهای ترکیبی روش های آماری و دانش بنیان را برای بهبود عملکرد و دقت ترکیب می کنند (Maynard & Funk، ۲۰۱۱؛ Cambria، ۲۰۱۶). Pak & Parou-bek (2010) مجموعه داده ای را تهیه کرد که شامل اسناد مثبت و منفی است. برای طبقه بندی ، آنها تشابه کسینوس بین سند داده شده و اسناد با قطبیت شناخته شده را محاسبه می کنند. آنها روش خود را با استفاده از الگوریتم Naïve Bayes ارزیابی کردند.

۲٫۲٫ رویکردهای دانش بنیان

از روشهای مختلف مبتنی بر لغت برای طبقه بندی احساسات اسناد به زبانهای مختلف استفاده شده است. جدول ۱ را ببینید. بیشتر روشهای مبتنی بر واژه نامه از صفت برای شناسایی قطبیت متن استفاده می کنند. روشهای مختلفی برای توسعه واژه نامه های احساسات پیشنهاد شده است ، مانند مجموعه های دستی ، پیکره ای و مبتنی بر فرهنگ لغت. ساخت دستی وقت گیر است. برای بهبود عملکرد معمولاً با روشهای دیگر ترکیب می شود. روش های مبتنی بر پیکره از لیست کلمات احساساتی همراه با قطبیت و الگوهای نحوی آنها برای یافتن کلمات احساساتی و قطبیت بیشتر استفاده می کنند. به عنوان مثال ، Hatzi-vassiloglou و McKeown (1997) تکنیک مبتنی بر نمودار را برای یادگیری معانی واژگان توسعه دادند. آنها قطب صفت را با استفاده از حروف ربط شناسایی کردند. آنها از الگوریتم خوشه بندی برای تقسیم کلمات به مثبت و منفی استفاده کردند. آنها به ۸۲٪ دقت دست یافتند.

رویکردهای مبتنی بر فرهنگ لغت نیازی به لیست های از پیش تدوین شده کلمات احساسات ندارند. آنها برای جمع آوری کلمات احساسات و جهت گیری آنها به صورت دستی و جستجوی مترادف و متضاد در یک فرهنگ لغت استفاده می شوند. عیب اصلی این روش این است که قادر به یافتن کلمات احساساتی با گرایش خاص دامنه نیست: کلمات احساساتی می توانند در یک دامنه مثبت و در حوزه دیگر منفی باشند. به عنوان مثال ، کلمه بزرگ وقتی به صفحه رایانه اشاره دارد مثبت است ، اما وقتی به تلفن همراه اشاره دارد منفی است (Hu & Liu، ۲۰۰۴).

۲٫۳ زبان فارسی

زبان فارسی از ۳۲ حرف استفاده می کند که ۲۸ حرف عربی را پوشش می دهد. سیستم نوشتاری آن شامل علائم و نشانه های خاص دیاکتیکی است که می تواند به اشکال مختلف مورد استفاده قرار گیرد یا از واژه حذف شود. واکه های کوتاه به صورت نوشتاری نشان داده نمی شوند. حروف با بیش از یک رمزگذاری Unicode وجود دارد. بعضی از کلمات بیش از یک نوع هجی دارند. هجی برخی از کلمات با گذشت زمان تغییر می کند. همه این موارد باعث افزایش تعداد هوموگرافها و مترادف ها می شود ، که این امر مشکلات در محاسبات فارسی را نشان می دهد (کریمی ، ۱۹۸۹ ؛ سراجی و دیگران ، ۲۰۱۲)

سرایی و باقری (۲۰۱۳) روشی را برای انتخاب ویژگی در تجزیه و تحلیل احساسات فارسی ارائه داده اند که قادر است همزمانی کلمات فارسی را در طبقات مختلف محاسبه کند. آنها از ارزیابی مشتری برای ارزیابی عملکرد روش استفاده کردند. در ارزیابی از الگوریتم Naïve Bayes استفاده شده است. دقت کلی رویکرد آنها ۷۵٪ بود. مزیت این روش سادگی آن است. یک نقطه ضعف نیاز به مقدار زیادی از داده های آموزش است.

Chen & Skiena (2014) واژه نامه ای را برای زبان های اصلی مانند انگلیسی ، عربی ، ژاپنی و فارسی پیشنهاد کرد. داده های انگلیسی به صورت آنلاین جمع آوری شده است. آنها از مترجم گوگل برای ترجمه داده ها به زبانهای مختلف و WordNet برای جمع آوری مترادف و متضاد انگلیسی استفاده کردند. این کلمات و عبارات به زبان های مختلف ترجمه شده است. آنها از صفحات ویکی پدیا برای ارزیابی عملکرد واژه نامه خود استفاده کردند و عملکرد کلی ۴۵٫۲٪ را بدست آوردند. مزیت این روش توانایی تولید واژه نامه برای ۱۳۶ زبان است. یک نقطه ضعف این است که فرهنگ لغت اکثر این زبانها فقط کمتر از صد کلمه و عبارت بود.

۳٫ فرهنگ لغت احساسات ایرانی PerCent

بسیاری از محققان خاطرنشان می کنند که مشکل اصلی تحلیل احساسات چند زبانه ، کمبود منابع است. برای غلبه بر این مسئله ، ما یک فرهنگ لغت فارسی متشکل از ۱۵۰۰ کلمه فارسی به همراه قطب آنها و بخشی از برچسب گفتار ایجاد کردیم ، که آن را PerSent می نامیم. جدول ۲ نمونه هایی را نشان می دهد.

بیشتر تحقیقات قبلی درباره احساسات از صفت برای شناسایی قطبیت جملات استفاده می کردند (هو و لیو ، ۲۰۰۴). برخی از محققان از قیدها و صفتها برای ساختن واژه نامه استفاده کردند (Benamara et al، ۲۰۰۷). برخی از صفت ، قید و فعل استفاده می کنند (Taboada et al، ۲۰۱۱). برای واژه نامه احساسات فارسی ما از صفت ، قید ، فعل و اسم استفاده کردیم ، زیرا همه این کلمات و عبارات برای تعیین قطب جمله مفید هستند.

یک فرهنگ لغت را می توان به روش های مختلف ، مانند دستی یا استفاده از واژه نامه های موجود مانند SentiWordNet (Esuli & Sebastiani ، ۲۰۰۶) یا General Inquirer (Stone et al.، ۱۹۶۶) تهیه کرد. کلمات و عبارات استفاده شده در واژه نامه ما از منابع مختلف دیگری مانند وب سایت بررسی فیلم ، وبلاگ ها و فیس بوک گرفته شده است. چهار منبع متفاوت وجود داشت ، یعنی وب سایت های مربوط به فیلم ها ، اخبار ، تلفن های همراه و رایانه ها.

ما به صورت دستی قطب بندی را بین –۱ و ۱+ به هر کلمه و عبارت اختصاص دادیم. درجه شدت نشان داده شد: به عنوان مثال ، “خوشحال” (happy) ، “بشاش” (cheerful) و “شاد” (delighted) دارای مقادیر مثبت مختلف هستند. به منظور اختصاص قطبیت به صورت دستی به برخی از کلمات و عبارات ، ما از بسته TextBlob Python استفاده کردیم که برای اختصاص دادن قطب به کلمات ، عبارات و جملات به زبان انگلیسی استفاده می شود (یانگ ، ۲۰۱۵). برای این منظور ، ما کلمات فارسی را به انگلیسی ترجمه کردیم. ما همچنین به صورت دستی بخشی از برچسب گفتار (POS) را به هر کلمه یا عبارت اختصاص دادیم. جدول ۳ توزیع برچسب های POS در واژه نامه را نشان می دهد.

۴٫ روش ارزیابی

به منظور ارزیابی عملکرد واژه نامه خود ، ما از دو ردیف الگویی طبقه بندی استفاده کردیم. ما از واژه نامه خود برای تعیین قطب به ویژگیهای استخراج شده از مجموعه داده استفاده کردیم. شکل ۱ چارچوب کلی را نشان می دهد که ما برای ارزیابی عملکرد واژه نامه خود استفاده کرده ایم. در زیر هر مرحله پردازش را شرح می دهیم.

پیش پردازش مرحله پیش پردازش شامل چهار قسمت ، توکن سازی ، نرمالسازی ، حذف کلمات ایست وپیدا کردن ریشه کلمات بود. از نرمال سازی برای حذف نویز از متن استفاده شد. برای حذف صرف فعل ازشکل های صرف شده از stemming استفاده شد: واژه نامه فقط شکل پایه کلمات را فراهم می کند.

انتخاب ویژگی هدف از انتخاب ویژگی حذف ویژگیهای غیر ضروری بود که باعث بهبود عملکرد و کارایی طبقه بندی می شد. ویژگی هایی که ما استفاده کردیم براساس قطبیت کلمه ، برچسب POS و وجود و دفعات کلمات احساسات بود. جدول ۴ را ببینید.

Presence and frequency of sentiment words

حضور و دفعات کلمات احساسات. کلمات احساسات قطب کلی را برای طبقه بندی احساسات مشخص می کنند. نمونه ای از کلمات مثبت در فارسی “زیبا” (زیبا) و “عالى” (عالی) و کلمات منفی “زشت” (زشت) و “بد” (بد) هستند. ویژگی های حضور کلمات مثبت و منفی (دو ویژگی متفاوت) بدون در نظر گرفتن تعداد وقایع یک کلمه معین ، باینری هستند ، در حالی که دو ویژگی دیگر عدد صحیح هستند و به ترتیب تعداد وقایع مثبت و منفی را نشان می دهند.

POS-based features

ویژگی های مبتنی بر POS. فرهنگ لغت ما حاوی کلماتی به همراه برچسب POS آنها مانند قید ، فعل ، اسم یا صفت است. بیشتر تحقیقات قبلی فقط صفت و اسم را برای شناسایی قطبیت جملات به کار می برد (Kouloumpis و همکاران ، ۲۰۱۱) ، اما ما هشت ویژگی مختلف را به ترتیب در نظر می گیریم: فراوانی صفت های مثبت و منفی ، ضمایر ، فعل ها و اسم ها .

Word Polarity

قطب کلمه. واژه نامه ما برای کلمات پولاریته می دهد. به عنوان دو ویژگی متفاوت ، از قطب کلی کلمات منفی و مثبت ، به ترتیب استفاده کردیم.

۵٫ نتایج تجربی

ما با استفاده از واژه نامه خود ، در بخش اخبار VOA فارسی (صدای آمریکا) ، که حاوی ۵۰۰ عنوان خبری مثبت و ۵۰۰ عنوان منفی است ، از رویکردهای پایه ساده برای تحلیل احساسات استفاده می کنیم. سپس عملکرد را از نظر دقت اندازه گیری کردیم:

۵٫۱ نتایج

ما برای ارزیابی از ماشین بردار پشتیبانی (SVM) و طبقه بندی Naïve Bayes استفاده کردیم. دستگاه بردار پشتیبان نتایج بهتری نسبت به Na Bayve Bayes داد. جدول ۵ را ببینید. در این آزمایش از همه ویژگیها استفاده شد.

ما همچنین اثر بخشی ویژگی های مختلف را برای تعیین اهمیت آنها مقایسه کردیم. جدول ۶ را ببینید. این دقت از ۴۶٪ تا ۶۳٪ متفاوت بود. SVM به طور یکنواخت نتایج بهتری نسبت به Naesve Bayes ارائه داد. این آزمایش نشان داد که صرف وجود کلمات نظر نسبت به فراوانی آنها عملکرد بهتری دارد.

ما همچنین ویژگی های POS ، مانند فراوانی صفت مثبت ، منفی ، فعل و اسم را به ترتیب مقایسه کردیم. جدول ۷ را ببینید. SVM دوباره تقریباً یکنواخت از Naïve Bayes بهتر عمل کرده است.

جدول ۸ نتایج مربوط به قطب کلی کلمات منفی و مثبت را نشان می دهد. کلمات مثبت از کلمات منفی پیشی گرفتند و SVM از Naive Bayes بهتر عمل کرد.

۵٫۲ بحث

بر اساس کارهای مرتبط با روش های مبتنی بر فرهنگ لغت ، انتظار داشتیم که فرهنگ لغت PerSent عملکرد بهتری داشته باشد. طبقه بندی اخبار به مثبت و منفی کار دشواری است ، زیرا اکثر خبرهای بد حاوی اصطلاحات ذهنی نیستند که بتواند آنها را به عنوان منفی طبقه بندی کند.

مشکل اصلی فرهنگ لغت ما اندازه نسبتاً کم آن است: ۱۵۰۰ کلمه برای فارسی کافی نیست زیرا دارای بسیاری از گویش ها است و ما اصطلاحات اصطلاحی فعالانه ای را برای ما به همراه دارد ، بنابراین به یک لغت نامه بزرگتر نیاز دارد ، توسعه آن به زمان و تلاش نیاز دارد (او و ژو ، ۲۰۱۱)

مشکل دیگر این است که برنامه ساده ما به درستی کنایه را کنترل نکرد. باید یک سیستم بسیار پیچیده تری ایجاد شود تا بتواند کنایه را در متون تشخیص دهد. برای کشف جملات کنایه آمیز و کنایه آمیز مطالعه بیشتر لازم است. طعنه زدن باید به طور مستقل مورد مطالعه قرار گیرد و برای بهبود عملکرد طبقه بندی ما ، ابزار دیگری لازم است که بتواند از آن استفاده کند.

به همین ترتیب ، برنامه آزمایشی ساده ما به درستی تغییر کد را بین فارسی و انگلیسی انجام نداد: در بعضی جملات از ترکیبی از کلمات فارسی و انگلیسی استفاده شده است.

صفتها در مقایسه با سایر بخشهای گفتار نتایج بهتری دارند ، زیرا بررسی صفتها در یک جمله در مقایسه با کلمات دیگر آسان تر است. به عنوان مثال ، در “عکس زیبایى است” ، که به معنای “این تصویر زیباست” ، صفت به وضوح احساسات را نشان می دهد.

جای تعجب نیست که همه ویژگی ها در کنار هم نتایج بهتری نسبت به ویژگی های جداگانه دارند ، زیرا از این طریق الگوریتم به اطلاعات بیشتری دسترسی داشت.

۶– نتیجه گیری

ما واژه نامه جدیدی برای زبان فارسی ایجاد کرده ایم که می تواند برای تجزیه و تحلیل احساسات فارسی استفاده شود. واژه نامه حاوی ۱۵۰۰ کلمه فارسی به همراه قطبیت آنها در مقیاس عددی از –۱ تا ۱+ و بخشی از سخنرانی برچسب است. اکثر مقادیر به صورت دستی اختصاص داده شدند. فرهنگ لغت جدید برای بارگیری از طریق URL http://www.gelbukh.com/resources/persent به صورت رایگان در دسترس است.

نتایج آزمایش ما نشان می دهد که واژه نامه ما ابزاری مفید برای تعیین قطبیت جملات در فارسی است. در آزمایشات ، ما از دو طبقه بندی استفاده کردیم: SVM و Naïve Bayes ، که SVM نتایج بهتری ارائه داد.

به عنوان کار آینده ، ما قصد داریم فرهنگ لغت خود را گسترش دهیم ، روشهای تلفیقی آن را با کمک رایانه امتحان کنیم ، و همچنین فرهنگ لغت خود را برای طیف وسیعی از وظایف و شرکتها به کار ببریم. علاوه بر این ، ما روش های دانش بنیان را با ویژگی های متنی عمیق برای طبقه بندی احساسات ترکیب خواهیم کرد (Poria و همکاران ، ۲۰۱۵a). چارچوب تحلیل احساسات فارسی از انتها به انتها مبتنی بر الگوهای زبانی و دانش عقل سلیم ، کار مهم دیگری است که باید انجام شود (Poria et al.، ۲۰۱۵b، ۲۰۱۲؛ Cambria et al.، ۲۰۱۵). تجزیه و تحلیل احساسات مبتنی بر جنبه (پوریا و دیگران ، ۲۰۱۶) و کلمات احساسات ابهام آور (پاکرای و همکاران ، ۲۰۱۱a ، ۲۰۱۱b ، ۲۰۱۰) نقش اصلی را در چنین چارچوبی بازی می کنند.

دیدگاه‌ها (0)

*
*

پاسخ من را به ایمیلم ارسال کن