روزنامه همشهری، محبوب ترین مجموعه دارای برچسب های ادات سخن در زبان فارسی


شناسایی موجودیت های نامدار از مهمترین پیش پردازش ها برای بسیاری از مسائل پردازش زبان طبیعی است.

روزنامه همشهری، محبوب ترین مجموعه دارای برچسب های ادات سخن در زبان فارسی

شناسایی موجودیت های نامدار فارسی:

روزنامه همشهری، محبوب ترین مجموعه دارای برچسب های ادات سخن در زبان فارسی
سیناپرس: شناسایی موجودیت های نامدار از مهمترین پیش پردازش ها برای بسیاری از مسائل پردازش زبان طبیعی است.

تشخیص موجودیت‌های نامدار یکی از موضوعات پردازش زبان طبیعی است که نیاز به پیکره دارد. این پیکره شامل 300 هزار کلمه ( برگرفته از پیکرهٔ بی‌جن‌خان) است و سه ردهٔ شخص (مثال: سید علی قاضی)، مکان (مثال: پارک آب و آتش) و سازمان (مثال: مجلس شورای اسلامی) در آن برچسب خورده که با فرمت IOB ارائه شده است.

با وجود پژوهش های صورت گرفته در مورد شناسایی موجودیت های نامدار فارسی، عملکرد راه حل های پیشنهادی هنوز با جایگاه کنونی این عملیات در زبان انگلیسی برابری نمی کند. علاوه بر این، بنابر اطلاعاتی که در اختیار است، تمام پیکره های متنی تشخیص موجودیت های نامدار در فارسی (از جمله ParsNER و (ArmanPersoNERCorpus بر اساس مجموعه بی‌جن‌خان(مجموعه‌ای است از متون فارسی شامل بیش از ۲ میلیون و ۶۰۰ هزار کلمه که با ۵۵۰ نوع برچسب POS برچسب‌گذاری شده‌اند. این پیکره که در پژوهشکدهٔ پردازش هوشمند علائم تهیه شده است همچنین شامل بیش از ۴۳۰۰ تگ موضوعی چون سیاسی، تاریخی و ... برای متون است.) ساخته شده است، که از محتویات روزنامه همشهری، به عنوان محبوب ترین مجموعه دارای برچسب های ادات سخن در زبان فارسی ایجاد شده است.

به این ترتیب، تمام روش های شناسایی موجودیت های نامدار در زبان فارسی، بر روی داده های خبری آموزش داده شده است و این روش ها برای اجرا روی کاربردهای دیگر مانند متون رسانه های اجتماعی به اندازه کافی منعطف نیستند.

در مقاله شناسایی موجودیت های نامدار در متون فارسی رسانه های اجتماعی با دیدگاه یادگیری ماشین که در پنجمین کنفرانس وب پژوهی ارائه شد، پیکره متنی ParsNER-Social معرفی می شود که مبتنی بر مجموعه داده های شبکه های اجتماعی و روشی مبتنی بر میدان های تصادفی شرطی به منظور شناسایی موجودیت های نامدار پیاده سازی شده است. این روش با پیشرفته ترین روش های شناسایی موجودیت های نامدار در زبان فارسی مقایسه شده و نتایج به دست آمده نشاندهنده برتری روش پیشنهادی بر آنهاست.

براساس این گزارش، مقاله «شناسایی موجودیت های نامدار در متون فارسی رسانه های اجتماعی با دیدگاه یادگیری ماشین» توسط مجید عسگری بیدهندی و بهروز مینایی بیدگلی از دانشکده مهندسی کامپیوتر، دانشگاه علم و صنعت ایران تالیف و به این کنفرانس ارائه شده است.

لینک کوتاه

حتما بخوانید: سایر مطالب گروه علمی

برای مشاهده فوری اخبار و مطالب در کانال تلگرام ما عضو شوید!


روی کلید واژه مرتبط کلیک کنید

بیشترین بازدید یک ساعت گذشته


تالاب‌ های چهارمحال‌ و بختیاری از جاذبه های گردشگری در نوروز + عکس