آرشیو

آرشیو شماره ها:
۱۱۷

چکیده

با گسترش اینترنت و رشد سریع و روزافزون مقالات الکترونیکی، دسته بندی متون به یکی از ابزارهای کلیدی و مهم برای سازماندهی و مدیریت داده تبدیل شده است. در دسته بندی متون، یک مجموعه دانش اولیه در اختیار سامانه قرار می گیرد تا با یادگیری از این مجموعه، اسناد جدید ورودی به یکی از گروه های موضوعی، ملحق گردد. در متون سلامت به علت تنوع زیاد موضوعات، آماده کردن چنین مجموعه آموزش اولیه عملی بسیار زمان بر و هزینه بر است. هدف از مقاله ارائه مدلی ترکیبی از یادگیری (با نظارت و بدون نظارت) برای دسته بندی موضوعی تولیدات علمی حوزه سلامت است که بدون نیاز به مجموعه برچسب خورده اولیه عمل دسته بندی را انجام دهد. برای استخراج مدل موضوعی متون تولیدات علمی سلامت طی سال های 2009 تا 2019 در پایگاه پابمد، با استفاده از روش آمیخته داده کاوی، شامل متن کاوی و یادگیری ماشینی انجام گرفت. بر اساس مدل موضوعی تخصیص پنهان دیریکله، دادها تحلیل و سپس برای دسته بندی متون، از مدل ماشین بردار پشتیبان استفاده شد. در یافته های این پژوهش، مدل دسته بندی متون سلامت در سه گام اصلی معرفی شد. در گام اول پیش پردازش های لازم بر روی مجموعه داده به دلیل حذف کلمات کم تکرار و غیرضروری از مجموعه داده و افزایش دقت مدل پیشنهادی انجام گرفت. در گام دوم موضوعات موجود در متون به کمک روش احتمالاتی تخصیص پنهان دیریکله استخراج و به عنوان یک مجموعه آموزش اولیه در گام سوم به الگوریتم دسته بندی ماشین بردار پشتیبان داده و عمل یادگیری دسته بند به کمک این موضوعات انجام گرفت. درنهایت به کمک دسته بند، موضوع هر سند مشخص گردید. نتایج نشان داد که مدل پیشنهادی می تواند، یک دسته بندی بهتر با استفاده از ترکیب کردن خواص بدون نظارت خوشه بندی و دانش پیشین نمونه ها بسازد. انجام دادن خوشه بندی روی نمونه های برچسب دار با یک معیار شباهت مشخص، متن های مرتبط را باهم ادغام و یک دانش پیشین ایجاد کرده، سپس الگوریتم یادگیری، دسته بندی را با روشی نظارتی آموزش می دهد. ترکیب دسته بندی و خوشه بندی می تواند دقت دسته بندی متون سلامت را افزایش دهد.

تبلیغات