حالا یادگیری ماشین (Machine Learning) در پزشکی چه چیز جدیدی به این ابزارها اضافه میکند؟ آیا فقط همان رگرسیون لجستیک است با نام فریبنده؟
۱. فرضیات توزیعی (Distributional assumptions)
در آمار کلاسیک (مثل رگرسیون خطی): فرض میکنیم خطاها نرمال هستند، واریانس ثابت است، رابطه خطی است (مگر اینکه خودمان جمله غیرخطی وارد کنیم).
در یادگیری ماشین (مثل جنگل تصادفی یا شبکه عصبی): هیچ فرض توزیعی از پیش تعیین شدهای نداریم. الگوریتم خودش الگو را از داده مییابد (اما به قیمت نیاز به حجم داده بزرگتر).
۲. تأکید بر پیشبینی در مقابل استنباط
آمار کلاسیک: «ضریب بتا برای سن چقدر است؟ آیا معنیدار است؟ معنای بالینی آن چیست؟»
یادگیری ماشین: «پیشبینی من برای این بیمار جدید با چه دقتی است؟ خطای پیشبینی چقدر است؟»
۳. مدیریت پیچیدگی با منظمسازی
در آمار کلاسیک وقتی متغیرهای زیادی دارید (مثلاً ۱۰۰۰ متغیر ژنومی برای ۲۰۰ بیمار) مشکل «بعد بالا» (Curse of dimensionality) دارید.
یادگیری ماشین با روشهای «منظمسازی» (Ridge, Lasso, Elastic Net) یا «انتخاب ویژگی توکار» (مثل Random Forest) این مشکل را مدیریت میکند – که خود این روشها ریشه عمیقی در آمار (Bayesian prior, penalized likelihood) دارند.
یادگیری ماشین به ما اجازه میدهد:
مدلهایی با هزاران یا میلیونها پارامتر برازش دهیم (که در آمار کلاسیک غیرممکن است).
روابط بسیار غیرخطی و تعاملات پیچیده را بدون نیاز به مشخص کردن دستی آنها کشف کنیم.
به جای p-value و فاصله اطمینان، خطای پیشبینی را روی دادههای تست گزارش دهیم.
با روشهای اعتبارسنجی متقاطع (در پستهای بعدی) به جای یک بار تقسیم به train/test، شبیهسازی تکرار مطالعه انجام دهیم.
تفاوت اصلی در اولویت: استنباط علّی (آمار) در مقابل دقت پیشبینی (ML).
آمار پایه (توزیع، برآوردگر، واریانس، بایاس، کوواریانس) برای هر دو ضروری است.
در پستهای بعدی، همین مفاهیم را با زاویهدید هوش مصنوعی بازبینی میکنیم.
آموزش / مشاوره مقاله و پایاننامه و طرح پژوهشی و آماری / ویراستاری پژوهشی / منتورینگ پژوهشی
۹۰۴
۱۸:۰۰