۱.۲ هزار عضو

ایستگاه اپیدمیولوژی/پژوهش/مقاله

هر آنچه که مربوط به علم اپیدمیولوژی ، آمار زیستی و پژوهش است را اینجا خواهیم گفت
آموزش | مشاوره | منتورینگ | ویراستاری پژوهشی

️ارتباط با ما:

️ @M_Shahmansuri

کانال تلگرامی:

️ https://t.me/Epidemiology_Station

مشاهده در اپلیکیشن بله مشاهده در وب بله

از آمار کلاسیک تا یادگیری ماشین

️اگر پست های قبلی کانال را دیده باشید، با رگرسیون لجستیک، نسبت شانس (OR)، فاصله اطمینان و P-value آشنا هستید. اینها آمار کلاسیک است.
حالا یادگیری ماشین (Machine Learning) در پزشکی چه چیز جدیدی به این ابزارها اضافه می‌کند؟ آیا فقط همان رگرسیون لجستیک است با نام فریبنده؟

آمار کلاسیک عمدتاً به دنبال استنباط علّی و تفسیر پارامترهاست؛ یادگیری ماشین به دنبال بهینه‌سازی پیش‌بینی، حتی به بهای قربانی کردن تفسیرپذیری.

️ سه تفاوت بنیادین (از نگاه آماری):
۱. فرضیات توزیعی (Distributional assumptions)
در آمار کلاسیک (مثل رگرسیون خطی): فرض می‌کنیم خطاها نرمال هستند، واریانس ثابت است، رابطه خطی است (مگر اینکه خودمان جمله غیرخطی وارد کنیم).
در یادگیری ماشین (مثل جنگل تصادفی یا شبکه عصبی): هیچ فرض توزیعی از پیش تعیین شده‌ای نداریم. الگوریتم خودش الگو را از داده می‌یابد (اما به قیمت نیاز به حجم داده بزرگتر).
۲. تأکید بر پیش‌بینی در مقابل استنباط
آمار کلاسیک: «ضریب بتا برای سن چقدر است؟ آیا معنی‌دار است؟ معنای بالینی آن چیست؟»
یادگیری ماشین: «پیش‌بینی من برای این بیمار جدید با چه دقتی است؟ خطای پیش‌بینی چقدر است؟»
۳. مدیریت پیچیدگی با منظم‌سازی
در آمار کلاسیک وقتی متغیرهای زیادی دارید (مثلاً ۱۰۰۰ متغیر ژنومی برای ۲۰۰ بیمار) مشکل «بعد بالا» (Curse of dimensionality) دارید.
یادگیری ماشین با روش‌های «منظم‌سازی» (Ridge, Lasso, Elastic Net) یا «انتخاب ویژگی توکار» (مثل Random Forest) این مشکل را مدیریت می‌کند – که خود این روش‌ها ریشه عمیقی در آمار (Bayesian prior, penalized likelihood) دارند.

پس چه چیز جدیدی یاد می‌گیریم؟
یادگیری ماشین به ما اجازه می‌دهد:
مدل‌هایی با هزاران یا میلیون‌ها پارامتر برازش دهیم (که در آمار کلاسیک غیرممکن است).
روابط بسیار غیرخطی و تعاملات پیچیده را بدون نیاز به مشخص کردن دستی آنها کشف کنیم.
به جای p-value و فاصله اطمینان، خطای پیش‌بینی را روی داده‌های تست گزارش دهیم.
با روش‌های اعتبارسنجی متقاطع (در پست‌های بعدی) به جای یک بار تقسیم به train/test، شبیه‌سازی تکرار مطالعه انجام دهیم.

جمع‌بندی: آمار کلاسیک و یادگیری ماشین خواهرند، نه رقیب.
تفاوت اصلی در اولویت: استنباط علّی (آمار) در مقابل دقت پیش‌بینی (ML).
آمار پایه (توزیع، برآوردگر، واریانس، بایاس، کوواریانس) برای هر دو ضروری است.
در پست‌های بعدی، همین مفاهیم را با زاویه‌دید هوش مصنوعی بازبینی می‌کنیم.

در پست بعدی: «توزیع احتمال در داده‌های پزشکی؛ چرا فرض نرمال بودن محدودیت دارد؟»#هوش_مصنوعی

️ ایستگاه اپیدمیولوژی

️
آموزش / مشاوره مقاله و پایان‌نامه و طرح پژوهشی و آماری / ویراستاری پژوهشی / منتورینگ پژوهشی

تلگرام/ بله

️ ارتباط با ما و رزرو مشاوره

️ @Epidemiology_Station

۹۰۴

۱۸:۰۰