بازارسال شده از MBA Pro
۱۴
۱۵:۱۳
میخوای وارد دنیای پردرآمد تحلیل داده بشی؟
در این دوره بهصورت کاملاً کاربردی و پروژهمحور یاد میگیری.
09118344246@DataMentor
۶۶۹
۱۵:۴۲
در دنیایی که هر ثانیه میلیونها داده تولید میشود، برنده واقعی کسی نیست که فقط به اطلاعات دسترسی دارد؛ بلکه کسی است که بتواند از دل این دادهها معنا استخراج کند. تحلیل داده یعنی دیدن الگوهایی که دیگران از کنارشان عبور میکنند؛ یعنی تبدیل اعداد خام به تصمیمهای هوشمند، استراتژیهای دقیق و آیندهای روشنتر. «دیتا منتور» جاییست برای کسانی که میخواهند فراتر از نمودارها فکر کنند، قدرت تحلیل را یاد بگیرند و زبان واقعی دادهها را بفهمند.@DataMentor
۳K
۱۴:۳۸
خوشهبندی چیست؟خوشهبندی (Clustering) یک روش در یادگیری ماشین بدون نظارت است که دادهها را بر اساس شباهتهایشان به گروههای مختلف تقسیم میکند.به هر گروه یک خوشه میگویند.به زبان ساده، هدف خوشهبندی این است که:دادههای مشابه را کنار هم قرار دهد.دادههای متفاوت را از هم جدا کند.مثال سادهفرض کنید چند نفر را بر اساس ویژگیهایی مثل:سندرآمدمیزان خریددر نظر داریم.خوشهبندی کمک میکند این افراد به گروههایی مثل:مشتریان کمخریدمشتریان متوسطمشتریان پرخریدتقسیم شوند.بدون اینکه از قبل برچسبی داشته باشیم.چرا خوشهبندی مهم است؟خوشهبندی در بسیاری از مسائل کاربرد دارد، مثل:●بخشبندی مشتریان●تشخیص الگوهای پنهان●تحلیل رفتار کاربران●کشف ناهنجاریها●فشردهسازی و خلاصهسازی دادههاویژگی اصلی خوشهبندیدر خوشهبندی، ما برچسب آماده نداریم.یعنی مدل از قبل نمیداند کدام داده به کدام گروه تعلق دارد.خود الگوریتم با توجه به شباهتها و فاصلهها، گروهها را میسازد.@DataMentor
۳۸۵
۱۶:۱۰
رگرسیون یک روش تحلیل آماری است که از آن در اقتصاد، سرمایهگذاری و تجارت، به منظور تشخیص نوع ارتباط بین یک متغیر وابسته و یک یا چند متغیر مستقل استفاده میشود. همچنین میزان قدرت یا قوی بودن رابطه بین متغیرها میتواند در ارائه یک تحلیل و پیشبینی قوی بسیار کمککننده باشد. در رگرسیون تلاش بر این است که اثر یک یا چند متغیر روی متغیرهای دیگر بررسی و پیشبینی شود. برای مثال ممکن است یک سرمایهگذار دنبال این باشد که قیمت فولاد روی فروش ماشین چه اثری دارد. در این مثال آن متغیری که تاثیر میپذیرد، متغیر وابسته نام دارد، در حالی که متغیر دیگر، متغیر مستقل است.رگرسیون انواع مختلفی دارد که مرسومترین و سادهترین نوع آن، «رگرسیون خطی ساده» (Simple Linear Regression) است. در رگرسیون خطی ساده، فقط یک متغیر مستقل داریم. اما زمانی که بیشتر از یک متغیر مستقل داشته باشیم، دیگر با رگرسیون خطی ساده مواجه نیستیم، بلکه رگرسیون از نوع «خطی چندگانه» (Multiple Linear Regression) است. یک نمونه رگرسیون خطی چندگانه، فروش ماشین است که در آن میزان علاقه مردم به سرعت، قیمت فولاد، قیمت نفت و درآمد ناشی از قیمت سهام متغیرهای مستقل مسئله هستند.اگر بخواهیم در مورد کاربردهای رگرسیون صحبت کنیم، یک نمونه از کاربردهای آن در تعیین «همبستگی» (Correlation) و «کواریانس یا هم وردایی» (Covariance) است که از آن در سرمایهگذاریها زیاد استفاده میشود. روند کار به این صورت است که برای مثال، تعیین این دو پارامتر میتواند نشان دهد دو روند سرمایهگذاری چقدر در یک راستا پیش میروند. گفتیم در رگرسیون با دو نوع متغیر سروکار داریم. اینکه هر کدام چه تعدادی داشته باشند، مهم نیست، اما لازم است تمام متغیرهای مسئله بررسی شوند و در یکی از این دو گروه قرار بگیرند:متغیرهای مستقلمتغیرهای وابسته@DataMentor
۵۸۱
۱۷:۵۶
رگرسیون لجستیک (Logistic Regression) چیست؟رگرسیون لجستیک یکی از الگوریتمهای طبقهبندی (Classification) است که برای اختصاص دادهها به مجموعهای از کلاسها استفاده میشود. برخی از نمونههای مسائل طبقهبندی عبارتاند از: طبقهبندی ایمیلها به دو دستهی ایمیلهای اسپم (Spam) یا غیراسپم (Not Spam) یا طبقهبندی معاملات آنلاین به دو دستهی کلاهبرداری یا غیرکلاهبرداری یا طبقهبندی تومورهای بدخیم یا خوشخیم.
همانطور که تا الان متوجه شدیم، بهطور کلی در رگرسیون لجستیک خروجی بهشکل صفر یا ۱ است؛ یعنی برای مثال، یا تورمور بدخیم است (1) یا خوش خیم (0).
زمانیکه تعداد کلاسهای خروجی 2 باشد، به آن طبقهبندی باینری (Binary Classification) گفته میشود؛ البته تعداد کلاسهای خروجی میتواند بیشتر هم باشد که در این صورت به آن طبقهبندی مالتی (Multi Classification) گفته میشود.
تا اینجا فهمیدیم که در رگرسیون لجستیک هدف در خروجی اختصاص دادهها به یکی از دو کلاس صفر یا ۱ است. درواقع در این تکنیک احتمال این را که داده به کدام کلاس متعلق است در خروجی خواهیم داشت. از آنجا که دربارهی احتمال صحبت میکنیم، پس قطعاً میدانیم خروجی ما باید بین صفر و ۱ باشد. حال لازم است ببینیم در اینجا ما به چه تابعی احتیاج داریم که بتواند دادهها را بهخوبی نمایش دهد و در کلاس درستی طبقهبندی کند.@DataMentor
همانطور که تا الان متوجه شدیم، بهطور کلی در رگرسیون لجستیک خروجی بهشکل صفر یا ۱ است؛ یعنی برای مثال، یا تورمور بدخیم است (1) یا خوش خیم (0).
زمانیکه تعداد کلاسهای خروجی 2 باشد، به آن طبقهبندی باینری (Binary Classification) گفته میشود؛ البته تعداد کلاسهای خروجی میتواند بیشتر هم باشد که در این صورت به آن طبقهبندی مالتی (Multi Classification) گفته میشود.
تا اینجا فهمیدیم که در رگرسیون لجستیک هدف در خروجی اختصاص دادهها به یکی از دو کلاس صفر یا ۱ است. درواقع در این تکنیک احتمال این را که داده به کدام کلاس متعلق است در خروجی خواهیم داشت. از آنجا که دربارهی احتمال صحبت میکنیم، پس قطعاً میدانیم خروجی ما باید بین صفر و ۱ باشد. حال لازم است ببینیم در اینجا ما به چه تابعی احتیاج داریم که بتواند دادهها را بهخوبی نمایش دهد و در کلاس درستی طبقهبندی کند.@DataMentor
۱۸۲
۸:۲۴
P-value یکی از کلیدیترین مفاهیم در تحلیل آماری و آزمون فرضیه است. اگر تا امروز در درک معنای واقعی پی ولیو مشکل داشتی، این آموزش ساده و تصویری دقیقاً برای توست! در این مطلب، با زبانی روان یاد میگیریم که P-value چیست، چطور تفسیر میشود، و چه نقش مهمی در تصمیمگیری آماری دارد. از P-value برای تعیین احتمال مشاهده یک نتیجه خاص یا نتایج بدتر از آن با فرض درست بودن فرضیه صفر استفاده می شود. فرضیه صفر عبارتی است که فرض می کند هیچ تفاوت یا رابطه ای بین دو گروه یا دو متغیر وجود ندارد.
هنگام انجام یک آزمون فرضیه، محققین بر اساس داده هایی که جمع آوری کرده اند، عبارت P-value را محاسبه می کنند. اگر P-value کوچک باشد (معمولاً کمتر از 0/05)، نشان میدهد که نتایج مشاهدهشده بعید است بهطور تصادفی رخ داده باشند و فرضیه صفر رد میشود. از سوی دیگر، اگر P-value بزرگ باشد (معمولاً بیشتر از 0/05)، نشان میدهد که نتایج مشاهدهشده میتوانست به صورت شانسی اتفاق بیفتد و فرضیه صفر رد نمیشود.
به بیان ساده، یک P-value به شما می گوید که چقدر احتمال دارد که نتایج شما به دلیل شانس باشد، نه یک نتیجه واقعی. P-value کوچکتر به این معنی است که نتایج معنی دارتر هستند و احتمال کمتری وجود دارد که به دلیل شانس باشند، در حالی که P-value بزرگتر به این معنی است که نتایج، کمتر معنی دار هستند و احتمال بیشتری وجود دارد که ناشی از شانس باشند.
در نتیجه، p-value یک شاخص آماری است که به محققان کمک می کند تا تعیین کنند آیا نتایجی که به دست آورده اند معنادارند یا اینکه احتمالاً ناشی از شانس هستند. با تفسیر P-value، محققان می توانند از داده های خود نتیجه گیری کنند و تصمیمات آگاهانه بگیرند.@DataMentor
هنگام انجام یک آزمون فرضیه، محققین بر اساس داده هایی که جمع آوری کرده اند، عبارت P-value را محاسبه می کنند. اگر P-value کوچک باشد (معمولاً کمتر از 0/05)، نشان میدهد که نتایج مشاهدهشده بعید است بهطور تصادفی رخ داده باشند و فرضیه صفر رد میشود. از سوی دیگر، اگر P-value بزرگ باشد (معمولاً بیشتر از 0/05)، نشان میدهد که نتایج مشاهدهشده میتوانست به صورت شانسی اتفاق بیفتد و فرضیه صفر رد نمیشود.
به بیان ساده، یک P-value به شما می گوید که چقدر احتمال دارد که نتایج شما به دلیل شانس باشد، نه یک نتیجه واقعی. P-value کوچکتر به این معنی است که نتایج معنی دارتر هستند و احتمال کمتری وجود دارد که به دلیل شانس باشند، در حالی که P-value بزرگتر به این معنی است که نتایج، کمتر معنی دار هستند و احتمال بیشتری وجود دارد که ناشی از شانس باشند.
در نتیجه، p-value یک شاخص آماری است که به محققان کمک می کند تا تعیین کنند آیا نتایجی که به دست آورده اند معنادارند یا اینکه احتمالاً ناشی از شانس هستند. با تفسیر P-value، محققان می توانند از داده های خود نتیجه گیری کنند و تصمیمات آگاهانه بگیرند.@DataMentor
۱۸۸
۸:۳۱
فاصله اطمینان چیست؟فاصله اطمینان یک بازه است که با استفاده از دادههای یک نمونه محاسبه میشود تا مقدار واقعی یک پارامتر در کل جامعه را تخمین بزند.به زبان ساده:بهجای اینکه بگوییم «عدد واقعی دقیقاً این است»، میگوییم«عدد واقعی احتمالاً در این بازه قرار دارد.»مثال ساده:فرض کنید از 100 نفر درباره رضایت از یک محصول سؤال میکنید و میانگین رضایت آنها 80 از 100 میشود.اما چون فقط از 100 نفر پرسیدهاید، ممکن است میانگین واقعی همه مشتریان کمی فرق داشته باشد.پس میگوییم:با اطمینان 95٪، میانگین واقعی رضایت بین 76 تا 84 است.این بازه فاصله اطمینان نام دارد.مفهوم «اطمینان 95٪» چیست؟این جمله به این معنی نیست که:«95٪ احتمال دارد مقدار واقعی داخل این بازه باشد»تعبیر دقیقتر این است:اگر بارها نمونهگیری کنیم و هر بار فاصله اطمینان بسازیم، حدود 95٪ از آن بازهها مقدار واقعی را در بر میگیرند.اما در کاربرد روزمره معمولاً بهصورت ساده میگوییم:«با اطمینان 95٪، مقدار واقعی در این بازه است.»چرا فاصله اطمینان مهم است؟چون هر عددی که از نمونه به دست میآید، مقداری عدمقطعیت دارد.فاصله اطمینان این عدمقطعیت را نشان میدهد.@DataMentor
۳۶۳
۱۴:۱۹
تحلیل داده؛ از مشاهده الگوها تا تصمیمگیری مبتنی بر شواهد:در دنیای امروز، داده دیگر صرفاً مجموعهای از اعداد و رکوردها نیست، بلکه بازنمایی کمیِ رفتار، فرایند، عملکرد و تغییرات یک سیستم است. تحلیل داده فرایندی نظاممند برای استخراج اطلاعات معنادار از دادههای خام است؛ فرایندی که با هدف کشف الگوها، آزمون فرضیهها، پیشبینی پدیدهها و پشتیبانی از تصمیمگیری انجام میشود.تحلیل داده دقیقاً چیست؟از منظر علمی، تحلیل داده مجموعهای از روشهای آماری، محاسباتی و بصریسازی است که به کمک آن میتوان ساختار پنهان دادهها را شناسایی کرد. این فرایند معمولاً شامل مراحل زیر است:جمعآوری دادهپاکسازی و پیشپردازشتحلیل اکتشافی دادهها (EDA)مدلسازی آماری یا یادگیری ماشینارزیابی مدل و اعتبارسنجیتفسیر نتایج و استخراج بینشنکته مهم این است که تحلیل داده صرفاً تولید نمودار یا محاسبه چند شاخص توصیفی نیست؛ بلکه هدف اصلی آن، تبدیل داده به دانش قابل استفاده است.تفاوت داده، اطلاعات و دانش:در مباحث علمی، میان سه مفهوم تمایز قائل میشوند:داده (Data): مشاهدات خام و پراکندهاطلاعات (Information): دادههایی که سازماندهی و خلاصه شدهانددانش (Knowledge): تفسیر اطلاعات در یک زمینه مشخص برای اقدام عملیبرای مثال، ثبت زمان ورود مشتریان به یک فروشگاه «داده» است. محاسبه ساعات پرتردد «اطلاعات» محسوب میشود. اما تصمیمگیری برای افزایش نیروی فروش در بازههای پرتردد، «دانش» و کاربرد واقعی تحلیل داده است.نقش آمار در تحلیل داده:هسته اصلی تحلیل داده، علم آمار است. آمار به ما کمک میکند تا:دادهها را توصیف کنیم،عدمقطعیت را اندازهگیری کنیم،روابط بین متغیرها را بررسی کنیم،و از روی نمونه، درباره جامعه نتیجهگیری کنیم.@DataMentor
۱۵۰
۱۰:۲۰
همیشه برایم سوال بود که چطور میشود با عدد و داده تصمیم هایی دقیق تر گرفت؟ کم کم فهمیدم پشت هر عدد، یک واقعیت مهم از رفتار انسان ها و کسب و کارها پنهان است.حالا بعد از سال ها تجربه و مطالعه در زمینه تحلیل داده، یاد گرفته ام چطور از داده های خام بینش بسازم. کاری که انجام می دهم ساده است اما تاثیر گذار یعنی تبدیل داده به تصمیم با استفاده از ابزارهای power bi , python و مدل های آماری که به کسب و کارها کمک میکنم که بهتر بفهمند که:۱. مشتری هایشان واقعا چه رفتاری دارند؟۲. کدام محصول سودآورتر هست؟۳. چطور میتوان هزینه ها رو کاهش داد و فروش را بالاتر برد؟اگر شما هم با داده سروکار دارید یا دنبال روش هایی هستید که کسب و کارتان براساس عدد و منطق رشد کند خوشحال میشوم که با شما در ارتباط باشم.@DataMentor
۱۶۵
۲۰:۲۹