بله | کانال Data Mentor

۱۶ اردیبهشت

بازارسال شده از MBA Pro

۱۴

۱۵:۱۳

۱۷ اردیبهشت

یادگیری تحلیل داده و دیتاساینس با پایتون
می‌خوای وارد دنیای پردرآمد تحلیل داده بشی؟
در این دوره به‌صورت کاملاً کاربردی و پروژه‌محور یاد می‌گیری.

آموزش از پایه

کار با پایتون در تحلیل داده

مناسب برای مبتدی‌ تا پیشرفته

همراه با پشتیبانی آموزشی

اطلاعات بیشتر و ثبت‌نام:
09118344246@DataMentor

۶۶۹

۱۵:۴۲

۲۴ اردیبهشت

در دنیایی که هر ثانیه میلیون‌ها داده تولید می‌شود، برنده واقعی کسی نیست که فقط به اطلاعات دسترسی دارد؛ بلکه کسی‌ است که بتواند از دل این داده‌ها معنا استخراج کند. تحلیل داده یعنی دیدن الگوهایی که دیگران از کنارشان عبور می‌کنند؛ یعنی تبدیل اعداد خام به تصمیم‌های هوشمند، استراتژی‌های دقیق و آینده‌ای روشن‌تر. «دیتا منتور» جاییست برای کسانی که می‌خواهند فراتر از نمودارها فکر کنند، قدرت تحلیل را یاد بگیرند و زبان واقعی داده‌ها را بفهمند.@DataMentor

۱۰

۳K

۱۴:۳۸

۲۶ اردیبهشت

خوشه‌بندی چیست؟خوشه‌بندی (Clustering) یک روش در یادگیری ماشین بدون نظارت است که داده‌ها را بر اساس شباهت‌هایشان به گروه‌های مختلف تقسیم می‌کند.به هر گروه یک خوشه می‌گویند.به زبان ساده، هدف خوشه‌بندی این است که:داده‌های مشابه را کنار هم قرار دهد.داده‌های متفاوت را از هم جدا کند.مثال سادهفرض کنید چند نفر را بر اساس ویژگی‌هایی مثل:سندرآمدمیزان خریددر نظر داریم.خوشه‌بندی کمک می‌کند این افراد به گروه‌هایی مثل:مشتریان کم‌خریدمشتریان متوسطمشتریان پرخریدتقسیم شوند.بدون اینکه از قبل برچسبی داشته باشیم.چرا خوشه‌بندی مهم است؟خوشه‌بندی در بسیاری از مسائل کاربرد دارد، مثل:●بخش‌بندی مشتریان●تشخیص الگوهای پنهان●تحلیل رفتار کاربران●کشف ناهنجاری‌ها●فشرده‌سازی و خلاصه‌سازی داده‌هاویژگی اصلی خوشه‌بندیدر خوشه‌بندی، ما برچسب آماده نداریم.یعنی مدل از قبل نمی‌داند کدام داده به کدام گروه تعلق دارد.خود الگوریتم با توجه به شباهت‌ها و فاصله‌ها، گروه‌ها را می‌سازد.@DataMentor

۳۸۵

۱۶:۱۰

۲۸ اردیبهشت

رگرسیون یک روش تحلیل آماری است که از آن در اقتصاد، سرمایه‌گذاری و تجارت، به منظور تشخیص نوع ارتباط بین یک متغیر وابسته و یک یا چند متغیر مستقل استفاده می‌شود. همچنین میزان قدرت یا قوی بودن رابطه بین متغیرها می‌تواند در ارائه یک تحلیل و پیش‌بینی قوی بسیار کمک‌کننده باشد. در رگرسیون تلاش بر این است که اثر یک یا چند متغیر روی متغیرهای دیگر بررسی و پیش‌بینی شود. برای مثال ممکن است یک سرمایه‌گذار دنبال این باشد که قیمت فولاد روی فروش ماشین چه اثری دارد. در این مثال آن متغیری که تاثیر می‌پذیرد، متغیر وابسته نام دارد، در حالی که متغیر دیگر، متغیر مستقل است.رگرسیون انواع مختلفی دارد که مرسوم‌ترین و ساده‌ترین نوع آن، «رگرسیون خطی ساده» (Simple Linear Regression) است. در رگرسیون خطی ساده، فقط یک متغیر مستقل داریم. اما زمانی که بیشتر از یک متغیر مستقل داشته باشیم، دیگر با رگرسیون خطی ساده مواجه نیستیم، بلکه رگرسیون از نوع «خطی چندگانه» (Multiple Linear Regression) است. یک نمونه رگرسیون خطی چندگانه، فروش ماشین است که در آن میزان علاقه مردم به سرعت، قیمت فولاد، قیمت نفت و درآمد ناشی از قیمت سهام متغیرهای مستقل مسئله هستند.اگر بخواهیم در مورد کاربردهای رگرسیون صحبت کنیم، یک نمونه از کاربردهای آن در تعیین «هم‌بستگی» (Correlation) و «کواریانس یا هم وردایی» (Covariance) است که از آن در سرمایه‌گذاری‌ها زیاد استفاده می‌شود. روند کار به این صورت است که برای مثال، تعیین این دو پارامتر می‌تواند نشان دهد دو روند سرمایه‌گذاری چقدر در یک راستا پیش می‌روند. گفتیم در رگرسیون با دو نوع متغیر سروکار داریم. اینکه هر کدام چه تعدادی داشته باشند، مهم نیست، اما لازم است تمام متغیرهای مسئله بررسی شوند و در یکی از این دو گروه قرار بگیرند:متغیرهای مستقلمتغیرهای وابسته@DataMentor

۵۸۱

۱۷:۵۶

۶ خرداد

رگرسیون لجستیک (Logistic Regression) چیست؟رگرسیون لجستیک یکی از الگوریتم‌های طبقه‌بندی (Classification) است که برای اختصاص داده‌ها به مجموعه‌ای از کلاس‌ها استفاده می‌شود. برخی از نمونه‌های مسائل طبقه‌بندی عبارت‌اند از: طبقه‌بندی ایمیل‌ها به دو دسته‌ی ایمیل‌های اسپم (Spam) یا غیراسپم (Not Spam) یا طبقه‌بندی معاملات آنلاین به دو دسته‌ی کلاهبرداری یا غیرکلاهبرداری یا طبقه‌بندی تومورهای بدخیم یا خوش‌خیم.
همان‌طور که تا الان متوجه شدیم، به‌طور کلی در رگرسیون لجستیک خروجی به‌شکل صفر یا ۱ است؛ یعنی برای مثال، یا تورمور بدخیم است (1) یا خوش خیم (0).
زمانی‌که تعداد کلاس‌های خروجی 2 باشد، به آن طبقه‌بندی باینری (Binary Classification) گفته می‌شود؛ البته تعداد کلاس‌های خروجی می‌تواند بیشتر هم باشد که در این صورت به آن طبقه‌بندی مالتی (Multi Classification) گفته می‌شود.
تا اینجا فهمیدیم که در رگرسیون لجستیک هدف در خروجی اختصاص داده‌ها به یکی از دو کلاس صفر یا ۱ است. درواقع در این تکنیک احتمال این را که داده به کدام کلاس متعلق است در خروجی خواهیم داشت. از آنجا که درباره‌ی احتمال صحبت می‌کنیم، پس قطعاً می‌دانیم خروجی ما باید بین صفر و ۱ باشد. حال لازم است ببینیم در اینجا ما به چه تابعی احتیاج داریم که بتواند داده‌ها را به‌خوبی نمایش دهد و در کلاس درستی طبقه‌بندی کند.@DataMentor

۱۸۲

۸:۲۴

۸ خرداد

P-value یکی از کلیدی‌ترین مفاهیم در تحلیل آماری و آزمون فرضیه است. اگر تا امروز در درک معنای واقعی پی ولیو مشکل داشتی، این آموزش ساده و تصویری دقیقاً برای توست! در این مطلب، با زبانی روان یاد می‌گیریم که P-value چیست، چطور تفسیر می‌شود، و چه نقش مهمی در تصمیم‌گیری آماری دارد. از P-value برای تعیین احتمال مشاهده یک نتیجه خاص یا نتایج بدتر از آن با فرض درست بودن فرضیه صفر استفاده می شود. فرضیه صفر عبارتی است که فرض می کند هیچ تفاوت یا رابطه ای بین دو گروه یا دو متغیر وجود ندارد.
هنگام انجام یک آزمون فرضیه، محققین بر اساس داده هایی که جمع آوری کرده اند، عبارت P-value را محاسبه می کنند. اگر P-value کوچک باشد (معمولاً کمتر از 0/05)، نشان می‌دهد که نتایج مشاهده‌شده بعید است به‌طور تصادفی رخ داده باشند و فرضیه صفر رد می‌شود. از سوی دیگر، اگر P-value بزرگ باشد (معمولاً بیشتر از 0/05)، نشان می‌دهد که نتایج مشاهده‌شده می‌توانست به صورت شانسی اتفاق بیفتد و فرضیه صفر رد نمی‌شود.
به بیان ساده، یک P-value به شما می گوید که چقدر احتمال دارد که نتایج شما به دلیل شانس باشد، نه یک نتیجه واقعی. P-value کوچکتر به این معنی است که نتایج معنی دارتر هستند و احتمال کمتری وجود دارد که به دلیل شانس باشند، در حالی که P-value بزرگتر به این معنی است که نتایج، کمتر معنی دار هستند و احتمال بیشتری وجود دارد که ناشی از شانس باشند.
در نتیجه، p-value یک شاخص آماری است که به محققان کمک می کند تا تعیین کنند آیا نتایجی که به دست آورده اند معنادارند یا اینکه احتمالاً ناشی از شانس هستند. با تفسیر P-value، محققان می توانند از داده های خود نتیجه گیری کنند و تصمیمات آگاهانه بگیرند.@DataMentor

۱۸۸

۸:۳۱

۹ خرداد

فاصله اطمینان چیست؟فاصله اطمینان یک بازه است که با استفاده از داده‌های یک نمونه محاسبه می‌شود تا مقدار واقعی یک پارامتر در کل جامعه را تخمین بزند.به زبان ساده:به‌جای اینکه بگوییم «عدد واقعی دقیقاً این است»، می‌گوییم«عدد واقعی احتمالاً در این بازه قرار دارد.»مثال ساده:فرض کنید از 100 نفر درباره رضایت از یک محصول سؤال می‌کنید و میانگین رضایت آن‌ها 80 از 100 می‌شود.اما چون فقط از 100 نفر پرسیده‌اید، ممکن است میانگین واقعی همه مشتریان کمی فرق داشته باشد.پس می‌گوییم:با اطمینان 95٪، میانگین واقعی رضایت بین 76 تا 84 است.این بازه فاصله اطمینان نام دارد.مفهوم «اطمینان 95٪» چیست؟این جمله به این معنی نیست که:«95٪ احتمال دارد مقدار واقعی داخل این بازه باشد»تعبیر دقیق‌تر این است:اگر بارها نمونه‌گیری کنیم و هر بار فاصله اطمینان بسازیم، حدود 95٪ از آن بازه‌ها مقدار واقعی را در بر می‌گیرند.اما در کاربرد روزمره معمولاً به‌صورت ساده می‌گوییم:«با اطمینان 95٪، مقدار واقعی در این بازه است.»چرا فاصله اطمینان مهم است؟چون هر عددی که از نمونه به دست می‌آید، مقداری عدم‌قطعیت دارد.فاصله اطمینان این عدم‌قطعیت را نشان می‌دهد.@DataMentor

۳۶۳

۱۴:۱۹

۱۰ خرداد

تحلیل داده؛ از مشاهده الگوها تا تصمیم‌گیری مبتنی بر شواهد:در دنیای امروز، داده دیگر صرفاً مجموعه‌ای از اعداد و رکوردها نیست، بلکه بازنمایی کمیِ رفتار، فرایند، عملکرد و تغییرات یک سیستم است. تحلیل داده فرایندی نظام‌مند برای استخراج اطلاعات معنادار از داده‌های خام است؛ فرایندی که با هدف کشف الگوها، آزمون فرضیه‌ها، پیش‌بینی پدیده‌ها و پشتیبانی از تصمیم‌گیری انجام می‌شود.تحلیل داده دقیقاً چیست؟از منظر علمی، تحلیل داده مجموعه‌ای از روش‌های آماری، محاسباتی و بصری‌سازی است که به کمک آن می‌توان ساختار پنهان داده‌ها را شناسایی کرد. این فرایند معمولاً شامل مراحل زیر است:جمع‌آوری دادهپاک‌سازی و پیش‌پردازشتحلیل اکتشافی داده‌ها (EDA)مدل‌سازی آماری یا یادگیری ماشینارزیابی مدل و اعتبارسنجیتفسیر نتایج و استخراج بینشنکته مهم این است که تحلیل داده صرفاً تولید نمودار یا محاسبه چند شاخص توصیفی نیست؛ بلکه هدف اصلی آن، تبدیل داده به دانش قابل استفاده است.تفاوت داده، اطلاعات و دانش:در مباحث علمی، میان سه مفهوم تمایز قائل می‌شوند:داده (Data): مشاهدات خام و پراکندهاطلاعات (Information): داده‌هایی که سازمان‌دهی و خلاصه شده‌انددانش (Knowledge): تفسیر اطلاعات در یک زمینه مشخص برای اقدام عملیبرای مثال، ثبت زمان ورود مشتریان به یک فروشگاه «داده» است. محاسبه ساعات پرتردد «اطلاعات» محسوب می‌شود. اما تصمیم‌گیری برای افزایش نیروی فروش در بازه‌های پرتردد، «دانش» و کاربرد واقعی تحلیل داده است.نقش آمار در تحلیل داده:هسته اصلی تحلیل داده، علم آمار است. آمار به ما کمک می‌کند تا:داده‌ها را توصیف کنیم،عدم‌قطعیت را اندازه‌گیری کنیم،روابط بین متغیرها را بررسی کنیم،و از روی نمونه، درباره جامعه نتیجه‌گیری کنیم.@DataMentor

۱۵۰

۱۰:۲۰

۱۶ خرداد

همیشه برایم سوال بود که چطور میشود با عدد و داده تصمیم هایی دقیق تر گرفت؟ کم کم فهمیدم پشت هر عدد، یک واقعیت مهم از رفتار انسان ها و کسب و کارها پنهان است‌.حالا بعد از سال ها تجربه و مطالعه در زمینه تحلیل داده، یاد گرفته ام چطور از داده های خام بینش بسازم. کاری که انجام می دهم ساده است اما تاثیر گذار یعنی تبدیل داده به تصمیم با استفاده از ابزارهای power bi , python و مدل های آماری که به کسب و کارها کمک میکنم که بهتر بفهمند که:۱. مشتری هایشان واقعا چه رفتاری دارند؟۲. کدام محصول سودآورتر هست؟۳. چطور میتوان هزینه ها رو کاهش داد و فروش را بالاتر برد؟اگر شما هم با داده سروکار دارید یا دنبال روش هایی هستید که کسب و کارتان براساس عدد و منطق رشد کند خوشحال میشوم که با شما در ارتباط باشم.@DataMentor

۱۶۵

۲۰:۲۹