بله | کانال Data Mentor

۱ اردیبهشت

سلام!
به کانال تحلیل داده خوش آمدید!

اگر شما هم به دنیای داده‌ها، کشف الگوها و استخراج بینش‌های ارزشمند علاقه‌مندید، جای درستی آمده‌اید. در این کانال، قصد داریم با زبانی ساده و کاربردی، مفاهیم کلیدی تحلیل داده، ابزارها و تکنیک‌های پرکاربرد، و همچنین آخرین روندها و اخبار این حوزه را با شما به اشتراک بگذاریم.
چه یک تازه‌کار باشید که تازه مسیر خود را در دنیای داده آغاز کرده‌اید، چه یک متخصص باتجربه یا صاحبان کسب و کار که به دنبال به‌روزرسانی دانش خود هستید یا عبور از شرایط بحرانی و بهبود کسب و کار ، اینجا برای شما فضایی برای یادگیری، تبادل نظر و رشد و بهبود شرایط فراهم خواهد بود.
بیایید با هم سفری هیجان‌انگیز را در دنیای داده‌ها آغاز کنیم و قدرت نهفته در اطلاعات را کشف نماییم!

#تحلیل_داده #علم_داده #هوش_مصنوعی #یادگیری_ماشین #داده_کاوی #آموزش #کانال_تحلیل_داده@DataMentor

۱۶:۴۶

۲ اردیبهشت

1.داده‌های کمی (Quantitative Data): این داده‌ها ماهیت عددی دارند و قابل اندازه‌گیری هستند و شامل دو گروه گسسته و پیوسته می باشند.●داده‌های پیوسته (Continuous Data): این داده‌ها می‌توانند هر مقداری را در یک بازه مشخص به خود بگیرند. مثال‌ها شامل قد، وزن، دما، زمان و درآمد هستند. این داده‌ها معمولاً با استفاده از ابزارهای اندازه‌گیری دقیق جمع‌آوری می‌شوند .●داده‌های گسسته (Discrete Data): این داده‌ها فقط مقادیر مشخص و قابل شماری دارند و معمولاً اعداد صحیح هستند. مثال‌ها شامل تعداد فرزندان، تعداد مشتریان، تعداد محصولات فروخته شده و تعداد بازدیدکنندگان وب‌سایت هستند.2. داده‌های کیفی (Qualitative Data): این داده‌ها توصیفی هستند و ویژگی‌ها یا دسته‌بندی‌ها را بیان می‌کنند. آن‌ها قابل اندازه‌گیری عددی نیستند، اما می‌توانند برای دسته‌بندی و تحلیل کیفی استفاده شوند و شامل دو گروه اسمی و ترتیبی اند.●داده‌های اسمی (Nominal Data): این داده‌ها دسته‌بندی‌هایی هستند که ترتیب خاصی ندارند. مثال‌ها شامل رنگ چشم، جنسیت، وضعیت تاهل و نوع خودرو هستند.●داده‌های ترتیبی (Ordinal Data): این داده‌ها دسته‌بندی‌هایی هستند که ترتیب یا رتبه مشخصی دارند، اما فواصل بین آن‌ها ممکن است برابر نباشد. مثال‌ها شامل سطح رضایت (خیلی راضی، راضی، ناراضی)، درجه تحصیلی (دیپلم، لیسانس، فوق لیسانس) و رتبه‌بندی ستاره‌ای محصولات هستند.@DataMentor

۸:۱۳

۴ اردیبهشت

شاخص‌های مرکزی (Measures of Central Tendency) در آمار، اعدادی هستند که سعی می‌کنند مرکز یا مقدار معمول داده‌های یک مجموعه را توصیف کنند. این شاخص‌ها به ما کمک می‌کنند تا خلاصه و درک کلی از توزیع داده‌ها به دست آوریم. سه شاخص مرکزی اصلی عبارتند از:
1.میانگین (Mean)2.میانه (Median)3.نما (Mode)
1. میانگین (Mean)

میانگین، که همان «معدل» خودمان است، رایج‌ترین شاخص مرکزی محسوب می‌شود.
2. میانه (Median)

میانه، مقداری است که دقیقاً در وسط مجموعه داده‌ها قرار می‌گیرد، وقتی داده‌ها مرتب شده باشند.نحوه محاسبه:ابتدا تمام داده‌ها را از کوچک به بزرگ (یا برعکس) مرتب کنید.اگر تعداد داده‌ها فرد باشد: میانه همان عدد وسطی است.اگر تعداد داده‌ها زوج باشد: میانه برابر است با میانگین دو عدد وسطی.مثال1: (تعداد فرد): نمرات دانش‌آموزان: ۶، ۷، ۸، ۹، ۱۰ (مرتب شده)تعداد داده‌ها: ۵ (فرد)عدد وسطی: ۸پس میانه ۸ است.
مثال2: (تعداد زوج): فرض کنید یک دانش‌آموز دیگر با نمره ۱۲ اضافه شود. نمرات: ۶، ۷، ۸، ۹، ۱۰، ۱۲ (مرتب شده)
تعداد داده‌ها: ۶ (زوج)دو عدد وسطی: ۸ و ۹میانه: (۸ + ۹) / ۲ = ۸.۵
مزایا:تحت تأثیر داده‌های پرت قرار نمی‌گیرد (به همین دلیل در بسیاری از گزارش‌های اقتصادی و اجتماعی که ممکن است داده پرت داشته باشند، از میانه استفاده می‌شود).به راحتی قابل تفسیر است.معایب:از تمام مقادیر داده‌ها استفاده نمی‌کند (فقط به عدد وسط توجه دارد)
3.نما: مقداری است که بیشترین تکرار را در مجموعه داده‌ها دارد.
نحوه محاسبه: کافی است ببینید کدام عدد یا اعداد بیش از بقیه تکرار شده‌اند.
مثال ۱: نمرات: ۶، ۷، ۸، ۸، ۸، ۹، ۱۰عدد ۸ سه بار تکرار شده که بیشتر از بقیه است.پس نما ۸ است.
مثال ۲ (بدون نما): نمرات: ۶، ۷، ۸، ۹، ۱۰
هیچ عددی بیشتر از بقیه تکرار نشده. پس این مجموعه نما ندارد.
مثال ۳ (چند نما): نمرات: ۶، ۷، ۷، ۸، ۹، ۹، ۱۰
هم ۷ و هم ۹ دو بار تکرار شده‌اند.
پس این مجموعه دو نما دارد: ۷ و ۹ (به این حالت دو-نمایی گفته می‌شود).
مزایا:تنها شاخص مرکزی است که برای داده‌های کیفی (مانند رنگ چشم، نوع خودرو) نیز قابل استفاده است.به راحتی پیدا می‌شود.تحت تأثیر داده‌های پرت نیست.معایب:ممکن است بیش از یک نما وجود داشته باشد یا اصلاً نما نداشته باشیم.ممکن است نما در مرکز توزیع داده‌ها نباشد.@DataMentor

۸:۴۹

۹ اردیبهشت

در تحلیل‌های آماری و داده‌کاوی، در کنار مفهوم مرکزگرایی (مثل میانگین، میانه)، آشنایی با پراکندگی داده‌ها اهمیت بالایی دارد. چرا که بدون درک پراکندگی، نمی‌توان به خوبی از نتایج تحلیل‌ها استفاده کرد و تصمیمات صحیح گرفت.
چه چیزی پراکندگی را نشان می‌دهد؟پراکندگی نشان می‌دهد که داده‌ها در چه حد به هم نزدیک یا دور هستند. فرض کنید دو گروه دانش‌آموز امتحان داده‌اند، هر دو میانگین ۷۰ دارند، اما یکی همه نمره‌ها تقریباً نزدیک به ۷۰ است (پراکنده کم)، دیگری نمره‌ها خیلی متفاوت است (پراکنده زیاد). پس، بدون اطلاع از پراکندگی، نمی‌دانیم کدام گروه بهتر است یا کدام دسته نمرات منسجم‌تر است.
چرا پراکندگی مهم است؟درک میزان اعتمادپذیری آمار: میانگین تنها یک عدد است، ولی با دانستن پراکندگی می‌توانیم میزان توازن و استحکام داده‌ها را بسنجیم.تعیین مناسب‌ترین شاخص‌های مرکزی: در بعضی داده‌ها، استفاده از میانگین مناسب نیست و باید از میانه یا چارک‌ها بهره برد.مدیریت ریسک و تحلیل خروجی‌ها: در مالی، پزشکی و دانش‌مداری، فهم پراکندگی کمک می‌کند تا بدانیم چه مقدار احتمال دارد نتایج خارج از حد معمول باشد.چند شاخص پراکندگی کلیدی:دامنه (Range): تفاوت بین بزرگ‌ترین و کوچک‌ترین مقدار.انحراف معیار و واریانس: نشان می‌دهند که داده‌ها در چه حد از مقدار مرکزی فاصله دارند.چارک‌ها و IQR: مقاوم‌تر و مفید در مقایسه‌های مقاومتی و دوری از تأثیر داده‌های پرت.@DataMentor

۱۳:۳۱

۱۳ اردیبهشت

در آمار و علم داده، نرمال‌سازی (Normalization) یکی از روش‌های پیش‌پردازش داده‌هاست که هدف آن یکنواخت کردن مقیاس متغیرها است تا بتوان آن‌ها را به‌صورت منصفانه با هم مقایسه یا در مدل‌های آماری و یادگیری ماشین استفاده کرد.

تعریف ساده:نرمال‌سازی یعنی تبدیل داده‌ها به مقیاسی مشخص، معمولاً بین ۰ و ۱ یا بین ۱-و ۱، بدون اینکه شکل توزیع داده تغییر کند. به عبارت دیگر، ابعاد داده تغییر می‌کند ولی الگوی داده حفظ می‌شود.

چرا نرمال‌سازی لازم است؟چون بسیاری از روش‌های آماری و الگوریتم‌های یادگیری ماشین (مثل رگرسیون لجستیک، KNN، یا شبکه‌های عصبی) به مقیاس داده‌ها حساس‌اند. برای مثال:اگر یک ویژگی در مقیاس "میلیون‌ها تومان" باشد و ویژگی دیگر در مقیاس "درصد"، ویژگی بزرگ‌تر مدل را تحت تأثیر بیشتری قرار می‌دهد.نرمال‌سازی باعث می‌شود همه ویژگی‌ها وزن مساوی در تحلیل داشته باشند.

کاربردهای نرمال‌سازی در شرکت‌ها1. تحلیل داده‌ها و داشبوردهای مدیریتیدر شرکت‌ها داده‌ها از منابع مختلف می‌آیند: فروش (میلیون تومان)، تعداد مشتری، درصد رضایت، تعداد بازدید، و ... این داده‌ها در مقیاس‌های متفاوت هستند.

مشکل: مقیاس‌های مختلف باعث می‌شود نمودارها و تحلیل‌ها گمراه‌کننده شوند.

راه‌حل: با نرمال‌سازی، همه داده‌ها در یک بازه قرار می‌گیرند → مقایسه‌ها دقیق‌تر می‌شود.

مثلاً: وقتی مدیر می‌خواهد "بهره‌وری شعب مختلف" را مقایسه کند، نرمال‌سازی کمک می‌کند فروش، رضایت مشتری، و تعداد کارمندها در یک مقیاس واحد مقایسه شوند.2. یادگیری ماشین و پیش‌بینی‌هادر شرکت‌هایی که از هوش مصنوعی برای پیش‌بینی یا تحلیل استفاده می‌کنند (مثل فین‌تک‌ها یا شرکت‌های لجستیک):

نرمال‌سازی باعث می‌شود مدل‌ها سریع‌تر یاد بگیرند و عملکردشان بهتر شود.

مثلاً:در یک بانک، مدل پیش‌بینی ریسک اعتباری باید از داده‌های مختلف (درآمد، بدهی، امتیاز کارت اعتباری) استفاده کند.اگر مقیاس داده‌ها متفاوت باشد، مدل به ویژگی‌هایی با عدد بزرگ‌تر وزن بیشتری می‌دهد و دقتش پایین می‌آید.

با نرمال‌سازی، مدل منصفانه‌تر تصمیم می‌گیرد.3. تحلیل مالی و سرمایه‌گذاریدر واحدهای مالی، برای مقایسه شاخص‌های مالی شرکت‌ها:

مثلاً: سود خالص (میلیارد تومان) و بازده دارایی (درصد) مقیاس متفاوتی دارند. برای تحلیل یا خوشه‌بندی شرکت‌ها بر اساس شاخص‌های مالی، باید داده‌ها نرمال‌سازی شوند.

نتیجه: امکان مقایسه منصفانه بین شرکت‌های کوچک و بزرگ فراهم می‌شود.4. بازاریابی و تحلیل رفتار مشتریدر مارکتینگ دیجیتال، داده‌های کمپین‌ها شامل:نرخ کلیک (CTR)هزینه تبلیغ (Cost)تعداد بازدیدزمان ماندگاری کاربر

نرمال‌سازی این ویژگی‌ها باعث می‌شود مدل‌های سگمنت‌بندی مشتریان (Customer Segmentation) یا پیشنهادگرها (Recommender Systems) عملکرد بهتری داشته باشند.5. مدیریت منابع انسانی (HR Analytics)برای ارزیابی کارمندان، داده‌هایی مثل:تعداد پروژه‌هاساعات کاریامتیاز عملکردرضایت تیمیوجود دارد.

این شاخص‌ها مقیاس‌های متفاوت دارند. با نرمال‌سازی می‌توان شاخص‌های مختلف را ترکیب کرد و امتیاز کلی عملکرد را دقیق‌تر محاسبه کرد.@DataMentor

۱۵:۵۶

۱۴ اردیبهشت

بازارسال شده از Roya Nouripour

کانال جامعه منابع انسانی ایرانHR LIFE IRAN

جریان‌ساز منابع انسانی نوین در ایران

افزایش دانش و آگاهی جامعه متخصصین منابع انسانی

معرفی ابزارهای هوش مصنوعی و فایل‌های کاربردی

مشاوره، آموزش و منتورینگ، تحلیل داده افراد و پیاده‌سازی فرآیندهای HR برای کسب و کارها
برای پیوستن به جامعه متخصصان و دسترسی به منابع ارزشمند، ما را در بله دنبال کنید:
@hrlifeiran

۷:۰۹

۱۵ اردیبهشت

دادهٔ پرت دقیقاً چیست؟هر نقطه داده‌ای که به‌طور غیرعادی از بقیه‌ی داده‌ها فاصله دارد، دادهٔ پرت (Outlier) محسوب می‌شود.
این فاصله می‌تواند:●در مقدار باشد (مثلاً درآمد همه بین ۱۰ تا ۲۰ میلیون، اما یک نفر ۴۰۰ میلیون)●در روند باشد (رفتار متفاوت با الگوی کلی)یا در ترکیب چند ویژگی (Outlier چندمتغیره)چرا داده پرت به وجود می‌آید؟●خطای انسانی (اشتباه تایپی، ثبت اشتباه)●خطای سیستمی (سنسور خراب، داده ناقص)●تنوع طبیعی (افرادی با مقادیر واقعی اما نادر)●تحول واقعی در سیستم (مثلاً رشد ناگهانی فروش به خاطر یک کمپین)چرا شناسایی آن مهم است؟۱.می توانند میانگین را به شدت جابه‌جا کنند.۲.باعث overfitting یا underfitting مدل شوند.۳.نمودارها را کاملاً غلط نشان دهند.۴.در مدل‌های رگرسیونی، خطوط رگرسیون را منحرف کنند.۵.به اشتباه منجر شوند که سیستم خراب است یا رفتار تغییر کرده است.@DataMentor

۱۳:۳۴

۱۶ اردیبهشت

بازارسال شده از MBA Pro

۵۳ درصد سقوط در آگهی‌های شغلیسوغات جنگ برای بازار کار

گزارش جاب‌ویژن "تاثیر جنگ بر بازار کار" نشان می‌دهد تعادل عرضه و تقاضا در بازار کار به کلی بهم خورده‌است.

گردشگری، تبلیغات، خدمات آنلاین و تجارت الکترونیک بیشترین کاهش فرصت و دارو، خرده‌فروشی و کشاورزی بیشترین فرصت را در بازار کار داشته‌اند.

برخلاف تصور بازار کار تعطیل نشده و ۷۳۰۰ شرکت از ابتدای جنگ ثبت فرصت شغلی داشته‌اند. بیش‌از ۲۰ هزار موقعیت جدید هم به‌ثبت‌رسیده‌است.

داده‌ها حاکی از آن‌است که از ابتدای اردیبهشت بازار کار یه تکون‌هایی خورده ولی هنوز فاصله با بازه‌های مشابه قبلی گپ ۵۳ درصد داشته که هفته‌سوم فروردین شکاف با فروردین پارسال ۸۶ درصد بوده‌است.

به نظرم دیجیتال‌مارکترهای خوب قراردادهای خوبی هم با خرده‌فروشی‌ها، کشاورزی‌ها و دارویی‌ها میتونن ببندند.
Sharing is caring

MBA For Professionals

@MBApro_ir

۱۵:۱۳

بازارسال شده از MBA Pro

۱۵:۱۳

بازارسال شده از MBA Pro

۱۵:۱۳

۱۷ اردیبهشت

یادگیری تحلیل داده و دیتاساینس با پایتون
می‌خوای وارد دنیای پردرآمد تحلیل داده بشی؟
در این دوره به‌صورت کاملاً کاربردی و پروژه‌محور یاد می‌گیری.

آموزش از پایه

کار با پایتون در تحلیل داده

مناسب برای مبتدی‌ تا پیشرفته

همراه با پشتیبانی آموزشی

اطلاعات بیشتر و ثبت‌نام:
09118344246@DataMentor

۱۵:۴۲

۲۴ اردیبهشت

در دنیایی که هر ثانیه میلیون‌ها داده تولید می‌شود، برنده واقعی کسی نیست که فقط به اطلاعات دسترسی دارد؛ بلکه کسی‌ است که بتواند از دل این داده‌ها معنا استخراج کند. تحلیل داده یعنی دیدن الگوهایی که دیگران از کنارشان عبور می‌کنند؛ یعنی تبدیل اعداد خام به تصمیم‌های هوشمند، استراتژی‌های دقیق و آینده‌ای روشن‌تر. «دیتا منتور» جاییست برای کسانی که می‌خواهند فراتر از نمودارها فکر کنند، قدرت تحلیل را یاد بگیرند و زبان واقعی داده‌ها را بفهمند.@DataMentor

۱۴:۳۸

۲۶ اردیبهشت

خوشه‌بندی چیست؟خوشه‌بندی (Clustering) یک روش در یادگیری ماشین بدون نظارت است که داده‌ها را بر اساس شباهت‌هایشان به گروه‌های مختلف تقسیم می‌کند.به هر گروه یک خوشه می‌گویند.به زبان ساده، هدف خوشه‌بندی این است که:داده‌های مشابه را کنار هم قرار دهد.داده‌های متفاوت را از هم جدا کند.مثال سادهفرض کنید چند نفر را بر اساس ویژگی‌هایی مثل:سندرآمدمیزان خریددر نظر داریم.خوشه‌بندی کمک می‌کند این افراد به گروه‌هایی مثل:مشتریان کم‌خریدمشتریان متوسطمشتریان پرخریدتقسیم شوند.بدون اینکه از قبل برچسبی داشته باشیم.چرا خوشه‌بندی مهم است؟خوشه‌بندی در بسیاری از مسائل کاربرد دارد، مثل:●بخش‌بندی مشتریان●تشخیص الگوهای پنهان●تحلیل رفتار کاربران●کشف ناهنجاری‌ها●فشرده‌سازی و خلاصه‌سازی داده‌هاویژگی اصلی خوشه‌بندیدر خوشه‌بندی، ما برچسب آماده نداریم.یعنی مدل از قبل نمی‌داند کدام داده به کدام گروه تعلق دارد.خود الگوریتم با توجه به شباهت‌ها و فاصله‌ها، گروه‌ها را می‌سازد.@DataMentor

۱۶:۱۰

۲۸ اردیبهشت

رگرسیون یک روش تحلیل آماری است که از آن در اقتصاد، سرمایه‌گذاری و تجارت، به منظور تشخیص نوع ارتباط بین یک متغیر وابسته و یک یا چند متغیر مستقل استفاده می‌شود. همچنین میزان قدرت یا قوی بودن رابطه بین متغیرها می‌تواند در ارائه یک تحلیل و پیش‌بینی قوی بسیار کمک‌کننده باشد. در رگرسیون تلاش بر این است که اثر یک یا چند متغیر روی متغیرهای دیگر بررسی و پیش‌بینی شود. برای مثال ممکن است یک سرمایه‌گذار دنبال این باشد که قیمت فولاد روی فروش ماشین چه اثری دارد. در این مثال آن متغیری که تاثیر می‌پذیرد، متغیر وابسته نام دارد، در حالی که متغیر دیگر، متغیر مستقل است.رگرسیون انواع مختلفی دارد که مرسوم‌ترین و ساده‌ترین نوع آن، «رگرسیون خطی ساده» (Simple Linear Regression) است. در رگرسیون خطی ساده، فقط یک متغیر مستقل داریم. اما زمانی که بیشتر از یک متغیر مستقل داشته باشیم، دیگر با رگرسیون خطی ساده مواجه نیستیم، بلکه رگرسیون از نوع «خطی چندگانه» (Multiple Linear Regression) است. یک نمونه رگرسیون خطی چندگانه، فروش ماشین است که در آن میزان علاقه مردم به سرعت، قیمت فولاد، قیمت نفت و درآمد ناشی از قیمت سهام متغیرهای مستقل مسئله هستند.اگر بخواهیم در مورد کاربردهای رگرسیون صحبت کنیم، یک نمونه از کاربردهای آن در تعیین «هم‌بستگی» (Correlation) و «کواریانس یا هم وردایی» (Covariance) است که از آن در سرمایه‌گذاری‌ها زیاد استفاده می‌شود. روند کار به این صورت است که برای مثال، تعیین این دو پارامتر می‌تواند نشان دهد دو روند سرمایه‌گذاری چقدر در یک راستا پیش می‌روند. گفتیم در رگرسیون با دو نوع متغیر سروکار داریم. اینکه هر کدام چه تعدادی داشته باشند، مهم نیست، اما لازم است تمام متغیرهای مسئله بررسی شوند و در یکی از این دو گروه قرار بگیرند:متغیرهای مستقلمتغیرهای وابسته@DataMentor

۱۷:۵۶