تجزیه و تحلیل آماری ابزاری قدرتمند است که کسب و کارها و سازمانها از آن برای استخراج معنا از دادهها و هدایت تصمیمگیری استفاده میکنند. انواع مختلفی از تکنیکهای تجزیه و تحلیل آماری وجود دارد که میتواند برای طیف گستردهای از دادهها، صنایع و برنامهها استفاده شود.
دانستن روشهای مختلف تجزیه و تحلیل آماری و نحوه استفاده از آنها میتواند به شما در کشف دادهها، یافتن الگوها و کشف روند در بازار شما کمک کند. در این مقاله، تجزیه و تحلیل آماری را تعریف کرده و انواع مختلف آن را با مثال بازگو میکنیم.
تجزیه و تحلیل آماری چیست؟
تجزیه و تحلیل آماری شامل جمعآوری، سازماندهی و تجزیه و تحلیل دادهها بر اساس اصول ثابت شده برای شناسایی الگوها و روندها است. این یک رشته گسترده با برنامههای کاربردی در دانشگاه، کسب و کار، علوم اجتماعی، ژنتیک، مطالعات جمعیت، مهندسی و چندین زمینه دیگر میباشد.
تجزیه و تحلیل آماری چندین عملکرد دارد. میتوانید از آن برای پیشبینی، انجام شبیهسازی، ایجاد مدل، کاهش ریسک و شناسایی روندها استفاده کنید.
به لطف بهبود فناوری، بسیاری از سازمانها اکنون اطلاعات زیادی در مورد هر جنبه از فعالیتها و بازارهای خود دارند. برای درک این دادهها، کسب و کارها جهت سازماندهی دادههای خود به تکنیکهای تجزیه و تحلیل آماری اعتماد کرده و این اطلاعات را به ابزاری برای تصمیمگیری دقیق و پیشبینی بلندمدت تبدیل میکنند. تجزیه و تحلیل آماری به مالکان داده اجازه میدهد توابع هوش تجاری را که مزیت رقابتی آنها را تقویت میکند، بهرهوری را بهبود میبخشد و منابع را برای بازده حداکثر سرمایهگذاری بهینه میکند، اجرا کنند.
انواع اصلی تجزیه و تحلیل آماری
سه نوع تجزیه و تحلیل آماری عمده وجود دارد:
تجزیه و تحلیل آماری توصیفی (Descriptive Statistical Analysis)
آمار توصیفی سادهترین شکل تجزیه و تحلیل آماری است که با استفاده از اعداد، کیفیتهای یک مجموعه داده را توصیف میکند. این امر باعث میشود تا بتوانید مجموعه دادههای بزرگ را به فرمهای ساده و فشردهتر برای تفسیر آسان کاهش دهید.
شما میتوانید از آمار توصیفی برای جمعبندی دادهها از یک نمونه و یا نشان دادن یک نمونه کامل در یک جامعه تحقیق استفاده کنید. آمار توصیفی از ابزار تجسم دادهها مانند جداول، نمودارها و چارتها برای سهولت در تحلیل و تفسیر استفاده میکند.
اما آمار توصیفی برای نتیجه گیری مناسب نیست. این نوع آمار فقط میتواند دادهها را نشان دهد بنابراین میتوانید از ابزارهای تجزیه و تحلیل آماری پیچیدهتری برای استنتاج استفاده کنید.
آمار توصیفی میتواند از معیارهای تمایل مرکزی استفاده کند، که برای توصیف یک گروه از یک مقدار واحد کمک میگیرد. میانگین، میانه و حالت برای بدست آوردن مقدار اصلی برای یک مجموعه داده استفاده میشود. به عنوان مثال، میتوانید از تجزیه و تحلیل آماری توصیفی برای یافتن میانگین سن رانندگان دارای بلیط در شهرداری استفاده کنید.
آمار توصیفی همچنین میتواند میزان گسترش را پیدا کند. به عنوان مثال، میتوانید دامنه سنی رانندگان با DUI و تصادفات رانندگی در هنگام برخورد در یک ایالت را پیدا کنید. تکنیکهای مورد استفاده برای یافتن اندازهگیری میزان گسترش شامل دامنه، تغییر و انحراف معیار است.
تجزیه و تحلیل آماری استنباطی (Inferential Statistical Analysis)
تجزیه و تحلیل آماری استنباطی برای نتیجهگیری یا استنباط در مورد جمعیت بیشتر بر اساس یافتههای یک گروه نمونه در آن استفاده میشود. این نوع آمار میتواند به محققان کمک کند تا تفاوت بین گروههای حاضر در یک نمونه را پیدا کنند.
از آمار استنباطی همچنین برای اعتبارسنجی تعمیمهای انجام شده در مورد جمعیتی از یک نمونه به دلیل توانایی آن در حساب کردن اشتباهات در نتیجهگیریهای انجام شده درباره یک بخش از یک گروه بزرگتر استفاده میشود.
برای انجام تجزیه و تحلیل آماری استنباطی، محققان پارامترهای جمعیت را از نمونه تخمین میزنند. آنها همچنین میتوانند آزمون فرضیههای آماری را انجام دهند تا به یک فاصله اطمینان برسند که تعمیمهای انجام شده از نمونه را تأیید یا رد میکند.
تجزیه و تحلیل آماری همبستگی (Associational Statistical Analysis)
تجزیه و تحلیل آماری همبستگی ابزاری است که محققان از آن برای پیشبینی و علتیابی و همچنین برای یافتن روابط بین چند متغیر استفاده میکنند. این نوع آمار همچنین برای تعیین اینکه آیا محققان میتوانند در مورد مجموعه دادهها از ویژگیهای مجموعه دادههای دیگر استنباط و پیشبینی کنند، استفاده میشود.
آمار همبستگی پیشرفتهترین نوع تجزیه و تحلیل آماری است و برای انجام محاسبات ریاضی سطح بالا به ابزارهای نرمافزاری پیچیدهای نیاز دارد. برای اندازهگیری ارتباط، محققان از طیف وسیعی از ضرایب تنوع، از جمله تحلیل همبستگی و رگرسیون استفاده میکنند.
انواع دیگر تجزیه و تحلیل آماری
در زیر چهار نوع تحلیل آماری دیگر آورده شده است:
تجزیه و تحلیل پیشبینی (Predictive Analysis)
تجزیه و تحلیل پیشبینی با استفاده از الگوریتمهای آماری قدرتمند و ابزار یادگیری ماشین برای پیشبینی وقایع و رفتار آینده بر اساس روند دادههای جدید و تاریخی به کار گرفته میشود. این روش به طیف گستردهای از تکنیکهای احتمالی مانند دادهکاوی، کلان داده، مدلسازی پیشبینی، هوش مصنوعی و شبیهسازیها متکی است تا حدس بزند چه اتفاقی در آینده میافتد.
تجزیه و تحلیل پیش بینی شاخهای از هوش تجاری است زیرا بسیاری از سازمانهایی که در زمینه بازاریابی، فروش، بیمه و خدمات مالی فعالیت میکنند، برای تهیه برنامههای بلندمدت به دادهها وابسته هستند. توجه به این نکته مهم است که تجزیه و تحلیل پیشبینی فقط میتواند پیشبینیهای فرضی ایجاد کند و کیفیت پیشبینیها به دقت مجموعه دادههای اساسی بستگی دارد.
تجزیه و تحلیل تجویزی (Prescriptive Analysis)
تجزیه و تحلیل تجویزی به سازمانها کمک میکند تا از دادهها برای هدایت روند تصمیمگیری خود استفاده کنند. شرکتها میتوانند از ابزارهایی مانند تجزیه و تحلیل نمودار، الگوریتمها، یادگیری ماشین و شبیهسازی برای این نوع تحلیل استفاده نمایند. تجزیه و تحلیل تجویزی به کسب و کارها کمک میکند تا از بین چندین روش عملی جایگزین بهترین انتخاب را داشته باشند.
تجزیه و تحلیل دادههای اکتشافی (Exploratory Data Analysis)
تجزیه و تحلیل دادههای اکتشافی تکنیکی است که دانشمندان از آن برای شناسایی الگوها و روندها در یک مجموعه داده استفاده میکنند. آنها همچنین میتوانند از آن برای تعیین روابط بین نمونههای یک جمعیت، اعتبارسنجی فرضیات، آزمون فرضیهها و یافتن نقاط داده از دست رفته استفاده کنند. شرکتها میتوانند تجزیه و تحلیل دادههای اکتشافی را برای ایجاد بینش بر اساس دادهها و اعتبارسنجی دادهها برای خطاها به کار گیرند.
تجزیه و تحلیل علّی (Causal Analysis)
تجزیه و تحلیل علّی از دادهها برای تعیین علت یا چرایی اتفاقات استفاده میکند. این بخشی جداییناپذیر از تضمین کیفیت، بررسی تصادف و سایر فعالیتهایی است که هدف آنها یافتن عوامل اساسی منجر به یک واقعه میباشد. شرکتها میتوانند برای درک دلایل یک رویداد از تحلیل علّی و از این درک برای هدایت تصمیمات آینده استفاده کنند.
فرایند تجزیه و تحلیل آماری
در تجزیه و تحلیل آماری پنج مرحله مهم وجود دارد:
۱- جمعآوری دادهها
اولین گام در تجزیه و تحلیل آماری، جمعآوری دادهها است. شما میتوانید دادهها را از طریق منابع اولیه یا ثانویه مانند نظرسنجیها، نرم افزار مدیریت ارتباط با مشتری (CRM)، آزمونهای آنلاین، گزارشهای مالی و ابزارهای اتوماسیون بازاریابی جمعآوری کنید. برای اطمینان از ماندگاری دادهها، میتوانید آنها را از نمونهای انتخاب کنید که نماینده یک جمعیت باشد. به عنوان مثال، ممکن است یک شرکت برای درک رفتارهای خریدار، دادههای مشتریان قبلی را جمعآوری کند.
۲- سازماندهی دادهها
مرحله بعدی پس از جمعآوری دادهها، سازماندهی آنها است. این مرحله که به عنوان تمیزسازی داده نیز شناخته میشود، شامل شناسایی و حذف دادههای تکراری و ناسازگاریهایی است که ممکن است مانع از تجزیه و تحلیل دقیق شما شود. این مرحله مهم میباشد زیرا میتواند به شرکتها در اطمینان از صحت دادههایشان و نتیجهگیریهایی که از تجزیه و تحلیل میکنند، کمک نماید.
۳- ارائه دادهها
ارائه داده، بخشی فرعی از تمیزسازی داده است زیرا شامل مرتب کردن دادهها برای تجزیه و تحلیل آسان میشود. در اینجا، میتوانید از ابزارهای آمار توصیفی برای جمعبندی دادهها استفاده کنید. ارائه داده همچنین میتواند به شما کمک کند بهترین روش ارائه داده را بر اساس ترتیب آن تعیین نمایید.
۴- تجزیه و تحلیل دادهها
تجزیه و تحلیل دادهها شامل دستکاری مجموعه دادهها برای شناسایی الگوها، روندها و روابط با استفاده از تکنیکهای آماری، مانند تجزیه و تحلیل آماری استنباطی و همبستگی است. شما میتوانید از نرمافزارهای رایانهای مانند صفحات گسترده برای خودکار کردن این فرآیند و کاهش احتمال خطای انسانی در روند تجزیه و تحلیل آماری استفاده کنید. این امر میتواند به شما امکان تجزیه و تحلیل موثر دادهها را بدهد.
۵- تفسیر دادهها
آخرین مرحله تفسیر دادهها است، که نتایج قطعی در مورد هدف تجزیه و تحلیل ارائه میدهد. پس از تجزیه و تحلیل، میتوانید نتیجه را به صورت نمودار، گزارش، کارت امتیاز و داشبورد ارائه دهید تا در اختیار افراد غیر حرفهای قرار گیرد. به عنوان مثال، تفسیر تجزیه و تحلیل تأثیر کارخانهای دارای ۶۰۰۰ کارگر بر میزان جرم و جنایت در یک شهر کوچک با ۱۳۰۰۰ نفر جمعیت، میتواند میزان نزولی فعالیتهای جنایی را نشان دهد. برای نمایش این کاهش میتوانید از نمودار خطی استفاده کنید.
۴ روش تجزیه و تحلیل آماری متداول
در اینجا چهار روش معمول برای انجام تجزیه و تحلیل آماری آورده شده است:
میانگین (Mean)
میتوانید میانگین را با یافتن جمع لیستی از اعداد و سپس تقسیم پاسخ بر تعداد موارد در لیست محاسبه کنید. این سادهترین شکل تجزیه و تحلیل آماری است که به کاربر اجازه میدهد تا نقطه مرکزی یک مجموعه داده را تعیین کند. فرمول محاسبه میانگین:
میانگین = مجموعه اعداد / تعداد موارد موجود در مجموعه
مثال: میتوانید میانگین اعداد ۱، ۲، ۳، ۴، ۵، ۶ را با جمع کردن اعداد ابتدا با هم، سپس تقسیم پاسخ از مرحله اول بر تعداد ارقام موجود در لیست که شش تا هستند، پیدا کنید. میانگین اعداد ۵/۳ است.
انحراف معیار (Standard Deviation)
انحراف معیار (SD) برای تعیین پراکندگی نقاط داده استفاده میشود. این یک روش تجزیه و تحلیل آماری است که به تعیین نحوه انتشار دادهها در حدود میانگین کمک میکند. انحراف معیار بالا به معنای پراکنده شدن دادهها از میانگین است. انحراف معیار پایین نشان میدهد که بیشتر دادهها به میانگین نزدیک هستند.
یک مورد استفاده از انحراف معیار این است که آیا شرکتکنندگان در یک نظرسنجی سوالات مشابهی را ارائه دادهاند یا خیر. اگر درصد زیادی از پاسخها مشابه باشد، به این معنی است که انحراف معیار پایینی دارید و میتوانید پاسخهای آنها را برای جمعیت بیشتری اعمال کنید. برای محاسبه انحراف معیار، از این فرمول استفاده کنید:
σ۲ = Σ(x − μ)۲/n
- σ انحراف معیار را نشان میدهد
- Σ مجموع دادهها را نشان می دهد
- x مقدار مجموعه داده را نشان می دهد
- μ بیانگر میانگین دادهها است
- n تعداد نقاط داده در جمعیت را نشان میدهد
مثال: میتوانید انحراف معیار مجموعه دادههای مورد استفاده در محاسبه میانگین را محاسبه کنید. اولین قدم یافتن واریانس مجموعه داده است. برای یافتن واریانس، هر مقدار را در مجموعه دادهها از میانگین کم کرده، جواب را مربع کنید، همه چیز را با هم جمع کرده و بر تعداد نقاط داده تقسیم نمایید.
واریانس = ۶ / ۲(۶-۵/۳) + ۲(۵-۵/۳) + ۲(۴-۵/۳) + ۲(۳-۵/۳) + ۲(۲-۵/۳) + ۲(۱-۵/۳))
واریانس = ۶ / (۲۵/۶ + ۲۵/۲ + ۲۵/۰ + ۲۵/۰ + ۲۵/۲ + ۲۵/۶)
واریانس = ۸۷۵/۲ = ۶ / ۲۵/۱۷
بعد، میتوانید ریشه مربع واریانس را محاسبه کنید تا انحراف معیار دادهها را بیابید.
انحراف معیار = ۶۹۵/۱ = ۸۷۵/
رگرسیون (Regression)
رگرسیون یک روش آماری است که برای یافتن رابطه بین یک متغیر وابسته و متغیر مستقل استفاده میشود. این امر کمک میکند تا ردیابی کنید که چگونه تغییرات در یک متغیر بر تغییرات در متغیر دیگر یا تأثیر آن بر دیگری تأثیر میگذارد. رگرسیون میتواند نشان دهد که آیا رابطه بین دو متغیر ضعیف، قوی یا در یک بازه زمانی متفاوت است. فرمول رگرسیون به شرح زیر است:
Y = a + b (x)
- Y متغیر مستقل یا دادههای استفاده شده برای پیش بینی متغیر وابسته را نشان میدهد.
- x متغیر وابسته را نشان میدهد که متغیری است که میخواهید اندازه بگیرید.
- a نشان دهنده y-interceptیا مقدار y است که x برابر با صفر میباشد.
- b شیب نمودار رگرسیون را نشان میدهد.
مثال: اگر هزینه تعمیر و نگهداری در صورت عدم مسافت پیموده شده روی اتومبیل ۱۰۰ دلار است، هزینه دلاری نگهداری اتومبیلی که ۴۰۰۰۰ مایل رانده شده را پیدا کنید. اگر b را ۰۲/۰ حساب کنید، هزینه تعمیر و نگهداری برای هر واحد افزایش در مایل طی شده، ۰۲/۰ دلار افزایش مییابد.
- Y = هزینه نگهداری ماشین
- X = ۴۰۰۰۰ مایل
- a= ۱۰۰ دلار
- b = ۰۲/۰ دلار
Y = (۴۰۰۰۰)۰۲/۰ + ۱۰۰ دلار
Y = ۹۰۰ دلار
این نشان میدهد که مسافت پیموده شده بر هزینههای نگهداری خودرو تأثیر میگذارد.
آزمایش فرضیه (Hypothesis Testing)
از آزمایش فرضیه برای آزمودن اینکه آیا نتیجهگیری برای یک مجموعه داده خاص با مقایسه دادهها با یک فرض خاص معتبر است، استفاده میشود. نتیجه آزمایش میتواند فرضیه را باطل کند، در این صورت آن را فرضیه یا فرضیه صفر مینامند. هر چیزی که فرضیه صفر را نقض کند، اولین فرضیه یا فرضیه ۱ نامیده میشود.
مثال: از محاسبه رگرسیون فوق، میخواهید این فرضیه را آزمایش کنید که مسافت پیموده شده بر هزینههای نگهداری خودرو تأثیر میگذارد. برای آزمایش این فرضیه، ادعا میکنید مسافت پیموده شده بر هزینههای تعمیر و نگهداری خودرو تأثیر میگذارد. در اینجا، ما فرضیه صفر را رد میکنیم، زیرا رگرسیون فوق نشان میدهد که مسافت پیموده شده بر هزینههای نگهداری ماشین تأثیر میگذارد.