آموزش های تصویری

آموزش تصویری نرمال سازی از طریق حذف داده های پرت | Outlier

آموزش تصویری نرمال سازی از طریق حذف داده های پرت با SPSS
زمانی که داده‌ها را وارد نرم افزار اکسل یا SPSS می‌کنیم ممکن است در وارد کردن داده‌ها اشتباهی صورت گرفته باشد و مقادیری بزرگتر و یا کوچکتر از حد معمول وارد فایل داده بشود که به آن‌ها داده‌های پرت (دورافتاده) گفته می‌شود. داده‌های پرت به چند حالت ممکن است به وجود بیایند در حالت اول به علت اشتباه تایپی در هنگام وارد کردن داده‌ها در نرم افزار، داده‌های پرت ایجاد می‌شود مثلاً عدد 3 را به‌اشتباه 33 وارد کرده باشید که در این صورت می‌توان با نگاهی اجمالی به داده‌ها مقادیر غیرعادی را شناسایی و اصلاح کنیم و یا شاخص‌های min و max داده‌ها را حساب کنیم و از این طریق داده‌های پرت را شناسایی کنیم. حالت دوم در وارد کردن داده‌ها اشتباهی صورت نگرفته است و ایراد از داده‌های اصلی است مثلاً فردی بدون دقت و بدون اینکه سؤالات پرسشنامه را مطالعه کند به پرسشنامه پاسخ می‌دهد بنابراین داده‌های این پرسشنامه با داده‌های سایر افراد تفاوت قابل ملاحظه‌ای پیدا می‌کند و یا اینکه در تحقیقات آزمایشگاهی به علت خطای آزمایش، یک یا چند نمونه مقداری متفاوت از سایر نمونه‌ها پیدا می‌کند. از آنجایی که پژوهشگر در این حالت متوجه داده‌های پرت نمی‌شود ممکن است نتایج پژوهش تحت تأثیر داده‌های پرت، تغییر کند.

تأثیر داده‌ های پرت بر روی نتایج آماری

داده‌های پرت باعث می‌شود ارتباط بین دو متغیر ضعیف شود یا از بین برود اگرچه ممکن است در واقعیت یا بر اساس مبانی نظری ارتباط بین دو متغیر وجود داشته باشد اما نتایج به علت ورود داده‌های پرت ممکن است مخدوش شود و ارتباط بین متغیرها معنادار نشود؛ بنابراین اگر نتایج با مبانی نظری و پیشینه پژوهش تطابق ندارد و یا غیرمنطقی است این احتمال وجود دارد که داده‌های پرت در بین داده‌ها وجود دارد. با حذف داده‌ها پرت می‌توان تا حد زیاد از انحراف نتایج جلوگیری کرد. یا ممکن است مدل ساختاری برازش مناسبی نداشته باشد و یا ضرایب مسیر معنادار نشوند که یکی از علت‌های آن می‌تواند وجود داده‌ها پرت باشد که نرمال بودن چند متغیره را تحت تأثیر قرار می‌دهد.

تأثیر داده‌ های پرت بر انتخاب روش آماری

برای انتخاب روش‌های آماری می‌بایست ابتدا پیش‌فرض‌های آزمون‌های پارامتریک مانند تست نرمال بودن و همسانی واریانس‌ها را بررسی کنیم که اگر داده‌های پرت وجود داشته باشد بر هر دو پیش‌فرض تأثیر می‌گذارد یعنی داده‌ها غیر نرمال شود و همسانی واریانس‌ها بین گروه‌ها از بین برود و پژوهشگر را به سمت استفاده از آزمون‌های ناپارامتریک سوق می‌دهد در صورتی که با حذف داده های پرت در بیشتر مواقع به راحتی می توان پیش فرض های آزمون پارامتریک را برقرار کرد.

تأثیر داده‌ های پرت بر نرمال بودن داده‌ها

موضوع مهمی که در این آموزش به آن پرداخته می‌شود نرمال نشدن داده‌ها به علت وجود داده‌های پرت است. ممکن است شما هیستوگرام توزیع فراوانی داده‌ها را رسم کنید و مشاهده کنید شکل توزیع داده‌ها تقریباً نرمال است اما آزمون‌های استنباطی نرمال بودن داده‌ها را تأیید نمی‌کند علت این است که آزمون‌های تست نرمال بودن به داده‌های پرت حساس هستند و درصورتی‌که فراوانی داده‌های پرت کمی زیاد شود فرض نرمال بودن داده‌ها رد می‌شود. داده‌های پرت می‌توانند باعث افزایش شاخص چولگی (به سمت راست یا چپ) شود و یا در برخی نقاط کشیدگی داده‌ها را کمتر با بیشتر از کشیدگی شکل توزیع نرمال کند.

برای مثال هیستوگرام در شکل های (1) و (2) را مشاهده کنید توزیع فراوانی متغیر X2 و X3 تقریباً شبیه توزیع نرمال است اما برخی از داده های پرت باعث ایجاد چولگی در هیستوگرام شده است این موارد که در شکل مشخص شده‌اند داده‌ها پرت هستند و با حذف آن‌ها می‌توان شکل توزیع داده‌ها را به توزیع نرمال نزدیک کرد.

حل یک مثال کاربردی در حذف داده‌ های پرت

فایل داده Data1.sav را در پوشه فایل آموزشی بازکنید. در این فایل سه متغیر به نام‌های X1، X2 و X3 وجود دارد.

نمودار هیستوگرام این سه متغیر را در شکل‌های شماره (1) و (2) و (3) مشاهده کردیم. ابتدا به کمک آزمون Jarque-Bera تست می‌کنیم که این سه متغیر نرمال هستند یا خیر. برای انجام این آزمون از نرم افزار Data Normalize Master در پکیج تحلیل آماری است استفاده می‌کنیم. داده‌های این دو متغیر را کپی می‌کنیم و داخل نرم افزار Data Normalize Master قرار می‌دهیم.
نتایج آزمون Jarque-Bera نشان می‌دهد که سطح معناداری آزمون برای متغیر X1 بیشتر از 0.05 است بنابراین فرض نرمال بودن متغیر X1 پذیرفته می‌شود. در نمودار هیستوگرام شکل های (3) نیز مشاهده شد که توزیع متغیر X1 شبیه توزیع نرمال است. نتایج آزمون ها نشان می دهد فرض نرمال بودن دو متغیر X2 و X3 پذیرفته نمی‌شود وقتی به شکل‌های (1) و (2) نگاه کنیم متوجه می‌شویم که توزیع فراوانی این دو متغیر شبیه توزیع نرمال است اما به علت وجود چند داده پرت فرض نرمال بودن متغیر رد شده است. در بیشتر مواقع با رد فرض نرمال بودن سریع به سراغ آزمون های ناپارامتریک می رویم اما می توانیم با حذف داده های پرت به راحتی از آزمون پارمتریک استفاده کنیم.

اما سؤال مهمی که ممکن است در ذهن ایجاد شود این است که این داده‌های پرت مربوط به کدام نمونه (یا کدام پرسشنامه) است که با حذف آن بتوانیم انحراف از توزیع نرمال را کاهش دهیم؟

جواب) برای شناسایی داده‌های پرت روش‌های نمودارهای و روش‌های آماری مختلفی وجود دارد که در این آموزش همه روش‌ها بررسی می‌شود.

در این آموزش تکنیک های زیر آورده شده است

  • شناسایی داده های پرت از طریق نمودار جعبه ای
  • شناسایی داده های پرت از طریق نمودار Q-Q
  • شناسایی داده های پرت از طریق نمره استاندارد(Z)
  • نحوه محاسبه فاصله ماهالانوبیس با SPSS
  • شناسایی داده های پرت از طریق فاصله ماهالانوبیس
  • نحوه محاسبه سطح معنی داری برای فاصله ماهالانوبیس

نحوه خرید

خرید آموزش تحلیل آماری

برای انتقال به صفحه خرید محصول کلیک کنید