داده های پرت (Outlier)
فهرست مطالب
فهرست
زمانی که دادهها را وارد نرم افزار اکسل یا SPSS میکنیم ممکن است در وارد کردن دادهها اشتباهی صورت گرفته باشد و مقادیری بزرگتر و یا کوچکتر از حد معمول وارد فایل داده بشود که به آنها دادههای پرت (دورافتاده) گفته میشود. دادههای پرت به چند حالت ممکن است به وجود بیایند در حالت اول به علت اشتباه تایپی در هنگام وارد کردن دادهها در نرم افزار، دادههای پرت ایجاد میشود مثلاً عدد 3 را بهاشتباه 33 وارد کرده باشید که در این صورت میتوان با نگاهی اجمالی به دادهها مقادیر غیرعادی را شناسایی و اصلاح کنیم و یا شاخصهای min و max دادهها را حساب کنیم و از این طریق دادههای پرت را شناسایی کنیم. حالت دوم در وارد کردن دادهها اشتباهی صورت نگرفته است و ایراد از دادههای اصلی است مثلاً فردی بدون دقت و بدون اینکه سؤالات پرسشنامه را مطالعه کند به پرسشنامه پاسخ میدهد بنابراین دادههای این پرسشنامه با دادههای سایر افراد تفاوت قابل ملاحظهای پیدا میکند و یا اینکه در تحقیقات آزمایشگاهی به علت خطای آزمایش، یک یا چند نمونه مقداری متفاوت از سایر نمونهها پیدا میکند. از آنجایی که پژوهشگر در این حالت متوجه دادههای پرت نمیشود ممکن است نتایج پژوهش تحت تأثیر دادههای پرت، تغییر کند.
تأثیر داده های پرت بر روی نتایج آماری
دادههای پرت باعث میشود ارتباط بین دو متغیر ضعیف شود یا از بین برود اگرچه ممکن است در واقعیت یا بر اساس مبانی نظری ارتباط بین دو متغیر وجود داشته باشد اما نتایج به علت ورود دادههای پرت ممکن است مخدوش شود و ارتباط بین متغیرها معنادار نشود؛ بنابراین اگر نتایج با مبانی نظری و پیشینه پژوهش تطابق ندارد و یا غیرمنطقی است این احتمال وجود دارد که دادههای پرت در بین دادهها وجود دارد. با حذف دادهها پرت میتوان تا حد زیاد از انحراف نتایج جلوگیری کرد. یا ممکن است مدل ساختاری برازش مناسبی نداشته باشد و یا ضرایب مسیر معنادار نشوند که یکی از علتهای آن میتواند وجود دادهها پرت باشد که نرمال بودن چند متغیره را تحت تأثیر قرار میدهد.
تأثیر داده های پرت بر انتخاب روش آماری
برای انتخاب روشهای آماری میبایست ابتدا پیشفرضهای آزمونهای پارامتریک مانند تست نرمال بودن و همسانی واریانسها را بررسی کنیم که اگر دادههای پرت وجود داشته باشد بر هر دو پیشفرض تأثیر میگذارد یعنی دادهها غیر نرمال شود و همسانی واریانسها بین گروهها از بین برود و پژوهشگر را به سمت استفاده از آزمونهای ناپارامتریک سوق میدهد در صورتی که با حذف داده های پرت در بیشتر مواقع به راحتی می توان پیش فرض های آزمون پارامتریک را برقرار کرد.
تأثیر داده های پرت بر نرمال بودن دادهها
موضوع مهمی که در این آموزش به آن پرداخته میشود نرمال نشدن دادهها به علت وجود دادههای پرت است. ممکن است شما هیستوگرام توزیع فراوانی دادهها را رسم کنید و مشاهده کنید شکل توزیع دادهها تقریباً نرمال است اما آزمونهای استنباطی نرمال بودن دادهها را تأیید نمیکند علت این است که آزمونهای تست نرمال بودن به دادههای پرت حساس هستند و درصورتیکه فراوانی دادههای پرت کمی زیاد شود فرض نرمال بودن دادهها رد میشود. دادههای پرت میتوانند باعث افزایش شاخص چولگی (به سمت راست یا چپ) شود و یا در برخی نقاط کشیدگی دادهها را کمتر با بیشتر از کشیدگی شکل توزیع نرمال کند.
برای مثال هیستوگرام در شکل های (1) و (2) را مشاهده کنید توزیع فراوانی متغیر X2 و X3 تقریباً شبیه توزیع نرمال است اما برخی از داده های پرت باعث ایجاد چولگی در هیستوگرام شده است این موارد که در شکل مشخص شدهاند دادهها پرت هستند و با حذف آنها میتوان شکل توزیع دادهها را به توزیع نرمال نزدیک کرد.
حل یک مثال کاربردی در حذف داده های پرت
فایل داده Data1.sav را در پوشه فایل آموزشی بازکنید. در این فایل سه متغیر به نامهای X1، X2 و X3 وجود دارد.
نمودار هیستوگرام این سه متغیر را در شکلهای شماره (1) و (2) و (3) مشاهده کردیم. ابتدا به کمک آزمون Jarque-Bera تست میکنیم که این سه متغیر نرمال هستند یا خیر. برای انجام این آزمون از نرم افزار Data Normalize Master در پکیج تحلیل آماری است استفاده میکنیم. دادههای این دو متغیر را کپی میکنیم و داخل نرم افزار Data Normalize Master قرار میدهیم.
نتایج آزمون Jarque-Bera نشان میدهد که سطح معناداری آزمون برای متغیر X1 بیشتر از 0.05 است بنابراین فرض نرمال بودن متغیر X1 پذیرفته میشود. در نمودار هیستوگرام شکل های (3) نیز مشاهده شد که توزیع متغیر X1 شبیه توزیع نرمال است. نتایج آزمون ها نشان می دهد فرض نرمال بودن دو متغیر X2 و X3 پذیرفته نمیشود وقتی به شکلهای (1) و (2) نگاه کنیم متوجه میشویم که توزیع فراوانی این دو متغیر شبیه توزیع نرمال است اما به علت وجود چند داده پرت فرض نرمال بودن متغیر رد شده است. در بیشتر مواقع با رد فرض نرمال بودن سریع به سراغ آزمون های ناپارامتریک می رویم اما می توانیم با حذف داده های پرت به راحتی از آزمون پارمتریک استفاده کنیم.
جواب) برای شناسایی دادههای پرت روشهای نمودارهای و روشهای آماری مختلفی وجود دارد که در این آموزش همه روشها بررسی میشود.