მონაცემთა შეკვეცა / მონაცემთა შეცვლა

Trimming the Data / Winsorizing

მონაცემთა შეკვეცა  ნიშნავს შერჩევიდან ზოგიერთი ექსტრემალური მონაცემის მოშორებას. საქმე ისაა, რომ ზოგჯერ ერთი ანომალიური მონაცემიც კი ისე ცვლის სტატისტიკას, რომ შეფასება აღარ ეთანხმება შერჩევის მონაცემებს. ანომალიური მონაცემი შერჩევაში ყველაზე ხშირად ჩნდება ან შეყვანის შეცდომის გამო, ან ხვდება შერჩევაში სხვა პოპულაციიდან.

შერჩევიდან ანომალური მონაცემების მოშორება (ამოღება) ხდება ორი წესის მიხედვით: 1. პროცენტული წესი; 2. სტანდარტული გადახრის წესი.

პროცენტული წესის მიხედვით, შერჩევიდან აშორებენ ექსტრემალური მონაცემების გარკვეულ პროცენტს. მაგალითად, შერჩევის 10%-ის შესაბამის რაოდენობის მოაცილებენ უმცირეს და უდიდეს ქულებს.

შერჩევის ქულებია: 0  0  4  5  6  6  6  6  6  6  7  7  7  7  7  8  8  8  8  8 

აქ სულ 20 მონაცემია, შესაბამისად ორ-ორ მონაცემს ანუ 10%-ს ამოიღებენ უმცრესი და უდიდესი ქულებიდან.

10% -ით შეკვეცილი ქულები      -  -  4  5  6  6  6  6  6  6  7  7  7  7  7  8  8  8  -  -

მოშორების შემდეგ დარჩენილი ქულების საშუალოს ეწოდება შეკვეცილი საშუალო, სტანდარტულ გადახრას კი შეკვეცილი სტანდარტული გადახრა.  ქულების საშუალო იყო 6, სტანდარტული გადახრა 2.32; 10%-ით შეკვეცილი საშუალო გახდა 6.5, შეკვეცილი სტანდარტული გადახრა კი 1.1.  საშუალო გაიზარდა, სტანდარტული გადახრა კი შემცირდა. ექსტრემალური მონაცემების შეკვეცით საშუალო და სტანდარტული გადახრა ხდება უფრო მდგრადი.

სტანდარტული გადახრის წესის მიხედვით, შერჩევიდან აშორებენ იმ მონაცემებს, რომლებიც შერჩევის საშუალოზე მეტია და ნაკლებია მაგალითად 2.5 სტანდარტული გადახრით. ქულების სტანდარტული გადახრა იყო 2.32, ეს სიდიდე რომ გავამრავლოთ 2.5-ზე, მივიღებთ 5.8-ს. გვექნება, 6+5.8=11.8; 6–5.8=0.2; მონაცემები 11.8-ზე მეტი არ გვაქვს, ამიტომ მოსაშორებელია მხოლოდ 0.2-ზე ნაკლები ორი ნული. მივიღებთ შეკვეცილ შერჩევას: 4  5  6  6  6  6  6  6  7  7  7  7  7  8  8  8  8  8. შეკვეცილი შერჩევის საშუალოა 6.67, შეკვეცილი სტანდარტული გადახრა კი 1.14.

მონაცემთა შეცვლა (Winsorizing) ნიშნავს, რომ შერჩევიდან არ ხდება ექსტრემალური ქულების მოშორება, ხდება ექსტრემალური ქულების შეცვლა. მაგალითად, ყველა ქულა, რომელიც საშუალოზე ნაკლებია და მეტია სამი სტანდარტული გადახრით წაიშლება, და შეიცვლება დარჩენილი მონაცემების შესაბამისად მინიმალური და მაქსიმალური ქულებით. შეცვლის პროცედურის ჩატარების შემდეგ, ვღებულობთ: 4  4  4  5  6  6  6  6  6  6  7  7  7  7  7  8  8  8  8  8.

გასათვალისწინებელია, რომ მონაცემთა შეკვეცას მიმართავენ  მაშინ, როცა არსებობს მოსაზრება, რომ ასეთი მონაცემი არ ეკუთვნის პოპულაციას, რომლიდან ამოღებულია განსახილველი შერჩევა. ეს კი თავისთავად არ არის ყოველთვის იოლი ამოცანა. 

***

გამოყენებული ლიტერატურა:

Field, A. (2013). Discovering Statistics Using IBM SPSS Statistics. SAGE Publications Ltd.

კისი, ჰ. (2008). სტატისტიკა სოციალურ მეცნიერებებში. სოციალურ მეცნიერებათა ცენტრი.  თბილისის უნივერსიტეტის გამომცემლობა

კატეგორია: 
ავტორები: