ค่าผิดปกติ (Outliers) คืออะไร? สุดยอดคู่มือการคัดกรองข้อมูลแปลกปลอมด้วย IQR
ในการวิเคราะห์ข้อมูลหรือวิจัยทางสถิติ ปัญหาหนึ่งที่นักวิเคราะห์เจอบ่อยที่สุดคือ ค่าผิดปกติ หรือ Outliers ซึ่งหมายถึงจุดข้อมูลที่มีค่าสูงเกินไปหรือต่ำเกินไปจนผิดสังเกตเมื่อเทียบกับข้อมูลส่วนใหญ่ในชุดเดียวกัน เช่น สมมติว่าคะแนนสอบของคนในห้องส่วนใหญ่อยู่ที่ 50 - 70 คะแนน แต่จู่ๆ มีคนหนึ่งได้ 5 คะแนน หรือได้ 99 คะแนน ค่าเหล่านี้คือ Outlier ที่หากเราไม่จัดการให้ดีก่อนนำไปวิเคราะห์ มันอาจจะทำให้ค่าเฉลี่ย (Mean) บิดเบือนไปจากความเป็นจริงอย่างรุนแรง โมเดลพยากรณ์พังทลาย และนำไปสู่ข้อสรุปที่ผิดพลาดได้
วิธีหา Outliers ด้วยเทคนิคของ Tukey (Interquartile Range Method)
วิธีการที่ได้รับความนิยม แข็งแกร่ง และใช้ในแผนภาพกล่อง (Boxplot) กันอย่างแพร่หลาย คือการใช้วิธี Tukey's Fences ซึ่งอาศัยหลักการของ พิสัยระหว่างควอไทล์ (Interquartile Range - IQR) มาเป็นตัวกำหนดขอบเขตที่ยอมรับได้ (Fences) ของข้อมูล วิธีนี้มีข้อดีคือไม่จำเป็นต้องสมมติว่าข้อมูลมีการแจกแจงแบบปกติ (Normal Distribution) เสมอไป
ขั้นตอนและสูตรในการคำนวณ
- หาค่า Q1 และ Q3: เรียงข้อมูลจากน้อยไปมาก แล้วหาจุดแบ่งควอไทล์ที่ 1 (25%) และควอไทล์ที่ 3 (75%)
- คำนวณ IQR: หาค่าพิสัยระหว่างควอไทล์ โดยใช้สูตร
IQR = Q3 - Q1 - กำหนดขอบเขตปกติ (Inner Fences):
- ขอบเขตล่าง (Lower Bound) =
Q1 - (1.5 × IQR) - ขอบเขตบน (Upper Bound) =
Q3 + (1.5 × IQR)
- ขอบเขตล่าง (Lower Bound) =
- กำหนดขอบเขตสุดโต่ง (Outer Fences):
- ขอบเขตล่างแบบสุดโต่ง =
Q1 - (3 × IQR) - ขอบเขตบนแบบสุดโต่ง =
Q3 + (3 × IQR)
- ขอบเขตล่างแบบสุดโต่ง =
เจอ Outliers แล้วควรทำอย่างไร?
เมื่อเครื่องมือของเราค้นพบ Outliers ให้คุณแล้ว ไม่ได้หมายความว่าคุณจะต้อง "ลบ" พวกมันทิ้งเสมอไป การตัดสินใจจัดการกับ Outlier ต้องพิจารณาจากบริบท:
- ความผิดพลาดในการเก็บข้อมูล (Data Entry Error): เช่น พิมพ์อายุ 25 ปี เป็น 250 ปี กรณีนี้ควรแก้ไขค่าให้ถูกต้องหรือตัดทิ้งหากแก้ไม่ได้
- ความผิดปกติของระบบหรือเครื่องมือวัด: เช่น เซ็นเซอร์รวน กรณีนี้ควรพิจารณาตัดทิ้ง
- เป็นความจริงตามธรรมชาติ (Natural Outlier): เช่น ข้อมูลรายได้ของประชากรที่มีมหาเศรษฐีรวมอยู่ด้วย ข้อมูลเหล่านี้เป็นความจริงและมีประโยชน์ในการวิเคราะห์ กรณีนี้อาจจะไม่ตัดทิ้ง แต่อาจใช้วิธีแปลงข้อมูล (Data Transformation เช่น Log transform) หรือใช้สถิติที่ทนทานต่อ Outlier เช่นใช้ค่ามัธยฐานแทนค่าเฉลี่ย
ด้วยเครื่องคิดเลขหา Outliers แบบออนไลน์ฟรีเครื่องนี้ คุณสามารถป้อนชุดข้อมูลดิบลงไปได้อย่างสะดวกรวดเร็ว ระบบจะทำการประมวลผล หาขอบเขต Fences ต่างๆ และคัดกรองตัวเลขที่ผิดปกติออกมาให้คุณเห็นได้อย่างชัดเจนในทันที ประหยัดเวลาและเพิ่มความถูกต้องแม่นยำให้กับการเตรียมข้อมูล (Data Preprocessing) ของคุณอย่างแน่นอน!