การวิเคราะห์การถดถอยเชิงเส้นอย่างง่าย (Simple Linear Regression) คืออะไร?
ในการวิเคราะห์ข้อมูลทางสถิติเพื่อดูความสัมพันธ์ระหว่างตัวแปรสองตัว การหาค่าสหสัมพันธ์ (Correlation) เพียงอย่างเดียวอาจบอกได้แค่ว่าตัวแปรทั้งสองมีความสัมพันธ์กันหรือไม่ และมีทิศทางอย่างไร แต่ไม่สามารถนำมาใช้ในการพยากรณ์หรือทำนายค่าได้ หากเราต้องการที่จะ "สร้างโมเดลเพื่อพยากรณ์ค่าของตัวแปรหนึ่ง จากอีกตัวแปรหนึ่ง" เราจะต้องใช้เทคนิคที่เรียกว่า การวิเคราะห์การถดถอยเชิงเส้น (Linear Regression Analysis)
การถดถอยเชิงเส้นอย่างง่าย (Simple Linear Regression) จะเกี่ยวข้องกับตัวแปร 2 ตัว ได้แก่:
- ตัวแปรอิสระ (Independent Variable) มักแทนด้วย X คือ ตัวแปรที่เราใช้เพื่ออธิบายหรือทำนาย (Predictor)
- ตัวแปรตาม (Dependent Variable) มักแทนด้วย Y คือ ตัวแปรเป้าหมายที่เราต้องการทำนายผลลัพธ์ (Response)
สมการเส้นตรง (Linear Equation)
เป้าหมายหลักของการวิเคราะห์การถดถอยเชิงเส้นคือ การสร้างสมการเส้นตรงที่ดีที่สุดที่สามารถเป็นตัวแทนของข้อมูลทั้งหมดได้ (Line of Best Fit) โดยสมการจะอยู่ในรูปแบบ:
(บางตำราอาจเขียนเป็น Y = β0 + β1X หรือ y = mx + c)
โดยที่ความหมายของแต่ละตัวแปรคือ:
- Y คือ ค่าที่เราต้องการทำนาย (ตัวแปรตาม)
- X คือ ค่าที่เรากำหนดหรือตัวแปรอิสระ
- a (Intercept หรือ จุดตัดแกน Y) คือ ค่าของ Y เมื่อ X มีค่าเท่ากับศูนย์
- b (Slope หรือ ความชัน) คือ อัตราการเปลี่ยนแปลงของ Y เมื่อ X เปลี่ยนแปลงไป 1 หน่วย
วิธีการหาระยะที่น้อยที่สุด (Method of Least Squares)
ค่าสัมประสิทธิ์การถดถอย a และ b ถูกคำนวณมาจากหลักการทางคณิตศาสตร์ที่เรียกว่า "วิธีกำลังสองน้อยที่สุด" (Ordinary Least Squares - OLS) โดยเส้นตรงที่วาดขึ้นมานั้น จะต้องทำให้ผลรวมของกำลังสองของระยะห่างระหว่างจุดข้อมูลจริงกับเส้นตรง (Error หรือ Residual) มีค่าน้อยที่สุด
ประโยชน์และการประยุกต์ใช้งาน
สมการเส้นถดถอยเชิงเส้นมีประโยชน์อย่างมากในหลากหลายวงการ เช่น:
- การตลาดและธุรกิจ: พยากรณ์ยอดขายในอนาคต (Y) จากงบประมาณโฆษณา (X)
- การแพทย์: พยากรณ์ระดับน้ำตาลในเลือด (Y) จากน้ำหนักตัวผู้ป่วย (X)
- ทรัพยากรบุคคล: ทำนายประสิทธิภาพการทำงาน (Y) จากชั่วโมงการฝึกอบรมที่พนักงานได้รับ (X)
อย่างไรก็ตาม สมการเส้นถดถอยนี้จะใช้ทำนายได้อย่างแม่นยำก็ต่อเมื่อข้อมูลจริงมีลักษณะความสัมพันธ์เป็นแบบเส้นตรง และการทำนายนอกขอบเขตของข้อมูลที่ใช้สร้างโมเดล (Extrapolation) อาจนำไปสู่ความคลาดเคลื่อนที่สูงมากได้