Linear regression model, Y is approximate as model of X
สมการด้านบนสามารถตีความได้ว่า ผลของ Y จะสามารถประมาณได้จากค่าคงที่ (β0) รวมกับค่าของตัวแปรที่เราต้องการนำมาวิเคราะห์และความสำคัญของตัวแปรนั้น ๆ ( β1)
ผลของ Y คือค่าที่เราสนใจเป็นหลัก เช่นยอดขาย คุณภาพของสินค้า หรือความต้องการของตลาด โดยตัวแปร Y มีชื่อเรียกที่หลากหลาย ได้แก่ dependent variable, response, หรือ outcome (ในบทความนี้จะเรียกว่า response)
ตัวแปร X คือตัวแปรที่เราต้องการนำมาอธิบายผลของ response Y เช่นตัวแปรที่สามารถอธิบายยอดขายได้ อาจจะเป็นต้นทุนด้านการวิจัย ต้นทุนทางการตลาด ความต้องการของตลาดโดยรวม เป็นต้น โดยตัวแปร X เองก็มีชื่อเรียกหลากหลายได้แก่ independent variable, predictor, หรือ explanatory (ในบทความนี้จะเรียกว่า predictor)
ค่าคงที่ β เรียกว่า coefficient หมายถึงค่าที่ response Y จะเป็นเมื่อตัวแปร X มีค่าเป็น 0 หรือไม่มีตัวแปร X นั่นเอง โดยความหมายทางคณิตศาสตร์คือค่าจุดตัดแกน Y (y-intercept)
น้ำหนัก β1 เป็น parameter ของค่า X หมายถึงค่าที่บงบอกถึงน้ำหนักของ X ที่ส่งผลต่อ Y ซึ่งยิ่ง β1 มาก แสดงว่าค่า X สามารถอธิบายผลของ response Y ได้มาก โดย β1 นั้นมีความหมายทางคณิตศาสตร์คือ slope หรือความชันของสมการเส้นตรง
Metric สำหรับวัดผลความ fit ของเส้น regression นั้น ส่วนใหญ่จะใชัทั้งหมด 2 metrics ได้แก่
1. Residual Standard Error
2. R-squared statistic
ก่อนจะพูดถึง residual standard error ต้องเกริ่นก่อนว่าเส้น least squares ที่เราสร้างจากข้อมูลนั้น ถือว่าเป็น estimated regression line เพราะว่าใช้ข้อมูลที่เรียกว่าเป็น sampling data จาก population (ทบทวนเรื่องของสถิติก่อน ว่าการนำข้อมูลที่เป็น population มาใช้นั้นเป็นไปไม่ได้ เนื่องจากว่าเราไม่สามารถเก็บข้อมูลในทุก ๆ รูปแบบได้ เราจึงเรียกข้อมูลที่เราเก็บมาได้นั้นว่า sampling data นั่นเอง) ส่วนเส้น population regression คือเส้นที่สร้างจากข้อมูลที่เป็น population (บางที่จะเรียกว่า เส้น true regression) โดยสมการเป็นดังนี้
true regression line
สิ่งที่เพิ่มเข้ามาคือค่า error (ε) ที่มีการกระจายตัวแบบ normal distribution และมีค่าเฉลี่ยอยู่ที่ 0 (mean-zero random error) ทั้งนี้จะเห็นได้ว่าในกรณีที่เส้น regression นั้น fit มากที่สุด คือการเส้น regression อยู่ตรงช่วงกลาง ๆ ที่มีการกระจายตัวของข้อมูลอยู่รอบ ๆ ทั้งบนเส้น และใต้เส้น ทำให้ค่า error มีทั้งค่าที่เป็นบวก (จุดอยู่ใต้เส้น) และ error ติดลบ (จุดของข้อมูลอยู่เหนือเส้น) ซึ่งการที่เส้น regression เป็น best fit ได้นั้น แสดงว่า error ต้องรวมกันแล้วมีค่าเฉลี่ยเป็น 0 นั่นเอง
คำถามต่อมาคือ เราจะรู้ได้อย่างไรว่าเส้น least squares มีความแตกต่างจากเส้น population regression มากน้อยแค่ไหน
เนื่องจากเราไม่สามารถหา population regression ได้ เราเลยต้องใช้หลักการทางสถิติเพื่อการคำนวณหา standard error ของค่าที่เราสนใจด้วยการประมาณค่าเอา เช่นถ้าเราสนใจว่า coefficient หรือ parameter ของเส้น least squares ใกล้เคียงกับเส้น population regression หรือไม่ เราก็สามารถหา standard error ของ β0_hat ซึ่งเขียนได้เป็น SE(β0_hat) โดยสูตรคำนวณเป็นดังสมการด้านล่าง
การคำนวณ standard deviation ของ β0_hat
และ standard error ของ parameter β1_hat ซึ่งเขียนได้เป็น SE(β1_hat) โดยสูตรคำนวณเป็นดังสมการด้านล่าง
การคำนวณ standard deviation ของ β1_hat
ในส่วนของสมการนั้นจะยังไม่อธิบายในบทความนี้ แต่จะให้เห็นว่าจากสมการนั้น ยิ่งมีจำนวนข้อมูลมากเท่าไหร่ SE ยิ่งมีค่าน้อยลงมากเท่านั้น เนื่องจากการที่มีข้อมูลจำนวนมาก ทำให้เส้น least square เข้าใกล้ population regression มากขึ้น นอกจากนั้น จากสมการ เราต้องคำนวณค่าความแปรปรวน (variance) ของ population error ซึ่งก็คือ standard deviation ของ error (σ) ยกกำลังสอง
การคำนวณ variance ของค่า error
ซึ่งในความเป็นจริงแล้ว เราไม่สามารถหาค่า variance ที่ว่านี้ได้เนื่องจากเราจำเป็นต้องใช้ข้อมูลที่เป็น population ในการคำนวณ แต่เราสามารถประมาณค่าได้จาก sampling data โดยค่า standard deviation ของ error ที่เกิดจากการประมาณค่า จะเรียกว่า residual standard error (RSE) โดยคำนวณได้จาก
การคำนวณ residual standard error
ค่าของ residual standard error (RSE) บอกถึงความเบี่ยงเบนของค่า y_hat ออกจากค่าจริง (เส้น population regression)
แสดงผลลัพธ์จากการ fit regression ระหว่าง sales และ total budget
ตัวอย่าง จากการ fit เส้น regression ของ sales กับ total budget แล้วจะเห็นว่า RSE มีค่าเท่ากับ 2.6 ซึ่งหมายความว่า sale จริง ๆ นั้นเฉลี่ยแล้ว มีค่าเบี่ยงเบนออกจากความเป็นจริงไปทั้งหมด 2,600 unit (1 หน่วยในชุดข้อมูลเท่ากับ 1,000 unit)
ในอีกกรณีหนึ่ง ถึงแม้ว่าเส้น least square นั้น เราจะใช้ค่า β0 และ β1 จากเส้น population regression (ซึ่งในความเป็นจริงนั้นเป็นไปไม่ได้) เราก็จะมีค่าเบี่ยงเบนเฉลี่ยออกจากความเป็นจริงไปทั้งหมดประมาณ 2,600 unit อยู่ดี ซึ่งในชุดข้อมูลตัวอย่างนั้น มีจำนวน sales เฉลี่ยแล้วเท่ากับ 14.0225 หรือประมาณ 14,023 unit หมายความว่า ถ้าเราคิดเป็น percentage error แล้ว เราจะมี error เท่ากับ 2,600/14,023 = 18.5% ซึ่งเราจะยอมรับ error ตัวนี้ได้มากน้อยแค่ไหน ขึ้นอยู่กับบริบททางธุรกิจของเรานั่นเอง
นอกจากนี้แล้ว RSE ยังบ่งบอกถึงความ lack of fit หมายความว่าถ้าค่า RSE มากแสดงว่าเส้น least square ที่เราสร้างขึ้นมานั้น ไม่ fit กับข้อมูลที่เราใช้ ในทางกลับกัน ถ้า RSE น้อย แสดงว่า estimate y ของเรานั้นมีค่าประมาณ y ของข้อมูลจริงเรา
R-squared statistic บอกถึงความ lack of fit เหมือนกัน โดยในขณะที่ RSE บอกถึงความ lack of fit ในหน่วยของ y เช่น y ในตัวอย่างมีหน่วยเป็น 1,000 unit หมายความว่า เราไม่รู้ว่าเส้น least squared ของเรานั้นดีหรือไม่ดีอย่างไร ถ้าเราไม่ได้สร้างหลาย ๆ เส้น least squared เพื่อเปรียบเทียบ ทั้งนี้ R-squared เป็นค่าทางสถิติที่คำนวณในรูปแบบของสัดส่วน ซึ่งมีค่าอยู่ระหว่าง 0 (ไม่ fit) ถึง 1 (fit มาก) การคำนวณ R-squared เป็นไปตามด้านล่าง
TSS คือค่า total sum of squares โดยเป็นผลรวมของค่า error กับค่าเฉลี่ยของ y โดยมีความหมายว่า ถ้าเราไม่มีเส้น regression แล้วค่าความแปรปรวนที่เกิดขึ้นจะเป็นเท่าไหร่ โดยคิดจากเส้นเฉลี่ยของค่า Y
RSS หรือค่า residual sun of squares บอกถึงว่าเมื่อมีเส้น regression แล้ว ค่าความแปรปรวนเป็นเท่าไหร่ หรือเมื่อใช้เส้น regression แล้วยังเหลือความแปรปรวนอยู่เท่าไหร่ (unexplained variation) ดังนั้น R-squared บอกถึงสัดส่วนของความแปรปรวนของ response Y ที่ predictor X สามารถลดลงไปได้โดย 0 หมายถึงว่า predictor X ที่เรานำมาสร้างเส้น regression ไม่สามารถลดความแปรปรวนของ response Y ได้เลยเมื่อเทียบกับการใช้เส้นเฉลี่ย ซึ่งอาจจะหมายถึงว่า linear model ของเราผิด และ R-squared เท่ากับ 1 หมายถึง predictor X สามารถลดความแปรปรวนของค่า response Y ได้ดีกว่าการใช้เส้นเฉลี่ยมาก ๆ
ทั้งนี้ หลักในการเลือกตัวแปรเรียกว่า variable selection โดยการไล่หาชุดของตัวแปรที่ทำให้ linear model นั้นเป็น model ที่ดีที่สุด โดยมีเกณฑ์ในการเลือกเป็น
Multiple linear model ของเรานั้น fit กับข้อมูลมากน้อยแค่ไหน การตรวจสอบความ fit ของข้อมูลก็เป็นไปตามที่กล่าวไว้ในส่วนของ simple linear regression แต่เราจะมาดู RSE เพิ่มเติมเล็กน้อย
การคำนวณ residual standard error ของ multiple linear regression
จะเห็นว่าสมการมีความต่างออกไปเล็กน้อย ตรงที่ว่าจากเดิมเป็น (n-2) กลายเป็น (n-p-2) โดย p เป็นจำนวนของตัวแปร ทำให้จริง ๆ แล้วใน simple linear regression มีค่าเป็น (n-1–1) = n-2 นั่นเอง
Share this articleShareShareShareShareสำหรับคนที่เคยทำงานด้าน Machine Learning และ Deep Learning น่าจะเป็นที่ทราบกันดีว่าการที่จะสอนให้โมเดลเรียนรู้ความสัมพันธ์ภายในข้อมูลและทำนายข้อมูลได้อย่างแม่นยำ Post Views: 1,197 READ U-Net: Convolutional Networks for Biomedical Image Segmentation