Survival-Analysis - Big Data Experience Center (BX)

ในปัจจุบันโมเดลทางสถิติ มาใช้ให้เกิดประโยชน์ในหลายๆด้าน หนึ่งในนั้นคือการวิเคราะห์ระยะปลอดเหตุการณ์ ( Survival Analysis ) หรือ Time-to-Event Analysis ซึ่งใช้ในการวิเคราะห์เพื่อหาว่า ณ เวลา t ใดๆ มีโอกาสกี่เปอร์เซ็นต์ที่จะเกิดเหตุการณ์ที่สนใจ ตัวอย่างเช่นเราสามารถคาดการณ์ได้ว่าลูกค้าจะอยู่กับเราอีกนานแค่ไหนก่อนที่จะเลิกเป็นลูกค้า การที่เราได้รู้เหตุการณ์พวกนี้จะสามารถท าให้เราเตรียมรับมือกับมันได้ดียิ่งขึ้น

ตัวอย่างอื่นๆของการประยุกต์ใช้ Survival analysis [4] ได้แก่

ระยะเวลาการทำงานของเครื่องจักรก่อนจะเกิดการชำรุด
ระยะเวลาที่ผู้ป่วยจะกลับมาเป็นโรคอีกครั้ง
ระยะเวลาที่ผู้ป่วยจะเสียชีวิตหลังการรักษา
ระยะเวลากว่าธุรกิจจะคืนทุน
ระยะเวลาที่สต๊อกสินค้าจะหมด
ระยะเวลาที่ลูกหนี้จะผิดการชำระหนี้

ตัวอย่างหนึ่งของผลลัพธ์จาก survival analysis อยู่รูปแบบของ survival curve ตามตัวอย่างในรูปที่ 1 ซึ่งใช้บอกความน่าจะเป็นที่เหตุการณ์ที่เราสนใจจะเกิดขึ้นภายในเวลา t ที่เราสนใจรวมถึงเห็นภาพรวม การเปลี่ยนแปลงของความน่าจะเป็น เมื่อเวลาเปลี่ยนไปด้วย สมมุติว่า curve นี้ใช้อธิบายเหตุการณ์ที่ผู้ป่วยจะเสียชีวิตหลังรับการรักษาโอกาสที่ผู้ป่วยจะมีชีวิตเกิน 40 เดือน มีความน่าจะเป็นอยู่ที่ประมาณ 0.75 สังเกตว่า ความน่าจะเป็นที่ผู้ป่วยจะมีชีวิตอยู่เกิน t months จะลดลงตาม t

รูปที่ 1 ตัวอย่าง survival curve

ที่มา:
https://www.graphpad.com/guides/prism/latest/statistics/stat_key_concepts__survival_curves.htm

Censoring Data

Censoring data จะเกิดขึ้นเมื่อตัวเหตุการณ์ที่สนใจไม่ได้เกิดขึ้นภายในเวลาที่เก็บข้อมูล [3] โดยประเภทที่พบมากที่สุดใน survival analysis คือ right censoring ซึ่งจะเกิดขึ้นในสถานการณ์ที่ผู้เข้าร่วมการทดลองออกจากการทดลองก่อนเกิดเหตุการณ์ขึ้นหรือเนื่องจากระยะเวลาที่จ ากัดของการทดลองดังรูปที่ 2 เช่นผู้ป่วยยังมีชีวิตอยู่ หรือลูกค้ายังคงใช้บริการ ณ เวลาสิ้นสุดการเก็บข้อมูล ท าให้เราไม่สามารถทราบsurvival time ที่แท้จริงของผู้ป่วย หรือลูกค้าได้

รูปที่ 2 Right Censoring Data

ที่มา: https://jigso.com/the-notion-of-censoring-in-survival-analysis/

Hazard function

Hazard function [1] (hazard rate) เป็นหลักการทางด้านสถิติที่พบเห็นได้มากในการท า survival analysis ซึ่งใช้ในการบอกอัตราการเกิดขึ้นของเหตุการณ์ ณ เวลา t ถ้าก าหนดให้ T เป็นตัวแปร survival time นิยามของ hazard function คือ
ซึ่งบอกความน่าจะเป็นจะเกิดเหตุการณ์ ที่สนใจในช่วงเวลา t + ∆t โดยที่ delta มีค่าน้อยมากๆ ในตัวอย่างดังรูปที่ 3 สมมุติให้เหตุการณ์ที่สนใจการย้ายงานสามารถตีความตามกราฟได้ว่าในช่วง quarter ที่ 4 และ 7 จะมีอัตราการย้ายงานสูงที่สุด และใน quarter ที่ 1 และ 5 จะมีอัตราการย้ายงานน้อยที่สุด โดย hazard function ยังสามารถนำไปคำนวณออกมาเป็น survival curve ได้ด้วยการนำ cumulative hazard rate มาใช้

รูปที่ 3 hazard function graph

ที่มา: https://www.theanalysisfactor.com/what-is-a-hazard-function-in-survival-analysis/

Survival analysis Method

การทำ survival analysis นั้นมีหลายวิธีให้ได้เลือกใช้ แต่จะมีวิธีที่เป็นที่นิยมอยู่สองวิธี ได้แก่ Kaplan-Meier method และ Cox Proportional Hazard model
ในส่วนของ Kaplan-Meier Method [2] เป็นเทคนิคแบบ non-parametric ที่ใช้ในการสร้าง survival curve หมายความว่าไม่มีการตั้งสมมติฐานเกี่ยวกับการกระจายตัวของข้อมูลที่น ามาใช้ในการวิเคราะห์ ซึ่งจะทำให้ตัวโมเดลนั้นมีความง่ายในการใช้มากกว่าแต่ก็มีข้อจ ากัดในการวิเคราะห์หาความสัมพันธ์ของ survival probability กับปัจจัยภายนอก หรือ covariates Cox Proportional Hazard หรือ Cox PH model [1] นั้นจะเป็น semi-parametric method ความหมายคือมีทั้งส่วนที่เป็น non-parametric และ parametric ซึ่งอยู่ในรูปผลคูณของ baseline hazard function และฟังก์ชันของ covariates exp (∑𝛽𝑖𝑋𝑖) โดยที่เราไม่จำเป็นต้องกำหนดฟอร์มของ โดยค่า Exp(βi) หรือ hazard ratio จะบอกการเพิ่มขึ้นของ hazard rate เมื่อ covariate xi เพิ่มขึ้น 1 หน่วย โดยปกติแล้วถ้าเกิดข้อมูลที่เราจะใช้มาทำ survival analysis นั้นสามารถตอบสมมติฐานของตัว Cox Proportional Hazard เช่น ค่า hazard ratio ไม่เปลี่ยนตามเวลา วิธี Cox Proportional Hazard มักจะให้ผลลัพธ์การประมาณความน่าจะเป็น ณ เวลา t ใดๆได้ดีกว่าวิธีของ Kaplan-Meierแต่เนื่องจากวิธีการทั่วไปที่เราใช้ในการท า survival analysis นั้น จะมีข้อจำกัดต่างๆ จึงได้มีการพัฒนา deep survival analysis ซึ่งเป็นการนำความรู้ด้าน neural network มาประยุกต์เพื่อที่จะสามารถปลดข้อจำกัดต่างๆได้

Deep survival analysis

การนำ neural network มาประยุกต์ใช้กับ survival analysis เพื่อเพิ่มประสิทธิภาพนั้นมีมากมายหลายวิธี ในที่นี้จะยกตัวอย่าง หนึ่งในวิธีเหล่านั้นได้แก่ Multi-Task Logistic Regression (MTLR) ซึ่งจะให้ผลลัพธ์ที่ใกล้เคียงกับ Cox Proportional Hazard โดยไม่มีข้อจ ากัดต่างๆของโมเดล Cox Proportional Hazard แต่ MTLR นั้นยังอยู่ในรูปแบบของโมเดลเชิงเส้น (linear model) ท าให้ MTLR ไม่สามารถจับตัวแปรจากข้อมูลที่เป็น nonlinear ได้ จึงมีการนำไปประยุกต์ต่อกลายเป็น Neural Multi-Task Logistic Regression (N-MTLR) [5] ซึ่งใช้ neural network มาช่วยโดยจะนำส่วนของ neural network นั้นมาแทนที่ส่วนที่เป็น Linear transformation ของ Cox proportional Hazard และ MTLR ด้วยเหตุนี้จึงทำให้ตัว N-MTLR สามารถจับรูปแบบความสัมพันธ์ของ survival time และ covariates ที่เป็น non-linear และให้ผลลัพธ์ที่ดีขึ้นได้

รูปที่ 4 ตัวอย่าง neural layer ของ N-MTLR

ที่มา: https://medium.com/square-corner-blog/deep-neural-networks-for-survival-analysisbased-on-a-multi-task-framework-ded8697be85c

Reference
[1] P.Inger, “Essays on the Assumption of Proportional Hazards in Cox Regression” diva2:161225,

[2] Goel MK, Khanna P, Kishore J. Understanding survival analysis: Kaplan-Meier estimate. Int J Ayurveda Res. 2010 Oct;1(4):274-8. doi: 10.4103/0974-7788.76794. PMID: 21455458; PMCID: PMC3059453.

[3] K. Leung, R. Elashoff, A. Afifi, “CENSORING ISSUES IN SURVIVAL ANALYSIS” Annu. Rev. Public Health 1997.18:83-104, 1997.

[4] K.Brian, “Applications of survival analysis (that aren’t clinical research)”
https://www.crosstab.io/articles/survival-analysis-applications, 2021.

[5] F.Stephane, “Deep Neural Networks for Survival Analysis Based on a Multi-Task Framework” arXiv:1801.05512v1, 2018.