การเลือกอัลฟาที่ดีที่สุดในการถดถอยโลจิสติกเน็ตแบบยืดหยุ่น

ฉันกำลังทำการถดถอยโลจิสติกส์แบบยืดหยุ่นบนชุดข้อมูลด้านการดูแลสุขภาพโดยใช้glmnetแพ็คเกจใน R โดยเลือกค่าแลมบ์ดาในตารางของจาก 0 ถึง 1 รหัสย่อของฉันอยู่ด้านล่าง: $\alpha$

alphalist <- seq(0,1,by=0.1)
elasticnet <- lapply(alphalist, function(a){
  cv.glmnet(x, y, alpha=a, family="binomial", lambda.min.ratio=.001)
})
for (i in 1:11) {print(min(elasticnet[[i]]$cvm))}

ซึ่งส่งออกข้อผิดพลาดการตรวจสอบความถูกต้องข้ามเฉลี่ยสำหรับแต่ละค่าของอัลฟาจากถึงโดยเพิ่มขึ้น : $0.0$ $1.0$ $0.1$

[1] 0.2080167
[1] 0.1947478
[1] 0.1949832
[1] 0.1946211
[1] 0.1947906
[1] 0.1953286
[1] 0.194827
[1] 0.1944735
[1] 0.1942612
[1] 0.1944079
[1] 0.1948874

จากสิ่งที่ฉันได้อ่านในวรรณกรรมทางเลือกที่ดีที่สุดของคือข้อผิดพลาด cv ถูกย่อให้เล็กสุด แต่มีข้อผิดพลาดมากมายในช่วงของอัลฟา ฉันเห็นต่ำสุดในประเทศหลายแห่งที่มีข้อผิดพลาดขั้นต่ำทั่วโลกของสำหรับ $\alpha$ 0.1942612alpha=0.8

มันมีความปลอดภัยที่จะไปด้วยalpha=0.8? หรือถ้ามีความแปรปรวนฉันควรเรียกใช้อีกครั้งcv.glmnetด้วยการตรวจสอบความถูกต้องไขว้มากกว่าเดิม (เช่นแทน ) หรืออาจเพิ่มจำนวนทีละมากขึ้นระหว่างและเพื่อให้ได้ภาพเส้นทางที่ผิดพลาดของ cv? $20$ $10$ $\alpha$ alpha=0.01.0

— RobertF
แหล่งที่มา

คุณต้องการที่จะดูcaretแพคเกจที่สามารถทำซ้ำ CV และปรับแต่งสำหรับอัลฟาและแลมบ์ดา (รองรับการประมวลผลแบบมัลติคอร์!) จากหน่วยความจำฉันคิดว่าglmnetเอกสารแนะนำไม่ให้ปรับอัลฟ่าในแบบที่คุณทำที่นี่ มันแนะนำเพื่อให้ foldids cv.glmnetคงที่หากผู้ใช้ปรับแต่งสำหรับอัลฟานอกเหนือไปจากการปรับแต่งสำหรับแลมบ์ดาให้บริการโดย

อาพบโพสต์ที่นี่: stats.stackexchange.com/questions/69638/…

— RobertF

อย่าลืมแก้ไข foldid เมื่อคุณลองใช้แตกต่าง

α

$\alpha$

— user4581

เพื่อความสามารถในการทำซ้ำอย่าวิ่งcv.glmnet()โดยไม่ผ่านการfoldidsสร้างจากเมล็ดสุ่มที่รู้จัก

— smci

@ amoeba ได้ดูคำตอบของฉัน - ยินดีต้อนรับเข้าสู่การแลกเปลี่ยนระหว่าง l1 และ l2!

— Xavier Bourret Sicotte

คำตอบ:

ชี้แจงสิ่งที่มีความหมายโดยพารามิเตอร์ $\alpha$ และ Elastic Net

คำศัพท์และพารามิเตอร์ที่แตกต่างกันจะถูกใช้โดยแพ็คเกจที่แตกต่างกัน แต่โดยทั่วไปความหมายจะเหมือนกัน:

แพคเกจ R Glmnetใช้ความละเอียดดังต่อไปนี้

$\min_{\beta_0,\beta} \frac{1}{N} \sum_{i=1}^{N} w_i l(y_i,\beta_0+\beta^T x_i) + \lambda\left[(1-\alpha)||\beta||_2^2/2 + \alpha ||\beta||_1\right]$

Sklearnใช้

$\min_{w} \frac{1}{2N} \sum_{i=1}^{N} ||y - Xw ||^2_2 + \alpha \times l_1 \text{ratio} ||w||_1 + 0.5 \times \alpha \times (1 - l_1 \text{ratio}) \times ||w||_2^2$

มีparametrizations ทางเลือกโดยใช้ $a$ และ $b$ เช่นกัน ..

เพื่อหลีกเลี่ยงความสับสนฉันจะโทรหา

$\lambda$ พารามิเตอร์แข็งแรงโทษ
$L_1 \text{ratio}$ อัตราส่วนระหว่าง $L_1$ และ $L_2$ โทษตั้งแต่ 0 (สัน) ถึง 1 (เชือก)

การแสดงผลกระทบของพารามิเตอร์

พิจารณาข้อมูลชุดจำลองที่ $y$ ประกอบด้วยเส้นโค้งไซน์มีเสียงดังและ $X$ เป็นคุณลักษณะที่สองมิติประกอบด้วย $X_1 = x$ และ $X_2 = x^2$ 2เนื่องจากความสัมพันธ์ระหว่าง $X_1$ และ $X_2$ ฟังก์ชั่นค่าใช้จ่ายเป็นหุบเขาแคบ ๆ

กราฟิกด้านล่างแสดงเส้นทางการแก้ปัญหาของการยืดหยุ่นเน็ตด้วยพารามิเตอร์อัตราส่วน $L_1$ แตกต่างกันสองฟังก์ชั่นของพารามิเตอร์ความแข็งแรง $\lambda$

สำหรับการจำลองทั้งสอง: เมื่อ $\lambda = 0$ การแก้ปัญหาคือโซลูชัน OLS ที่มุมล่างขวาพร้อมกับฟังก์ชั่นต้นทุนรูปทรงหุบเขาที่เกี่ยวข้อง
เมื่อ $\lambda$ เพิ่มขึ้นการทำให้เป็นปกติจะเริ่มทำงานและการแก้ปัญหามีแนวโน้มที่จะ $(0,0)$
ความแตกต่างที่สำคัญระหว่างการจำลองทั้งสองคือพารามิเตอร์อัตราส่วน $L_1$
LHS : สำหรับอัตราส่วน $L_1$ ขนาดเล็กฟังก์ชั่นค่าใช้จ่ายปกติจะมีลักษณะคล้ายกับการถดถอยของสันที่มีรูปทรงกลม
RHS : สำหรับอัตราส่วน $L_1$ มีขนาดใหญ่ฟังก์ชั่นค่าใช้จ่ายมีลักษณะคล้ายกับการถดถอยแบบ Lasso โดยมีรูปทรงเพชรทั่วไป
สำหรับอัตราส่วน $L_1$ กลาง(ไม่แสดง) ฟังก์ชั่นค่าใช้จ่ายเป็นการรวมกันของทั้งสอง

ทำความเข้าใจกับผลกระทบของพารามิเตอร์

ElasticNet ได้รับการแนะนำให้ตอบโต้ข้อ จำกัด บางประการของ Lasso ซึ่ง ได้แก่ :

หากมีตัวแปรมากกว่า $p$ จุดข้อมูล $n$ , $p>n$ , lasso จะเลือกตัวแปร $n$ ส่วนใหญ่
Lasso ไม่สามารถทำการเลือกกลุ่มโดยเฉพาะอย่างยิ่งเมื่อมีตัวแปรที่สัมพันธ์กัน มันมักจะเลือกตัวแปรหนึ่งตัวจากกลุ่มและเพิกเฉยตัวแปรอื่น ๆ

$L_1$ $L_2$

$L_1$
$L_2$ $L_1$

คุณสามารถดูนี้สายตาในแผนภาพข้างต้นเอกที่จุดส่งเสริมsparsityขณะที่ขอบนูนเข้มงวดขอแนะนำให้จัดกลุ่ม

นี่คือการสร้างภาพจาก Hastie (ผู้ประดิษฐ์ ElasticNet)

อ่านเพิ่มเติม

— Xavier Bourret Sicotte
แหล่งที่มา

ให้ฉันเพิ่มข้อคิดเห็นที่เป็นประโยชน์บางอย่างแม้ว่าอายุของคำถาม เนื่องจากฉันไม่ใช่ผู้ใช้ R ฉันไม่สามารถปล่อยให้คุยรหัสได้ แต่ควรเข้าใจได้

$\alpha$ $k$ $f_1, ..., f_k$ $f(x) = \frac{1}{k}\sum_i{f_i(x)}$ $f(x) = \sqrt[k]{\prod_{i=1}^k{f_i(x)}}$
ข้อดีอย่างหนึ่งของการ resampling คือคุณสามารถตรวจสอบลำดับของคะแนนการทดสอบได้ซึ่งนี่คือคะแนนของ cv คุณไม่ควรดูที่ค่าเฉลี่ยเท่านั้น แต่ต้องดูที่ค่าเบี่ยงเบนมาตรฐาน (ไม่ใช่การแจกแจงแบบปกติ โดยปกติคุณแสดงข้อความนี้เป็น 65.5% (± 2.57%) เพื่อความถูกต้อง วิธีนี้คุณสามารถบอกได้ว่า "ความเบี่ยงเบนเล็ก ๆ " มีแนวโน้มที่จะเกิดขึ้นโดยบังเอิญหรือมีโครงสร้างมากกว่า ดีกว่าที่จะได้ตรวจสอบลำดับที่สมบูรณ์ หากมีการปิดหนึ่งครั้งด้วยเหตุผลบางอย่างคุณอาจต้องการคิดใหม่เกี่ยวกับวิธีแยกของคุณ ใน Scikit เรียนรู้GridSearchCVรายละเอียดร้านค้าเกี่ยวกับการหมดอายุของพับในcv_results_( ดูที่นี่ )
$\alpha$ $L_1$ $\alpha$ $L_2$

— uberwach
แหล่งที่มา

การเลือกอัลฟาที่ดีที่สุดในการถดถอยโลจิสติกเน็ตแบบยืดหยุ่น

ชี้แจงสิ่งที่มีความหมายโดยพารามิเตอร์αα\alphaและ Elastic Net

การแสดงผลกระทบของพารามิเตอร์

ทำความเข้าใจกับผลกระทบของพารามิเตอร์

อ่านเพิ่มเติม

ชี้แจงสิ่งที่มีความหมายโดยพารามิเตอร์ $\alpha$ และ Elastic Net