การถดถอยแบบมิติสูง: ทำไมพิเศษ?


16

ฉันพยายามอ่านงานวิจัยในเรื่องการถดถอยแบบมิติสูง เมื่อมีขนาดใหญ่กว่า , ที่อยู่,n ดูเหมือนว่าคำว่ามักปรากฏในรูปของอัตราการลู่เข้าสำหรับตัวประมาณค่าการถดถอยpnp>>nlogp/n

ตัวอย่างเช่นที่นี่สมการ (17) บอกว่ารูปทรงพอดีเชือกสอดคล้องกับ β^

1nXβ^Xβ22=OP(σlogpnβ1).

ปกตินี้ยังแสดงให้เห็นว่าlogpควรจะมีขนาดเล็กกว่าnn

  1. มีสัญชาตญาณว่าทำไมอัตราส่วนของlogp/nจึงโดดเด่นเช่นนี้?
  2. นอกจากนี้ก็ดูเหมือนว่าจากวรรณกรรมปัญหาการถดถอยมิติสูงได้รับซับซ้อนเมื่อlogpnn ทำไมถึงเป็นเช่นนั้น?
  3. มีการอ้างอิงที่ดีที่กล่าวถึงปัญหาที่ว่าpและnจะโตเร็วแค่ไหนเมื่อเปรียบเทียบกัน?

2
1. คำว่าlogpมาจากความเข้มข้นของการวัดแบบเกาส์ โดยเฉพาะอย่างยิ่งถ้าคุณมีตัวแปรสุ่มp IID Gaussian ค่าสูงสุดของพวกเขาจะอยู่ในลำดับของσlogpมีความน่าจะเป็นสูง ปัจจัยn1เพิ่งมาถึงความจริงที่ว่าคุณกำลังมองหาข้อผิดพลาดการคาดคะเนเฉลี่ย - นั่นคือตรงกับn1ในอีกด้านหนึ่ง - หากคุณดูที่ข้อผิดพลาดทั้งหมดจะไม่อยู่ที่นั่น
mweylandt

1
2. โดยพื้นฐานแล้วคุณมีสองกองกำลังที่คุณต้องควบคุม: i) คุณสมบัติที่ดีของการมีข้อมูลมากขึ้น (ดังนั้นเราต้องการให้มีขนาดใหญ่); ii) ปัญหามีคุณสมบัติเพิ่มเติม (ไม่เกี่ยวข้อง) (ดังนั้นเราต้องการให้มีขนาดเล็ก) ในสถิติคลาสสิกเรามักจะแก้ไขและให้ไปที่อินฟินิตี้: ระบอบการปกครองนี้ไม่ได้มีประโยชน์สุดสำหรับทฤษฎีมิติสูงเพราะมันอยู่ในระบอบการปกครองต่ำมิติโดยการก่อสร้าง อีกวิธีหนึ่งเราสามารถปล่อยให้ไปที่อนันต์และคงอยู่ได้ แต่จากนั้นข้อผิดพลาดของเราก็จะระเบิดและไปที่อนันต์ nppnpn
mweylandt

1
ดังนั้นเราจำเป็นต้องพิจารณาทั้งสองจะไม่มีที่สิ้นสุดเพื่อให้ทฤษฎีของเรามีความเกี่ยวข้อง (อยู่ในมิติสูง) โดยไม่ต้องเป็นสันทราย (คุณสมบัติไม่มีที่สิ้นสุดข้อมูล จำกัด ) การมี "ลูกบิด" สองอันโดยทั่วไปนั้นยากกว่าการมีปุ่มเดียวดังนั้นเราจึงแก้ไขสำหรับบางและปล่อยให้ไปไม่มีที่สิ้นสุด (และทางอ้อม) ตัวเลือกของจะกำหนดพฤติกรรมของปัญหา สำหรับเหตุผลในคำตอบของฉันไตรมาสที่ 1 ปีก็จะเปิดออกว่า "ความชั่วร้าย" จากคุณสมบัติพิเศษเพียงเติบโตเป็นขณะที่ "ความดี" จากข้อมูลพิเศษที่เติบโตขึ้นเป็นnn,pp=f(n)fnpflogpn
mweylandt

1
ดังนั้นถ้าคงที่ (เท่ากันสำหรับบาง ) เราจะเหยียบน้ำ ถ้า ( ) เราจะไม่มีข้อผิดพลาดแบบไม่มีศูนย์ และถ้า ( ) ข้อผิดพลาดก็จะไม่มีที่สิ้นสุด ระบอบสุดท้ายนี้บางครั้งเรียกว่า "มิติสูงพิเศษ" ในวรรณคดี มันไม่ใช่ความสิ้นหวัง (แม้ว่าจะใกล้เคียง) แต่มันต้องการเทคนิคที่ซับซ้อนมากกว่าแค่ Gaussians จำนวนมากเพื่อควบคุมข้อผิดพลาด จำเป็นต้องใช้เทคนิคที่ซับซ้อนเหล่านี้เป็นแหล่งที่มาของความซับซ้อนที่คุณทราบ logp/np=f(n)=Θ(Cn)Clogp/n0p=o(Cn)logp/np=ω(Cn)
mweylandt

@mweylandt ขอบคุณความคิดเห็นเหล่านี้มีประโยชน์จริงๆ คุณช่วยให้พวกเขากลายเป็นคำตอบอย่างเป็นทางการได้หรือไม่ดังนั้นฉันจึงสามารถอ่านพวกเขาให้กลมกลืนกับคุณมากขึ้นได้ไหม?
Greenparker

คำตอบ:


17

(ย้ายจากความคิดเห็นไปยังคำตอบตามที่ @Greenparker ร้องขอ)

ส่วนที่ 1)

คำว่ามาจากความเข้มข้นของการวัดแบบเกาส์ โดยเฉพาะอย่างยิ่งถ้าคุณมีตัวแปรสุ่มของ IID Gaussian [F1] ค่าสูงสุดของมันจะเรียงตามมีความน่าจะเป็นสูงlogppσlogp

ปัจจัยเพิ่งมาถึงความจริงที่ว่าคุณกำลังมองหาข้อผิดพลาดการคาดคะเนเฉลี่ย - นั่นคือตรงกับในอีกด้านหนึ่ง - หากคุณดูที่ข้อผิดพลาดทั้งหมดจะไม่อยู่ที่นั่นn1n1

ตอนที่ 2)

โดยพื้นฐานแล้วคุณมีสองกองกำลังที่คุณต้องควบคุม:

  • i) คุณสมบัติที่ดีของการมีข้อมูลมากขึ้น (ดังนั้นเราต้องการให้มีขนาดใหญ่);n
  • ii) ปัญหามีคุณสมบัติเพิ่มเติม (ไม่เกี่ยวข้อง) (ดังนั้นเราต้องการให้มีขนาดเล็ก)p

ในสถิติคลาสสิกเรามักจะแก้ไขและให้ไปที่อินฟินิตี้: ระบอบการปกครองนี้ไม่ได้มีประโยชน์สุดสำหรับทฤษฎีมิติสูงเพราะมันเป็น (asymptotically) ในระบอบการปกครองต่ำมิติโดยการก่อสร้างpn

อีกวิธีหนึ่งเราสามารถปล่อยให้ไปที่อนันต์และคงอยู่ได้ แต่จากนั้นข้อผิดพลาดของเราก็จะระเบิดเพราะปัญหาจะกลายเป็นไปไม่ได้ ขึ้นอยู่กับปัญหาข้อผิดพลาดอาจไปไม่มีที่สิ้นสุดหรือหยุดที่ขอบเขตบนธรรมชาติบางอย่าง ( เช่นข้อผิดพลาดการแบ่งประเภท 100%)pn

เนื่องจากทั้งสองกรณีนี้ไม่มีประโยชน์เลยเราจึงพิจารณาทั้งสองจะไม่มีที่สิ้นสุดเพื่อให้ทฤษฎีของเรามีความเกี่ยวข้อง (อยู่ในมิติสูง) โดยไม่ต้องเป็นสันทราย (คุณสมบัติไม่มีที่สิ้นสุดข้อมูล จำกัด )n,p

การมี "ลูกบิด" สองอันโดยทั่วไปนั้นยากกว่าการมีปุ่มเดียวดังนั้นเราจึงแก้ไขสำหรับค่าคงที่และปล่อยให้ไปไม่มีที่สิ้นสุด (และจึงไปที่ไม่มีที่สิ้นสุดทางอ้อม) [F2] ตัวเลือกกำหนดพฤติกรรมของปัญหา สำหรับเหตุผลในคำตอบของฉันส่วน 1 ก็จะเปิดออกว่า "ความชั่วร้าย" จากคุณสมบัติพิเศษเพียงเติบโตเป็นขณะที่ "ความดี" จากข้อมูลพิเศษที่เติบโตขึ้นเป็นnp=f(n)fnpflogpn

  • ถ้าคงที่ (เท่ากัน,สำหรับ ), เราเหยียบน้ำและปัญหาคือการล้าง (ข้อผิดพลาดยังคงอยู่ที่ asymptotically);logpnp=f(n)=Θ(Cn)C
  • ถ้า ( ) เราจะได้ศูนย์ข้อผิดพลาด asymptotically ศูนย์;logpn0p=o(Cn)
  • และถ้า ( ) ในที่สุดข้อผิดพลาดก็จะไม่มีที่สิ้นสุดlogpnp=ω(Cn)

ระบอบสุดท้ายนี้บางครั้งเรียกว่า "มิติสูงพิเศษ" ในวรรณคดี คำว่า "อัลตร้าสูงมิติ" ไม่มีคำจำกัดความที่เข้มงวดเท่าที่ฉันรู้ แต่มันเป็นเพียงแค่ "ทางการ" ระบอบที่ทำลายเชือกและตัวประมาณที่คล้ายกัน "

เราสามารถแสดงให้เห็นถึงสิ่งนี้ด้วยการศึกษาสถานการณ์จำลองขนาดเล็กภายใต้เงื่อนไขในอุดมคติ ที่นี่เราใช้แนวทางทฤษฎีในทางเลือกที่ดีที่สุดของจาก [BRT09] และเลือกn}λλ=3log(p)/n

ก่อนพิจารณากรณีที่3n สิ่งนี้อยู่ในระบอบการปกครองมิติสูงที่เชื่อได้ซึ่งอธิบายไว้ข้างต้นและตามทฤษฎีคาดการณ์เราจะเห็นข้อผิดพลาดในการทำนายมารวมกันเป็นศูนย์:p=f(n)=3n

Asymptotics มิติสูง

รหัสที่จะทำซ้ำ:

library(glmnet)
library(ggplot2)

# Standard High-Dimensional Asymptotics: log(p) / n -> 0

N <- c(50, 100, 200, 400, 600, 800, 1000, 1100, 1200, 1300)
P <- 3 * N

ERROR_HD <- data.frame()

for(ix in seq_along(N)){
  n <- N[ix]
  p <- P[ix]

  PMSE <- replicate(20, {
    X <- matrix(rnorm(n * p), ncol=p)
    beta <- rep(0, p)
    beta[1:10] <- runif(10, 2, 3)
    y <- X %*% beta + rnorm(n)

    g <- glmnet(X, y)

    ## Cf. Theorem 7.2 of Bickel et al. AOS 37(4), p.1705-1732, 2009. 
    ## lambda ~ 2*\sqrt{2} * \sqrt{\log(p)/n} 
    ## is good scaling for controlling prediction error of the lasso
    err <- X %*% beta - predict(g, newx=X, s=3 * sqrt(log(p)/n))
    mean(err^2)
  })

  ERROR_HD <- rbind(ERROR_HD, data.frame(PMSE=PMSE, n=n, p=p))
}

ggplot(ERROR_HD, aes(x=n, y=PMSE)) + geom_point() + theme_bw() + 
xlab("Number of Samples (n)") + 
ylab("Mean Prediction Error (at observed design points)") + 
ggtitle("Prediction Error Converging to 0 under High-Dim Asymptotics") + 
scale_x_continuous(sec.axis = sec_axis(~ 3 * ., name="Number of Features (p)")) + 
scale_y_log10()

เราสามารถเปรียบเทียบสิ่งนี้กับกรณีที่อยู่ที่ค่าคงที่โดยประมาณ: ฉันเรียกสิ่งนี้ว่า "เส้นขอบ" ระบอบการปกครองมิติสูงพิเศษ "แต่นั่นไม่ใช่คำมาตรฐาน:logpn

P <- 10 + ceiling(exp(N/120))

ที่นี่เราจะเห็นว่าระดับความผิดพลาดในการคาดคะเน (ใช้การออกแบบเดียวกันกับด้านบน) แทนที่จะเป็นศูนย์ต่อไป

Borderyty สูงมิติ Asyptotics

ถ้าเราตั้งค่าจะเติบโตได้เร็วกว่า ( เช่น , ) การเพิ่มขึ้นของข้อผิดพลาดการทำนายโดยไม่ต้องถูกผูกไว้ เหล่านี้เป็นอย่างน่าหัวเราะได้อย่างรวดเร็วและนำไปสู่ปัญหาใหญ่หลวง / ปัญหาตัวเลขดังนั้นนี่คือเล็กน้อยช้าลง แต่ยังคงตัวอย่าง UHD:Penen2en2

P <- 10 + ceiling(exp(N^(1.03)/120))

Asymptotics มิติสูงพิเศษ

(ฉันใช้สุ่มแบบเบาบางสำหรับความเร็วดังนั้นอย่าพยายามเปรียบเทียบตัวเลขกับแปลงอื่น ๆ โดยตรง) มันยากที่จะเห็น uptick ใด ๆ ในกราฟนี้บางทีอาจเป็นเพราะเราทำให้ UHD เติบโตจากการเป็น "อัลตร้า" ใน ชื่อของเวลาการคำนวณ การใช้เลขชี้กำลังขนาดใหญ่กว่า (เช่น ) จะทำให้การเติบโตของซีมโทติคนั้นชัดเจนขึ้นXen1.5

แม้จะมีสิ่งที่ฉันได้กล่าวไว้ข้างต้นและวิธีที่มันอาจปรากฏ แต่ระบอบการปกครองที่สูงมิติไม่ได้สิ้นหวังอย่างแท้จริง (แม้ว่ามันจะใกล้เคียง) แต่มันต้องการเทคนิคที่ซับซ้อนมากกว่าเพียงแค่ตัวแปรสุ่มแบบเกาส์เพื่อควบคุมข้อผิดพลาด จำเป็นต้องใช้เทคนิคที่ซับซ้อนเหล่านี้เป็นแหล่งที่มาของความซับซ้อนที่คุณทราบ

ไม่มีเหตุผลใดที่จะคิดว่าควรเติบโตด้วยกันในทางใดทางหนึ่ง ( กล่าวคือไม่มีเหตุผล "โลกแห่งความจริง" ที่ชัดเจนในการแก้ไข ) แต่โดยทั่วไปแล้วคณิตศาสตร์ขาดภาษาและเครื่องมือในการพูดคุย จำกัด ด้วยสอง "ดีกรีอิสระ" ดังนั้นจึงเป็นสิ่งที่ดีที่สุดที่เราสามารถทำได้ (ตอนนี้!)p,np=f(n)

ตอนที่ 3)

ฉันเกรงว่าฉันไม่รู้หนังสือในวรรณคดีเชิงสถิติที่เน้นการเติบโตของ vsอย่างชัดเจน (อาจมีบางอย่างในวรรณคดีการตรวจจับการบีบอัด)logpn

การอ้างอิงที่ชื่นชอบในปัจจุบันของฉันสำหรับทฤษฎีประเภทนี้คือบทที่ 10 และ 11 ของการเรียนรู้ทางสถิติด้วย Sparsity [F3] แต่โดยทั่วไปจะใช้วิธีการพิจารณาคงที่และให้คุณสมบัติตัวอย่าง จำกัด (ไม่ใช่แบบอะซิมโทติค) " ผลลัพธ์. นี่เป็นวิธีที่มีประสิทธิภาพมากขึ้น - เมื่อคุณได้ผลลัพธ์สำหรับ , มันง่ายที่จะพิจารณา asymptotics - แต่โดยทั่วไปผลลัพธ์เหล่านี้ยากที่จะหามาดังนั้นเราจึงมีเพียงตัวประมาณค่าแบบบ่วงบาศเท่าที่ฉัน ทราบ.n,pn,p

หากคุณรู้สึกสะดวกสบายและเต็มใจที่จะศึกษางานวิจัยฉันจะดูผลงานของ Jianqing Fan และ Jinchi Lv ผู้ซึ่งเคยทำงานพื้นฐานส่วนใหญ่เกี่ยวกับปัญหามิติสูงพิเศษ ("การคัดกรอง" เป็นคำที่ดีสำหรับการค้นหา)

[F1] ที่จริงแล้วตัวแปรสุ่มแบบsubgaussianใด ๆแต่นี่ไม่ได้เพิ่มสิ่งนี้ในการสนทนานี้มากนัก

[F2] นอกจากนี้เรายังอาจตั้ง sparsity "true"ขึ้นอยู่กับ ( ) แต่ที่ไม่เปลี่ยนสิ่งที่มากเกินไปsns=g(n)

[F3] T. Hastie, R. Tibshirani และ M. Wainwright การเรียนรู้ทางสถิติด้วย Sparsity เอกสารเกี่ยวกับสถิติและความน่าจะเป็นประยุกต์ 143 CRC Press, 2015 ดาวน์โหลดได้ฟรีที่https://web.stanford.edu/~hastie/StatLearnSparsity_files/SLS.pdf

[BRT] Peter J. Bickel, Ya'acov Ritov และ Alexandre B. Tsybakov "การวิเคราะห์พร้อมกันของ Lasso และ Dantzig Selector" บันทึกสถิติ 37 (4), p. 1705-1732, 2009 http://dx.doi.org/10.1214/08-AOS620


1
(+1) ขอบคุณสิ่งนี้มีประโยชน์มากและคุ้มค่ากับเงินรางวัลจริง ๆ (ฉันจะรอนิดหน่อยก่อนที่จะให้รางวัลเพื่อรักษาผลประโยชน์) คำถามหนึ่ง: คุณสามารถขยายเพิ่มเติมเกี่ยวกับ "คงที่เราเหยียบบนน้ำ"? มันสำคัญไหมถ้าค่าคงที่นี้มากกว่า 1 หรือน้อยกว่า 1? logp/n
Greenparker

แน่นอน - ฉันได้เพิ่มการศึกษาแบบจำลองขนาดเล็กเพื่อชี้แจงพลวัต "เหยียบน้ำ" ในแง่ของพลศาสตร์เชิงเส้นมันไม่สำคัญว่าค่าคงที่คืออะไร แต่ข้อผิดพลาดจะเป็นสัดส่วนกับค่าคงที่นั้นดังนั้นแน่นอนว่ามันจะมีขนาดเล็กกว่าceteris paribus (นี่เทียบเท่ากับการมีมากกว่าซึ่งเป็นสิ่งที่ดีเสมอ) . n
mweylandt
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.