(ย้ายจากความคิดเห็นไปยังคำตอบตามที่ @Greenparker ร้องขอ)
ส่วนที่ 1)
คำว่ามาจากความเข้มข้นของการวัดแบบเกาส์ โดยเฉพาะอย่างยิ่งถ้าคุณมีตัวแปรสุ่มของ IID Gaussian [F1] ค่าสูงสุดของมันจะเรียงตามมีความน่าจะเป็นสูงlogp−−−−√pσlogp−−−−√
ปัจจัยเพิ่งมาถึงความจริงที่ว่าคุณกำลังมองหาข้อผิดพลาดการคาดคะเนเฉลี่ย - นั่นคือตรงกับในอีกด้านหนึ่ง - หากคุณดูที่ข้อผิดพลาดทั้งหมดจะไม่อยู่ที่นั่นn−1n−1
ตอนที่ 2)
โดยพื้นฐานแล้วคุณมีสองกองกำลังที่คุณต้องควบคุม:
- i) คุณสมบัติที่ดีของการมีข้อมูลมากขึ้น (ดังนั้นเราต้องการให้มีขนาดใหญ่);n
- ii) ปัญหามีคุณสมบัติเพิ่มเติม (ไม่เกี่ยวข้อง) (ดังนั้นเราต้องการให้มีขนาดเล็ก)p
ในสถิติคลาสสิกเรามักจะแก้ไขและให้ไปที่อินฟินิตี้: ระบอบการปกครองนี้ไม่ได้มีประโยชน์สุดสำหรับทฤษฎีมิติสูงเพราะมันเป็น (asymptotically) ในระบอบการปกครองต่ำมิติโดยการก่อสร้างpn
อีกวิธีหนึ่งเราสามารถปล่อยให้ไปที่อนันต์และคงอยู่ได้ แต่จากนั้นข้อผิดพลาดของเราก็จะระเบิดเพราะปัญหาจะกลายเป็นไปไม่ได้ ขึ้นอยู่กับปัญหาข้อผิดพลาดอาจไปไม่มีที่สิ้นสุดหรือหยุดที่ขอบเขตบนธรรมชาติบางอย่าง ( เช่นข้อผิดพลาดการแบ่งประเภท 100%)pn
เนื่องจากทั้งสองกรณีนี้ไม่มีประโยชน์เลยเราจึงพิจารณาทั้งสองจะไม่มีที่สิ้นสุดเพื่อให้ทฤษฎีของเรามีความเกี่ยวข้อง (อยู่ในมิติสูง) โดยไม่ต้องเป็นสันทราย (คุณสมบัติไม่มีที่สิ้นสุดข้อมูล จำกัด )n,p
การมี "ลูกบิด" สองอันโดยทั่วไปนั้นยากกว่าการมีปุ่มเดียวดังนั้นเราจึงแก้ไขสำหรับค่าคงที่และปล่อยให้ไปไม่มีที่สิ้นสุด (และจึงไปที่ไม่มีที่สิ้นสุดทางอ้อม) [F2] ตัวเลือกกำหนดพฤติกรรมของปัญหา สำหรับเหตุผลในคำตอบของฉันส่วน 1 ก็จะเปิดออกว่า "ความชั่วร้าย" จากคุณสมบัติพิเศษเพียงเติบโตเป็นขณะที่ "ความดี" จากข้อมูลพิเศษที่เติบโตขึ้นเป็นnp=f(n)fnpflogpn
- ถ้าคงที่ (เท่ากัน,สำหรับ ), เราเหยียบน้ำและปัญหาคือการล้าง (ข้อผิดพลาดยังคงอยู่ที่ asymptotically);logpnp=f(n)=Θ(Cn)C
- ถ้า ( ) เราจะได้ศูนย์ข้อผิดพลาด asymptotically ศูนย์;logpn→0p=o(Cn)
- และถ้า ( ) ในที่สุดข้อผิดพลาดก็จะไม่มีที่สิ้นสุดlogpn→∞p=ω(Cn)
ระบอบสุดท้ายนี้บางครั้งเรียกว่า "มิติสูงพิเศษ" ในวรรณคดี คำว่า "อัลตร้าสูงมิติ" ไม่มีคำจำกัดความที่เข้มงวดเท่าที่ฉันรู้ แต่มันเป็นเพียงแค่ "ทางการ" ระบอบที่ทำลายเชือกและตัวประมาณที่คล้ายกัน "
เราสามารถแสดงให้เห็นถึงสิ่งนี้ด้วยการศึกษาสถานการณ์จำลองขนาดเล็กภายใต้เงื่อนไขในอุดมคติ ที่นี่เราใช้แนวทางทฤษฎีในทางเลือกที่ดีที่สุดของจาก [BRT09] และเลือกn}λλ=3log(p)/n−−−−−−−√
ก่อนพิจารณากรณีที่3n สิ่งนี้อยู่ในระบอบการปกครองมิติสูงที่เชื่อได้ซึ่งอธิบายไว้ข้างต้นและตามทฤษฎีคาดการณ์เราจะเห็นข้อผิดพลาดในการทำนายมารวมกันเป็นศูนย์:p=f(n)=3n
รหัสที่จะทำซ้ำ:
library(glmnet)
library(ggplot2)
# Standard High-Dimensional Asymptotics: log(p) / n -> 0
N <- c(50, 100, 200, 400, 600, 800, 1000, 1100, 1200, 1300)
P <- 3 * N
ERROR_HD <- data.frame()
for(ix in seq_along(N)){
n <- N[ix]
p <- P[ix]
PMSE <- replicate(20, {
X <- matrix(rnorm(n * p), ncol=p)
beta <- rep(0, p)
beta[1:10] <- runif(10, 2, 3)
y <- X %*% beta + rnorm(n)
g <- glmnet(X, y)
## Cf. Theorem 7.2 of Bickel et al. AOS 37(4), p.1705-1732, 2009.
## lambda ~ 2*\sqrt{2} * \sqrt{\log(p)/n}
## is good scaling for controlling prediction error of the lasso
err <- X %*% beta - predict(g, newx=X, s=3 * sqrt(log(p)/n))
mean(err^2)
})
ERROR_HD <- rbind(ERROR_HD, data.frame(PMSE=PMSE, n=n, p=p))
}
ggplot(ERROR_HD, aes(x=n, y=PMSE)) + geom_point() + theme_bw() +
xlab("Number of Samples (n)") +
ylab("Mean Prediction Error (at observed design points)") +
ggtitle("Prediction Error Converging to 0 under High-Dim Asymptotics") +
scale_x_continuous(sec.axis = sec_axis(~ 3 * ., name="Number of Features (p)")) +
scale_y_log10()
เราสามารถเปรียบเทียบสิ่งนี้กับกรณีที่อยู่ที่ค่าคงที่โดยประมาณ: ฉันเรียกสิ่งนี้ว่า "เส้นขอบ" ระบอบการปกครองมิติสูงพิเศษ "แต่นั่นไม่ใช่คำมาตรฐาน:logpn
P <- 10 + ceiling(exp(N/120))
ที่นี่เราจะเห็นว่าระดับความผิดพลาดในการคาดคะเน (ใช้การออกแบบเดียวกันกับด้านบน) แทนที่จะเป็นศูนย์ต่อไป
ถ้าเราตั้งค่าจะเติบโตได้เร็วกว่า ( เช่น , ) การเพิ่มขึ้นของข้อผิดพลาดการทำนายโดยไม่ต้องถูกผูกไว้ เหล่านี้เป็นอย่างน่าหัวเราะได้อย่างรวดเร็วและนำไปสู่ปัญหาใหญ่หลวง / ปัญหาตัวเลขดังนั้นนี่คือเล็กน้อยช้าลง แต่ยังคงตัวอย่าง UHD:Penen2en2
P <- 10 + ceiling(exp(N^(1.03)/120))
(ฉันใช้สุ่มแบบเบาบางสำหรับความเร็วดังนั้นอย่าพยายามเปรียบเทียบตัวเลขกับแปลงอื่น ๆ โดยตรง) มันยากที่จะเห็น uptick ใด ๆ ในกราฟนี้บางทีอาจเป็นเพราะเราทำให้ UHD เติบโตจากการเป็น "อัลตร้า" ใน ชื่อของเวลาการคำนวณ การใช้เลขชี้กำลังขนาดใหญ่กว่า (เช่น ) จะทำให้การเติบโตของซีมโทติคนั้นชัดเจนขึ้นXen1.5
แม้จะมีสิ่งที่ฉันได้กล่าวไว้ข้างต้นและวิธีที่มันอาจปรากฏ แต่ระบอบการปกครองที่สูงมิติไม่ได้สิ้นหวังอย่างแท้จริง (แม้ว่ามันจะใกล้เคียง) แต่มันต้องการเทคนิคที่ซับซ้อนมากกว่าเพียงแค่ตัวแปรสุ่มแบบเกาส์เพื่อควบคุมข้อผิดพลาด จำเป็นต้องใช้เทคนิคที่ซับซ้อนเหล่านี้เป็นแหล่งที่มาของความซับซ้อนที่คุณทราบ
ไม่มีเหตุผลใดที่จะคิดว่าควรเติบโตด้วยกันในทางใดทางหนึ่ง ( กล่าวคือไม่มีเหตุผล "โลกแห่งความจริง" ที่ชัดเจนในการแก้ไข ) แต่โดยทั่วไปแล้วคณิตศาสตร์ขาดภาษาและเครื่องมือในการพูดคุย จำกัด ด้วยสอง "ดีกรีอิสระ" ดังนั้นจึงเป็นสิ่งที่ดีที่สุดที่เราสามารถทำได้ (ตอนนี้!)p,np=f(n)
ตอนที่ 3)
ฉันเกรงว่าฉันไม่รู้หนังสือในวรรณคดีเชิงสถิติที่เน้นการเติบโตของ vsอย่างชัดเจน (อาจมีบางอย่างในวรรณคดีการตรวจจับการบีบอัด)logpn
การอ้างอิงที่ชื่นชอบในปัจจุบันของฉันสำหรับทฤษฎีประเภทนี้คือบทที่ 10 และ 11 ของการเรียนรู้ทางสถิติด้วย Sparsity [F3] แต่โดยทั่วไปจะใช้วิธีการพิจารณาคงที่และให้คุณสมบัติตัวอย่าง จำกัด (ไม่ใช่แบบอะซิมโทติค) " ผลลัพธ์. นี่เป็นวิธีที่มีประสิทธิภาพมากขึ้น - เมื่อคุณได้ผลลัพธ์สำหรับ , มันง่ายที่จะพิจารณา asymptotics - แต่โดยทั่วไปผลลัพธ์เหล่านี้ยากที่จะหามาดังนั้นเราจึงมีเพียงตัวประมาณค่าแบบบ่วงบาศเท่าที่ฉัน ทราบ.n,pn,p
หากคุณรู้สึกสะดวกสบายและเต็มใจที่จะศึกษางานวิจัยฉันจะดูผลงานของ Jianqing Fan และ Jinchi Lv ผู้ซึ่งเคยทำงานพื้นฐานส่วนใหญ่เกี่ยวกับปัญหามิติสูงพิเศษ ("การคัดกรอง" เป็นคำที่ดีสำหรับการค้นหา)
[F1] ที่จริงแล้วตัวแปรสุ่มแบบsubgaussianใด ๆแต่นี่ไม่ได้เพิ่มสิ่งนี้ในการสนทนานี้มากนัก
[F2] นอกจากนี้เรายังอาจตั้ง sparsity "true"ขึ้นอยู่กับ ( ) แต่ที่ไม่เปลี่ยนสิ่งที่มากเกินไปsns=g(n)
[F3] T. Hastie, R. Tibshirani และ M. Wainwright การเรียนรู้ทางสถิติด้วย Sparsity เอกสารเกี่ยวกับสถิติและความน่าจะเป็นประยุกต์ 143 CRC Press, 2015 ดาวน์โหลดได้ฟรีที่https://web.stanford.edu/~hastie/StatLearnSparsity_files/SLS.pdf
[BRT] Peter J. Bickel, Ya'acov Ritov และ Alexandre B. Tsybakov "การวิเคราะห์พร้อมกันของ Lasso และ Dantzig Selector" บันทึกสถิติ 37 (4), p. 1705-1732, 2009 http://dx.doi.org/10.1214/08-AOS620