คำถามติดแท็ก model-selection

การเลือกแบบจำลองเป็นปัญหาในการตัดสินว่าแบบจำลองจากชุดใดมีประสิทธิภาพดีที่สุด วิธีการที่นิยม ได้แก่R2เกณฑ์ AIC และ BIC ชุดทดสอบและการตรวจสอบความถูกต้องข้าม การเลือกคุณสมบัติเป็นส่วนย่อยของการเลือกรุ่น

3
เมื่อใดจึงเหมาะสมที่จะเลือกรุ่นโดยการลด AIC
เป็นที่ยอมรับกันอย่างน้อยในหมู่นักสถิติที่มีความสามารถสูงกว่านั้นแบบจำลองที่มีค่าของสถิติ AIC ภายในขีด จำกัด ที่แน่นอนของค่าต่ำสุดควรได้รับการพิจารณาตามความเหมาะสมเช่นเดียวกับแบบจำลองที่ลดสถิติ AIC ตัวอย่างเช่นใน [1, p.221] เราพบ จากนั้นแบบจำลองที่มี GCV ขนาดเล็กหรือ AIC ก็ถือว่าดีที่สุด แน่นอนว่าไม่ควรลด GCV หรือ AIC เพียงเล็กน้อย ค่อนข้างทุกรุ่นที่มีค่า GCV หรือ AIC ขนาดเล็กพอสมควรควรพิจารณาว่าเหมาะสมและประเมินตามความเรียบง่ายและความเกี่ยวข้องทางวิทยาศาสตร์ ในทำนองเดียวกันใน [2, p.144] เรามี มันได้รับการแนะนำ (Duong, 1984) ว่ารูปแบบที่มีค่า AIC ภายใน c ของค่าต่ำสุดควรได้รับการพิจารณาการแข่งขัน (กับ c = 2 เป็นค่าทั่วไป) การคัดเลือกจากแบบจำลองการแข่งขันนั้นจะขึ้นอยู่กับปัจจัยต่าง ๆ เช่นความขาวของสารตกค้าง (ส่วนที่ 5.3) และความเรียบง่ายของแบบจำลอง อ้างอิง: รัพเพอร์, …

1
การเลือกแบบจำลอง Bayesian ใน PyMC3
ฉันใช้ PyMC3 เพื่อเรียกใช้แบบจำลอง Bayesian กับข้อมูลของฉัน ฉันใหม่สำหรับการสร้างแบบจำลอง Bayesian แต่จากการโพสต์บล็อกบางส่วน Wikipedia และQAจากเว็บไซต์นี้ดูเหมือนว่าจะเป็นแนวทางที่ถูกต้องในการใช้ตัวประกอบ Bayes และเกณฑ์ BIC เพื่อเลือกรูปแบบที่ดีที่สุดในการแสดงข้อมูลของฉัน ข้อมูลของฉัน) ในการคำนวณปัจจัย Bayes ฉันต้องการโอกาสที่สัมพันธ์กันสำหรับโมเดลที่ฉันต้องการเปรียบเทียบ อาจจะสับสนเล็กน้อยสำหรับฉัน แต่ฉันคิดว่ามีสองวิธีที่จะได้รับโอกาส (แก้ไขฉันหากฉันผิด): วิธีพีชคณิตเมื่อแบบจำลองง่าย: ดูตัวอย่างหน้าวิกิพีเดียของ Bayes วิธีตัวเลข: นี่คือสิ่งที่ PyMC3 กับอัลกอริทึม MCMC ฉันจะเข้าถึงโอกาสและเปรียบเทียบแบบจำลองของฉันใน PyMC3 ได้อย่างไร ฉันพบmodel.logpวิธีซึ่งตามเอกสารคือ "ฟังก์ชั่นความหนาแน่นของความน่าจะเป็นบันทึก" ฉันสามารถใช้สิ่งนั้นเพื่อสร้างโอกาสได้หรือไม่? คำถามโบนัส: เมื่อมีการเปรียบเทียบทั้งสองรุ่นอัตราส่วนระหว่างความน่าจะเป็นทั้งสองจะถูกคำนวณ จะเกิดอะไรขึ้นถ้าคุณต้องการเปรียบเทียบหลายรุ่น ตัวอย่าง PyMC3 ที่เป็นรูปธรรมจะมีประโยชน์มาก!

1
วิธีการเลือกแบบที่ดีที่สุดโดยไม่มีข้อมูลที่เหมาะสมมากเกินไป? การสร้างแบบจำลองการกระจาย bimodal ด้วยฟังก์ชั่นปกติ N ฯลฯ
ฉันมีการกระจายของค่านิยมแบบ bimodal อย่างชัดเจนซึ่งฉันพยายามที่จะปรับให้เหมาะสม ข้อมูลสามารถเข้ากันได้ดีกับทั้ง 2 ฟังก์ชั่นปกติ (bimodal) หรือฟังก์ชั่นปกติ 3 อย่าง นอกจากนี้ยังมีเหตุผลทางกายภาพที่เป็นไปได้สำหรับการปรับข้อมูลด้วย 3 ยิ่งมีการแนะนำพารามิเตอร์มากเท่าใดความพอดีที่สมบูรณ์แบบก็จะยิ่งมากขึ้นเช่นเดียวกับค่าคงที่ที่เพียงพอหนึ่งสามารถ " พอดีช้าง " นี่คือการกระจายตัวพอดีกับผลรวมของ 3 เส้นโค้ง (Gaussian): เหล่านี้คือข้อมูลสำหรับการฟิต ฉันไม่แน่ใจว่าควรใช้แบบทดสอบแบบใดเพื่อตรวจสอบความเหมาะสม ข้อมูลประกอบด้วย 91 คะแนน 1 ฟังก์ชั่นปกติ: RSS: 1.06231 X ^ 2: 3.1674 F.Test: 0.3092 2 ฟังก์ชั่นปกติ: RSS: 0.010939 X ^ 2: 0.053896 F.Test: 0.97101 3 ฟังก์ชั่นปกติ: RSS: 0.00536 X …

1
การเลือกรูปแบบในการเรียนรู้ออฟไลน์และออนไลน์
ฉันพยายามเรียนรู้เพิ่มเติมเกี่ยวกับการเรียนรู้ออนไลน์เมื่อเร็ว ๆ นี้ (มันน่าทึ่งมาก!) และธีมหนึ่งที่ฉันไม่สามารถเข้าใจได้ดีคือวิธีคิดเกี่ยวกับการเลือกรูปแบบในออฟไลน์กับบริบทออนไลน์ โดยเฉพาะอย่างสมมติว่าเราฝึกลักษณนามออฟไลน์อยู่บนพื้นฐานของข้อมูลบางอย่างถาวรชุดDเราประเมินคุณลักษณะด้านประสิทธิภาพผ่านการตรวจสอบความถูกต้องพูดและเราเลือกตัวจําแนกที่ดีที่สุดด้วยวิธีนี้SSSDDD นี่คือสิ่งที่ฉันคิดเกี่ยวกับ: แล้วเราจะไปเกี่ยวกับการใช้กับการตั้งค่าออนไลน์ได้อย่างไร เราสามารถสมมติได้ว่าดีที่สุดที่พบแบบออฟไลน์จะทำงานได้ดีในฐานะตัวจําแนกออนไลน์ มันสมเหตุสมผลไหมที่จะรวบรวมข้อมูลบางอย่างเพื่อฝึกอบรมจากนั้นนำตัวแยกประเภทเดียวกันและ "ปฏิบัติการ" ในการตั้งค่าออนไลน์โดยใช้พารามิเตอร์เดียวกับที่พบในหรือวิธีอื่นอาจดีกว่า คำเตือนในกรณีเหล่านี้คืออะไร ผลลัพธ์ที่สำคัญที่นี่คืออะไร และอื่น ๆSSSSSSSSSSSSDDD อย่างไรก็ตามตอนนี้ก็อยู่ที่นั่นแล้วฉันเดาว่าฉันกำลังมองหาอะไรคือการอ้างอิงหรือแหล่งข้อมูลที่จะช่วยฉัน (และหวังว่าคนอื่น ๆ ที่กำลังคิดเกี่ยวกับเรื่องนี้!) ทำให้การเปลี่ยนจากการคิดในแง่ออฟไลน์เท่านั้น พัฒนากรอบจิตเพื่อคิดเกี่ยวกับปัญหาของการเลือกแบบจำลองและคำถามเหล่านี้อย่างสอดคล้องกันมากขึ้นเมื่อการอ่านของฉันดำเนินไป

1
ฉันควรทำอย่างไรเมื่อค่าของ AIC ต่ำและใกล้เคียงกัน?
Chris Chatfield ซึ่งมีหนังสือและเอกสารคุณภาพมากมายที่ฉันชอบอ่านใน (1) ให้คำแนะนำต่อไปนี้: ตัวอย่างเช่นควรเลือกตัวเลือกระหว่างรุ่นอนุกรมเวลาของ ARIMA ที่มีค่า AIC ต่ำและประมาณเท่ากันโดยไม่เกิดขึ้นกับ AIC ขั้นต่ำ แต่จะให้การคาดการณ์ที่ดีที่สุดสำหรับข้อมูลล่าสุดของปีที่ผ่านมา เหตุผลสำหรับคำแนะนำดังกล่าวคืออะไร? หากเป็นเสียงเหตุใดการคาดการณ์ :: auto.arima และรูทีนการพยากรณ์อื่นจึงไม่ทำตาม ยังไม่ได้ใช้งาน? มันได้รับการกล่าวถึงที่นี่ว่าจะมองหารูปแบบที่เกิดขึ้นเพียงเพื่อให้ขั้นต่ำ AIC อาจจะไม่ได้เป็นความคิดที่ดี เหตุใดตัวเลือกในการมีโมเดล ARIMA ที่มีค่าต่ำ แต่ประมาณเท่ากัน (เช่นภายใน 1 หรือ 2 ค่าของ AIC ขั้นต่ำ) ไม่ได้เป็นค่าเริ่มต้นในซอฟต์แวร์การพยากรณ์อนุกรมเวลาส่วนใหญ่n≥1n≥1n\ge1 (1) Chatfield, C. (1991) หลีกเลี่ยงข้อผิดพลาดทางสถิติ วิทยาศาสตร์สถิติ, 6 (3), 240–252 ออนไลน์ที่มีอยู่ URL: https://projecteuclid.org/euclid.ss/1177011686

5
จะทำอย่างไรกับตัวแปร collinear
คำเตือน: นี่คือสำหรับโครงการการบ้าน ฉันพยายามหาแบบจำลองที่ดีที่สุดสำหรับราคาเพชรขึ้นอยู่กับตัวแปรหลายอย่างและดูเหมือนว่าฉันจะมีแบบจำลองที่ดีอยู่แล้ว อย่างไรก็ตามฉันทำงานเป็นสองตัวแปรที่ชัดเจน collinear: >with(diamonds, cor(data.frame(Table, Depth, Carat.Weight))) Table Depth Carat.Weight Table 1.00000000 -0.41035485 0.05237998 Depth -0.41035485 1.00000000 0.01779489 Carat.Weight 0.05237998 0.01779489 1.00000000 ตารางและความลึกขึ้นอยู่กับแต่ละอื่น ๆ แต่ฉันยังต้องการรวมไว้ในแบบจำลองการทำนายของฉัน ฉันทำการวิจัยเกี่ยวกับเพชรและพบว่า Table และ Depth คือความยาวด้านบนและระยะทางจากปลายถึงบนสุดของเพชร เนื่องจากราคาของเพชรเหล่านี้ดูเหมือนจะเกี่ยวข้องกับความงามและความงามที่ดูเหมือนจะเป็นสัดส่วนที่เกี่ยวข้องฉันจึงต้องรวมอัตราส่วนของพวกเขาด้วยพูดเพื่อทำนายราคา นี่เป็นขั้นตอนมาตรฐานสำหรับการจัดการกับตัวแปร collinear หรือไม่ ถ้าไม่เป็นอะไรTa b l eD อีพีทีเอชTaขล.อีDอีพีเสื้อชั่วโมง\frac{Table}{Depth} แก้ไข: นี่คือพล็อตของความลึก ~ ตาราง:

1
การเลือกรูปแบบ ABC
มันได้รับการแสดงให้เห็นว่าตัวเลือกรูปแบบ ABC โดยใช้ปัจจัย Bayes ไม่แนะนำให้เนื่องจากการปรากฏตัวของข้อผิดพลาดมาจากการใช้สถิติสรุป บทสรุปในบทความนี้ขึ้นอยู่กับการศึกษาพฤติกรรมของวิธีการที่เป็นที่นิยมสำหรับการประมาณค่าปัจจัยเบย์ (อัลกอริทึม 2) เป็นที่ทราบกันดีว่าปัจจัยของเบย์ไม่ใช่วิธีเดียวในการเลือกแบบจำลอง มีคุณสมบัติอื่น ๆ เช่นประสิทธิภาพการทำนายของแบบจำลองที่อาจเป็นที่สนใจ (เช่นกฎการให้คะแนน ) คำถามของฉันคือ : มีวิธีการที่คล้ายกับอัลกอริทึม 2 สำหรับการประมาณกฎการให้คะแนนหรือปริมาณอื่น ๆ ที่สามารถใช้สำหรับการเลือกรูปแบบในแง่ของประสิทธิภาพการทำนายในบริบทที่มีความซับซ้อนหรือไม่?

2
การทดสอบอัตราส่วนความน่าจะเป็นบันทึกทั่วไปสำหรับโมเดลที่ไม่ซ้อนกัน
ฉันเข้าใจว่าถ้าฉันมีสองรุ่น A และ B และ A ซ้อนกันใน B ดังนั้นจากข้อมูลบางอย่างฉันสามารถใส่พารามิเตอร์ของ A และ B โดยใช้ MLE และใช้การทดสอบอัตราส่วนความน่าจะเป็นบันทึกทั่วไป โดยเฉพาะอย่างยิ่งการกระจายของการทดสอบควรจะกับองศาอิสระที่คือความแตกต่างในจำนวนของพารามิเตอร์ที่และมีχ2χ2\chi^2nnnnnnAAABBB อย่างไรก็ตามจะเกิดอะไรขึ้นถ้าและมีจำนวนพารามิเตอร์เท่ากัน แต่โมเดลไม่ซ้อนกัน? นั่นคือพวกเขาเป็นรุ่นที่แตกต่างกันเพียง มีวิธีใดที่จะใช้การทดสอบอัตราส่วนความน่าจะเป็นหรือใครจะทำอย่างอื่นได้บ้างAAABBB

2
LASSO เหนือกว่าการเลือกไปข้างหน้า / การกำจัดไปข้างหลังในแง่ของข้อผิดพลาดการตรวจสอบความถูกต้องของการตรวจสอบข้ามของรุ่น
ฉันได้รับแบบจำลองที่ลดลงสามแบบจากแบบเต็มรูปแบบดั้งเดิมโดยใช้ การเลือกไปข้างหน้า กำจัดไปข้างหลัง เทคนิคการลงโทษ L1 (LASSO) สำหรับรุ่นที่ได้รับใช้ไปข้างหน้าเลือกกำจัด / ข้างหลังผมได้รับการตรวจสอบประมาณการข้ามความผิดพลาดของการทำนายโดยใช้CVlmในแพคเกจในการใช้ได้DAAG Rสำหรับรูปแบบที่เลือกผ่าน Lasso cv.glmผมใช้ ข้อผิดพลาดในการทำนายสำหรับ LASSO นั้นน้อยกว่าข้อผิดพลาดที่ได้รับจากคนอื่น ดังนั้นโมเดลที่ได้จาก LASSO จึงน่าจะดีกว่าในแง่ของความสามารถในการทำนายและความแปรปรวน นี่เป็นปรากฏการณ์ทั่วไปที่เกิดขึ้นเสมอหรือเป็นปัญหาที่เฉพาะเจาะจงหรือไม่? อะไรคือเหตุผลเชิงทฤษฎีสำหรับสิ่งนี้หากนี่เป็นปรากฏการณ์ทั่วไป

1
อะไรคือความแตกต่างพื้นฐานระหว่างตัวแบบการถดถอยสองตัวนี้
สมมติว่าฉันมีการตอบสนองแบบ bivariate ที่มีความสัมพันธ์อย่างมีนัยสำคัญ ฉันพยายามเปรียบเทียบทั้งสองวิธีเพื่อจำลองผลลัพธ์เหล่านี้ วิธีหนึ่งคือการสร้างแบบจำลองความแตกต่างระหว่างผลลัพธ์ทั้งสอง: อีกวิธีหนึ่งคือการใช้หรือสร้างแบบจำลองพวกเขา: ( y i j = β 0 + เวลา+ X ′ β )(yi2−yi1=β0+X′β)(yi2−yi1=β0+X′β)(y_{i2}-y_{i1}=\beta_0+X'\beta)glsgee(yij=β0+time+X′β)(yij=β0+time+X′β)(y_{ij}=\beta_0+\text{time}+X'\beta) นี่คือตัวอย่างของ foo: #create foo data frame require(mvtnorm) require(reshape) set.seed(123456) sigma <- matrix(c(4,2,2,3), ncol=2) y <- rmvnorm(n=500, mean=c(1,2), sigma=sigma) cor(y) x1<-rnorm(500) x2<-rbinom(500,1,0.4) df.wide<-data.frame(id=seq(1,500,1),y1=y[,1],y2=y[,2],x1,x2) df.long<-reshape(df.wide,idvar="id",varying=list(2:3),v.names="y",direction="long") df.long<-df.long[order(df.long$id),] df.wide$diff_y<-df.wide$y2-df.wide$y1 #regressions fit1<-lm(diff_y~x1+x2,data=df.wide) fit2<-lm(y~time+x1+x2,data=df.long) fit3<-gls(y~time+x1+x2,data=df.long, correlation = …

3
การเปรียบเทียบแบบจำลองการถดถอยแบบโลจิสติกไบนารีที่ซ้อนกันเมื่อมีขนาดใหญ่
ที่ดีกว่าการถามคำถามของฉันฉันได้ให้บางส่วนของเอาท์พุทจากทั้งรุ่น 16 ตัวแปร ( fit) และรุ่น 17 ตัวแปร ( fit2) ด้านล่าง (ทุกตัวแปรในรูปแบบเหล่านี้เป็นอย่างต่อเนื่องที่แตกต่างระหว่างรุ่นเหล่านี้ก็คือfitไม่ได้ มีตัวแปร 17 (var17)): fit Model Likelihood Discrimination Rank Discrim. Ratio Test Indexes Indexes Obs 102849 LR chi2 13602.84 R2 0.173 C 0.703 0 69833 d.f. 17 g 1.150 Dxy 0.407 1 33016 Pr(> chi2) <0.0001 gr 3.160 gamma …

1
การเปรียบเทียบการแจกแจงของประสิทธิภาพการวางนัยทั่วไป
บอกว่าฉันมีวิธีการเรียนรู้สองวิธีสำหรับปัญหาการจัดหมวดหมู่และและฉันประเมินประสิทธิภาพการวางนัยทั่วไปด้วยบางอย่างเช่นการตรวจสอบความถูกต้องแบบไขว้ซ้ำหรือการบูตแบบสแตรป จากกระบวนการนี้ฉันได้รับการแจกแจงคะแนนและสำหรับแต่ละวิธีในการทำซ้ำเหล่านี้ (เช่นการกระจายของค่า ROC AUC สำหรับแต่ละรุ่น)AAABBB PAPAP_APBPBP_B เมื่อมองไปที่การแจกแจงเหล่านี้อาจเป็นได้ว่า แต่ (เช่นประสิทธิภาพการวางนัยทั่วไปที่คาดไว้ของสูงกว่าแต่มีความไม่แน่นอนเกี่ยวกับการประมาณนี้)μA≥μBμA≥μB\mu_A \ge \mu_BσA≥σBσA≥σB\sigma_A \ge \sigma_BAAABBB ฉันคิดว่าสิ่งนี้เรียกว่าภาวะที่กลืนไม่เข้าคายไม่ออกอคติในการถดถอย อะไรวิธีการทางคณิตศาสตร์ที่ฉันสามารถใช้เพื่อเปรียบเทียบและและในที่สุดก็ทำให้การตัดสินใจเกี่ยวกับรูปแบบการใช้งาน?PAPAP_APBPBP_B หมายเหตุ:เพื่อความเรียบง่ายฉันหมายถึงสองวิธีและที่นี่ แต่ฉันสนใจวิธีที่สามารถนำมาใช้เพื่อเปรียบเทียบการแจกแจงคะแนนของวิธีการเรียนรู้ ~ 1000 วิธี (เช่นจากการค้นหากริด) และในที่สุดก็สร้าง การตัดสินใจขั้นสุดท้ายเกี่ยวกับรูปแบบที่จะใช้AAABBB

1
ปัจจัยเบย์กับนักบวชที่ไม่เหมาะสม
ฉันมีคำถามเกี่ยวกับการเปรียบเทียบแบบจำลองโดยใช้ปัจจัยของเบย์ ในหลายกรณีนักสถิติมีความสนใจที่จะใช้วิธีการแบบเบย์ร่วมกับนักบวชที่ไม่เหมาะสม (ตัวอย่างเช่นนักบวชเจฟฟรีย์และนักบวชอ้างอิง) คำถามของฉันคือในกรณีที่การกระจายตัวด้านหลังของพารามิเตอร์แบบจำลองมีการกำหนดไว้อย่างถูกต้องมันจะถูกต้องหรือไม่ที่จะเปรียบเทียบแบบจำลองที่ใช้ปัจจัย Bayes ภายใต้การใช้ของนักบวชที่ไม่เหมาะสม? ตัวอย่างง่ายๆลองพิจารณาเปรียบเทียบโมเดลปกติกับโมเดลโลจิสติกกับ Jeffreys priors

1
คำถามเกี่ยวกับการระบุตัวแบบผสมเชิงเส้นใน R สำหรับการวัดซ้ำข้อมูลด้วยโครงสร้างการซ้อนเพิ่มเติม
โครงสร้างข้อมูล > str(data) 'data.frame': 6138 obs. of 10 variables: $ RT : int 484 391 422 516 563 531 406 500 516 578 ... $ ASCORE : num 5.1 4 3.8 2.6 2.7 6.5 4.9 2.9 2.6 7.2 ... $ HSCORE : num 6 2.1 7.9 1 6.9 8.9 8.2 …

2
ความเสถียรของโมเดลในการตรวจสอบความถูกต้องของโมเดลการถดถอย
เมื่อพิจารณาถึงการข้ามการตรวจสอบหลายครั้งของการถดถอยโลจิสติกส์และการประมาณค่าหลาย ๆ ค่าของสัมประสิทธิ์การถดถอยแต่ละวิธีควรวัดว่าตัวทำนาย (หรือชุดของผู้ทำนาย) มีเสถียรภาพและมีความหมายหรือไม่ขึ้นอยู่กับสัมประสิทธิ์การถดถอย ? สิ่งนี้แตกต่างสำหรับการถดถอยเชิงเส้นหรือไม่?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.