คำถามติดแท็ก model-selection

การเลือกแบบจำลองเป็นปัญหาในการตัดสินว่าแบบจำลองจากชุดใดมีประสิทธิภาพดีที่สุด วิธีการที่นิยม ได้แก่R2เกณฑ์ AIC และ BIC ชุดทดสอบและการตรวจสอบความถูกต้องข้าม การเลือกคุณสมบัติเป็นส่วนย่อยของการเลือกรุ่น

1
องศาอิสระที่เหลือที่เหมาะสมหลังจากปล่อยเงื่อนไขจากแบบจำลอง
ฉันกำลังสะท้อนให้เห็นถึงการอภิปรายรอบคำถามนี้และโดยเฉพาะอย่างยิ่งความคิดเห็นแฟรงก์ฮาร์เรลที่ประมาณการของการเปลี่ยนแปลงรูปแบบการลดลง (เช่นหนึ่งจากการที่จำนวนของตัวแปรอธิบายได้รับการทดสอบและปฏิเสธ) ควรใช้เยองศาทั่วไปของเสรีภาพ ศาสตราจารย์ฮาร์เรลล์ชี้ให้เห็นว่าสิ่งนี้จะใกล้เคียงกับองศาอิสระที่เหลืออยู่ของแบบจำลอง "เต็ม" แบบดั้งเดิม (ที่มีตัวแปรทั้งหมด) มากกว่าแบบจำลองสุดท้าย (ซึ่งตัวแปรจำนวนหนึ่งถูกปฏิเสธ) คำถามที่ 1 หากฉันต้องการใช้วิธีการที่เหมาะสมกับบทสรุปและสถิติมาตรฐานทั้งหมดจากแบบจำลองที่ลดลง (แต่ขาดการดำเนินการอย่างเต็มรูปแบบขององศาความเป็นอิสระทั่วไป) วิธีการที่สมเหตุสมผลจะเป็นเพียงแค่ใช้องศาอิสระที่เหลือจาก แบบจำลองเต็มรูปแบบในการประมาณค่าความแปรปรวนที่เหลือเป็นต้น คำถามที่ 2 หากข้างต้นเป็นจริงและฉันต้องการที่จะทำมันRอาจจะง่ายเหมือนการตั้งค่า finalModel$df.residual <- fullModel$df.residual ในบางจุดของแบบฝึกหัดการสร้างแบบจำลองที่ซึ่ง finalModel และ fullModel ถูกสร้างขึ้นด้วย lm () หรือฟังก์ชันที่คล้ายกัน หลังจากที่ฟังก์ชั่นเช่นสรุป () และ confint () ดูเหมือนจะทำงานกับ df.residual ที่ต้องการแม้ว่าจะส่งคืนข้อความแสดงข้อผิดพลาดว่ามีบางคนได้บดบังด้วยวัตถุ finalModel อย่างชัดเจน

3
AIC สามารถเปรียบเทียบกับรุ่นต่าง ๆ ได้หรือไม่?
ฉันใช้ AIC (เกณฑ์ข้อมูลของ Akaike) เพื่อเปรียบเทียบแบบจำลองที่ไม่ใช่เชิงเส้นใน R มันถูกต้องหรือไม่ที่จะเปรียบเทียบ AIC ของแบบจำลองชนิดต่าง ๆ ? โดยเฉพาะฉันกำลังเปรียบเทียบแบบจำลองที่ติดตั้งโดย glm กับแบบจำลองที่มีระยะเอฟเฟกต์แบบสุ่มติดตั้งโดย glmer (lme4) ถ้าไม่มีวิธีการเปรียบเทียบเช่นนี้สามารถทำได้หรือไม่? หรือความคิดที่ไม่ถูกต้องสมบูรณ์?

4
วิธีวัด / จัดอันดับ“ ความสำคัญของตัวแปร” เมื่อใช้ CART (โดยเฉพาะการใช้ {rpart} จาก R)
เมื่อสร้างโมเดล CART (โดยเฉพาะแผนผังการจำแนกหมวดหมู่) โดยใช้ rpart (ใน R) มันมักจะน่าสนใจที่จะรู้ว่าอะไรคือความสำคัญของตัวแปรต่างๆที่นำมาใช้กับโมเดล ดังนั้นคำถามของฉันคือ: มีมาตรการทั่วไปสำหรับการจัดอันดับ / การวัดความสำคัญของตัวแปรของตัวแปรที่มีส่วนร่วมในรูปแบบ CART อย่างไร และสิ่งนี้จะคำนวณได้อย่างไรโดยใช้ R (ตัวอย่างเช่นเมื่อใช้แพ็คเกจ rpart) ตัวอย่างเช่นต่อไปนี้เป็นรหัสจำลองสร้างขึ้นเพื่อให้คุณแสดงโซลูชันของคุณ ตัวอย่างนี้มีโครงสร้างเพื่อให้ชัดเจนว่าตัวแปร x1 และ x2 เป็น "สำคัญ" ในขณะที่ (ในบางแง่) x1 มีความสำคัญมากกว่า x2 (เนื่องจาก x1 ควรใช้กับกรณีเพิ่มเติมดังนั้นจึงมีผลต่อโครงสร้างของข้อมูลมากขึ้น จากนั้น x2) set.seed(31431) n <- 400 x1 <- rnorm(n) x2 <- rnorm(n) x3 <- rnorm(n) x4 <- …

3
สิ่งที่จำเป็นต้องมีสำหรับการเปรียบเทียบแบบจำลอง AIC
อะไรคือสิ่งที่จำเป็นต้องมีซึ่งจำเป็นต้องทำให้สำเร็จสำหรับการเปรียบเทียบแบบจำลอง AIC กับการทำงาน ฉันเพิ่งพบคำถามนี้เมื่อฉันเปรียบเทียบเช่นนี้ > uu0 = lm(log(usili) ~ rok) > uu1 = lm(usili ~ rok) > AIC(uu0) [1] 3192.14 > AIC(uu1) [1] 14277.29 วิธีนี้ผมธรรมการเปลี่ยนแปลงของตัวแปรlog usiliแต่ฉันไม่รู้ว่าฉันสามารถเปรียบเทียบแบบจำลอง AIC ได้หรือไม่ตัวอย่างเช่นตัวแปรตามนั้นแตกต่างกันหรือไม่? คำตอบในอุดมคติจะรวมรายการของสิ่งที่จำเป็นต้องมี (ข้อสมมติฐานทางคณิตศาสตร์)

4
การระบุความไม่แน่นอนของโมเดล
ฉันสงสัยว่า Bayesians ในชุมชน CrossValidated มองปัญหาความไม่แน่นอนของโมเดลอย่างไรและพวกเขาต้องการจัดการกับปัญหาอย่างไร ฉันจะพยายามตั้งคำถามของฉันในสองส่วน: ความสำคัญ (ในประสบการณ์ / ความคิดเห็นของคุณ) มีความสำคัญต่อความไม่แน่นอนของแบบจำลองอย่างไร ฉันไม่พบเอกสารใด ๆ ที่เกี่ยวข้องกับปัญหานี้ในชุมชนการเรียนรู้ของเครื่องดังนั้นฉันแค่สงสัยว่าทำไม อะไรคือวิธีการทั่วไปในการจัดการกับความไม่แน่นอนของแบบจำลอง (คะแนนโบนัสหากคุณให้การอ้างอิง) ฉันได้ยินเกี่ยวกับค่าเฉลี่ยของแบบจำลอง Bayesian แต่ฉันไม่คุ้นเคยกับเทคนิค / ข้อ จำกัด เฉพาะของวิธีการนี้ อะไรคือคนอื่นบ้างและทำไมคุณถึงชอบมากกว่ากัน?

5
ข้อดีของการรักษาแบบสุ่มในแบบผสมคืออะไร
ฉันมีปัญหาในการใช้ประโยชน์จากการติดฉลากแบบจำลองด้วยเหตุผลแบบสุ่มด้วยเหตุผลบางประการ สำหรับฉันดูเหมือนว่าในเกือบทุกกรณีทางออกที่ดีที่สุดคือการรักษาปัจจัยทั้งหมดตามที่ได้รับการแก้ไข ครั้งแรกความแตกต่างของการจับคู่เทียบกับการสุ่มค่อนข้างสุ่ม คำอธิบายมาตรฐานคือหากมีใครสนใจในหน่วยทดลองเฉพาะต่อหนึ่งคนก็ควรใช้เอฟเฟกต์คงที่และหากใครสนใจประชากรที่เป็นตัวแทนของหน่วยทดลองก็ควรใช้เอฟเฟกต์แบบสุ่ม สิ่งนี้ไม่ได้ช่วยอะไรมากเพราะมันบอกเป็นนัย ๆ ว่าสามารถสลับกันระหว่างมุมมองแบบคงที่และแบบสุ่มแม้ว่าข้อมูลและการออกแบบการทดลองยังคงเหมือนเดิม นอกจากนี้คำจำกัดความนี้ส่งเสริมภาพลวงตาว่าหากปัจจัยถูกระบุว่าเป็นแบบสุ่มการอนุมานที่ดึงมาจากตัวแบบนั้นมีความเหมาะสมกับประชากรมากกว่าในกรณีที่ตัวประกอบถูกระบุว่าเป็นแบบคงที่ ในที่สุดGelman แสดงให้เห็นว่าความแตกต่างแบบสุ่มคงที่ทำให้เกิดความสับสน แม้ในระดับคำจำกัดความเนื่องจากมีคำจำกัดความเพิ่มเติมอีกสี่คำของเอฟเฟกต์แบบคงที่และแบบสุ่ม ประการที่สองการประมาณค่าของตัวแบบผสมค่อนข้างซับซ้อน ซึ่งแตกต่างจากโมเดล "คงที่หมดจด" มีมากกว่าสองสามวิธีในการรับค่า p ศาสตราจารย์ Prof. Bates ที่ใช้การประมาณค่า REML ในแพ็คเกจ lme4 ใน R ไปไกลจนปฏิเสธที่จะรายงานค่า p ทั้งหมด . ประการที่สามมีปัญหาที่มืดของจำนวนพารามิเตอร์โดยนัยที่นำมาใช้โดยปัจจัยสุ่ม ตัวอย่างต่อไปนี้คือการปรับตัวของฉันที่อยู่ในอัม & Anderson, รุ่นการคัดเลือกและมีหลายรุ่นอนุมาน: วิธีการข้อมูลตามทฤษฎีปฏิบัติ จากมุมมองการแลกเปลี่ยนความแปรปรวนแบบอคติบทบาทของเอฟเฟกต์แบบสุ่มสามารถแสดงได้ดังนี้ พิจารณาการวิเคราะห์ความแปรปรวนแบบทางเดียวกับรีทเม้นต์และKปัจจัยหลักซึ่งK - 1สามารถประมาณได้ คำผิดพลาดมีN ( 0 , σ 2 )เพิ่มขึ้น สมมติว่าเราบอกว่าKผลกระทบหลักมาจากN (KKKKKKK−1K−1K - 1N(0,σ2)N(0,σ2)\mathcal …

4
คุณมีวิสัยทัศน์ระดับโลกเกี่ยวกับเทคนิคการวิเคราะห์เหล่านั้นหรือไม่?
ขณะนี้ฉันอยู่ในโครงการที่ฉันต้องการโดยทั่วไปเหมือนกับที่เราทุกคนเข้าใจว่าเอาต์พุตเกี่ยวข้องกับอินพุตอย่างไร พิลึกนี่คือข้อมูลที่จะได้รับการฉันหนึ่งชิ้นในเวลาดังนั้นฉันต้องการที่จะปรับปรุงการวิเคราะห์ของฉันทุกครั้งที่ผมได้รับใหม่x) ฉันเชื่อว่าสิ่งนี้เรียกว่าการประมวลผลแบบ "ออนไลน์" ซึ่งตรงข้ามกับการประมวลผลแบบ "แบทช์" ซึ่งคุณมีข้อมูลทั้งหมดที่จำเป็นและทำการคำนวณโดยใช้ข้อมูลทั้งหมดในเวลาเดียวกันyyyxxx(y,x)(y,x)(y,x)(y,x)(y,x)(y,x) ดังนั้นฉันจึงมองหาแนวคิดและท้ายที่สุดฉันก็สรุปว่าโลกแบ่งออกเป็นสาม: ส่วนแรกคือดินแดนแห่งสถิติและเศรษฐมิติ คนที่นั่นมี OLS, GLS, ตัวแปรเครื่องดนตรี, ARIMA, การทดสอบ, ความแตกต่างของความแตกต่าง, PCA และ whatnot ดินแดนนี้ส่วนใหญ่ถูกครอบงำด้วยความเป็นเส้นตรงและใช้การประมวลผลแบบ "แบทช์" เท่านั้น ส่วนที่สองคือเกาะแห่งการเรียนรู้ของเครื่องและคำอื่น ๆ เช่นปัญญาประดิษฐ์การเรียนรู้แบบมีผู้สอนและไม่มีผู้ดูแลเครือข่ายประสาทและ SVM การประมวลผล "แบทช์" และ "ออนไลน์" เสร็จสิ้นแล้วที่นี่ ส่วนที่สามเป็นทั้งทวีปที่ฉันเพิ่งค้นพบซึ่งส่วนใหญ่มีประชากรโดยวิศวกรไฟฟ้าจึงดูเหมือนว่า มีคนมักจะเพิ่มคำว่า "กรอง" เพื่อเป็นเครื่องมือของพวกเขาและพวกเขาคิดค้นวัตถุดิบที่ดีเยี่ยมเช่นอัลกอริทึม Widrow-ฮอฟฟ์ซ้ำสองน้อยที่สุดที่ตัวกรอง Wienerการกรองคาลมาและอาจจะสิ่งอื่น ๆ ที่ฉันไม่ได้ค้นพบเลย เห็นได้ชัดว่าพวกเขาส่วนใหญ่ทำการ "ออนไลน์" การประมวลผลตามที่เหมาะกับความต้องการของพวกเขา ดังนั้นคำถามของฉันคือคุณมีวิสัยทัศน์ระดับโลกในเรื่องทั้งหมดนี้หรือไม่? ฉันอยู่ภายใต้ความประทับใจที่ทั้งสามส่วนของโลกไม่ได้พูดคุยกันมากเกินไป ฉันผิดหรือเปล่า? มีทฤษฎีการเข้าใจที่ครบวงจรที่ยิ่งใหญ่ว่ากับอย่างไร? คุณรู้หรือไม่ว่ามีแหล่งข้อมูลใดบ้างที่ฐานของทฤษฎีนั้นอาจถูกวางลง?YYYXXX ฉันไม่แน่ใจว่าคำถามนี้สมเหตุสมผลหรือไม่ แต่ฉันหลงทางเล็กน้อยระหว่างทฤษฎีเหล่านั้นทั้งหมด ฉันจินตนาการคำตอบของคำถามที่ว่า …

2
ความเสถียรของหัวข้อในแบบจำลองหัวข้อ
ฉันกำลังทำงานในโครงการที่ฉันต้องการดึงข้อมูลบางอย่างเกี่ยวกับเนื้อหาของเรียงความแบบปลายเปิด ในโครงการนี้โดยเฉพาะ 148 คนเขียนบทความเกี่ยวกับองค์กรนักศึกษาสมมุติซึ่งเป็นส่วนหนึ่งของการทดลองที่ใหญ่กว่า แม้ว่าในสาขาของฉัน (จิตวิทยาสังคม) วิธีทั่วไปในการวิเคราะห์ข้อมูลเหล่านี้คือการเขียนเรียงความด้วยมือ แต่ฉันต้องการทำปริมาณเชิงปริมาณเนื่องจากการเขียนโค้ดด้วยมือนั้นใช้ทั้งแรงงานและบิตส่วนตัวเกินไปสำหรับฉัน ลิ้มรส ในระหว่างการสืบสวนเกี่ยวกับวิธีการวิเคราะห์ข้อมูลการตอบสนองเชิงปริมาณฉันพบวิธีการสร้างหัวข้อ (หรือการปันส่วน Dirichlet หรือ LDA) การสร้างแบบจำลองหัวข้อใช้ตัวแทนข้อมูลของคุณ (เมทริกซ์เอกสารระยะ) และใช้ข้อมูลเกี่ยวกับคำว่าเหตุการณ์ร่วมเพื่อแยกหัวข้อแฝงของข้อมูล วิธีนี้เหมาะสำหรับการสมัครของฉัน น่าเสียดายที่เมื่อฉันใช้การสร้างแบบจำลองหัวข้อกับข้อมูลของฉันฉันได้ค้นพบสองประเด็น: หัวข้อที่เปิดโดยการสร้างแบบจำลองหัวข้อบางครั้งยากที่จะตีความ เมื่อฉันเรียกใช้แบบจำลองหัวข้อของฉันอีกครั้งด้วยเมล็ดพันธุ์แบบสุ่มที่แตกต่างกันหัวข้อดูเหมือนจะเปลี่ยนไปอย่างมาก ปัญหาที่ 2 โดยเฉพาะเกี่ยวกับฉัน ดังนั้นฉันมีคำถามที่เกี่ยวข้องสองคำถาม: มีสิ่งใดบ้างที่ฉันสามารถทำได้ในโพรซีเดอร์ LDA เพื่อปรับโมเดลโพรซีเดอร์ของฉันให้เหมาะสมสำหรับการตีความและความเสถียร โดยส่วนตัวฉันไม่สนใจมากนักเกี่ยวกับการหาแบบจำลองที่มีความสับสนและ / หรือแบบจำลองที่ดีที่สุด - ส่วนใหญ่ฉันต้องการใช้ขั้นตอนนี้เพื่อช่วยให้ฉันเข้าใจและอธิบายลักษณะที่ผู้เข้าร่วมในการศึกษานี้เขียนไว้ในบทความของพวกเขา อย่างไรก็ตามฉันไม่ต้องการให้ผลลัพธ์ของฉันเป็นสิ่งประดิษฐ์ของเมล็ดสุ่ม! เกี่ยวข้องกับคำถามข้างต้นมีมาตรฐานใดสำหรับข้อมูลที่คุณต้องใช้ในการทำ LDA เอกสารส่วนใหญ่ที่ฉันเคยเห็นที่ใช้วิธีนี้วิเคราะห์ corpora ขนาดใหญ่ (เช่นเอกสารวิทยาศาสตร์ทั้งหมดที่เก็บไว้ในช่วง 20 ปีที่ผ่านมา) แต่เนื่องจากฉันใช้ข้อมูลการทดลองคลังเอกสารของฉันจึงเล็กกว่ามาก ฉันโพสต์ข้อมูลเรียงความที่นี่สำหรับทุกคนที่ต้องการทำให้มือของเขาหรือเธอสกปรกและฉันได้วางรหัส R ที่ฉันใช้ด้านล่าง require(tm) require(topicmodels) # Create …

3
AIC กับการตรวจสอบความถูกต้องข้ามในอนุกรมเวลา: กรณีตัวอย่างขนาดเล็ก
ฉันสนใจในการเลือกรูปแบบในการตั้งค่าอนุกรมเวลา เพื่อความเป็นรูปธรรมสมมติว่าฉันต้องการเลือกรุ่น ARMA จากกลุ่มของรุ่น ARMA ที่มีคำสั่งซื้อล่าช้าต่างกัน สุดยอดความตั้งใจคือการคาดการณ์ การเลือกรุ่นสามารถทำได้โดย การตรวจสอบข้าม การใช้เกณฑ์ข้อมูล (AIC, BIC) ท่ามกลางวิธีอื่น ๆ ร็อบเจ Hyndman มีวิธีการทำการตรวจสอบข้ามอนุกรมเวลา สำหรับตัวอย่างที่มีขนาดค่อนข้างเล็กขนาดของตัวอย่างที่ใช้ในการตรวจสอบความถูกต้องไขว้อาจมีคุณภาพแตกต่างจากขนาดตัวอย่างดั้งเดิม ตัวอย่างเช่นหากขนาดตัวอย่างดั้งเดิมคือ 200 การสังเกตดังนั้นใครจะคิดว่าจะเริ่มการตรวจสอบข้ามโดยการสังเกต 101 ครั้งแรกและขยายหน้าต่างเป็น 102, 103, ... , 200 การสังเกตเพื่อให้ได้ 100 ผลการตรวจสอบข้าม เห็นได้ชัดว่าแบบจำลองที่มีเหตุผลพอสมควรสำหรับการสังเกต 200 ครั้งอาจใหญ่เกินไปสำหรับการสังเกต 100 ครั้งดังนั้นข้อผิดพลาดในการตรวจสอบจะมีขนาดใหญ่ ดังนั้นการตรวจสอบข้ามจึงมีแนวโน้มที่จะสนับสนุนรูปแบบที่ไม่สุภาพ นี่คือผลกระทบที่ไม่พึงประสงค์เกิดจากการไม่ตรงกันในขนาดตัวอย่าง ทางเลือกอื่นในการตรวจสอบข้ามคือการใช้เกณฑ์ข้อมูลสำหรับการเลือกแบบจำลอง เนื่องจากฉันสนใจเกี่ยวกับการคาดการณ์ฉันจะใช้ AIC ถึงแม้ว่า AIC นั้นจะเทียบเท่ากับ asymptotically ในการลดการคาดการณ์ MSE แบบขั้นตอนเดียวให้น้อยที่สุดสำหรับแบบจำลองอนุกรมเวลา (อ้างอิงจาก Rob …

2
เหตุใดการพิสูจน์ของวิลก์ในปี 1938 จึงไม่ทำงานกับแบบจำลองที่ผิดพลาด
ใน 1,938 กระดาษที่มีชื่อเสียง (" การกระจายตัวอย่างขนาดใหญ่ของอัตราส่วนความน่าจะเป็นสำหรับการทดสอบสมมติฐานประกอบ ", พงศาวดารของคณิตศาสตร์สถิติ, 9: 60-62), ซามูเอล Wilks มากระจาย asymptotic (อัตราส่วนความน่าจะเป็นบันทึก ) สำหรับสมมติฐานที่ซ้อนกันภายใต้สมมติฐานว่ามีการระบุสมมติฐานที่ใหญ่กว่าอย่างถูกต้อง การ จำกัด การแจกแจงคือχ 2 (ไค - สแควร์) ที่มีองศาอิสระh - mโดยที่hคือจำนวนพารามิเตอร์ในสมมติฐานขนาดใหญ่และm2×LLR2×LLR2 \times LLRχ2χ2\chi^2h−mh−mh-mhhhmmmคือจำนวนของพารามิเตอร์อิสระในสมมติฐานที่ซ้อนกัน อย่างไรก็ตามเป็นที่ทราบกันดีว่าผลลัพธ์นี้ไม่ได้เก็บไว้เมื่อสมมติฐานถูกสะกดผิด (กล่าวคือเมื่อสมมติฐานที่ใหญ่กว่านั้นไม่ใช่การแจกแจงที่แท้จริงสำหรับข้อมูลตัวอย่าง) มีใครอธิบายได้บ้างไหม สำหรับฉันแล้วดูเหมือนว่าการพิสูจน์ของวิลก์สควรจะทำงานกับการดัดแปลงเล็กน้อย มันขึ้นอยู่กับมาตรฐานเชิงเส้นกำกับของการประมาณความน่าจะเป็นสูงสุด (MLE) ซึ่งยังคงมีรูปแบบที่ผิดพลาด ความแตกต่างเพียงอย่างเดียวคือเมทริกซ์ความแปรปรวนของการ จำกัด หลายตัวแปรปกติ: สำหรับรุ่นที่ระบุไว้อย่างถูกต้องเราสามารถใกล้เคียงกับเมทริกซ์ความแปรปรวนร่วมกับผกผันฟิชเชอร์ข้อมูลเมทริกซ์กับ misspecification เราสามารถใช้การประมาณการแซนวิชของเมทริกซ์ความแปรปรวนร่วม ( J - 1 K J - 1 ) …

1
การเลือกกฎการให้คะแนนที่เหมาะสม
ทรัพยากรส่วนใหญ่เกี่ยวกับกฎการให้คะแนนที่เหมาะสมพูดถึงจำนวนของกฎการให้คะแนนที่แตกต่างกันเช่นการสูญเสียบันทึกคะแนน Brier หรือการให้คะแนนทรงกลม อย่างไรก็ตามพวกเขามักไม่ค่อยให้คำแนะนำเกี่ยวกับความแตกต่างระหว่างพวกเขามากนัก (จัดแสดง A: Wikipedia ) การเลือกแบบจำลองที่เพิ่มคะแนนลอการิทึมให้สอดคล้องกับการเลือกแบบจำลองความน่าจะเป็นสูงสุดซึ่งดูเหมือนจะเป็นข้อโต้แย้งที่ดีสำหรับการใช้การให้คะแนนแบบลอการิทึม มีเหตุผลที่คล้ายกันสำหรับการให้คะแนน Brier หรือทรงกลมหรือกฎการให้คะแนนอื่น ๆ ? ทำไมบางคนถึงใช้หนึ่งในคะแนนมากกว่าลอการิทึม?

3
แบบจำลองเสถียรภาพเมื่อจัดการกับขนาดใหญ่ปัญหาเล็ก
บทนำ: ฉันมีชุดข้อมูลที่มีคลาสสิก "ปัญหาใหญ่, ปัญหาเล็ก" จำนวนตัวอย่างที่มีอยู่n = 150 ในขณะที่จำนวนผู้ทำนายที่เป็นไปได้p = 400 ผลลัพธ์เป็นตัวแปรต่อเนื่อง ฉันต้องการค้นหาคำอธิบาย "สำคัญ" ที่สุดนั่นคือผู้ที่ดีที่สุดในการอธิบายผลลัพธ์และช่วยสร้างทฤษฎี หลังจากการวิจัยในหัวข้อนี้ฉันพบว่า LASSO และ Elastic Net มักใช้ในกรณีของ p ขนาดใหญ่, n ขนาดเล็ก บางส่วนของการพยากรณ์ของฉันมีความสัมพันธ์และฉันต้องการที่จะรักษาการจัดกลุ่มของพวกเขาในการประเมินความสำคัญดังนั้นฉันเลือกใช้สำหรับยืดหยุ่นสุทธิ ฉันคิดว่าฉันสามารถใช้ค่าสัมบูรณ์ของสัมประสิทธิ์การถดถอยเป็นตัวชี้วัดสำคัญ (โปรดแก้ไขให้ฉันถ้าฉันผิดชุดข้อมูลของฉันเป็นมาตรฐาน) ปัญหา: เนื่องจากตัวอย่างจำนวนน้อยของฉันฉันจะสร้างแบบจำลองที่เสถียรได้อย่างไร แนวทางปัจจุบันของฉันคือค้นหาพารามิเตอร์การปรับแต่งที่ดีที่สุด (แลมบ์ดาและอัลฟ่า) ในการค้นหากริดบน 90% ของชุดข้อมูลที่มีการตรวจสอบความถูกต้องข้าม 10 เท่าโดยเฉลี่ยคะแนน MSE จากนั้นฉันจะฝึกโมเดลด้วยพารามิเตอร์การปรับที่ดีที่สุดทั้งชุดข้อมูล 90% ฉันสามารถประเมินโมเดลของฉันโดยใช้ R กำลังสองในส่วนของ 10% ของชุดข้อมูล (ซึ่งบัญชีตัวอย่างเพียง 15 ตัวอย่าง) เมื่อเรียกใช้โพรซีเดอร์นี้ซ้ำ ๆ ฉันพบความแปรปรวนจำนวนมากในการประเมิน …

2
วิธีที่ดีที่สุดสำหรับการเลือกแบบจำลองแบบเบส์หรือการตรวจสอบข้าม
เมื่อพยายามเลือกระหว่างรุ่นต่าง ๆ หรือจำนวนฟีเจอร์ที่ต้องระบุให้บอกคำทำนายว่าฉันสามารถคิดถึงสองวิธี แบ่งข้อมูลออกเป็นชุดฝึกอบรมและทดสอบ ยังดีกว่าใช้ bootstrapping หรือตรวจสอบข้าม k-fold ฝึกอบรมชุดฝึกอบรมในแต่ละครั้งและคำนวณข้อผิดพลาดเหนือชุดทดสอบ ข้อผิดพลาดการทดสอบพล็อตเทียบกับจำนวนพารามิเตอร์ โดยปกติคุณจะได้รับสิ่งนี้: คำนวณความน่าจะเป็นของโมเดลโดยรวมค่าพารามิเตอร์ต่างๆ คือการคำนวณและพล็อตนี้กับจำนวนพารามิเตอร์ จากนั้นเราจะได้รับสิ่งนี้:∫θP( D | θ ) P( θ ) dθ∫θP(D|θ)P(θ)dθ\int_\theta P(D|\theta)P(\theta)d \theta ดังนั้นคำถามของฉันคือ: แนวทางเหล่านี้เหมาะสมสำหรับการแก้ปัญหานี้หรือไม่ (ตัดสินใจว่าจะรวมพารามิเตอร์จำนวนเท่าใดในโมเดลของคุณหรือเลือกระหว่างรุ่นจำนวนหนึ่ง) พวกมันเท่ากันหรือเปล่า อาจจะไม่. พวกเขาจะให้แบบจำลองที่ดีที่สุดแบบเดียวกันภายใต้สมมติฐานหรือในทางปฏิบัติหรือไม่? นอกเหนือจากความแตกต่างทางปรัชญาตามปกติของการระบุความรู้เดิมในแบบจำลองเบย์ ฯลฯ ข้อดีและข้อเสียของแต่ละวิธีคืออะไร คุณจะเลือกอันไหน อัปเดต: ฉันพบคำถามที่เกี่ยวข้องกับการเปรียบเทียบ AIC และ BIC ด้วย ดูเหมือนว่าวิธีที่ 1 ของฉันเทียบเท่ากับ AIC และวิธีที่ 2 นั้นเกี่ยวข้องกับ BIC แต่ฉันก็อ่านว่า BIC …

2
คุณสมบัติพยากรณ์ของตัวประมาณคืออะไร?
อะไรคือสิ่งที่oracle คุณสมบัติของประมาณการ? เป้าหมายการสร้างแบบจำลองใดที่เกี่ยวข้องกับคุณสมบัติของพยากรณ์ (ทำนาย, อธิบาย, ... )? ทั้งคำอธิบายเชิงทฤษฎีที่เข้มงวดและโดยเฉพาะอย่างยิ่ง

3
AIC หรือ p-value: อันไหนที่จะเลือกสำหรับการเลือกรูปแบบ?
ฉันใหม่เอี่ยมกับสิ่ง R นี้ แต่ไม่แน่ใจว่าจะเลือกรุ่นใด ฉันทำการถดถอยไปข้างหน้าทีละขั้นตอนเลือกตัวแปรแต่ละตัวตาม AIC ที่ต่ำที่สุด ฉันมากับ 3 แบบที่ฉันไม่แน่ใจซึ่งเป็น "ดีที่สุด" Model 1: Var1 (p=0.03) AIC=14.978 Model 2: Var1 (p=0.09) + Var2 (p=0.199) AIC = 12.543 Model 3: Var1 (p=0.04) + Var2 (p=0.04) + Var3 (p=0.06) AIC= -17.09 ฉันอยากจะไปกับ Model # 3 เพราะมันมี AIC ต่ำที่สุด (ฉันได้ยินว่าเป็นลบก็โอเค) และค่า p ยังค่อนข้างต่ำ ฉันใช้ตัวแปร …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.