คำถามติดแท็ก model-averaging

7
การบรรจุถุงการส่งเสริมและการซ้อนในการเรียนรู้ของเครื่อง
ความเหมือนและความแตกต่างระหว่าง 3 วิธีนี้คืออะไร: บรรจุถุง, ส่งเสริม เก็บซ้อน? อันไหนดีที่สุด? และทำไม? คุณสามารถยกตัวอย่างให้ฉันได้ไหม

2
นี่เป็นวิธีการถดถอยที่ล้ำสมัยหรือไม่?
ฉันได้ติดตามการแข่งขัน Kaggle มาเป็นเวลานานและฉันได้ตระหนักว่ากลยุทธ์การชนะจำนวนมากเกี่ยวข้องกับการใช้ "threes ใหญ่" อย่างน้อยหนึ่งอย่าง: การใส่ถุงการส่งเสริมและการซ้อน สำหรับการถดถอยแทนที่จะมุ่งเน้นไปที่การสร้างแบบจำลองการถดถอยที่ดีที่สุดที่เป็นไปได้การสร้างแบบจำลองการถดถอยหลายแบบเช่นการถดถอยเชิงเส้นแบบทั่วไป (ทั่วไป) การสุ่มป่า KNN NN และ SVM และการผสมผสานผลลัพธ์เป็นวิธีที่สมเหตุสมผล - ดำเนินการแต่ละวิธีเป็นจำนวนมากครั้ง แน่นอนความเข้าใจที่มั่นคงของแต่ละวิธีคือกุญแจสำคัญและเรื่องราวที่ใช้งานง่ายสามารถบอกได้ตามแบบจำลองการถดถอยเชิงเส้น แต่ฉันสงสัยว่านี่เป็นวิธีการที่ทันสมัยเพื่อให้ได้ผลลัพธ์ที่ดีที่สุดหรือไม่

7
การรวมความน่าจะเป็น / ข้อมูลจากแหล่งต่าง ๆ
ให้บอกว่าฉันมีสามแหล่งที่มาที่เป็นอิสระและแต่ละคนก็ทำนายสภาพอากาศในวันพรุ่งนี้ อันแรกบอกว่าความน่าจะเป็นของฝนในวันพรุ่งนี้คือ 0 จากนั้นอันที่สองบอกว่าความน่าจะเป็นที่ 1 และสุดท้ายอันสุดท้ายบอกว่าความน่าจะเป็นคือ 50% ฉันต้องการทราบความน่าจะเป็นทั้งหมดที่ได้รับจากข้อมูลนั้น ถ้าใช้ทฤษฎีบทการคูณสำหรับเหตุการณ์อิสระฉันได้ 0 ซึ่งดูไม่ถูกต้อง เหตุใดจึงเป็นไปไม่ได้ที่จะคูณทั้งสามถ้าแหล่งทั้งหมดเป็นอิสระ? มีวิธีการแบบเบย์ในการอัปเดตก่อนหน้านี้เมื่อฉันรับข้อมูลใหม่หรือไม่ หมายเหตุ: นี่ไม่ใช่การบ้านเป็นสิ่งที่ฉันคิด

1
สำหรับแบบจำลองเฉลี่ย GLM เราจะเฉลี่ยการคาดการณ์ในลิงค์หรือระดับการตอบสนองหรือไม่?
เพื่อคำนวณการทำนายแบบจำลองโดยเฉลี่ยในระดับการตอบสนองของ GLM ซึ่ง "ถูกต้อง" และเพราะเหตุใด คำนวณตัวแบบโดยเฉลี่ยการทำนายบนสเกลลิงก์แล้วเปลี่ยนกลับเป็นสเกลการตอบสนองหรือ ย้อนกลับเปลี่ยนการทำนายเป็นระดับการตอบกลับแล้วคำนวณค่าเฉลี่ยของแบบจำลอง การคาดคะเนใกล้เคียงกัน แต่ไม่เท่ากันถ้าแบบจำลองเป็น GLM แพ็กเกจ R ที่แตกต่างกันมีตัวเลือกสำหรับทั้งคู่ (ที่มีค่าเริ่มต้นแตกต่างกัน) เพื่อนร่วมงานหลายคนแย้งว่า # 1 ผิดเพราะ "ทุกคนทำอันดับ 2" สัญชาตญาณของฉันบอกว่า # 1 นั้น "ถูกต้อง" เพราะมันเก็บเส้นตรงคณิตศาสตร์เชิงเส้นทั้งหมด (# 2 เฉลี่ยสิ่งที่ไม่ได้อยู่ในระดับเชิงเส้น) การจำลองอย่างง่ายพบว่า # 2 มี MSE น้อยมาก (มาก!) เล็กน้อยกว่า # 1 หาก # 2 ถูกต้องเหตุผลคืออะไร และถ้า # 2 ถูกต้องเหตุใดฉันถึงให้เหตุผลเชิงเส้นตรงเชิงคณิตศาสตร์เหตุผลที่ไม่ดี? แก้ไข 1: การคำนวณส่วนต่างหมายถึงระดับของปัจจัยอื่นใน …

2
การตีความแบบจำลองค่าเฉลี่ยผลลัพธ์ใน R
ฉันพยายามที่จะเข้าใจและรู้ว่าจะรายงานอะไรจากการวิเคราะห์ข้อมูลบางอย่างของฉันโดยใช้แบบจำลองค่าเฉลี่ยใน R ฉันใช้สคริปต์ต่อไปนี้เพื่อวิเคราะห์ผลกระทบของวิธีการวัดค่าตัวแปรที่กำหนด: นี่คือชุดข้อมูล: https://www.dropbox.com/s/u9un273gzw9o30u/VMT4.csv?dl=0 รูปแบบที่จะติดตั้ง: LM.1 <- gls(VMTf ~ turn+sex+method, na.action="na.fail", method = "ML",VMT4) ขุดแบบเต็ม require(MuMIn) d=dredge(LM.1) print(d) coefficients(d) รับข้อมูลสรุปของทุกรุ่นเพื่อรับค่าประมาณพารามิเตอร์ summary(model.avg(d)) ฉันรู้ว่าแบบจำลองทั้งหมดสามารถเฉลี่ย (ค่าเฉลี่ยเต็มรูปแบบแบบจำลอง) หรือเพียงแค่ส่วนย่อยของพวกเขา (ค่าเฉลี่ยแบบมีเงื่อนไข) ตอนนี้ฉันต้องการทราบว่า: เมื่อใดควรใช้การหาค่าเฉลี่ยแบบเต็มหรือแบบเงื่อนไขเพื่อทำการอนุมาน ฉันควรรายงานเรื่องทั้งหมดนี้สำหรับบทความทางวิทยาศาสตร์อย่างไร หมายความว่าค่า Z และ p ที่เกี่ยวข้องสำหรับสถานการณ์เฉลี่ยแบบจำลองคืออะไร? เพื่อให้ง่ายต่อการมองเห็นคำถามของฉัน นี่คือตารางผลลัพธ์ > summary(model.avg(d))# now, there are effects Call: model.avg(object = d) Component model call: gls(model …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.