ความเป็นอิสระของสารตกค้างในการทดสอบ / จำลองทางคอมพิวเตอร์?


17

ฉันทำการประเมินทางคอมพิวเตอร์โดยใช้วิธีการที่แตกต่างกันของการปรับแบบจำลองที่ใช้ในวิทยาศาสตร์ Palaeo ฉันมีชุดฝึกอบรมแบบ ish ขนาดใหญ่ดังนั้นฉันจึงสุ่ม (ชุดชั้นในแบบสุ่มแบ่งชั้น) แล้ววางชุดทดสอบ ผมติดตั้งวิธีการแตกต่างกันไปตัวอย่างการฝึกอบรมชุดและการใช้ม.ส่งผลให้รูปแบบที่ผมคาดการตอบสนองสำหรับตัวอย่างการทดสอบชุดและคำนวณ RMSEP มากกว่ากลุ่มตัวอย่างที่อยู่ในชุดทดสอบ นี้เป็นหนึ่งในการทำงานม.ม.

ฉันทำกระบวนการนี้ซ้ำหลายครั้งทุกครั้งที่ฉันเลือกชุดฝึกอบรมที่แตกต่างกันโดยการสุ่มตัวอย่างชุดทดสอบใหม่

หลังจากทำสิ่งนี้แล้วฉันต้องการตรวจสอบว่าวิธีใดวิธีมีประสิทธิภาพ RMSEP ที่ดีขึ้นหรือแย่ลง ฉันต้องการเปรียบเทียบวิธีการจับคู่แบบฉลาด ๆม.

วิธีการของฉันได้รับเพื่อให้พอดีกับผลกระทบที่ผสม (LME) รูปแบบเชิงเส้นที่มีผลกระทบสุ่มเดียวสำหรับการเรียกใช้ ฉันใช้lmer()จากแพ็คเกจlme4เพื่อให้พอดีกับรุ่นและฟังก์ชั่นของฉันจากแพ็คเกจmultcompเพื่อทำการเปรียบเทียบหลายอย่าง แบบจำลองของฉันเป็นหลัก

lmer(RMSEP ~ method + (1 | Run), data = FOO)

ที่methodบ่งชี้วิธีการที่ถูกนำมาใช้ในการสร้างแบบจำลองพยากรณ์สำหรับชุดทดสอบและRunเป็นตัวบ่งชี้สำหรับแต่ละโดยเฉพาะอย่างยิ่งการเรียกของ "ทดลอง" ของฉัน

คำถามของฉันเกี่ยวกับส่วนที่เหลือของ LME ให้ผลแบบสุ่มเดียวสำหรับRunฉันสมมติว่าค่า RMSEP สำหรับการทำงานนั้นมีความสัมพันธ์กับระดับหนึ่ง แต่ไม่เกี่ยวข้องระหว่างการวิ่งบนพื้นฐานของความสัมพันธ์ที่ชักนำให้เกิดผลแบบสุ่ม

ข้อสันนิษฐานเกี่ยวกับความเป็นอิสระระหว่างการรันนี้มีผลหรือไม่? หากไม่มีวิธีที่จะอธิบายสิ่งนี้ในโมเดล LME หรือฉันควรมองหาการวิเคราะห์ทางสถิติประเภทอื่นเพื่อตอบคำถามของฉัน?


ส่วนที่เหลือเป็นเงื่อนไขในการสุ่มผลทำนายหรือไม่มีเงื่อนไขและในการจำลองเป็นผลสุ่มที่คาดการณ์คงที่หรือแตกต่างกัน โปรดจำไว้ว่าให้ลองนึกถึงสิ่งนี้สำหรับวิธีการจำลองเริ่มต้นใน LME4 และไม่สามารถทำได้ (แต่โครงการถูกยกเลิกก่อนที่ฉันจะแยกออก)
phaneron

ไม่แน่ใจว่าฉันทำตามอย่างครบถ้วน แต่ชุดการฝึกจับสลาก -> โมเดลที่เหมาะสม -> คำนวณ RMSEP เสร็จสิ้นก่อน LME เอฟเฟกต์แบบสุ่มสำหรับการวิ่งเนื่องจากการวิ่งแต่ละครั้งจะมีจุดตัด (RMSEP) ที่แตกต่างกันเนื่องจากมีการเลือกตัวอย่างชุดทดสอบที่แตกต่างกัน สำหรับบิตที่มีเงื่อนไข / ไม่มีเงื่อนไขฉันไม่แน่ใจ / ชัดเจนว่าคุณหมายถึงอะไร ขอบคุณสำหรับความคิดเห็นของคุณ
Reinstate Monica - G. Simpson

คำตอบ:


4

คุณกำลังทำการตรวจสอบไขว้รูปแบบที่นี่สำหรับแต่ละวิธีmของคุณและต้องการดูว่าวิธีใดทำงานได้ดีขึ้น ผลลัพธ์ระหว่างการวิ่งจะขึ้นอยู่กับแน่นอนเพราะมันขึ้นอยู่กับข้อมูลเดียวกันและคุณมีการทับซ้อนกันระหว่างชุดการทดสอบรถไฟ / ของคุณ คำถามคือว่าเรื่องนี้ควรสำคัญเมื่อคุณมาเปรียบเทียบวิธีการ

สมมติว่าคุณจะทำการวิ่งเพียงครั้งเดียวและจะพบว่าวิธีการหนึ่งนั้นดีกว่าวิธีอื่น จากนั้นคุณจะถามตัวเองว่าเป็นเพราะชุดทดสอบทางเลือกที่เฉพาะเจาะจงหรือไม่ นี่คือเหตุผลที่คุณทำการทดสอบซ้ำสำหรับชุดการทดสอบ / การทดสอบที่แตกต่างกันจำนวนมาก ดังนั้นเพื่อตรวจสอบว่าวิธีการนั้นดีกว่าวิธีอื่น ๆ คุณรันหลาย ๆ ครั้งและในแต่ละการทดสอบเปรียบเทียบกับวิธีอื่น ๆ (คุณมีตัวเลือกที่แตกต่างกันในการดูข้อผิดพลาด / อันดับ / ฯลฯ ) ทีนี้ถ้าคุณพบว่าวิธีการทำได้ดีกว่าในการรันส่วนใหญ่ผลลัพธ์ก็คือมันคืออะไร ฉันไม่แน่ใจว่าจะเป็นประโยชน์หรือไม่ที่จะให้ค่า p แก่สิ่งนี้ หรือถ้าคุณต้องการที่จะให้ค่า p ถามตัวคุณเองว่าอะไรคือโมเดลพื้นหลังที่นี่


ขอบคุณสำหรับความคิดของคุณ ฉันคิดว่าบรรทัดสุดท้ายของคุณสรุปได้อย่างชัดเจนว่าตอนนี้ฉันอยู่ที่ใด ในการคาดหวังสิ่งนี้ฉันมีการติดตามที่ฉันถามเกี่ยวกับวิธีการที่เหมาะสมในการวิเคราะห์ข้อมูลประเภทนี้ ฉันชอบจุดของคุณเกี่ยวกับ "มันคืออะไร"; ที่ได้หมุนวนที่กระบวนการคิดของฉันเมื่อเร็ว ๆ นี้เช่นกัน
Reinstate Monica - G. Simpson

ปัญหาหนึ่งที่ฉันมีกับ "ผลลัพธ์คือสิ่งที่มันคือ" ส่วนคือ RMSEPs ค่อนข้างแปรปรวนจากการทำงานเพื่อให้ทำงานได้ ดังนั้นโดยเฉลี่ยแล้ววิธีการหนึ่งหรือสองวิธีนั้นดีกว่า แต่พวกเขาได้รับความแปรปรวนใน RMSEP หรือไม่ ดังนั้นฉันพยายาม LME ด้วยผลแบบสุ่มสำหรับ Run เพื่อปรับเปลี่ยนวิธีการที่ฉันจะต้องรู้ว่าใครมีความสัมพันธ์แต่ละชุดข้อมูลคือ ดูเหมือนว่าการทดสอบทางสถิติใด ๆ ที่ฉันทำจะต้องมีการแก้ไข ดังนั้นฉันยังคงต่อสู้กับวิธีการตีความหมายจาก 50 Runs สำหรับแต่ละวิธี & ไม่ว่าฉันจะสามารถสรุปใด ๆ ... ?
Reinstate Monica - G. Simpson

1
วิธีที่ฉันเห็นการประเมินวิธีการของคุณในทุกส่วนของชุดฝึกอบรม / การทดสอบที่เป็นไปได้ของข้อมูลของคุณจะเป็นการประเมินที่ครอบคลุมที่สุด เนื่องจากสิ่งนี้เป็นไปไม่ได้คุณกำลังประเมินสิ่งนี้ด้วยการวิ่งแบบสุ่ม สมมติว่าคุณสามารถประเมินพาร์ติชั่นการรถไฟ / การทดสอบทั้งหมดได้คุณจะยังคงมีคำถามว่าจะตัดสินใจเลือกวิธีใดดีกว่า ดังนั้นนี่เป็นเรื่องของวิธีที่คุณกำหนดว่า "ดี" คืออะไร มันหมายถึงคะแนนเฉลี่ยสูงหรือไม่ หรือหมายความว่าในหลาย ๆ วิธีการหนึ่งได้คะแนนสูงกว่าวิธีอื่น (โดยส่วนตัวแล้วฉันคิดว่านี่จะเป็นรุ่นที่ดีกว่า)
Bitwise

1

อาจไม่เข้าใจสิ่งที่คุณทำ แต่จริงๆ

สำหรับ Run ฉันสมมติว่าค่า RMSEP สำหรับการทดสอบนั้นมีความสัมพันธ์กับระดับหนึ่ง

ใช่นั่นสะท้อนถึงความท้าทายของชุดทดสอบในการทดสอบนั้น

แต่ไม่มีการเชื่อมโยงระหว่างการรัน

ไม่เนื่องจากวิธีที่คุณสุ่มตัวอย่างชุดทดสอบบางชุดจะทับซ้อนกันมากกว่าชุดทดสอบอื่น ๆ (ส่วนใหญ่ไม่ใช่การจำลองแบบอิสระ)

คุณจะต้องสร้างแบบจำลองการพึ่งพาโดยอ้างอิงจากการทับซ้อนหรือออกแบบการประเมินเพื่อให้การรันมีความเป็นอิสระ ฉันจะอ่านหนังสือสถิติเกี่ยวกับการตรวจสอบข้าม ;-)


+1 ขอบคุณสำหรับคำตอบ อืมฉันเห็นสิ่งที่คุณหมายถึง ยิ่งชุดทดสอบใกล้เคียงกันมากเท่าใดค่า RMSEP ที่ใกล้เคียงกันก็จะยิ่งมากขึ้นเท่านั้น ตกลงให้ทำเช่นนั้นเหมือนกับว่าข้อมูลมีความสัมพันธ์เชิงพื้นที่หรือชั่วคราว วิธีที่ฉันสร้างชุดฝึกอบรม / ชุดทดสอบควรหมายความว่าโดยเฉลี่ยแล้วพวกเขาทุกคนต่างจากคนอื่น ฉันไม่แน่ใจว่า CV จะมาที่นี่ได้อย่างไรและในแง่หนึ่งฉันกำลังทำสิ่งนั้นอยู่แล้วโดยใช้วิธีการสุ่มตัวอย่างอีกครั้ง อาจจะถามคำถามอีกข้อหนึ่งเกี่ยวกับวิธีการแก้ปัญหาจริง
Reinstate Monica - G. Simpson

ฉันจะเปิดให้บริการนี้จนกว่าจะสิ้นสุดระยะเวลาของเงินรางวัลเพื่อดูว่ามีใครกัดอีกหรือไม่ แต่ฉันขอขอบคุณความคิดของคุณที่นี่และจะยอมรับและให้รางวัลหากไม่มีคำตอบอื่น ๆ
Reinstate Monica - G. Simpson
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.