คำถามติดแท็ก cross-validation

หัก ณ ที่จ่ายซ้ำชุดย่อยของข้อมูลในระหว่างการปรับแบบจำลองเพื่อวัดประสิทธิภาพของแบบจำลองในชุดย่อยข้อมูลที่ถูกระงับ

1
วิธีสร้างโมเดลสุดท้ายและปรับเกณฑ์ความน่าจะเป็นหลังจากการตรวจสอบข้ามแบบซ้อน
ประการแรกขอโทษสำหรับการโพสต์คำถามที่ได้รับการกล่าวถึงในที่มีความยาวที่นี่ , ที่นี่ , ที่นี่ , ที่นี่ , ที่นี่และสำหรับอุ่นหัวข้อเก่า ฉันรู้ว่า @DikranMarsupial เขียนเกี่ยวกับหัวข้อนี้ในโพสต์และบทความในวารสาร แต่ฉันยังสับสนและตัดสินจากจำนวนโพสต์ที่คล้ายกันที่นี่มันยังคงเป็นสิ่งที่ผู้อื่นพยายามเข้าใจ ฉันควรระบุว่าฉันได้รับความขัดแย้งในหัวข้อนี้ซึ่งเพิ่มความสับสนของฉัน คุณควรรู้ด้วยว่าตอนแรกฉันเป็นนักฟิสิกส์และไม่ใช่นักสถิติดังนั้นความเชี่ยวชาญด้านโดเมนของฉันที่นี่จึงค่อนข้าง จำกัด ฉันกำลังเขียนรายงานประจำวันที่ฉันต้องการใช้ CV ที่ซ้อนกันเพื่อประเมินประสิทธิภาพที่ฉันคาดหวังจากแบบจำลองสุดท้ายของฉัน ในโดเมนของฉันนี่เป็นครั้งแรก (เราแทบไม่เคยใช้เลยรูปแบบของ CV ที่มีประสิทธิภาพในสาขาของฉัน แต่อัดฉีดเอกสารด้วยผลลัพธ์จากการศึกษาโดยใช้อวนประสาทและต้นไม้ตัดสินใจเพิ่มขึ้น!) ดังนั้นมันสำคัญมากที่ฉันมีความเข้าใจอย่างละเอียดและชัดเจนเพื่อที่ฉันจะไม่พลาดและเผยแพร่ เป็นขั้นตอนที่ผิดพลาดในชุมชนของฉัน ขอบคุณ! ไปกับคำถาม ... ฉันจะสร้างรุ่นสุดท้ายได้อย่างไรหลังจากการตรวจสอบความถูกต้องข้ามแบบซ้อน ฉันกำลังฝึกอบรมโมเดล glmnet อย่างง่ายด้วยการทำให้เป็นมาตรฐาน L1 และ L2 มันรวดเร็วง่ายและตีความได้ ฉันทำการเปลี่ยนคุณลักษณะกึ่งกลางปรับขนาดและแปลงบ็อกซ์ค็อกซ์เพื่อให้เห็นว่าการกระจายคุณลักษณะนั้นมีค่าเฉลี่ยอยู่ที่มาตรฐานและเป็นแบบเกาส์เซียน ฉันทำขั้นตอนนี้ภายในการตรวจสอบข้ามเพื่อป้องกันการรั่วไหลของข้อมูล อย่างแท้จริงเพราะฮาร์ดแวร์ของฉันช้าอย่างไม่น่าเชื่อและฉันไม่สามารถเข้าถึงกล้ามเนื้อ CPU ได้มากขึ้นฉันจึงทำการเลือกคุณสมบัติตัวกรองที่รวดเร็วภายใน CV หลังจากการประมวลผลคุณลักษณะล่วงหน้า ฉันใช้การค้นหากริดแบบสุ่มเพื่อเลือกพารามิเตอร์อัลฟาและแลมบ์ดา ฉันเข้าใจว่าฉันไม่ควรCV loop เพื่อรับค่าประมาณนี้ ฉันเข้าใจว่าวง CV …

3
การตรวจสอบความถูกต้องไ
ถ้าฉันมีข้อมูลและฉันเรียกใช้การจำแนกประเภท (สมมติว่าฟอเรสต์แบบสุ่มบนข้อมูลนี้) ด้วยการตรวจสอบความถูกต้องข้าม (สมมติ 5 เท่า) ฉันจะสรุปได้ไหมว่าไม่มีวิธีที่เหมาะสมกว่าในวิธีการของฉัน

1
การรายงานความแปรปรวนของการตรวจสอบความถูกต้องข้ามของ k-fold ซ้ำ ๆ
ฉันใช้การตรวจสอบไขว้ซ้ำแบบ k-fold ซ้ำแล้วซ้ำอีกและรายงานค่าเฉลี่ย (ของการวัดการประเมินผลเช่นความไวความจำเพาะ) ที่คำนวณเป็นค่าเฉลี่ยขนาดใหญ่ข้ามการตรวจสอบไขว้ต่างกัน อย่างไรก็ตามฉันไม่แน่ใจว่าฉันควรรายงานความแปรปรวนอย่างไร ฉันพบคำถามมากมายที่นี่เกี่ยวกับการตรวจสอบความถูกต้องไขว้ซ้ำแล้วซ้ำอีกอย่างไรก็ตามไม่มีใครรู้ว่าฉันตอบคำถามความแปรปรวนอย่างชัดเจนในการทดสอบการตรวจสอบข้ามซ้ำ ฉันเข้าใจว่าความแปรปรวนทั้งหมดเกิดจาก: 1) ความไม่เสถียรของรุ่นและ 2) ขนาดตัวอย่างที่ จำกัด ดูเหมือนว่ามีวิธีการที่แตกต่างกัน 4 วิธีในการคำนวณความแปรปรวนสำหรับการตรวจสอบความถูกต้องข้าม k-fold ซ้ำ: 1) ความแปรปรวนของตัวชี้วัดประสิทธิภาพโดยเฉลี่ยที่ประมาณไว้ (เช่นความแม่นยำ) ในการดำเนินการตรวจสอบความถูกต้องข้ามนั้นเป็นค่าประมาณความแปรปรวนที่ถูกต้องหรือไม่ 2) ความแปรปรวนร่วมกันโดยการรวมผลต่างเฉพาะการใช้งาน (ซึ่งคำนวณจากการทดสอบการตรวจสอบข้ามแบบครอสที่แตกต่างกัน) 3) การต่อผลลัพธ์ที่ได้จากการจำแนกข้ามที่แตกต่างกันของการตรวจสอบความถูกต้องข้ามในเวกเตอร์ขนาดใหญ่ ตัวอย่างเช่นถ้าจำนวนข้อมูลการทดสอบในแต่ละเท่าคือ 10 และฉันมี CV 10 เท่าผลเวกเตอร์สำหรับการทำซ้ำจะมีขนาด 100 ตอนนี้ถ้าฉันทำซ้ำการทดสอบการตรวจสอบข้าม 10 ครั้งฉันจะ มี 10 เวกเตอร์ขนาด 100 ซึ่งแต่ละอันมีผลการจำแนกประเภทจากการวิ่ง CV 10 เท่า ตอนนี้ฉันจะคำนวณค่าเฉลี่ยและความแปรปรวนเป็นกรณีของ CV ทำงานครั้งเดียว 4) ฉันได้อ่านด้วย …

1
Caret - การตรวจสอบความถูกต้องแบบข้ามของ K-fold ซ้ำแล้วซ้ำอีกกับการตรวจสอบความถูกต้องแบบข้ามของ K-fold ซ้ำแล้วซ้ำอีกครั้ง
ชุดคาเร็ตเป็นไลบรารี R ที่ยอดเยี่ยมสำหรับการสร้างแบบจำลองการเรียนรู้ของเครื่องหลายแบบและมีฟังก์ชั่นหลายอย่างสำหรับการสร้างแบบจำลองและการประเมินผล สำหรับการปรับพารามิเตอร์และการฝึกอบรมรูปแบบแพคเกจคาเร็ตมี 'repeatcv' เป็นหนึ่งในวิธีการ แนวปฏิบัติที่ดีการปรับพารามิเตอร์อาจทำได้โดยใช้การตรวจสอบความถูกต้องแบบ K-fold แบบซ้อนซึ่งทำหน้าที่ดังต่อไปนี้: แบ่งการฝึกอบรมที่กำหนดไว้ในชุดย่อย 'K' ในการทำซ้ำแต่ละครั้งให้นำชุดย่อย 'K ลบ 1' สำหรับการฝึกอบรมแบบจำลองและเก็บชุดย่อย 1 ชุด (ชุด holdout) สำหรับการทดสอบแบบจำลอง เพิ่มเติมพาร์ติชันการฝึกอบรม 'K ลบ 1' ตั้งค่าเป็นชุดย่อย 'K' และใช้ชุดย่อย 'K ลบ 1' ใหม่และ 'ชุดการตรวจสอบความถูกต้อง' ซ้ำสำหรับการปรับพารามิเตอร์ (การค้นหากริด) พารามิเตอร์ที่ดีที่สุดที่ระบุไว้ในขั้นตอนนี้ใช้สำหรับทดสอบชุดที่มีการพักในขั้นตอนที่ 2 ในทางกลับกันฉันคิดว่าการตรวจสอบความถูกต้องข้าม K-fold ซ้ำอาจทำซ้ำขั้นตอนที่ 1 และ 2 ซ้ำหลายครั้งเราเลือกที่จะค้นหาความแปรปรวนของแบบจำลอง อย่างไรก็ตามการใช้อัลกอริทึมในคู่มือคาเร็ตดูเหมือนว่าวิธีการ 'repeatcv' อาจทำการตรวจสอบความถูกต้องแบบซ้อนข้าม K-fold เช่นกันนอกเหนือจากการตรวจสอบความถูกต้องแบบไขว้ซ้ำ คำถามของฉันคือ: …

1
ควรใช้การตรวจสอบข้ามซ้ำซ้ำเพื่อประเมินแบบจำลองการทำนาย?
ฉันเจอบทความปี 2555 นี้โดย Gitte Vanwinckelen และ Hendrik Blockeel เรียกร้องให้มีการสอบถามการใช้งานข้ามการตรวจสอบซ้ำซึ่งกลายเป็นเทคนิคยอดนิยมสำหรับการลดความแปรปรวนของการตรวจสอบข้าม ผู้เขียนแสดงให้เห็นว่าในขณะที่การตรวจสอบข้ามซ้ำหลายครั้งจะลดความแปรปรวนของการทำนายแบบจำลองเนื่องจากชุดข้อมูลตัวอย่างเดียวกันกำลังถูก resampled ค่าเฉลี่ยของการประมาณการตรวจสอบความถูกต้องแบบข้ามที่ถูกสุ่มใหม่ ควรใช้การตรวจสอบข้ามซ้ำซ้ำทั้งๆที่มีข้อ จำกัด เหล่านี้หรือไม่?

3
ค้นหากริดบนการตรวจสอบความถูกต้องข้ามของ k-fold
ฉันมีชุดข้อมูล 120 ตัวอย่างในการตั้งค่าการตรวจสอบความถูกต้องไขว้ 10 เท่า ขณะนี้ฉันเลือกข้อมูลการฝึกอบรมของการค้างชำระครั้งแรกและทำการตรวจสอบความถูกต้องข้าม 5 เท่าเพื่อเลือกค่าของแกมม่าและ C โดยการค้นหากริด ฉันใช้ SVM กับเคอร์เนล RBF เนื่องจากฉันใช้การตรวจสอบข้าม 10 ครั้งเพื่อรายงานความแม่นยำการเรียกคืนฉันจะทำการค้นหากริดนี้ในข้อมูลการฝึกอบรมของแต่ละรายการที่ค้างอยู่ (มี 10 โฮลด์แต่ละคนมีการทดสอบ 10% และ 90% ข้อมูลการฝึกอบรม) นั่นจะไม่ใช้เวลานานเกินไปหรือ ถ้าฉันใช้แกมม่าและ C ของสิ่งที่ค้างอยู่ครั้งแรกและใช้มันสำหรับส่วนที่เหลือจาก 9 การตรวจสอบความถูกต้องแบบข้าม k-fold นั่นคือการละเมิดเพราะฉันจะใช้ข้อมูลรถไฟเพื่อรับแกมม่าและ C และใช้อีกครั้ง ส่วนของข้อมูลรถไฟเป็นการทดสอบในช่วงที่สอง

7
คำจำกัดความของ "ดีที่สุด" ที่ใช้ในคำว่า "เหมาะสมที่สุด" และการตรวจสอบข้ามคืออะไร
หากคุณใส่ฟังก์ชั่นที่ไม่เป็นเชิงเส้นเข้ากับชุดของคะแนน (สมมติว่ามีเพียงหนึ่งการจัดอันดับสำหรับแต่ละ abscissa) ผลลัพธ์อาจเป็น: ฟังก์ชั่นที่ซับซ้อนมากพร้อมสิ่งตกค้างน้อย ฟังก์ชั่นที่ง่ายมากที่มีของเหลือใช้ขนาดใหญ่ การตรวจสอบความถูกต้องไขว้มักใช้เพื่อค้นหาการประนีประนอม "สุดยอด" ระหว่างสุดขั้วทั้งสองนี้ แต่ "ดีที่สุด" หมายถึงอะไร มัน "น่าจะ" มากที่สุด? คุณจะเริ่มพิสูจน์ได้อย่างไรว่าทางออกที่เป็นไปได้มากที่สุดคืออะไร? เสียงภายในของฉันบอกฉันว่า CV กำลังค้นหาวิธีแก้ปัญหาพลังงานขั้นต่ำ สิ่งนี้ทำให้ฉันคิดถึงเอนโทรปีซึ่งฉันรู้ว่าเกิดขึ้นทั้งในเชิงสถิติและฟิสิกส์ สำหรับฉันแล้วดูเหมือนว่าพอดี "ดีที่สุด" ถูกสร้างขึ้นโดยลดผลรวมของฟังก์ชั่นของความซับซ้อนและข้อผิดพลาดเช่น minimising m where m = c(Complexity) + e(Error) สิ่งนี้สมเหตุสมผลหรือไม่? ฟังก์ชัน c และ e จะเป็นอะไร? โปรดอธิบายด้วยการใช้ภาษาที่ไม่ใช่คณิตศาสตร์เพราะฉันจะไม่เข้าใจคณิตศาสตร์มาก

2
การตรวจสอบความถูกต้องข้าม PCA และ k-fold ในชุด Caret ใน R
ฉันเพิ่งดูการบรรยายอีกครั้งจากหลักสูตรการเรียนรู้ของเครื่องใน Coursera ในส่วนที่อาจารย์กล่าวถึง PCA สำหรับการประมวลผลข้อมูลล่วงหน้าในแอปพลิเคชันการเรียนรู้ภายใต้การดูแลเขาบอกว่า PCA ควรจะดำเนินการกับข้อมูลการฝึกอบรมเท่านั้นและจากนั้นการทำแผนที่จะใช้ในการแปลง ดูเพิ่มเติมPCA และรถไฟ / ทดสอบแยก อย่างไรก็ตามในcaretแพ็คเกจ R ข้อมูลการฝึกอบรมที่คุณส่งผ่านไปยังtrain()ฟังก์ชั่นนั้นได้รับการประมวลผลโดย PCA แล้ว ดังนั้นเมื่ออัลกอริทึมทำการตรวจสอบความถูกต้องของ k-fold cross ชุดการตรวจสอบความถูกต้องได้ถูกประมวลผลด้วย PCA ผ่านทางpreProcess()และpredict()ในความเป็นจริงแล้วใช้ใน PCA "fitting" ฉันเข้าใจสถานการณ์ถูกต้องหรือไม่? ขั้นตอนของ IET Caret สำหรับการตรวจสอบข้ามกับ PCA (หรือในความเป็นจริงด้วยวิธีการลดขนาด / การจัดตำแหน่งใด ๆ ) เป็น "ผิด" เนื่องจากการประมวลผลข้อมูลล่วงหน้าจะดำเนินการในชุดการตรวจสอบความถูกต้อง และถ้าเป็นเช่นนั้นผลกระทบนี้จะมีขนาดใหญ่เพียงใด?

4
การทำให้เป็นมาตรฐานก่อนการตรวจสอบความถูกต้องข้าม
การทำให้ข้อมูลเป็นมาตรฐาน (มีค่าเฉลี่ยเป็นศูนย์และส่วนเบี่ยงเบนมาตรฐานที่เป็นเอกภาพ) ก่อนดำเนินการตรวจสอบความถูกต้องข้าม k-fold ซ้ำแล้วซ้ำอีกจะมีผลเสียเชิงลบใด ๆ เช่น overfitting หรือไม่? หมายเหตุ: นี่เป็นสถานการณ์ที่ #case> ยอดรวม #features ฉันกำลังแปลงข้อมูลบางส่วนของฉันโดยใช้การแปลงบันทึกจากนั้นปรับข้อมูลทั้งหมดให้เป็นปกติ ฉันกำลังทำการเลือกคุณสมบัติ ต่อไปฉันใช้คุณสมบัติที่เลือกและข้อมูลที่ได้มาตรฐานกับการตรวจสอบความถูกต้องข้าม 10 เท่าเพื่อลองและประเมินประสิทธิภาพของตัวจําแนกทั่วไปและฉันกังวลว่าการใช้ข้อมูลทั้งหมดเพื่อปรับมาตรฐานอาจไม่เหมาะสม ฉันควรทำให้ข้อมูลการทดสอบเป็นปกติสำหรับแต่ละเท่าโดยใช้ข้อมูลการทำให้เป็นปกติที่ได้จากข้อมูลการฝึกอบรมสำหรับการพับนั้นหรือไม่ ความคิดเห็นใด ๆ ที่ได้รับสุดซึ้ง! ขอโทษถ้าคำถามนี้ดูเหมือนชัดเจน แก้ไข: จาก การทดสอบนี้ (ตามคำแนะนำด้านล่าง) ฉันพบว่าการทำให้เป็นมาตรฐานก่อน CV ไม่ได้ทำให้ประสิทธิภาพแตกต่างกันมากนักเมื่อเทียบกับการทำให้ปกติใน CV

3
จะเลือกจำนวนปัจจัยแฝงที่เหมาะสมที่สุดในการแยกตัวประกอบเมทริกซ์ที่ไม่เป็นลบได้อย่างไร
ได้รับเมทริกซ์ , ไม่ใช่เชิงลบเมทริกซ์ตัวประกอบ (NMF) พบว่าทั้งสองเมทริกซ์ที่ไม่ใช่เชิงลบและ ( คือทุกองค์ประกอบ ) เพื่อเป็นตัวแทนของเมทริกซ์ที่สลายตัวเมื่อ:Vm×nVm×n\mathbf V^{m \times n}Wm×kWm×k\mathbf W^{m \times k}Hk×nHk×n\mathbf H^{k \times n}≥0≥0\ge 0 V≈WH,V≈WH,\mathbf V \approx \mathbf W\mathbf H, ตัวอย่างเช่นโดยการกำหนดว่าไม่ใช่ - ลบและลดข้อผิดพลาดในการสร้างใหม่WW\mathbf WHH\mathbf H∥V−WH∥2.‖V−WH‖2.\|\mathbf V-\mathbf W\mathbf H\|^2. มีวิธีปฏิบัติทั่วไปในการประมาณค่าkkkใน NMF หรือไม่ ตัวอย่างเช่นจะใช้การตรวจสอบความถูกต้องไขว้เพื่อจุดประสงค์นั้นได้อย่างไร

2
Scikit วิธีที่ถูกต้องในการปรับเทียบตัวแยกประเภทด้วย CalibratedClassifierCV
Scikit มีCalibratedClassifierCVซึ่งช่วยให้เราสามารถสอบเทียบโมเดลของเราในคู่ X, y ที่เฉพาะเจาะจง มันยังระบุไว้อย่างชัดเจนว่าdata for fitting the classifier and for calibrating it must be disjoint. หากพวกเขาจะต้องแยกจากกันมันถูกต้องหรือไม่ที่จะฝึกตัวจําแนก model = CalibratedClassifierCV(my_classifier) model.fit(X_train, y_train) ฉันกลัวว่าด้วยการใช้ชุดฝึกอบรมชุดเดียวกันฉันกำลังฝ่าฝืนdisjoint dataกฎ ทางเลือกอื่นอาจมีชุดการตรวจสอบความถูกต้อง my_classifier.fit(X_train, y_train) model = CalibratedClassifierCV(my_classifier, cv='prefit') model.fit(X_valid, y_valid) ซึ่งมีข้อเสียคือการทิ้งข้อมูลไว้เพื่อการฝึกอบรมน้อยลง นอกจากนี้หากCalibratedClassifierCVควรพอดีกับรุ่นที่พอดีกับชุดการฝึกอบรมที่แตกต่างกันเหตุใดจึงเป็นตัวเลือกเริ่มต้นcv=3ซึ่งจะพอดีกับตัวประมาณการพื้นฐาน การตรวจสอบความถูกต้องไขว้จัดการกฎความไม่ลงรอยกันด้วยตัวเองหรือไม่? คำถาม: วิธีที่ถูกต้องในการใช้ CalibratedClassifierCV คืออะไร?

1
วิธีการเปรียบเทียบแบบใดที่จะใช้สำหรับโมเดล lmer: lsmeans หรือ glht
ฉันกำลังวิเคราะห์ชุดข้อมูลโดยใช้โมเดลเอฟเฟกต์ผสมกับเอฟเฟ็กต์คงที่หนึ่งรายการ (เงื่อนไข) และเอฟเฟกต์แบบสุ่มสองรายการ (ผู้เข้าร่วมเนื่องจากการออกแบบภายในและคู่ของเรื่อง) รูปแบบที่ถูกสร้างขึ้นด้วยแพคเกจ:lme4exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp) ต่อไปฉันทำการทดสอบอัตราส่วนความน่าจะเป็นของโมเดลนี้เทียบกับโมเดลโดยไม่มีผลกระทบคงที่ (เงื่อนไข) และมีความแตกต่างอย่างมีนัยสำคัญ ชุดข้อมูลของฉันมี 3 เงื่อนไขดังนั้นฉันจึงต้องการเปรียบเทียบหลายรายการ แต่ฉันไม่แน่ใจว่าจะใช้วิธีใด ฉันพบคำถามที่คล้ายกันจำนวนหนึ่งใน CrossValidated และฟอรัมอื่น ๆ แต่ฉันยังสับสนอยู่ จากสิ่งที่ฉันเห็นผู้คนแนะนำให้ใช้ 1.lsmeansแพคเกจ - lsmeans(exp.model,pairwise~condition)ซึ่งทำให้ผมส่งออกต่อไปนี้: condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts …

2
ข้อผิดพลาดนอกกระเป๋าทำให้ CV ไม่จำเป็นในป่าสุ่ม?
ฉันค่อนข้างใหม่สำหรับป่าสุ่ม ในอดีตฉันมักจะเปรียบเทียบความถูกต้องของการพอดีกับการทดสอบเทียบกับการพอดีกับรถไฟเพื่อตรวจจับการ overfitting ใด ๆ แต่ฉันเพิ่งอ่านที่นี่ว่า: "ในฟอเรสต์แบบสุ่มไม่จำเป็นต้องมีการตรวจสอบความถูกต้องไขว้หรือชุดการทดสอบแยกต่างหากเพื่อรับการประมาณค่าที่ผิดพลาดของข้อผิดพลาดของชุดการทดสอบ วรรคเล็ก ๆ ข้างต้นสามารถพบได้ภายใต้ออกจากกระเป๋า (OOB) ข้อผิดพลาดประมาณการมาตรา แนวคิดเรื่อง Out of Bag Error นี้ใหม่สำหรับฉันอย่างสมบูรณ์และสิ่งที่สับสนเล็กน้อยคือข้อผิดพลาด OOB ในแบบจำลองของฉันคือ 35% (หรือความแม่นยำ 65%) แต่ถ้าฉันใช้การตรวจสอบความถูกต้องข้ามกับข้อมูลของฉัน วิธีการ) และเปรียบเทียบทั้งพอดีกับการทดสอบเทียบกับพอดีกับรถไฟฉันได้รับความแม่นยำ 65% และความแม่นยำ 96% ตามลำดับ จากประสบการณ์ของฉันนี่ถือเป็นการ overfitting แต่ OOB ถือข้อผิดพลาด 35% เช่นเดียวกับข้อผิดพลาดการทดสอบพอดีของฉัน ฉันกำลัง overfitting หรือไม่ ฉันควรจะใช้การตรวจสอบความถูกต้องข้ามเพื่อตรวจสอบการกำหนดราคาสูงเกินไปในป่าที่มีการสุ่มหรือไม่? ในระยะสั้นฉันไม่แน่ใจว่าฉันควรเชื่อถือ OOB เพื่อรับข้อผิดพลาดที่เป็นกลางของข้อผิดพลาดของชุดทดสอบเมื่อฉันพอดีกับรถไฟแสดงให้เห็นว่าฉันกำลังล้น!

1
สัญชาตญาณของตัวอย่างที่แลกเปลี่ยนได้ภายใต้สมมติฐานว่างคืออะไร
การทดสอบการเปลี่ยนรูป (เรียกอีกอย่างว่าการทดสอบแบบสุ่มการทดสอบแบบสุ่มอีกครั้งหรือการทดสอบที่แน่นอน) มีประโยชน์มากและมีประโยชน์เมื่อสมมติฐานของการแจกแจงปกติที่ต้องการโดยตัวอย่างเช่นt-testไม่พบและเมื่อการเปลี่ยนแปลงของค่าโดยการจัดอันดับ การทดสอบแบบไม่มีพารามิเตอร์Mann-Whitney-U-testจะนำไปสู่การสูญเสียข้อมูลมากขึ้น อย่างไรก็ตามไม่ควรมองข้ามสมมุติฐานข้อเดียวและข้อเดียวเพียงข้อเดียวเมื่อใช้การทดสอบชนิดนี้คือข้อสมมติฐานของความสามารถแลกเปลี่ยนได้ของตัวอย่างภายใต้สมมติฐานว่าง เป็นที่น่าสังเกตว่าวิธีการแบบนี้สามารถใช้ได้เมื่อมีตัวอย่างมากกว่าสองตัวอย่างเช่นสิ่งที่นำไปใช้ในcoinแพ็คเกจ R คุณช่วยกรุณาใช้ภาษาที่เป็นรูปเป็นร่างหรือปรีชาเชิงแนวคิดในภาษาอังกฤษธรรมดาเพื่อแสดงสมมติฐานนี้ได้หรือไม่? นี่จะมีประโยชน์มากในการอธิบายปัญหาที่ถูกมองข้ามในหมู่ผู้ที่ไม่ใช่นักสถิติเช่นฉัน หมายเหตุ: จะเป็นประโยชน์อย่างมากหากพูดถึงกรณีที่การใช้การทดสอบการเปลี่ยนแปลงไม่ถือหรือไม่ถูกต้องภายใต้สมมติฐานเดียวกัน ปรับปรุง: สมมติว่าฉันมี 50 วิชาที่รวบรวมจากคลินิกท้องถิ่นในเขตของฉันโดยการสุ่ม พวกเขาถูกสุ่มให้รับยาหรือยาหลอกในอัตราส่วน 1: 1 พวกเขาทั้งหมดถูกวัดสำหรับ Paramerter 1 Par1ที่ V1 (พื้นฐาน), V2 (3 เดือนต่อมา) และ V3 (1 ปีต่อมา) วิชาทั้งหมด 50 กลุ่มสามารถแบ่งเป็น 2 กลุ่มตามคุณสมบัติ A; ค่าบวก = 20 และค่าลบ = 30 นอกจากนี้ยังสามารถจัดกลุ่มย่อยได้อีก 2 กลุ่มตามคุณลักษณะ B; B positive = …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
ค่าเฉลี่ย (คะแนน) vs คะแนน (เรียงต่อกัน) ในการตรวจสอบข้าม
TLDR: ชุดข้อมูลของฉันมีขนาดค่อนข้างเล็ก (120) ตัวอย่าง ในขณะที่ทำการตรวจสอบข้าม 10 เท่าฉันควร: รวบรวมผลลัพธ์จากการทดสอบแต่ละครั้งแล้วเรียงต่อกันเป็นเวกเตอร์แล้วคำนวณข้อผิดพลาดของการทำนายแบบเต็ม (ตัวอย่าง 120 ตัวอย่าง) หรือไม่ หรือฉันควรแทนคำนวณข้อผิดพลาดในผลที่ฉันได้รับในแต่ละพับ (12 ตัวอย่างต่อเท่า) แล้วได้รับการประมาณการข้อผิดพลาดของฉันสุดท้ายเป็นค่าเฉลี่ยของ 10 ประมาณการผิดพลาดเท่า? มีเอกสารทางวิทยาศาสตร์ใดบ้างที่โต้แย้งความแตกต่างระหว่างเทคนิคเหล่านี้ พื้นหลัง: ความสัมพันธ์ที่อาจเกิดขึ้นกับคะแนนแมโคร / Micro ในการจำแนกประเภทหลายฉลาก: ฉันคิดว่าคำถามนี้อาจเกี่ยวข้องกับความแตกต่างระหว่างค่าเฉลี่ยไมโครและมาโครที่มักใช้ในงานการจำแนกประเภทหลายฉลาก (เช่นพูด 5 ป้ายกำกับ) ในการตั้งค่าแบบหลายฉลากจะคำนวณคะแนนเฉลี่ยขนาดเล็กโดยการทำตารางสรุปรวมของค่าบวกจริงเท็จบวกลบจริงและลบเท็จสำหรับการพยากรณ์ลักษณนามทั้งหมด 5 ตัวใน 120 ตัวอย่าง ตารางฉุกเฉินนี้จะใช้ในการคำนวณความแม่นยำระดับไมโครการเรียกคืนแบบไมโครและการวัดไมโคร f ดังนั้นเมื่อเรามี 120 ตัวอย่างและตัวแยกประเภทห้าตัวการวัดขนาดเล็กจะคำนวณจากการคาดการณ์ 600 ครั้ง (120 ตัวอย่าง * 5 ป้าย) เมื่อใช้ตัวแปรมาโครหนึ่งจะคำนวณการวัด (ความแม่นยำการเรียกคืนและอื่น ๆ ) อย่างเป็นอิสระในแต่ละฉลากและสุดท้ายมาตรการเหล่านี้จะถูกเฉลี่ย …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.