คำถามติดแท็ก validation

กระบวนการประเมินว่าผลลัพธ์ของการวิเคราะห์นั้นมีแนวโน้มที่จะอยู่นอกเหนือการตั้งค่าการวิจัยดั้งเดิมหรือไม่ อย่าใช้แท็กนี้เพื่อพูดคุยเกี่ยวกับ 'ความถูกต้อง' ของการวัดหรือเครื่องมือ (เช่นการวัดสิ่งที่มันอ้างถึง) ใช้แท็ก [ความถูกต้อง] แทน

11
ชุดทดสอบและชุดการตรวจสอบแตกต่างกันอย่างไร
ฉันพบว่าสิ่งนี้เกิดความสับสนเมื่อฉันใช้กล่องเครื่องมือโครงข่ายใยประสาทใน Matlab มันแบ่งข้อมูลดิบที่กำหนดเป็นสามส่วน: ชุดฝึกอบรม ชุดการตรวจสอบความถูกต้อง ชุดทดสอบ ฉันสังเกตเห็นในการฝึกอบรมหรืออัลกอริทึมการเรียนรู้ข้อมูลมักจะแบ่งออกเป็น 2 ส่วนชุดฝึกอบรมและชุดทดสอบ คำถามของฉันคือ: ชุดตรวจสอบความถูกต้องและชุดทดสอบแตกต่างกันอย่างไร การตรวจสอบถูกตั้งค่าเฉพาะกับเครือข่ายประสาทจริงหรือไม่ หรือมันเป็นตัวเลือก หากต้องการดำเนินการต่อไปจะมีความแตกต่างระหว่างการตรวจสอบและทดสอบในบริบทของการเรียนรู้ของเครื่องหรือไม่

10
การตรวจสอบความถูกต้องโฮลด์กับการตรวจสอบข้าม
สำหรับฉันดูเหมือนว่าการตรวจสอบความถูกต้องของการระงับไม่ได้ผล นั่นคือการแบ่งชุดข้อมูลเดิมออกเป็นสองส่วน (การฝึกอบรมและการทดสอบ) และการใช้คะแนนการทดสอบเป็นมาตรการทั่วไปนั้นค่อนข้างไร้ประโยชน์ การตรวจสอบความถูกต้องไขว้ของ K-fold ดูเหมือนจะให้การประมาณที่ดีขึ้นของการวางนัยทั่วไป (ในขณะที่มันฝึกฝนและทดสอบทุกจุด) ดังนั้นทำไมเราจะใช้การตรวจสอบความถูกต้องของมาตรฐาน หรือแม้กระทั่งพูดคุยเกี่ยวกับมัน

2
วิธีการสรุปที่ถูกต้องจาก "ข้อมูลขนาดใหญ่"?
"ข้อมูลขนาดใหญ่" มีอยู่ทุกหนทุกแห่งในสื่อ ทุกคนบอกว่า "ข้อมูลขนาดใหญ่" เป็นสิ่งที่ยิ่งใหญ่สำหรับปี 2012 เช่นKDNuggets การสำรวจความคิดเห็นในหัวข้อที่ร้อนสำหรับปี 2012 อย่างไรก็ตามฉันมีความกังวลอย่างลึกซึ้งที่นี่ ด้วยข้อมูลขนาดใหญ่ทุกคนดูเหมือนจะมีความสุขที่จะได้รับอะไรเลย แต่เราไม่ได้ละเมิดหลักการทางสถิติแบบคลาสสิกทั้งหมดเช่นการทดสอบสมมติฐานและการสุ่มตัวอย่างตัวแทน? ตราบใดที่เราคาดการณ์เฉพาะชุดข้อมูลเดียวกันสิ่งนี้ควรจะดี ดังนั้นถ้าฉันใช้ข้อมูล Twitter เพื่อทำนายพฤติกรรมของผู้ใช้ Twitter นั่นอาจไม่เป็นไร อย่างไรก็ตามการใช้ข้อมูล Twitter เพื่อคาดการณ์เช่นการเลือกตั้งละเลยความจริงที่ว่าผู้ใช้ Twitter ไม่ใช่ตัวอย่างตัวอย่างสำหรับประชากรทั้งหมด นอกจากนี้วิธีการส่วนใหญ่จะไม่สามารถแยกความแตกต่างระหว่างอารมณ์ "รากหญ้า" ที่แท้จริงและการรณรงค์ และทวิตเตอร์เต็มไปด้วยแคมเปญ ดังนั้นเมื่อวิเคราะห์ Twitter คุณจะจบลงอย่างรวดเร็วเพียงวัดการรณรงค์และบอท (ดูตัวอย่าง"Yahoo คาดการณ์ผู้ชนะทางการเมืองของอเมริกา"ซึ่งเต็มไปด้วยการสำรวจความคิดเห็นทุบตีและ "การวิเคราะห์ความเชื่อมั่นดีกว่ามาก" พวกเขาทำนายว่า "รอมนีย์มีโอกาสชนะการเสนอชื่อมากกว่า 90% และชนะเซาท์แคโรไลนาหลัก" (เขามี 28% ในขณะที่ Gingrich มี 40% ในปฐมภูมินี้) คุณรู้หรือไม่ว่าข้อมูลขนาดใหญ่อื่น ๆล้มเหลว ? ฉันจำได้คร่าวๆว่านักวิทยาศาสตร์คนหนึ่งทำนายว่าคุณไม่สามารถรักษามิตรภาพมากกว่า 150 คนได้ …

3
วิธีการเลือกวิธีการจัดกลุ่ม? วิธีการตรวจสอบวิธีการแก้ปัญหาของคลัสเตอร์ (เพื่อรับประกันทางเลือกวิธีการ)?
หนึ่งในปัญหาที่ใหญ่ที่สุดที่มีการวิเคราะห์กลุ่มคือเราอาจต้องได้ข้อสรุปที่แตกต่างกันเมื่อใช้วิธีการจัดกลุ่มที่แตกต่างกัน (รวมถึงวิธีการเชื่อมโยงที่แตกต่างกันในการจัดกลุ่มแบบลำดับชั้น) ฉันต้องการทราบความคิดเห็นของคุณเกี่ยวกับเรื่องนี้ - คุณจะเลือกวิธีการอย่างไรและอย่างไร บางคนอาจพูดว่า "วิธีที่ดีที่สุดในการทำคลัสเตอร์คือให้คำตอบที่ถูกต้อง"; แต่ฉันอาจถามเพื่อตอบสนองว่าการวิเคราะห์กลุ่มควรเป็นเทคนิคที่ไม่ได้รับการสำรอง - ดังนั้นฉันจะรู้ได้อย่างไรว่าวิธีการหรือการเชื่อมโยงใดเป็นคำตอบที่ถูกต้อง? โดยทั่วไป: การจัดกลุ่มเพียงอย่างเดียวแข็งแกร่งเพียงพอที่จะพึ่งพาหรือไม่ หรือเราต้องการวิธีที่สองและรับผลการแบ่งปันเพื่อเป็นไปตามทั้งสองอย่าง? คำถามของฉันไม่เพียงเกี่ยวกับวิธีที่เป็นไปได้ในการตรวจสอบ / ประเมินประสิทธิภาพการจัดกลุ่ม แต่ยังมีความกว้างกว่า - เราเลือก / ชอบวิธีการจัดกลุ่ม / อัลกอริทึมมากกว่าวิธีอื่น นอกจากนี้ยังมีคำเตือนทั่วไปที่เราควรพิจารณาเมื่อเราเลือกวิธีการจัดกลุ่มข้อมูลของเราหรือไม่ ฉันรู้ว่ามันเป็นคำถามทั่วไปและยากที่จะตอบ ฉันแค่อยากจะรู้ว่าถ้าคุณมีความคิดเห็นหรือคำแนะนำใด ๆ หรือข้อเสนอแนะสำหรับฉันที่จะเรียนรู้เพิ่มเติมเกี่ยวกับเรื่องนี้

4
คุณจะใช้ชุดข้อมูล 'ทดสอบ' หลังจากการตรวจสอบข้ามได้อย่างไร
ในการบรรยายและแบบฝึกหัดที่ฉันเห็นพวกเขาแนะนำให้แบ่งข้อมูลของคุณออกเป็นสามส่วน: การฝึกอบรมการตรวจสอบและการทดสอบ แต่ยังไม่ชัดเจนว่าควรใช้ชุดข้อมูลการทดสอบอย่างไรและวิธีการนี้ดีกว่าการตรวจสอบข้ามชุดข้อมูลทั้งหมด สมมติว่าเราได้บันทึก 20% ของข้อมูลของเราเป็นชุดทดสอบ จากนั้นเราจะแบ่งส่วนที่เหลือแบ่งออกเป็น k เท่าและโดยใช้การตรวจสอบความถูกต้องเราพบว่าแบบจำลองที่สร้างการทำนายที่ดีที่สุดสำหรับข้อมูลที่ไม่รู้จักจากชุดข้อมูลนี้ สมมติว่าแบบจำลองที่ดีที่สุดที่เราพบมีความแม่นยำ75% แบบฝึกหัดและคำถามมากมายในเว็บไซต์ถามตอบต่างๆบอกว่าตอนนี้เราสามารถตรวจสอบโมเดลของเราในชุดข้อมูล (ทดสอบ) ที่บันทึกไว้ แต่ฉันก็ยังไม่สามารถเข้าใจได้ว่ามันถูกต้องหรือไม่ สมมติว่าเรามีความแม่นยำ70%ในชุดข้อมูลการทดสอบ แล้วเราจะทำอย่างไรต่อไป เราลองแบบอื่นแล้วลองอีกแบบจนกว่าเราจะได้คะแนนสูงในชุดทดสอบของเราหรือไม่ แต่ในกรณีนี้จริงๆมันดูเหมือนว่าเราก็จะได้พบกับรูปแบบที่เหมาะกับการ จำกัด (เพียง 20%) ชุดทดสอบของเรา ไม่ได้หมายความว่าเราจะพบกับโมเดลที่ดีที่สุดโดยทั่วไป ยิ่งกว่านั้นเราจะพิจารณาคะแนนนี้เป็นการประเมินแบบทั่วไปได้อย่างไรหากคำนวณเฉพาะในชุดข้อมูลที่ จำกัด เท่านั้น หากคะแนนนี้ต่ำเราอาจโชคไม่ดีและเลือกข้อมูลการทดสอบ "ไม่ดี" ในทางกลับกันถ้าเราใช้ข้อมูลทั้งหมดที่เรามีแล้วเลือกแบบจำลองโดยใช้การตรวจสอบความถูกต้องข้ามของ K-fold เราจะพบรูปแบบที่ทำให้การทำนายที่ดีที่สุดสำหรับข้อมูลที่ไม่รู้จักจากชุดข้อมูลทั้งหมดที่เรามี

2
แบบจำลองสุดท้าย (พร้อมการผลิต) ควรได้รับการฝึกอบรมกับข้อมูลที่สมบูรณ์หรือเพียงแค่ในชุดการฝึกอบรม?
สมมติว่าฉันฝึกหลายรุ่นในชุดฝึกอบรมเลือกหนึ่งชุดที่ดีที่สุดโดยใช้ชุดการตรวจสอบความถูกต้องไขว้และประสิทธิภาพที่วัดได้ในชุดทดสอบ ดังนั้นตอนนี้ฉันมีหนึ่งรุ่นที่ดีที่สุดสุดท้าย ฉันควรสั่งการฝึกอบรมใหม่กับข้อมูลที่มีอยู่ทั้งหมดหรือโซลูชันการจัดส่งที่ฝึกอบรมเฉพาะชุดฝึกอบรมหรือไม่ ถ้าอย่างหลังทำไม? การอัปเดต: ตามที่ @ P.Windridge ระบุไว้การส่งแบบจำลองโดยทั่วไปหมายถึงการจัดส่งแบบจำลองโดยไม่มีการตรวจสอบความถูกต้อง แต่เราสามารถรายงานประสิทธิภาพของชุดการทดสอบและหลังจากนั้นฝึกจำลองข้อมูลที่สมบูรณ์แบบอย่างถูกต้องคาดหวังว่าประสิทธิภาพจะดีขึ้นเพราะเราใช้แบบจำลองที่ดีที่สุดของเราบวกกับข้อมูลมากขึ้น ปัญหาใดที่อาจเกิดขึ้นจากวิธีการดังกล่าว

4
ในฐานะผู้ตรวจทานฉันสามารถจัดให้มีการร้องขอข้อมูลและรหัสได้แม้ว่าวารสารจะไม่ได้ทำหรือไม่?
ในฐานะที่เป็นวิทยาศาสตร์จะต้องทำซ้ำโดยความหมายมีการรับรู้เพิ่มขึ้นว่าข้อมูลและรหัสเป็นองค์ประกอบที่สำคัญของ reproduciblity ตามที่กล่าวโดยเยลโต๊ะกลมสำหรับข้อมูลและการแบ่งปันรหัส ในการตรวจสอบต้นฉบับสำหรับวารสารที่ไม่ต้องการข้อมูลและการแชร์รหัสฉันสามารถขอให้มีการใช้ข้อมูลและรหัสได้หรือไม่ ถึงฉันในเวลาที่รีวิว สาธารณะในเวลาที่เผยแพร่ (วารสารสนับสนุนข้อมูลเพิ่มเติม) นอกจากนี้ฉันจะวลีคำขอดังกล่าวได้อย่างไร อัปเดต : แม้ว่าฉันสนใจกรณีทั่วไป แต่เฉพาะกรณีนี้ประกอบด้วยการวิเคราะห์ meta กับข้อมูลที่เผยแพร่ก่อนหน้านี้ทั้งหมดและรหัสเป็นตัวแบบเชิงเส้นง่าย ๆ ใน SAS หมายเหตุข้างเคียงความสามารถในการอนุมานการศึกษาข้าม (เช่นเดียวกับเป้าหมายของการวิเคราะห์อภิมาน) จะได้รับการปรับปรุงอย่างมากหากมีการศึกษาเพิ่มเติมที่ให้ข้อมูลดิบ อัปเดต 2 : ฉันขอข้อมูลและรหัสจากเครื่องมือแก้ไขเพื่อการตรวจทานบรรณาธิการพิจารณาคำขอที่สมเหตุสมผลและฉันได้รับเนื้อหาที่ร้องขอ (เพียงพอ แต่มีชื่อตัวแปรที่เข้ารหัสลับไม่มีข้อมูลเมตาดาต้าและความคิดเห็นแบบอินไลน์เล็กน้อย) ภายในหนึ่งวัน

3
เราจำเป็นต้องมีชุดทดสอบเมื่อใช้การตรวจสอบความถูกต้องข้ามของ k-fold หรือไม่?
ฉันได้อ่านเกี่ยวกับการตรวจสอบ k-fold และฉันต้องการตรวจสอบให้แน่ใจว่าฉันเข้าใจวิธีการทำงาน ฉันรู้ว่าสำหรับวิธีการค้างไว้ข้อมูลจะถูกแบ่งออกเป็นสามชุดและชุดทดสอบนั้นจะถูกใช้ที่ส่วนท้ายสุดเพื่อประเมินประสิทธิภาพของรุ่นเท่านั้นในขณะที่ชุดการตรวจสอบใช้สำหรับการปรับพารามิเตอร์ไฮเปอร์พารามิเตอร์ ฯลฯ ในวิธีการ k-fold เรายังคงจัดชุดการทดสอบสำหรับส่วนท้ายและใช้เฉพาะข้อมูลที่เหลือสำหรับการฝึกอบรมและการปรับจูนพารามิเตอร์เช่นเราแบ่งข้อมูลที่เหลือเป็น k เท่าแล้วใช้ความแม่นยำเฉลี่ยหลังจากการฝึกอบรม ด้วยการพับแต่ละครั้ง (หรือตัวชี้วัดประสิทธิภาพใดก็ตามที่เราเลือกเพื่อปรับพารามิเตอร์ไฮเปอร์พารามิเตอร์) หรือเราไม่ได้ใช้ชุดทดสอบแยกเลยและแยกชุดข้อมูลทั้งหมดเป็น k เท่า (ถ้าเป็นกรณีนี้ฉันคิดว่าเราแค่พิจารณาความถูกต้องเฉลี่ยบน k เท่าเพื่อความถูกต้องสุดท้ายของเรา)?

4
การปรับพารามิเตอร์ไฮเปอร์พารามิเตอร์นอกการตรวจสอบไขว้นั้นแย่แค่ไหน?
ฉันรู้ว่าการดำเนินการปรับพารามิเตอร์ไฮเปอร์พารามิเตอร์นอกการตรวจสอบข้ามสามารถนำไปสู่การประเมินความถูกต้องภายนอกที่มีความลำเอียงสูงเนื่องจากชุดข้อมูลที่คุณใช้ในการวัดประสิทธิภาพนั้นเป็นชุดเดียวกับที่คุณใช้ปรับคุณสมบัติ สิ่งที่ฉันสงสัยคือปัญหานี้แย่ขนาดไหน ฉันสามารถเข้าใจได้ว่ามันจะไม่ดีจริง ๆ สำหรับการเลือกคุณลักษณะเนื่องจากสิ่งนี้จะให้คุณปรับพารามิเตอร์จำนวนมาก แต่ถ้าคุณใช้บางอย่างเช่น LASSO (ซึ่งมีเพียงพารามิเตอร์เดียว, ความแข็งแกร่งของการทำให้เป็นปกติ) หรือฟอเรสต์แบบสุ่มโดยไม่มีการเลือกคุณสมบัติ (ซึ่งสามารถมีพารามิเตอร์ไม่กี่ตัว ในสถานการณ์เหล่านี้คุณคาดหวังว่าข้อผิดพลาดในการฝึกอบรมของคุณจะเป็นไปในแง่ดีเพียงใด ฉันขอขอบคุณข้อมูลใด ๆ เกี่ยวกับเรื่องนี้ - กรณีศึกษา, เอกสาร, ข้อมูลเล็ก ๆ น้อย ๆ ฯลฯ ขอบคุณ! แก้ไข:เพื่อชี้แจงฉันไม่ได้พูดเกี่ยวกับการประเมินประสิทธิภาพของแบบจำลองในข้อมูลการฝึกอบรม (กล่าวคือไม่ได้ใช้การตรวจสอบความถูกต้องทั้งหมด) โดย "การปรับค่าพารามิเตอร์หลายพารามิเตอร์นอกการตรวจสอบข้าม" ฉันหมายถึงการใช้การตรวจสอบข้ามเพื่อประเมินประสิทธิภาพของแต่ละรุ่นเท่านั้น แต่ไม่รวมลูปการตรวจสอบความถูกต้องภายนอกที่สองเพื่อแก้ไขสำหรับการกำหนดค่าภายในกระบวนการ overfitting ในระหว่างขั้นตอนการฝึกอบรม) ดูเช่นคำตอบที่นี่

2
Bayesian กำลังคิดเรื่องกำลังพลเกินกำลัง
ฉันทุ่มเทเวลาอย่างมากในการพัฒนาวิธีการและซอฟต์แวร์สำหรับตรวจสอบแบบจำลองการทำนายในโดเมนสถิติที่ใช้บ่อย ในการนำแนวคิดแบบเบย์มาใช้ในการฝึกฝนและการสอนฉันเห็นความแตกต่างที่สำคัญในการโอบกอด ขั้นแรกการสร้างแบบจำลองการทำนายแบบเบย์ขอให้นักวิเคราะห์คิดอย่างหนักเกี่ยวกับการแจกแจงก่อนหน้าซึ่งอาจปรับให้เข้ากับคุณสมบัติของผู้สมัครและนักบวชเหล่านี้จะดึงแบบจำลองไปทางพวกเขา (กล่าวคือบรรลุการหด / ลงโทษ ) ประการที่สองวิธีเบย์ "ของจริง" ไม่ได้ส่งผลให้มีรูปแบบเดียว แต่ก็มีการกระจายหลังทั้งหมดสำหรับการทำนาย เมื่อคำนึงถึงคุณสมบัติของเบย์เซียนแล้วความหมายของการ overfitting หมายความว่าอะไร? เราควรประเมินมันหรือไม่? ถ้าเป็นเช่นนั้นได้อย่างไร เราจะรู้ได้อย่างไรว่าแบบจำลองแบบเบย์มีความน่าเชื่อถือสำหรับการใช้งานภาคสนาม? หรือว่าเป็นจุดที่สงสัยตั้งแต่ผู้โพสต์จะดำเนินการตามความไม่แน่นอนให้เตือนทั้งหมดเมื่อเราใช้แบบจำลองที่เราพัฒนาขึ้นสำหรับการทำนาย? ความคิดจะเปลี่ยนไปอย่างไรถ้าเราบังคับให้แบบจำลอง Bayesian กลั่นเป็นตัวเลขเดียวเช่นความเสี่ยงด้านหลัง / โหมด / ค่ามัธยฐานด้านหลัง? ผมเห็นความคิดที่เกี่ยวข้องบางอย่างที่นี่ การอภิปรายขนานอาจจะพบได้ที่นี่ คำถามติดตามผล :: ถ้าเราเป็นคนเบย์อย่างเต็มที่และใช้เวลาคิดเกี่ยวกับนักบวชก่อนที่จะเห็นข้อมูลและเราพอดีกับแบบจำลองที่มีการระบุความน่าจะเป็นของข้อมูลอย่างเหมาะสมเราถูกบังคับให้พอใจกับแบบจำลองของเรา ? หรือเราจำเป็นต้องทำในสิ่งที่เราทำในโลกที่มีผู้ถูกเลือกแบบสุ่มอาจถูกคาดการณ์ได้ดีโดยเฉลี่ย แต่ถ้าเราเลือกวิชาที่มีการทำนายต่ำมากหรือมีค่าที่คาดการณ์ไว้สูงมากจะมีการถดถอย หมายถึงอะไร

3
เราจะตัดสินความแม่นยำของการทำนายของ Nate Silver ได้อย่างไร
ประการแรกเขาให้ความน่าจะเป็นของผลลัพธ์ ตัวอย่างเช่นการคาดการณ์ของเขาสำหรับการเลือกตั้งสหรัฐปัจจุบัน 82% คลินตันเทียบกับ 18% ทรัมป์ ตอนนี้ถึงแม้ว่าทรัมป์ชนะฉันจะรู้ได้อย่างไรว่าไม่ใช่แค่ 18% ของเวลาที่เขาควรจะชนะ ปัญหาอื่นคือความน่าจะเป็นของเขาเปลี่ยนไปตามกาลเวลา ดังนั้นในวันที่ 31 กรกฎาคมมันเกือบ 50-50 ระหว่างทรัมป์และคลินตัน คำถามของฉันคือเนื่องจากเขามีโอกาสที่แตกต่างกันทุกวันสำหรับเหตุการณ์ในอนาคตเดียวกันกับผลลัพธ์เดียวกันฉันจะวัดความแม่นยำของเขาในแต่ละวันได้อย่างไรว่าเขาจะทำนายตามข้อมูลที่มีอยู่ในวันนั้นหรือไม่

2
Scikit วิธีที่ถูกต้องในการปรับเทียบตัวแยกประเภทด้วย CalibratedClassifierCV
Scikit มีCalibratedClassifierCVซึ่งช่วยให้เราสามารถสอบเทียบโมเดลของเราในคู่ X, y ที่เฉพาะเจาะจง มันยังระบุไว้อย่างชัดเจนว่าdata for fitting the classifier and for calibrating it must be disjoint. หากพวกเขาจะต้องแยกจากกันมันถูกต้องหรือไม่ที่จะฝึกตัวจําแนก model = CalibratedClassifierCV(my_classifier) model.fit(X_train, y_train) ฉันกลัวว่าด้วยการใช้ชุดฝึกอบรมชุดเดียวกันฉันกำลังฝ่าฝืนdisjoint dataกฎ ทางเลือกอื่นอาจมีชุดการตรวจสอบความถูกต้อง my_classifier.fit(X_train, y_train) model = CalibratedClassifierCV(my_classifier, cv='prefit') model.fit(X_valid, y_valid) ซึ่งมีข้อเสียคือการทิ้งข้อมูลไว้เพื่อการฝึกอบรมน้อยลง นอกจากนี้หากCalibratedClassifierCVควรพอดีกับรุ่นที่พอดีกับชุดการฝึกอบรมที่แตกต่างกันเหตุใดจึงเป็นตัวเลือกเริ่มต้นcv=3ซึ่งจะพอดีกับตัวประมาณการพื้นฐาน การตรวจสอบความถูกต้องไขว้จัดการกฎความไม่ลงรอยกันด้วยตัวเองหรือไม่? คำถาม: วิธีที่ถูกต้องในการใช้ CalibratedClassifierCV คืออะไร?

3
ฉันสามารถใช้ชุดการตรวจสอบความถูกต้องจิ๋วได้ไหม?
ฉันเข้าใจเหตุผลที่อยู่เบื้องหลังการแยกข้อมูลออกเป็นชุดการทดสอบและชุดการตรวจสอบความถูกต้อง ฉันเข้าใจด้วยว่าขนาดของการแยกจะขึ้นอยู่กับสถานการณ์ แต่โดยทั่วไปจะแตกต่างกันจาก 50/50 ถึง 90/10 ฉันสร้าง RNN เพื่อแก้ไขการสะกดและเริ่มต้นด้วยชุดข้อมูลของประโยค ~ 5m ฉันโกนประโยคที่มีขนาด 500k แล้วฝึกด้วยประโยคที่เหลืออีกประมาณ 4.5m เมื่อการฝึกอบรมเสร็จสิ้นฉันจะใช้ชุดการตรวจสอบความถูกต้องและคำนวณความถูกต้อง สิ่งที่น่าสนใจคือหลังจากเพียง 4% ของชุดการตรวจสอบความถูกต้องของฉันฉันมีความแม่นยำ 69.4% และเปอร์เซ็นต์นี้ไม่เปลี่ยนแปลงมากกว่า 0.1% ในทิศทางใดทิศทางหนึ่ง ในที่สุดฉันเพิ่งตัดการตรวจสอบสั้นเพราะจำนวนติดอยู่ที่ 69.5% เหตุใดจึงต้องลดราคา 10% สำหรับการตรวจสอบความถูกต้องเมื่อฉันสามารถหนีไปได้ด้วย 1% มันสำคัญไหม

1
สัญชาตญาณของตัวอย่างที่แลกเปลี่ยนได้ภายใต้สมมติฐานว่างคืออะไร
การทดสอบการเปลี่ยนรูป (เรียกอีกอย่างว่าการทดสอบแบบสุ่มการทดสอบแบบสุ่มอีกครั้งหรือการทดสอบที่แน่นอน) มีประโยชน์มากและมีประโยชน์เมื่อสมมติฐานของการแจกแจงปกติที่ต้องการโดยตัวอย่างเช่นt-testไม่พบและเมื่อการเปลี่ยนแปลงของค่าโดยการจัดอันดับ การทดสอบแบบไม่มีพารามิเตอร์Mann-Whitney-U-testจะนำไปสู่การสูญเสียข้อมูลมากขึ้น อย่างไรก็ตามไม่ควรมองข้ามสมมุติฐานข้อเดียวและข้อเดียวเพียงข้อเดียวเมื่อใช้การทดสอบชนิดนี้คือข้อสมมติฐานของความสามารถแลกเปลี่ยนได้ของตัวอย่างภายใต้สมมติฐานว่าง เป็นที่น่าสังเกตว่าวิธีการแบบนี้สามารถใช้ได้เมื่อมีตัวอย่างมากกว่าสองตัวอย่างเช่นสิ่งที่นำไปใช้ในcoinแพ็คเกจ R คุณช่วยกรุณาใช้ภาษาที่เป็นรูปเป็นร่างหรือปรีชาเชิงแนวคิดในภาษาอังกฤษธรรมดาเพื่อแสดงสมมติฐานนี้ได้หรือไม่? นี่จะมีประโยชน์มากในการอธิบายปัญหาที่ถูกมองข้ามในหมู่ผู้ที่ไม่ใช่นักสถิติเช่นฉัน หมายเหตุ: จะเป็นประโยชน์อย่างมากหากพูดถึงกรณีที่การใช้การทดสอบการเปลี่ยนแปลงไม่ถือหรือไม่ถูกต้องภายใต้สมมติฐานเดียวกัน ปรับปรุง: สมมติว่าฉันมี 50 วิชาที่รวบรวมจากคลินิกท้องถิ่นในเขตของฉันโดยการสุ่ม พวกเขาถูกสุ่มให้รับยาหรือยาหลอกในอัตราส่วน 1: 1 พวกเขาทั้งหมดถูกวัดสำหรับ Paramerter 1 Par1ที่ V1 (พื้นฐาน), V2 (3 เดือนต่อมา) และ V3 (1 ปีต่อมา) วิชาทั้งหมด 50 กลุ่มสามารถแบ่งเป็น 2 กลุ่มตามคุณสมบัติ A; ค่าบวก = 20 และค่าลบ = 30 นอกจากนี้ยังสามารถจัดกลุ่มย่อยได้อีก 2 กลุ่มตามคุณลักษณะ B; B positive = …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
กระบวนการสำหรับ“ การตรวจสอบ bootstrap” (aka“ resampling cross-validation”) คืออะไร?
"การตรวจสอบความถูกต้อง Bootstrap" / "การตรวจสอบความถูกต้องแบบข้ามภาพ" เป็นสิ่งใหม่สำหรับฉัน แต่ได้มีการพูดคุยกันโดยคำตอบของคำถามนี้ ฉันรวบรวมมันประกอบด้วยข้อมูล 2 ประเภท: ข้อมูลจริงและข้อมูลจำลองที่ชุดข้อมูลจำลองที่กำหนดถูกสร้างขึ้นจากข้อมูลจริงโดยการสุ่มใหม่พร้อมเปลี่ยนใหม่จนกระทั่งข้อมูลจำลองมีขนาดเท่ากับข้อมูลจริง ฉันสามารถคิดถึงวิธีการสองแบบในการใช้ชนิดข้อมูลดังกล่าว: (1) ปรับโมเดลให้เหมาะสมครั้งเดียวประเมินมันหลายครั้งในชุดข้อมูลจำลองจำนวนมาก (2) ปรับโมเดลให้เหมาะสมหลายครั้งโดยใช้ชุดข้อมูลจำลองจำนวนมากแต่ละชุดแต่ละครั้งประเมินกับข้อมูลจริง อันไหนดีกว่ากัน?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.