ฉันมีชุดข้อมูลที่มีคุณลักษณะ / covariates ที่มีความสัมพันธ์กันประมาณ 5,000 รายการและการตอบกลับแบบไบนารี ข้อมูลถูกมอบให้ฉันฉันไม่ได้เก็บรวบรวม ฉันใช้ Lasso และเพิ่มการไล่ระดับสีเพื่อสร้างแบบจำลอง ฉันใช้การตรวจสอบข้ามแบบซ้อนซ้ำซ้อน ฉันรายงานว่าสัมประสิทธิ์ 40 ที่ใหญ่ที่สุด (สัมบูรณ์) ของ Lasso และ 40 คุณสมบัติที่สำคัญที่สุดในต้นไม้ที่ไล่ระดับสี (ไม่มีอะไรพิเศษเกี่ยวกับ 40 มันดูเหมือนจะเป็นข้อมูลที่สมเหตุสมผล) ฉันยังรายงานความแปรปรวนของปริมาณเหล่านี้ผ่านรอยพับและการวนซ้ำของ CV
ฉันชอบที่จะพูดถึงคุณสมบัติ "สำคัญ" โดยไม่มีการพูดถึงค่า p หรือค่านิยมหรืออะไรก็ตาม แต่แทนที่จะคิดว่ากระบวนการนี้เป็นแบบ --- แม้ว่าจะไม่สมบูรณ์และเรียงลำดับแบบสุ่ม --- เข้าใจลึกลงไปในปรากฏการณ์บางอย่าง
สมมติว่าฉันได้ทำทั้งหมดนี้อย่างถูกต้อง (เช่นดำเนินการตรวจสอบข้ามอย่างถูกต้องปรับขนาดสำหรับเชือก) วิธีนี้มีเหตุผล? มีปัญหากับตัวอย่างเช่นการทดสอบสมมติฐานหลายรายการการวิเคราะห์หลังเลิกเรียนการค้นพบที่ผิดพลาดหรือไม่? หรือปัญหาอื่น ๆ ?
วัตถุประสงค์
ทำนายความน่าจะเป็นของเหตุการณ์ไม่พึงประสงค์
- สำคัญที่สุดประมาณการความน่าจะเป็นได้อย่างแม่นยำ
- ผู้เยาว์เพิ่มเติม - เพื่อการมีสติตรวจสอบ แต่อาจเปิดเผยตัวพยากรณ์ใหม่ที่สามารถตรวจสอบเพิ่มเติมตรวจสอบค่าสัมประสิทธิ์และความสำคัญตามที่กล่าวไว้ข้างต้น
ผู้บริโภค
- นักวิจัยที่สนใจในการทำนายเหตุการณ์นี้และผู้ที่ต้องแก้ไขเหตุการณ์ถ้ามันเกิดขึ้น
สิ่งที่ฉันต้องการให้พวกเขาออกไปจากที่นี่
ให้พวกเขามีความสามารถในการทำนายเหตุการณ์หากพวกเขาต้องการทำซ้ำขั้นตอนการสร้างแบบจำลองดังที่อธิบายไว้ด้วยข้อมูลของตนเอง
หลั่งน้ำตาแสงบางอย่างเกี่ยวกับการคาดการณ์ที่ไม่คาดคิด ตัวอย่างเช่นอาจกลายเป็นว่าสิ่งที่ไม่คาดคิดนั้นเป็นตัวพยากรณ์ที่ดีที่สุด ผู้สร้างแบบจำลองที่อื่นอาจให้ความสำคัญกับการคาดการณ์มากขึ้น