ข้อมูลที่มีมิติข้อมูลที่มีความสัมพันธ์สูงและคุณลักษณะยอดนิยม / การแปรสภาพที่ค้นพบ; การทดสอบสมมติฐานหลายรายการ?


9

ฉันมีชุดข้อมูลที่มีคุณลักษณะ / covariates ที่มีความสัมพันธ์กันประมาณ 5,000 รายการและการตอบกลับแบบไบนารี ข้อมูลถูกมอบให้ฉันฉันไม่ได้เก็บรวบรวม ฉันใช้ Lasso และเพิ่มการไล่ระดับสีเพื่อสร้างแบบจำลอง ฉันใช้การตรวจสอบข้ามแบบซ้อนซ้ำซ้อน ฉันรายงานว่าสัมประสิทธิ์ 40 ที่ใหญ่ที่สุด (สัมบูรณ์) ของ Lasso และ 40 คุณสมบัติที่สำคัญที่สุดในต้นไม้ที่ไล่ระดับสี (ไม่มีอะไรพิเศษเกี่ยวกับ 40 มันดูเหมือนจะเป็นข้อมูลที่สมเหตุสมผล) ฉันยังรายงานความแปรปรวนของปริมาณเหล่านี้ผ่านรอยพับและการวนซ้ำของ CV

ฉันชอบที่จะพูดถึงคุณสมบัติ "สำคัญ" โดยไม่มีการพูดถึงค่า p หรือค่านิยมหรืออะไรก็ตาม แต่แทนที่จะคิดว่ากระบวนการนี้เป็นแบบ --- แม้ว่าจะไม่สมบูรณ์และเรียงลำดับแบบสุ่ม --- เข้าใจลึกลงไปในปรากฏการณ์บางอย่าง

สมมติว่าฉันได้ทำทั้งหมดนี้อย่างถูกต้อง (เช่นดำเนินการตรวจสอบข้ามอย่างถูกต้องปรับขนาดสำหรับเชือก) วิธีนี้มีเหตุผล? มีปัญหากับตัวอย่างเช่นการทดสอบสมมติฐานหลายรายการการวิเคราะห์หลังเลิกเรียนการค้นพบที่ผิดพลาดหรือไม่? หรือปัญหาอื่น ๆ ?

วัตถุประสงค์

ทำนายความน่าจะเป็นของเหตุการณ์ไม่พึงประสงค์

  • สำคัญที่สุดประมาณการความน่าจะเป็นได้อย่างแม่นยำ
  • ผู้เยาว์เพิ่มเติม - เพื่อการมีสติตรวจสอบ แต่อาจเปิดเผยตัวพยากรณ์ใหม่ที่สามารถตรวจสอบเพิ่มเติมตรวจสอบค่าสัมประสิทธิ์และความสำคัญตามที่กล่าวไว้ข้างต้น

ผู้บริโภค

  • นักวิจัยที่สนใจในการทำนายเหตุการณ์นี้และผู้ที่ต้องแก้ไขเหตุการณ์ถ้ามันเกิดขึ้น

สิ่งที่ฉันต้องการให้พวกเขาออกไปจากที่นี่

  • ให้พวกเขามีความสามารถในการทำนายเหตุการณ์หากพวกเขาต้องการทำซ้ำขั้นตอนการสร้างแบบจำลองดังที่อธิบายไว้ด้วยข้อมูลของตนเอง

  • หลั่งน้ำตาแสงบางอย่างเกี่ยวกับการคาดการณ์ที่ไม่คาดคิด ตัวอย่างเช่นอาจกลายเป็นว่าสิ่งที่ไม่คาดคิดนั้นเป็นตัวพยากรณ์ที่ดีที่สุด ผู้สร้างแบบจำลองที่อื่นอาจให้ความสำคัญกับการคาดการณ์มากขึ้น


มันจะมีประโยชน์ที่จะรู้ว่าเจตนาคืออะไรที่นี่ คุณทำสิ่งเหล่านี้ทำไม ใครคือผู้บริโภคและสิ่งที่คุณต้องการให้พวกเขาออกไปจากการวิเคราะห์?
Matthew Drury

คำตอบ:


2

ไม่มีปัญหากับความแม่นยำของการทำนาย ความไม่แน่นอนในการคาดคะเนของคุณนั้นดีจากการประมาณค่าครอสวาลเดชัน อาจมีข้อแม้หนึ่งข้อที่ว่าถ้าคุณทดสอบการตั้งค่าพารามิเตอร์จำนวนมากคุณประเมินค่าความแม่นยำสูงเกินไปดังนั้นคุณควรใช้ชุดการตรวจสอบเพื่อประเมินความแม่นยำของแบบจำลองสุดท้ายของคุณ นอกจากนี้ข้อมูลของคุณควรเป็นตัวแทนของข้อมูลที่คุณคาดการณ์ไว้

ชัดเจนสำหรับคุณและควรชัดเจนต่อผู้อ่านว่าตัวทำนายของคุณไม่ใช่สาเหตุของผลกระทบพวกมันเป็นเพียงตัวทำนายที่ทำนายผลได้ดีและทำงานได้ดี ในขณะที่ฉันเห็นด้วยกับความระมัดระวังของคุณอย่างสมบูรณ์ แต่การอนุมานสาเหตุของข้อมูลเชิงสังเกตเป็นปัญหาในทุกกรณี สิ่งต่าง ๆ ที่มีความสำคัญและเป็นแนวคิดที่“ ถูกต้อง” ในการศึกษาที่ออกแบบมาอย่างดีควบคุมได้และนอกเหนือจากนั้นเป็นเพียงเครื่องมือที่คุณและคนอื่น ๆ ควรตีความอย่างชาญฉลาดและด้วยความระมัดระวัง อาจมีสาเหตุทั่วไปเอฟเฟ็กต์การหลอกลวงและสิ่งอื่น ๆ ที่เกิดขึ้นในการถดถอยเชิงเส้นปกติที่มีช่วงความเชื่อมั่นที่รายงานและในแบบจำลองเชือกเช่นเดียวกับในรูปแบบต้นไม้ไล่ระดับสีเพิ่มขึ้น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.