ฉันขอขอบคุณคำแนะนำของคุณอย่างมากในปัญหาต่อไปนี้:
ฉันมีชุดข้อมูลต่อเนื่องขนาดใหญ่ที่มีเลขศูนย์จำนวนมาก (~ 95%) และฉันต้องการค้นหาวิธีที่ดีที่สุดในการทดสอบว่าชุดย่อยบางชุดของมัน "น่าสนใจ" คือดูเหมือนจะไม่ถูกดึงออกมาจากการแจกแจงแบบเดียวกัน ส่วนที่เหลือ. ศูนย์เงินเฟ้อมาจากข้อเท็จจริงที่ว่าแต่ละจุดข้อมูลอิงการวัดจำนวนทั้งจริงและสุ่มตัวอย่างศูนย์ แต่ผลลัพธ์นั้นต่อเนื่องเนื่องจากคำนึงถึงพารามิเตอร์อื่น ๆ ที่ถ่วงน้ำหนักด้วยการนับ (และถ้านับเป็นศูนย์ผลลัพธ์ ยังเป็นศูนย์)
อะไรจะเป็นวิธีที่ดีที่สุดในการทำเช่นนี้? ฉันมีความรู้สึกว่าวิลคอกซันและการทดสอบการเปลี่ยนรูปกำลังเดรัจฉานไม่เพียงพอเนื่องจากศูนย์เหล่านี้เบ้ เพ่งความสนใจไปที่การวัดที่ไม่เป็นศูนย์ยังเอาศูนย์จริงที่มีความสำคัญมาก โมเดลที่ไม่มีการขยายเกินศูนย์สำหรับข้อมูลนับนั้นได้รับการพัฒนามาอย่างดี แต่ไม่เหมาะกับกรณีของฉัน
ฉันพิจารณาว่าการกระจาย Tweedie นั้นเหมาะสมกับข้อมูลและจากนั้นปรับ glm ตามการตอบสนอง = f (subset_label) ในทางทฤษฎีสิ่งนี้ดูเหมือนจะเป็นไปได้ แต่ฉันสงสัยว่า (a) นี่เกินความจริงหรือไม่และ (b) จะยังคงถือว่าโดยปริยายว่าศูนย์ทั้งหมดเป็นศูนย์ตัวอย่างคือจะมีความลำเอียงในลักษณะเดียวกัน
อย่างสังหรณ์ใจดูเหมือนว่ามีการออกแบบแบบลำดับชั้นบางอย่างที่รวมสถิติทวินามตามสัดส่วนของศูนย์และพูดว่าสถิติ Wilcoxon คำนวณจากค่าที่ไม่ใช่ศูนย์ (หรือยังดีกว่าค่าที่ไม่ใช่ศูนย์เสริมด้วยเศษของ ศูนย์ขึ้นอยู่กับบางก่อน) เสียงเหมือนเครือข่ายเบย์ ...
หวังว่าฉันไม่ใช่คนแรกที่มีปัญหานี้ดังนั้นจะขอบคุณมากถ้าคุณสามารถชี้ให้ฉันเห็นเทคนิคที่เหมาะสมที่มีอยู่ ...
ขอบคุณมาก!