การทดสอบสมมติฐานเกี่ยวกับข้อมูลต่อเนื่องที่ไม่พองเกินศูนย์

ฉันขอขอบคุณคำแนะนำของคุณอย่างมากในปัญหาต่อไปนี้:

ฉันมีชุดข้อมูลต่อเนื่องขนาดใหญ่ที่มีเลขศูนย์จำนวนมาก (~ 95%) และฉันต้องการค้นหาวิธีที่ดีที่สุดในการทดสอบว่าชุดย่อยบางชุดของมัน "น่าสนใจ" คือดูเหมือนจะไม่ถูกดึงออกมาจากการแจกแจงแบบเดียวกัน ส่วนที่เหลือ. ศูนย์เงินเฟ้อมาจากข้อเท็จจริงที่ว่าแต่ละจุดข้อมูลอิงการวัดจำนวนทั้งจริงและสุ่มตัวอย่างศูนย์ แต่ผลลัพธ์นั้นต่อเนื่องเนื่องจากคำนึงถึงพารามิเตอร์อื่น ๆ ที่ถ่วงน้ำหนักด้วยการนับ (และถ้านับเป็นศูนย์ผลลัพธ์ ยังเป็นศูนย์)

อะไรจะเป็นวิธีที่ดีที่สุดในการทำเช่นนี้? ฉันมีความรู้สึกว่าวิลคอกซันและการทดสอบการเปลี่ยนรูปกำลังเดรัจฉานไม่เพียงพอเนื่องจากศูนย์เหล่านี้เบ้ เพ่งความสนใจไปที่การวัดที่ไม่เป็นศูนย์ยังเอาศูนย์จริงที่มีความสำคัญมาก โมเดลที่ไม่มีการขยายเกินศูนย์สำหรับข้อมูลนับนั้นได้รับการพัฒนามาอย่างดี แต่ไม่เหมาะกับกรณีของฉัน

ฉันพิจารณาว่าการกระจาย Tweedie นั้นเหมาะสมกับข้อมูลและจากนั้นปรับ glm ตามการตอบสนอง = f (subset_label) ในทางทฤษฎีสิ่งนี้ดูเหมือนจะเป็นไปได้ แต่ฉันสงสัยว่า (a) นี่เกินความจริงหรือไม่และ (b) จะยังคงถือว่าโดยปริยายว่าศูนย์ทั้งหมดเป็นศูนย์ตัวอย่างคือจะมีความลำเอียงในลักษณะเดียวกัน

อย่างสังหรณ์ใจดูเหมือนว่ามีการออกแบบแบบลำดับชั้นบางอย่างที่รวมสถิติทวินามตามสัดส่วนของศูนย์และพูดว่าสถิติ Wilcoxon คำนวณจากค่าที่ไม่ใช่ศูนย์ (หรือยังดีกว่าค่าที่ไม่ใช่ศูนย์เสริมด้วยเศษของ ศูนย์ขึ้นอยู่กับบางก่อน) เสียงเหมือนเครือข่ายเบย์ ...

หวังว่าฉันไม่ใช่คนแรกที่มีปัญหานี้ดังนั้นจะขอบคุณมากถ้าคุณสามารถชี้ให้ฉันเห็นเทคนิคที่เหมาะสมที่มีอยู่ ...

ขอบคุณมาก!

hypothesis-testing

— a11msp
แหล่งที่มา

ปรับปรุง จนถึงตอนนี้ฉันได้พบกระดาษนี้ที่มีปัญหาคล้ายกับของฉัน: maths.otago.ac.nz/home/downloads/david_fletcher/ ......

— a11msp

ฉันสงสัยว่าการประมาณแบบง่ายมากนี้จะสมเหตุสมผลหรือไม่เนื่องจากเลขศูนย์นั้นเป็นเสียงส่วนใหญ่สัมบูรณ์: 1) หาสัดส่วนของศูนย์ในแต่ละชุดย่อย 2) สมมติว่าในเซตย่อยที่มีเลขศูนย์น้อยที่สุดเลขศูนย์ทั้งหมดจะเป็นจริง 3) จากแต่ละชุดย่อยให้ลบสัดส่วนของศูนย์เท่ากับสัดส่วนของศูนย์ในชุดข้อมูล "zero-rich" มากที่สุด 4) เรียกใช้สถิติที่ไม่ใช่พารามิเตอร์แบบมาตรฐานบนชุดข้อมูลที่แก้ไขนี้

— a11msp

การเชื่อมโยงหลายมิติไปยังกระดาษในความคิดเห็นแรกของคุณดูเหมือนจะตายแล้ว คุณสามารถให้การอ้างอิงแทนได้หรือไม่?

— coip

ขอบคุณที่ชี้นำ

— a11msp

คำตอบ:

@msp ฉันคิดว่าคุณกำลังดูโมเดลสองขั้นตอนในไฟล์แนบนั้น (ฉันไม่มีเวลาอ่าน) แต่ข้อมูลต่อเนื่องที่สูงเกินจริงเป็นศูนย์ที่ฉันทำงานด้วยมาก เพื่อให้พอดีกับโมเดลพารามิเตอร์กับข้อมูลนี้ (เพื่ออนุญาตการทดสอบสมมติฐาน) คุณสามารถใส่สองเวทีได้ แต่คุณมีสองโมเดล (Y คือเป้าหมายและ X คือ covariates): P (Y = 0 | X) และ P (Y | x; Y> 0) คุณต้องใช้การจำลองเพื่อ "นำ" สิ่งเหล่านี้มารวมกัน หนังสือ Gelmans (และแพ็คเกจแขนใน R) แสดงกระบวนการนี้สำหรับรุ่นที่แน่นอนนี้ (โดยใช้การถดถอยโลจิสติกและการถดถอยเชิงเส้นปกติพร้อมลิงค์บันทึก)

ตัวเลือกอื่นที่ฉันได้เห็นและชอบดีกว่าคือให้พอดีกับการถดถอยแบบแกมมาที่ไม่พองซึ่งเป็นเช่นเดียวกับข้างบน (แต่แกมม่าเป็นข้อผิดพลาดแทนที่จะเป็น guassian) และคุณสามารถนำพวกเขามารวมกันเพื่อทดสอบสมมติฐานบน P (Y | X) . ฉันไม่รู้วิธีการทำเช่นนี้ใน R แต่คุณสามารถทำได้ใน SAS NLMIXED ดูกระทู้นี้มันใช้งานได้ดี

— B_Miner
แหล่งที่มา

@B_Miner ขอบคุณมากสำหรับคำตอบของคุณขออภัยมีคะแนนไม่พอที่จะให้คะแนนคุณ ... ฉันจะดูที่ลิงก์! สิ่งเดียวที่ฉันกังวลเกี่ยวกับแบบจำลองที่มีเงื่อนไขคือพวกมันบอกว่าศูนย์ไม่สามารถเป็นขององค์ประกอบที่สอง (ต่อเนื่อง) ฉันถูกไหม? การตั้งค่าของฉันไม่รู้สึกเหมือนเป็นแบบจำลองการผสมหรือไม่? คุณคิดอย่างไร?

— a11msp

ตอนนี้ฉันได้จำลองวิธีการสองขั้นตอนที่เสนอในหนังสือ Gelman แล้ว หาก subset_factor (ที่มี 25 ระดับ) ทำหน้าที่เป็นป้ายกำกับชุดย่อยขั้นตอนแรกคือ fit1 = glm (การตอบสนอง ~ subset_factor, family = binomial); และขั้นตอนที่สองคือ fit2 = lm (การตอบสนอง ~ subset_factor, subset = response> 0) จากนั้นฉันสามารถเรียกใช้สถานการณ์จำลองเพื่ออธิบายการกระจายของค่าการตอบสนองที่เหมาะสมสำหรับแต่ละระดับปัจจัย อย่างไรก็ตามฉันยังไม่แน่ใจว่าจะแปลสิ่งนี้เป็นสิ่งที่ฉันต้องการได้อย่างไรซึ่งก็คือ (a) ความน่าจะเป็นที่สัมประสิทธิ์ไม่เป็นศูนย์และ (b) ความสำคัญของความแตกต่างระหว่างสัมประสิทธิ์ในระดับปัจจัยที่แตกต่างกัน

— a11msp

วิธีการสองขั้นตอน (วิธี Gelman ของแบบจำลองแยกสองแบบ) ถือว่าสองประชากรซึ่งเป็นศูนย์และด้านบน

— B_Miner

... ดังนั้นจะเป็นการเหมาะสมหรือไม่ที่จะพูดง่ายๆว่าหากผลกระทบของระดับปัจจัยบางอย่างมีนัยสำคัญ (และแตกต่างอย่างมากจากระดับปัจจัยอื่น ๆ ) ในทั้งสองรุ่นในวิธีการของ Gelman มันจะมีความหมายโดยรวมหรือไม่

— a11msp

ใช่วิธีการสองขั้นตอน (วิธี Gelman ของแบบจำลองแยกสองตัว) ถือว่าประชากรสองคนที่เป็นศูนย์และที่> 0 สำหรับการทดสอบสมมติฐานคุณสามารถจัดวางพวกมันในแง่ของค่าที่ทำนายสำหรับระดับที่แตกต่างกันของอินพุตและสร้างเชิงประจักษ์ ช่วงความเชื่อมั่นที่เกี่ยวข้องกับแบบจำลองสำหรับแต่ละ? สำหรับการทดสอบสมมติฐานสำหรับสัมประสิทธิ์! = 0 คุณจะต้องทดสอบนี้แยกกันสำหรับทั้งสองรุ่น

— B_Miner

วิธีการคล้ายกับกระดาษพิมพ์เล็กเฟลทเชอร์นั้นใช้ในการทดสอบทางการตลาดซึ่งเราสามารถแยกผลกระทบจากการแทรกแซง (เช่นการโฆษณา) ลงใน (a) การเปลี่ยนแปลงจำนวนการซื้อแบรนด์ (เช่นสัดส่วนของศูนย์) และ (b) a เปลี่ยนความถี่ในการซื้อคลื่นความถี่ (ยอดขายที่ได้รับเกิดขึ้นเลย) นี่เป็นแนวทางที่มั่นคงและมีความหมายเชิงแนวคิดในบริบทการตลาดและในบริบททางนิเวศวิทยาเฟลทเชอร์กล่าวถึง อันที่จริงสามารถขยายได้ถึง (c) การเปลี่ยนแปลงขนาดของการซื้อแต่ละครั้ง

— zbicyclist
แหล่งที่มา

ขอบคุณ! ฉันสงสัยว่าถ้าคุณทราบถึงการนำ r ที่มีอยู่ไปใช้หรือไม่

— a11msp

คุณสามารถรักษาจำนวนที่แน่นอนของศูนย์ที่ไม่รู้จัก แต่ถูก จำกัด ระหว่าง 0 และจำนวนศูนย์ที่สังเกตได้ สิ่งนี้สามารถจัดการได้โดยใช้สูตรแบบเบย์ บางทีวิธีการใส่หลายแบบอาจถูกปรับแต่งเพื่อปรับน้ำหนัก (ระหว่าง 0 ถึง 1) ของการสังเกตเป็นศูนย์อย่างเหมาะสม ...

— GaBorgulya
แหล่งที่มา