ฉันกำลังดิ้นรนเพื่อที่จะเข้าใจการแจกแจงที่สูงเกินจริง พวกเขาคืออะไร ประเด็นคืออะไร?
ถ้าฉันมีข้อมูลที่มีศูนย์เป็นจำนวนมากจากนั้นฉันสามารถใส่การถดถอยแบบโลจิสติกก่อนคำนวณความน่าจะเป็นที่เป็นศูนย์จากนั้นฉันสามารถลบศูนย์ทั้งหมดแล้วจึงใส่การถดถอยแบบปกติโดยใช้ตัวเลือกการกระจายของฉัน
จากนั้นมีใครบางคนบอกฉันว่า "เฮ้ใช้การกระจายตัวที่สูงเกินจริงเป็นศูนย์" แต่เมื่อมองดูแล้วดูเหมือนจะไม่ทำอะไรที่แตกต่างไปจากที่ฉันแนะนำไว้ข้างต้น? มันมีพารามิเตอร์ปกติและจากนั้นพารามิเตอร์อื่นเพื่อสร้างแบบจำลองความน่าจะเป็นที่เป็นศูนย์? มันทำทั้งสองอย่างพร้อมกันหรือเปล่า?