วิธีการทดสอบ / พิสูจน์ข้อมูลเป็นศูนย์ที่สูงเกินจริง?

9

ฉันมีปัญหาที่ฉันคิดว่าควรจะง่าย แต่ไม่สามารถเข้าใจได้ ฉันกำลังดูการผสมเกสรของเมล็ดฉันมีพืช (n = 36) ดอกไม้ที่อยู่ในกลุ่มฉันลองกลุ่มดอกไม้ 3 กลุ่มจากแต่ละต้นและฝัก 6 เมล็ดจากแต่ละกลุ่ม (18 ฝักทั้งหมดจากแต่ละต้น) ฝักสามารถมีได้ระหว่าง 0 ถึงมากที่สุด 4 เมล็ดเรณู ดังนั้นข้อมูลจะถูกนับด้วยขอบเขตบน ฉันกำลังหาค่าเฉลี่ยของเมล็ดประมาณ 10% ของเรณู แต่ที่ใดก็ได้ระหว่าง 1 - 30% ในพืชที่กำหนดดังนั้นมากกว่าข้อมูลที่กระจัดกระจายและแน่นอนว่ามีคลัสเตอร์ที่หายไป 4 ต้นใน 3 พืชดังนั้นจึงไม่สมมาตรอย่างสมบูรณ์ .

คำถามที่ฉันถามคือถ้าข้อมูลนี้สนับสนุนความคิดที่โรงงานนี้ต้องการการถ่ายละอองเรณูสำหรับชุดเมล็ด

ฉันพบว่าการกระจายของจำนวนเมล็ดในฝักดูเหมือนจะมีมากกว่า 0 ฝักเรณู (6-9 ฝักจาก 16) และอื่น ๆ 3 และ 4 พอดเรณูเมล็ด (2-4 สำหรับแต่ละ) กว่าจะ จะคาดหวังถ้าเมล็ดในประชากรเป็นเพียงการผสมเกสรแบบสุ่ม โดยพื้นฐานแล้วฉันคิดว่านี่เป็นตัวอย่างแบบคลาสสิกสำหรับข้อมูลที่สูงเกินจริงศูนย์แมลงตัวแรกทำอย่างใดอย่างหนึ่งหรือไม่ได้เยี่ยมชมดอกไม้เลย (เครื่องกำเนิดศูนย์ 1 อัน) และถ้าเป็นเช่นนั้นก็ผสมเรณู 0-4 ของเมล็ด สมมติฐานทางเลือกคือพืชมีการเซลบางส่วนและจากนั้นคาดว่าทุกเมล็ดจะมีความน่าจะเป็นเรณูเดียวกัน (ข้อมูลนี้แสดงให้เห็นโอกาส 0.1 โดยประมาณซึ่งหมายถึงโอกาส 0.01 สำหรับเมล็ดสองเมล็ดในฝักเดียวกันเป็นต้น) .

แต่ฉันต้องการแสดงให้เห็นถึงข้อมูลที่เหมาะที่สุดกับการกระจายตัวอื่น ๆ ไม่ใช่ ZIP หรือ ZINB กับข้อมูล ฉันคิดว่าวิธีใดก็ตามที่ฉันใช้ควรคำนึงถึงจำนวนเมล็ดเรณูที่แท้จริงและจำนวนฝักที่เก็บตัวอย่างในแต่ละต้น สิ่งที่ดีที่สุดที่ฉันคิดไว้คือทำรองเท้าบู๊ตที่ฉันกำหนดจำนวนเมล็ดเรณูสำหรับพืชที่กำหนดไว้ในจำนวนฝักที่ฉันสุ่มเลือกทำ 10,000 ครั้งแล้วดูว่ามันมีโอกาสมากแค่ไหน ข้อมูลการทดลองสำหรับพืชที่กำหนดนั้นมาจากการกระจายแบบสุ่ม

ฉันแค่รู้สึกว่ามีบางอย่างเกี่ยวกับเรื่องนี้ที่ควรจะง่ายกว่าการบังคับให้ติดตั้งสัตว์ป่า แต่หลังจากผ่านไปหลายวันที่ฉันคิดและค้นหาฉันยอมแพ้ ฉันไม่สามารถเปรียบเทียบกับการกระจายของปัวซองได้เนื่องจากมันเป็นขอบเขตสูงสุดไม่ใช่ทวินามเพราะฉันต้องสร้างการกระจายที่คาดหวังไว้อย่างใดอันดับหนึ่ง ความคิดใด ๆ และฉันใช้ R ดังนั้นคำแนะนำที่นั่น (โดยเฉพาะอย่างยิ่งวิธีสร้างการแจกสุ่มของลูกบอล n 10,000 ลูกให้เป็น 16 กล่องที่แต่ละกล่องบรรจุได้สูงสุด 4 ลูก) จะได้รับการต้อนรับมากที่สุด

เพิ่ม 9/07/2012 ก่อนอื่นขอขอบคุณทุกท่านที่ให้ความสนใจและความช่วยเหลือ การอ่านคำตอบทำให้ฉันคิดว่าการตั้งคำถามใหม่อีกครั้ง สิ่งที่ฉันกำลังพูดคือว่าฉันมีหนึ่งสมมติฐาน (ซึ่งตอนนี้ฉันคิดว่าเป็นโมฆะ) ที่เมล็ดมีการผสมเกสรแบบสุ่มในฝักและสมมติฐานทางเลือกของฉันคือฝักเมล็ดที่มีเมล็ดผสมอย่างน้อย 1 มีแนวโน้มที่จะ มีเรณูหลายเมล็ดกว่าที่คาดไว้โดยกระบวนการสุ่ม ฉันได้ให้ข้อมูลจริงจากต้นไม้สามต้นเป็นตัวอย่างเพื่อแสดงสิ่งที่ฉันกำลังพูดถึง คอลัมน์แรกคือจำนวนของเมล็ดพันธุ์ผสมในฝักคอลัมน์ที่สองคือความถี่ของฝักที่มีจำนวนเมล็ด

พืช 1 (รวม 3 เมล็ด: การผสมเกสร 4%)

num.seeds :: pod.freq

0 :: 16

1 :: 1

2 :: 1

3 :: 0

4 :: 0

พืช 2 (รวม 19 เมล็ด: การผสมเกสร 26%)

num.seeds :: pod.freq

0 :: 12

1 :: 1

2 :: 1

3 :: 0

4 :: 4

ปลูก 3 (รวม 16 เมล็ด: การผสมเกสร 22%)

num.seeds :: pod.freq

0 :: 9

1 :: 4

2 :: 3

3 :: 2

4 :: 0

ในโรงงาน # 1 มีเรณูเพียง 3 เมล็ดใน 18 ฝักหนึ่งฝักมีหนึ่งเมล็ดและหนึ่งฝักมีสองเมล็ด คิดถึงกระบวนการเพิ่มเมล็ดหนึ่งเมล็ดเข้าไปในฝักโดยสุ่มเมล็ดสองเมล็ดแรกเข้าไปในฝักของตนเอง แต่สำหรับเมล็ดที่ 3 มี 6 จุดในฝักที่มีหนึ่งเมล็ด แต่มี 64 จุดใน 16 ฝัก ที่ไม่มีเมล็ดดังนั้นความน่าจะเป็นสูงสุดของฝักที่มี 2 เมล็ดที่นี่คือ 6/64 = 0.094 มันค่อนข้างต่ำ แต่ก็ไม่สุดขีดดังนั้นฉันจึงบอกว่าโรงงานนี้เหมาะกับสมมติฐานของการผสมเกสรแบบสุ่มในเมล็ดทั้งหมดที่มีโอกาสเกิดการผสมเกสรประมาณ 4% แต่พืช 2 ดูมากขึ้นมากสำหรับฉันด้วย 4 ฝักผสมเกสรอย่างสมบูรณ์ แต่ 12 ฝักไม่มีอะไร ฉันไม่แน่ใจว่าจะคำนวณอัตราต่อรองของการกระจายตัวนี้โดยตรงได้อย่างไร (ดังนั้นจึงเป็นความคิด bootstrap ของฉัน) แต่ฉันเดาว่าโอกาสของการกระจายตัวนี้เกิดขึ้นแบบสุ่มถ้าแต่ละเมล็ดมีโอกาส 25% ของการผสมเกสรค่อนข้างต่ำ พืช # 3 ฉันไม่มีความคิดจริง ๆ ฉันคิดว่ามีมากกว่า 0 และ 3 มากกว่าที่ควรคาดหวังสำหรับการกระจายแบบสุ่ม แต่ความรู้สึกของฉันคือการกระจายนี้สำหรับเมล็ดจำนวนนี้มีแนวโน้มมากกว่าการกระจายสำหรับพืช # 2 และอาจไม่น่าเป็นไปได้ แต่เห็นได้ชัดว่าฉันต้องการทราบอย่างแน่นอนและในพืชทั้งหมด ฉันคิดว่ามีมากกว่า 0 และ 3 มากกว่าที่ควรคาดหวังสำหรับการแจกแจงแบบสุ่ม แต่ความรู้สึกของฉันคือการกระจายตัวของเมล็ดนี้มีแนวโน้มที่จะดีกว่าการกระจายสำหรับพืช # 2 และอาจไม่น่าเป็นไปได้ แต่เห็นได้ชัดว่าฉันต้องการทราบอย่างแน่นอนและในพืชทั้งหมด ฉันคิดว่ามีมากกว่า 0 และ 3 มากกว่าที่ควรคาดหวังสำหรับการแจกแจงแบบสุ่ม แต่ความรู้สึกของฉันคือการกระจายตัวของเมล็ดนี้มีแนวโน้มที่จะดีกว่าการกระจายสำหรับพืช # 2 และอาจไม่น่าเป็นไปได้ แต่เห็นได้ชัดว่าฉันต้องการทราบอย่างแน่นอนและในพืชทั้งหมด

ในที่สุดฉันต้องการเขียนคำสั่งเช่น "การกระจายของเมล็ดพันธุ์ผสมในฝักเมล็ดพอดี (หรือไม่พอดี) สมมุติฐานว่าพืชไม่เพียงแค่บางส่วนเข้ากันได้เอง แต่ต้องการการสำรวจของเรณูเพื่อให้เกิดชุดเมล็ด (ผลการทดสอบทางสถิติ)” นี่เป็นเพียงส่วนหนึ่งของส่วนมองไปข้างหน้าของฉันซึ่งฉันกำลังพูดถึงการทดลองที่จะดำเนินการต่อไปดังนั้นฉันจึงไม่อยากให้เรื่องนี้เป็นเรื่องหนึ่งหรืออย่างอื่น แต่ฉันอยากรู้ด้วยตัวเองถ้าเป็นไปได้ ถ้าฉันไม่สามารถทำสิ่งที่ฉันพยายามจะทำกับข้อมูลนี้ฉันก็อยากจะรู้เช่นกัน!

ฉันถามคำถามที่ค่อนข้างกว้างในตอนแรกเนื่องจากฉันอยากรู้ว่ามีการทดสอบที่ดีใด ๆ ที่แสดงว่าข้อมูลควรเข้าสู่แบบจำลองที่สูงเกินจริงหรือไม่ในตอนแรก ตัวอย่างทั้งหมดที่ฉันเคยเห็นดูเหมือนจะบอกว่า -“ ดูมีจำนวนศูนย์อยู่ที่นี่และมีคำอธิบายที่สมเหตุสมผลสำหรับเรื่องนั้น นั่นคือสิ่งที่ฉันทำตอนนี้ในฟอรั่มนี้ แต่ฉันมีประสบการณ์ในบทสุดท้ายของฉันที่ฉันใช้ Poisson glm เพื่อนับข้อมูลและหนึ่งในหัวหน้างานของฉันกล่าวว่า "ไม่ glms ซับซ้อนเกินไปและไม่จำเป็นข้อมูลนี้ควร เข้าไปในตารางฉุกเฉิน” จากนั้นส่งดัมพ์ข้อมูลของตารางฉุกเฉินขนาดใหญ่ที่สร้างขึ้นโดยแพคเกจสถิติราคาแพงของพวกเขาซึ่งให้ค่า p เดียวกันสำหรับปัจจัยทั้งหมดของฉัน + การโต้ตอบกับตัวเลขสามหลัก !! ดังนั้นฉันพยายามทำให้สถิติชัดเจนและเรียบง่าย และให้แน่ใจว่าฉันเข้าใจพวกเขาดีพอที่จะปกป้องตัวเลือกของฉันอย่างแข็งแรงซึ่งฉันไม่รู้สึกว่าฉันสามารถทำอะไรกับรุ่นที่สูงเกินจริงได้ในตอนนี้ ฉันใช้ทั้ง quasibinomial (สำหรับพืชทั้งต้นเพื่อกำจัด pesudoreplicaiton) และแบบจำลองผสมสำหรับข้อมูลข้างต้นเพื่อเปรียบเทียบการรักษาและตอบคำถามการทดลองหลักของฉันดูเหมือนว่าจะทำงานเดียวกัน แต่ฉันจะไปด้วย เล่นกับ ZINB คืนนี้เพื่อดูว่ามันทำงานได้ดีแค่ไหน ฉันคิดว่าถ้าฉันสามารถแสดงให้เห็นอย่างชัดเจนว่าข้อมูลนี้มีการรวมกลุ่มกันอย่างรุนแรง (หรือเป็นศูนย์ที่สูงเกินจริง) ในตอนแรกจากนั้นให้เหตุผลทางชีววิทยาที่ดีสำหรับสิ่งที่เกิดขึ้นฉันจะถูกจัดตั้งขึ้นเพื่อดึง ZINB ในภายหลัง เพียงแค่เปรียบเทียบหนึ่งแบบกับ quasibinomial / แบบผสมและให้เหตุผลเนื่องจากมันให้ผลลัพธ์ที่ดีกว่านั่นคือสิ่งที่ฉันควรใช้ ซึ่งฉันไม่รู้สึกว่าฉันสามารถทำกับรุ่นที่สูงเกินจริงได้ในขณะนี้ ฉันใช้ทั้ง quasibinomial (สำหรับพืชทั้งต้นเพื่อกำจัด pesudoreplicaiton) และแบบจำลองผสมสำหรับข้อมูลข้างต้นเพื่อเปรียบเทียบการรักษาและตอบคำถามการทดลองหลักของฉันดูเหมือนว่าจะทำงานเดียวกัน แต่ฉันจะไปด้วย เล่นกับ ZINB คืนนี้เพื่อดูว่ามันทำงานได้ดีแค่ไหน ฉันคิดว่าถ้าฉันสามารถแสดงให้เห็นอย่างชัดเจนว่าข้อมูลนี้มีการรวมกลุ่มกันอย่างรุนแรง (หรือเป็นศูนย์ที่สูงเกินจริง) ในตอนแรกจากนั้นให้เหตุผลทางชีววิทยาที่ดีสำหรับสิ่งที่เกิดขึ้นฉันจะถูกจัดตั้งขึ้นเพื่อดึง ZINB ในภายหลัง เพียงแค่เปรียบเทียบหนึ่งแบบกับ quasibinomial / แบบผสมและให้เหตุผลเนื่องจากมันให้ผลลัพธ์ที่ดีกว่านั่นคือสิ่งที่ฉันควรใช้ ซึ่งฉันไม่รู้สึกว่าฉันสามารถทำกับรุ่นที่สูงเกินจริงได้ในขณะนี้ ฉันใช้ทั้ง quasibinomial (สำหรับพืชทั้งต้นเพื่อกำจัด pesudoreplicaiton) และแบบจำลองผสมสำหรับข้อมูลข้างต้นเพื่อเปรียบเทียบการรักษาและตอบคำถามการทดลองหลักของฉันดูเหมือนว่าจะทำงานเดียวกัน แต่ฉันจะไปด้วย เล่นกับ ZINB คืนนี้เพื่อดูว่ามันทำงานได้ดีแค่ไหน ฉันคิดว่าถ้าฉันสามารถแสดงให้เห็นอย่างชัดเจนว่าข้อมูลนี้มีการรวมกลุ่มกันอย่างรุนแรง (หรือเป็นศูนย์ที่สูงเกินจริง) ในตอนแรกจากนั้นให้เหตุผลทางชีววิทยาที่ดีสำหรับสิ่งที่เกิดขึ้นฉันจะถูกจัดตั้งขึ้นเพื่อดึง ZINB ในภายหลัง เพียงแค่เปรียบเทียบหนึ่งแบบกับ quasibinomial / แบบผสมและให้เหตุผลเนื่องจากมันให้ผลลัพธ์ที่ดีกว่านั่นคือสิ่งที่ฉันควรใช้ ฉันใช้ทั้ง quasibinomial (สำหรับพืชทั้งต้นเพื่อกำจัด pesudoreplicaiton) และแบบจำลองผสมสำหรับข้อมูลข้างต้นเพื่อเปรียบเทียบการรักษาและตอบคำถามการทดลองหลักของฉันดูเหมือนว่าจะทำงานเดียวกัน แต่ฉันจะไปด้วย เล่นกับ ZINB คืนนี้เพื่อดูว่ามันทำงานได้ดีแค่ไหน ฉันคิดว่าถ้าฉันสามารถแสดงให้เห็นอย่างชัดเจนว่าข้อมูลนี้มีการรวมกลุ่มกันอย่างรุนแรง (หรือเป็นศูนย์ที่สูงเกินจริง) ในตอนแรกจากนั้นให้เหตุผลทางชีววิทยาที่ดีสำหรับสิ่งที่เกิดขึ้นฉันจะถูกจัดตั้งขึ้นเพื่อดึง ZINB ในภายหลัง เพียงแค่เปรียบเทียบหนึ่งแบบกับ quasibinomial / แบบผสมและให้เหตุผลเนื่องจากมันให้ผลลัพธ์ที่ดีกว่านั่นคือสิ่งที่ฉันควรใช้ ฉันใช้ทั้ง quasibinomial (สำหรับพืชทั้งต้นเพื่อกำจัด pesudoreplicaiton) และแบบจำลองผสมสำหรับข้อมูลข้างต้นเพื่อเปรียบเทียบการรักษาและตอบคำถามการทดลองหลักของฉันดูเหมือนว่าจะทำงานเดียวกัน แต่ฉันจะไปด้วย เล่นกับ ZINB คืนนี้เพื่อดูว่ามันทำงานได้ดีแค่ไหน ฉันคิดว่าถ้าฉันสามารถแสดงให้เห็นอย่างชัดเจนว่าข้อมูลนี้มีการรวมกลุ่มกันอย่างรุนแรง (หรือเป็นศูนย์ที่สูงเกินจริง) ในตอนแรกจากนั้นให้เหตุผลทางชีววิทยาที่ดีสำหรับสิ่งที่เกิดขึ้นฉันจะถูกจัดตั้งขึ้นเพื่อดึง ZINB ในภายหลัง เพียงแค่เปรียบเทียบหนึ่งแบบกับ quasibinomial / แบบผสมและให้เหตุผลเนื่องจากมันให้ผลลัพธ์ที่ดีกว่านั่นคือสิ่งที่ฉันควรใช้

แต่ฉันไม่ต้องการเบี่ยงเบนความสนใจจากคำถามหลักของฉันมากเกินไปฉันจะทราบได้อย่างไรว่าข้อมูลของฉันสูงเกินจริงกว่าที่คาดไว้จากการกระจายแบบสุ่มหรือไม่ ในกรณีของฉันคำตอบคือสิ่งที่ฉันสนใจจริง ๆ พร้อมกับผลประโยชน์ที่เป็นไปได้สำหรับการสร้างแบบจำลองการเป็นโบนัส

ขอบคุณอีกครั้งสำหรับทุกเวลาและช่วยคุณ!

ไชโย BWGIA

r distributions bootstrap zero-inflation

— BWGIA
แหล่งที่มา

ทำไมคุณไม่ต้องการให้พอดีกับโมเดลไบโนเมียลที่มีค่าศูนย์?

— atiretoo - คืนสถานะโมนิก้า

สมมติฐาน "การทำให้ตัวเองบางส่วน" เป็นข้อยกเว้นเฉพาะของ "การถ่ายละอองเรณู"? ถ้าเป็นเช่นนั้นโมเดลที่ 2 ของคุณจะเป็นแบบจำลองทวินามที่มีความน่าจะเป็น p และขนาด = 4

— atiretoo - คืนสถานะโมนิก้า

5

ดูเหมือนว่าจะเป็นรูปแบบผสมที่ค่อนข้างตรงไปตรงมาสำหรับฉัน คุณมีฝักเมล็ดซ้อนอยู่ในกลุ่มที่ซ้อนกันเป็นพืชและคุณสามารถใส่แบบจำลองทวินามด้วยเอฟเฟกต์แบบสุ่มในแต่ละขั้นตอน:

    library(lme4)
    binre <- lmer( pollinated ~ 1 + (1|plant) + (1|cluster), data = my.data, family = binomial)

หรือร่วมกับเพื่อนร่วมงานหากคุณมี หากดอกไม้ผสมเกสรด้วยตนเองคุณอาจเห็นผลกระทบเล็กน้อยบางอย่างเนื่องจากความแปรปรวนตามธรรมชาติในวิธีที่พืชมีชีวิตด้วยตนเอง อย่างไรก็ตามหากความแปรปรวนส่วนใหญ่ในการตอบสนองนั้นขับเคลื่อนด้วยความแปรปรวนแบบพูดของกลุ่มคุณจะมีหลักฐานที่ชัดเจนของการผสมเกสรโดยแมลงที่อาจเข้าเยี่ยมชมเฉพาะกลุ่มที่เลือกในโรงงาน คุณจะต้องการการกระจายแบบสุ่มที่ไม่ใช่พารามิเตอร์ของผลแบบสุ่มมากกว่าแบบเกาส์: มวลที่เป็นศูนย์โดยที่ไม่มีการเข้าเยี่ยมชมแมลงและมวลที่มีค่าเป็นบวก คุณสามารถใส่มันลงในแพ็คเกจ GLLAMM Stata ได้ฉันจะแปลกใจถ้ามันเป็นไปไม่ได้ใน R

อาจเป็นไปได้สำหรับการทดลองที่สะอาดคุณต้องการให้มีพืชอยู่ข้างในหรืออย่างน้อยก็ในที่ที่ไม่มีแมลงเข้าถึงและดูว่ามีเรณูกี่เมล็ด นั่นอาจจะตอบคำถามของคุณทั้งหมดด้วยวิธีการที่เข้มงวดกว่า

— StasK
แหล่งที่มา

ฉันจะลองสิ่งนี้ฉันคิดว่ามันจะช่วยตอบคำถามของตัวเอง แต่ไม่แน่ใจว่าจะโน้มน้าวผู้อื่นอย่างไร คุณกำลังอยู่ในส่วนที่สองฉันพยายามที่จะคิดว่าข้อมูลนี้แจ้งการทดสอบที่แม่นยำยิ่งขึ้นในอนาคตอย่างไร

— BWGIA

1

ดูเหมือนว่านี่เป็นการกระจายตัวของแมลงแต่ละตัว ด้วยความน่าจะเป็น p แมลงจะลงจอดด้วยความน่าจะเป็น 1-p มันจะตกลงมาและกระจายเมล็ด 0 ถึง 4 แต่ถ้าคุณไม่มีข้อมูลว่าแมลงบนที่ดินคุณไม่สามารถแยกแยะได้สองวิธีเพื่อให้ได้ 0 ดังนั้นคุณน่าจะให้ p เป็นความน่าจะเป็นที่ 0 แล้วคุณก็มีการกระจายแบบพหุนาม (p1, p2, p3, p4) โดยที่ pi คือความน่าจะเป็นของเมล็ด i ที่ได้รับการผสมเกสรของแมลงภายใต้ข้อ จำกัด p1 + p2 + p3 + p4 = 1 โมเดลมีห้า unknowns p, p1, p2, p3, p4 โดยมีข้อ จำกัด 0 = 0 สำหรับแต่ละ i มีข้อมูลเพียงพอที่คุณควรจะสามารถประเมินพารามิเตอร์เหล่านี้อาจใช้วิธีการโอกาสสูงสุดที่ จำกัด

— Michael R. Chernick
แหล่งที่มา

ฉันเห็นด้วย แต่คำถามไม่เหมาะกับโมเดลนั้น แต่เพื่อสร้างการแจกแจงที่คาดการณ์ไว้ภายใต้สมมติฐานทางชีววิทยาที่แตกต่างกันสองข้อ บางทีคำตอบคือให้พอดีกับ ZIB และ "แบบจำลองอื่น ๆ " ที่ตรงกับสมมติฐานของตัวเองและเปรียบเทียบสิ่งเหล่านั้น

— atiretoo - คืนสถานะโมนิก้า

@atiretoo โมเดลไม่ได้ให้การกระจายโดยประมาณสำหรับจำนวนเมล็ดเรณูที่คุณสามารถเปรียบเทียบกับการกระจายตัวของคุณ

— Michael R. Chernick

เห็นด้วย - ถ้าคุณมีโมเดลที่ถูกต้องสำหรับ 2 สมมติฐาน

— atiretoo - คืนสถานะโมนิก้า

1

นี่คือคำตอบสำหรับคำถามสุดท้ายของคุณวิธีสร้างข้อมูลที่คุณต้องการสำหรับสมมติฐานการถ่ายละอองเรณูอย่างรวดเร็ว:

n = 16
max = 4
p1 = 0.1
p2 = 0.9
Y1 = rbinom(10000*n,1,p1)
Y2 = matrix(Y1*rbinom(10000*n,4,p2),ncol=16)

คุณสามารถใช้rzibinom()ในแพ็คเกจ VGAM แม้ว่าฉันไม่แน่ใจว่าคุณต้องการจะทำอะไรกับมัน คุณมีพารามิเตอร์อิสระ 2 ตัวคือ p1 และ p2 ซึ่งต้องมีการประมาณ ทำไมไม่ใช้โมเดลทวินามพองเกินศูนย์เพื่อประเมินจากข้อมูล?

คุณควรดูแพ็คเกจ VGAM ซึ่งเหมาะกับ ZIB รุ่นอื่น ๆ ในความเป็นจริงคุณสามารถรับการกระจายที่คาดหวังสำหรับ ZIB จากฟังก์ชัน VGAM dzibinom()ซึ่งคุณสามารถใช้เพื่อเปรียบเทียบการแจกแจงที่คุณสังเกตเห็นด้วยหากคุณทราบพารามิเตอร์ของการเยี่ยมชมและการผสมเกสร อีกครั้งคุณควรจะพอดีกับรุ่น ZIB

หากสมมุติฐานการเห็นแก่ตัวบางส่วนของคุณนั้นไม่ได้เกิดจากการผสมเกสรของแมลงเพียงอย่างเดียวการกระจายที่คาดหวังนั้นเป็นแบบทวินามและคุณสามารถประมาณค่าพารามิเตอร์ด้วย glom ตระกูล binomial หรือบางทีอาจเป็น glmm ที่มีรหัสพืชเป็นแบบสุ่ม อย่างไรก็ตามหากพวกเขาสามารถแยกแยะตัวเองและรับการผสมเกสรแมลงคุณจะต้องกลับมารวมกันของการแจกแจงทวินามสองครั้ง ในกรณีนั้นฉันจะตรวจสอบโดยใช้ OpenBUGS หรือ JAGS เพื่อให้พอดีกับรุ่นที่ใช้ MCMC

เมื่อคุณมีสองรุ่นที่พอดีกับข้อมูลของคุณคุณจะต้องเปรียบเทียบโมเดลเพื่อดูว่าแบบไหนดีกว่าโดยใช้ AIC หรือ BIC หรือตัวชี้วัดอื่น ๆ ที่คุณเลือก

— atiretoo - คืนสถานะโมนิกา
แหล่งที่มา

ขอบคุณสำหรับ atiretoo นั้น แต่การรันโค้ดนั้นดูเหมือนว่าจะสร้างจำนวนเมล็ดสุ่มและการกระจายแบบสุ่ม ฉันคิดว่าฉันต้องการให้เมล็ดของเมล็ดพืชคงที่ (พูด 19 เมล็ดดูด้านล่าง) แล้วดูว่ามีโอกาสที่การกระจายที่ให้ไว้สำหรับเมล็ดที่แน่นอนนั้น

— BWGIA

โอปต์โพสต์เร็วเกินไปและฉันหมายถึง "ดูด้านบน" เนื่องจากฉันได้เพิ่มข้อมูลลงในคำถามของฉัน ฉันรู้สึกสนใจเกี่ยวกับความคิดเห็นของคุณเกี่ยวกับการใช้ AIC เพื่อเปรียบเทียบแบบจำลองฉันสามารถทำสิ่งนั้นข้ามแบบจำลอง (ด้วยตัวแปรตอบกลับเดียวกัน) ที่มีการแจกแจงที่แตกต่างกันได้หรือไม่? ฉันคิดว่าการเปรียบเทียบ AIC นั้นถูกต้องเฉพาะเมื่อคุณเพิ่ม / วางคำศัพท์ลงในแบบจำลอง แต่มีตระกูลการแจกจ่ายเดียวกันที่ระบุไว้หรือไม่

— BWGIA

ไม่นั่นเป็นข้อได้เปรียบที่สำคัญของ AIC เช่นการเลือกถอยหลัง ตราบใดที่ข้อมูลยังคงเหมือนเดิมคุณสามารถเปรียบเทียบ AIC ระหว่างรุ่นต่าง ๆ แม้ว่าจะไม่ซ้อนกัน คุณต้องระวังว่าซอฟต์แวร์กำลังคำนวณความเป็นไปได้โดยไม่ทิ้งค่าคงที่ แต่ในฟังก์ชั่นเดียวคุณสามารถเปรียบเทียบรุ่นที่ไม่ซ้อนกันได้อย่างง่ายดาย

— atiretoo - คืนสถานะโมนิก้า