ฉันมีปัญหาที่ฉันคิดว่าควรจะง่าย แต่ไม่สามารถเข้าใจได้ ฉันกำลังดูการผสมเกสรของเมล็ดฉันมีพืช (n = 36) ดอกไม้ที่อยู่ในกลุ่มฉันลองกลุ่มดอกไม้ 3 กลุ่มจากแต่ละต้นและฝัก 6 เมล็ดจากแต่ละกลุ่ม (18 ฝักทั้งหมดจากแต่ละต้น) ฝักสามารถมีได้ระหว่าง 0 ถึงมากที่สุด 4 เมล็ดเรณู ดังนั้นข้อมูลจะถูกนับด้วยขอบเขตบน ฉันกำลังหาค่าเฉลี่ยของเมล็ดประมาณ 10% ของเรณู แต่ที่ใดก็ได้ระหว่าง 1 - 30% ในพืชที่กำหนดดังนั้นมากกว่าข้อมูลที่กระจัดกระจายและแน่นอนว่ามีคลัสเตอร์ที่หายไป 4 ต้นใน 3 พืชดังนั้นจึงไม่สมมาตรอย่างสมบูรณ์ .
คำถามที่ฉันถามคือถ้าข้อมูลนี้สนับสนุนความคิดที่โรงงานนี้ต้องการการถ่ายละอองเรณูสำหรับชุดเมล็ด
ฉันพบว่าการกระจายของจำนวนเมล็ดในฝักดูเหมือนจะมีมากกว่า 0 ฝักเรณู (6-9 ฝักจาก 16) และอื่น ๆ 3 และ 4 พอดเรณูเมล็ด (2-4 สำหรับแต่ละ) กว่าจะ จะคาดหวังถ้าเมล็ดในประชากรเป็นเพียงการผสมเกสรแบบสุ่ม โดยพื้นฐานแล้วฉันคิดว่านี่เป็นตัวอย่างแบบคลาสสิกสำหรับข้อมูลที่สูงเกินจริงศูนย์แมลงตัวแรกทำอย่างใดอย่างหนึ่งหรือไม่ได้เยี่ยมชมดอกไม้เลย (เครื่องกำเนิดศูนย์ 1 อัน) และถ้าเป็นเช่นนั้นก็ผสมเรณู 0-4 ของเมล็ด สมมติฐานทางเลือกคือพืชมีการเซลบางส่วนและจากนั้นคาดว่าทุกเมล็ดจะมีความน่าจะเป็นเรณูเดียวกัน (ข้อมูลนี้แสดงให้เห็นโอกาส 0.1 โดยประมาณซึ่งหมายถึงโอกาส 0.01 สำหรับเมล็ดสองเมล็ดในฝักเดียวกันเป็นต้น) .
แต่ฉันต้องการแสดงให้เห็นถึงข้อมูลที่เหมาะที่สุดกับการกระจายตัวอื่น ๆ ไม่ใช่ ZIP หรือ ZINB กับข้อมูล ฉันคิดว่าวิธีใดก็ตามที่ฉันใช้ควรคำนึงถึงจำนวนเมล็ดเรณูที่แท้จริงและจำนวนฝักที่เก็บตัวอย่างในแต่ละต้น สิ่งที่ดีที่สุดที่ฉันคิดไว้คือทำรองเท้าบู๊ตที่ฉันกำหนดจำนวนเมล็ดเรณูสำหรับพืชที่กำหนดไว้ในจำนวนฝักที่ฉันสุ่มเลือกทำ 10,000 ครั้งแล้วดูว่ามันมีโอกาสมากแค่ไหน ข้อมูลการทดลองสำหรับพืชที่กำหนดนั้นมาจากการกระจายแบบสุ่ม
ฉันแค่รู้สึกว่ามีบางอย่างเกี่ยวกับเรื่องนี้ที่ควรจะง่ายกว่าการบังคับให้ติดตั้งสัตว์ป่า แต่หลังจากผ่านไปหลายวันที่ฉันคิดและค้นหาฉันยอมแพ้ ฉันไม่สามารถเปรียบเทียบกับการกระจายของปัวซองได้เนื่องจากมันเป็นขอบเขตสูงสุดไม่ใช่ทวินามเพราะฉันต้องสร้างการกระจายที่คาดหวังไว้อย่างใดอันดับหนึ่ง ความคิดใด ๆ และฉันใช้ R ดังนั้นคำแนะนำที่นั่น (โดยเฉพาะอย่างยิ่งวิธีสร้างการแจกสุ่มของลูกบอล n 10,000 ลูกให้เป็น 16 กล่องที่แต่ละกล่องบรรจุได้สูงสุด 4 ลูก) จะได้รับการต้อนรับมากที่สุด
เพิ่ม 9/07/2012 ก่อนอื่นขอขอบคุณทุกท่านที่ให้ความสนใจและความช่วยเหลือ การอ่านคำตอบทำให้ฉันคิดว่าการตั้งคำถามใหม่อีกครั้ง สิ่งที่ฉันกำลังพูดคือว่าฉันมีหนึ่งสมมติฐาน (ซึ่งตอนนี้ฉันคิดว่าเป็นโมฆะ) ที่เมล็ดมีการผสมเกสรแบบสุ่มในฝักและสมมติฐานทางเลือกของฉันคือฝักเมล็ดที่มีเมล็ดผสมอย่างน้อย 1 มีแนวโน้มที่จะ มีเรณูหลายเมล็ดกว่าที่คาดไว้โดยกระบวนการสุ่ม ฉันได้ให้ข้อมูลจริงจากต้นไม้สามต้นเป็นตัวอย่างเพื่อแสดงสิ่งที่ฉันกำลังพูดถึง คอลัมน์แรกคือจำนวนของเมล็ดพันธุ์ผสมในฝักคอลัมน์ที่สองคือความถี่ของฝักที่มีจำนวนเมล็ด
พืช 1 (รวม 3 เมล็ด: การผสมเกสร 4%)
num.seeds :: pod.freq
0 :: 16
1 :: 1
2 :: 1
3 :: 0
4 :: 0
พืช 2 (รวม 19 เมล็ด: การผสมเกสร 26%)
num.seeds :: pod.freq
0 :: 12
1 :: 1
2 :: 1
3 :: 0
4 :: 4
ปลูก 3 (รวม 16 เมล็ด: การผสมเกสร 22%)
num.seeds :: pod.freq
0 :: 9
1 :: 4
2 :: 3
3 :: 2
4 :: 0
ในโรงงาน # 1 มีเรณูเพียง 3 เมล็ดใน 18 ฝักหนึ่งฝักมีหนึ่งเมล็ดและหนึ่งฝักมีสองเมล็ด คิดถึงกระบวนการเพิ่มเมล็ดหนึ่งเมล็ดเข้าไปในฝักโดยสุ่มเมล็ดสองเมล็ดแรกเข้าไปในฝักของตนเอง แต่สำหรับเมล็ดที่ 3 มี 6 จุดในฝักที่มีหนึ่งเมล็ด แต่มี 64 จุดใน 16 ฝัก ที่ไม่มีเมล็ดดังนั้นความน่าจะเป็นสูงสุดของฝักที่มี 2 เมล็ดที่นี่คือ 6/64 = 0.094 มันค่อนข้างต่ำ แต่ก็ไม่สุดขีดดังนั้นฉันจึงบอกว่าโรงงานนี้เหมาะกับสมมติฐานของการผสมเกสรแบบสุ่มในเมล็ดทั้งหมดที่มีโอกาสเกิดการผสมเกสรประมาณ 4% แต่พืช 2 ดูมากขึ้นมากสำหรับฉันด้วย 4 ฝักผสมเกสรอย่างสมบูรณ์ แต่ 12 ฝักไม่มีอะไร ฉันไม่แน่ใจว่าจะคำนวณอัตราต่อรองของการกระจายตัวนี้โดยตรงได้อย่างไร (ดังนั้นจึงเป็นความคิด bootstrap ของฉัน) แต่ฉันเดาว่าโอกาสของการกระจายตัวนี้เกิดขึ้นแบบสุ่มถ้าแต่ละเมล็ดมีโอกาส 25% ของการผสมเกสรค่อนข้างต่ำ พืช # 3 ฉันไม่มีความคิดจริง ๆ ฉันคิดว่ามีมากกว่า 0 และ 3 มากกว่าที่ควรคาดหวังสำหรับการกระจายแบบสุ่ม แต่ความรู้สึกของฉันคือการกระจายนี้สำหรับเมล็ดจำนวนนี้มีแนวโน้มมากกว่าการกระจายสำหรับพืช # 2 และอาจไม่น่าเป็นไปได้ แต่เห็นได้ชัดว่าฉันต้องการทราบอย่างแน่นอนและในพืชทั้งหมด ฉันคิดว่ามีมากกว่า 0 และ 3 มากกว่าที่ควรคาดหวังสำหรับการแจกแจงแบบสุ่ม แต่ความรู้สึกของฉันคือการกระจายตัวของเมล็ดนี้มีแนวโน้มที่จะดีกว่าการกระจายสำหรับพืช # 2 และอาจไม่น่าเป็นไปได้ แต่เห็นได้ชัดว่าฉันต้องการทราบอย่างแน่นอนและในพืชทั้งหมด ฉันคิดว่ามีมากกว่า 0 และ 3 มากกว่าที่ควรคาดหวังสำหรับการแจกแจงแบบสุ่ม แต่ความรู้สึกของฉันคือการกระจายตัวของเมล็ดนี้มีแนวโน้มที่จะดีกว่าการกระจายสำหรับพืช # 2 และอาจไม่น่าเป็นไปได้ แต่เห็นได้ชัดว่าฉันต้องการทราบอย่างแน่นอนและในพืชทั้งหมด
ในที่สุดฉันต้องการเขียนคำสั่งเช่น "การกระจายของเมล็ดพันธุ์ผสมในฝักเมล็ดพอดี (หรือไม่พอดี) สมมุติฐานว่าพืชไม่เพียงแค่บางส่วนเข้ากันได้เอง แต่ต้องการการสำรวจของเรณูเพื่อให้เกิดชุดเมล็ด (ผลการทดสอบทางสถิติ)” นี่เป็นเพียงส่วนหนึ่งของส่วนมองไปข้างหน้าของฉันซึ่งฉันกำลังพูดถึงการทดลองที่จะดำเนินการต่อไปดังนั้นฉันจึงไม่อยากให้เรื่องนี้เป็นเรื่องหนึ่งหรืออย่างอื่น แต่ฉันอยากรู้ด้วยตัวเองถ้าเป็นไปได้ ถ้าฉันไม่สามารถทำสิ่งที่ฉันพยายามจะทำกับข้อมูลนี้ฉันก็อยากจะรู้เช่นกัน!
ฉันถามคำถามที่ค่อนข้างกว้างในตอนแรกเนื่องจากฉันอยากรู้ว่ามีการทดสอบที่ดีใด ๆ ที่แสดงว่าข้อมูลควรเข้าสู่แบบจำลองที่สูงเกินจริงหรือไม่ในตอนแรก ตัวอย่างทั้งหมดที่ฉันเคยเห็นดูเหมือนจะบอกว่า -“ ดูมีจำนวนศูนย์อยู่ที่นี่และมีคำอธิบายที่สมเหตุสมผลสำหรับเรื่องนั้น นั่นคือสิ่งที่ฉันทำตอนนี้ในฟอรั่มนี้ แต่ฉันมีประสบการณ์ในบทสุดท้ายของฉันที่ฉันใช้ Poisson glm เพื่อนับข้อมูลและหนึ่งในหัวหน้างานของฉันกล่าวว่า "ไม่ glms ซับซ้อนเกินไปและไม่จำเป็นข้อมูลนี้ควร เข้าไปในตารางฉุกเฉิน” จากนั้นส่งดัมพ์ข้อมูลของตารางฉุกเฉินขนาดใหญ่ที่สร้างขึ้นโดยแพคเกจสถิติราคาแพงของพวกเขาซึ่งให้ค่า p เดียวกันสำหรับปัจจัยทั้งหมดของฉัน + การโต้ตอบกับตัวเลขสามหลัก !! ดังนั้นฉันพยายามทำให้สถิติชัดเจนและเรียบง่าย และให้แน่ใจว่าฉันเข้าใจพวกเขาดีพอที่จะปกป้องตัวเลือกของฉันอย่างแข็งแรงซึ่งฉันไม่รู้สึกว่าฉันสามารถทำอะไรกับรุ่นที่สูงเกินจริงได้ในตอนนี้ ฉันใช้ทั้ง quasibinomial (สำหรับพืชทั้งต้นเพื่อกำจัด pesudoreplicaiton) และแบบจำลองผสมสำหรับข้อมูลข้างต้นเพื่อเปรียบเทียบการรักษาและตอบคำถามการทดลองหลักของฉันดูเหมือนว่าจะทำงานเดียวกัน แต่ฉันจะไปด้วย เล่นกับ ZINB คืนนี้เพื่อดูว่ามันทำงานได้ดีแค่ไหน ฉันคิดว่าถ้าฉันสามารถแสดงให้เห็นอย่างชัดเจนว่าข้อมูลนี้มีการรวมกลุ่มกันอย่างรุนแรง (หรือเป็นศูนย์ที่สูงเกินจริง) ในตอนแรกจากนั้นให้เหตุผลทางชีววิทยาที่ดีสำหรับสิ่งที่เกิดขึ้นฉันจะถูกจัดตั้งขึ้นเพื่อดึง ZINB ในภายหลัง เพียงแค่เปรียบเทียบหนึ่งแบบกับ quasibinomial / แบบผสมและให้เหตุผลเนื่องจากมันให้ผลลัพธ์ที่ดีกว่านั่นคือสิ่งที่ฉันควรใช้ ซึ่งฉันไม่รู้สึกว่าฉันสามารถทำกับรุ่นที่สูงเกินจริงได้ในขณะนี้ ฉันใช้ทั้ง quasibinomial (สำหรับพืชทั้งต้นเพื่อกำจัด pesudoreplicaiton) และแบบจำลองผสมสำหรับข้อมูลข้างต้นเพื่อเปรียบเทียบการรักษาและตอบคำถามการทดลองหลักของฉันดูเหมือนว่าจะทำงานเดียวกัน แต่ฉันจะไปด้วย เล่นกับ ZINB คืนนี้เพื่อดูว่ามันทำงานได้ดีแค่ไหน ฉันคิดว่าถ้าฉันสามารถแสดงให้เห็นอย่างชัดเจนว่าข้อมูลนี้มีการรวมกลุ่มกันอย่างรุนแรง (หรือเป็นศูนย์ที่สูงเกินจริง) ในตอนแรกจากนั้นให้เหตุผลทางชีววิทยาที่ดีสำหรับสิ่งที่เกิดขึ้นฉันจะถูกจัดตั้งขึ้นเพื่อดึง ZINB ในภายหลัง เพียงแค่เปรียบเทียบหนึ่งแบบกับ quasibinomial / แบบผสมและให้เหตุผลเนื่องจากมันให้ผลลัพธ์ที่ดีกว่านั่นคือสิ่งที่ฉันควรใช้ ซึ่งฉันไม่รู้สึกว่าฉันสามารถทำกับรุ่นที่สูงเกินจริงได้ในขณะนี้ ฉันใช้ทั้ง quasibinomial (สำหรับพืชทั้งต้นเพื่อกำจัด pesudoreplicaiton) และแบบจำลองผสมสำหรับข้อมูลข้างต้นเพื่อเปรียบเทียบการรักษาและตอบคำถามการทดลองหลักของฉันดูเหมือนว่าจะทำงานเดียวกัน แต่ฉันจะไปด้วย เล่นกับ ZINB คืนนี้เพื่อดูว่ามันทำงานได้ดีแค่ไหน ฉันคิดว่าถ้าฉันสามารถแสดงให้เห็นอย่างชัดเจนว่าข้อมูลนี้มีการรวมกลุ่มกันอย่างรุนแรง (หรือเป็นศูนย์ที่สูงเกินจริง) ในตอนแรกจากนั้นให้เหตุผลทางชีววิทยาที่ดีสำหรับสิ่งที่เกิดขึ้นฉันจะถูกจัดตั้งขึ้นเพื่อดึง ZINB ในภายหลัง เพียงแค่เปรียบเทียบหนึ่งแบบกับ quasibinomial / แบบผสมและให้เหตุผลเนื่องจากมันให้ผลลัพธ์ที่ดีกว่านั่นคือสิ่งที่ฉันควรใช้ ฉันใช้ทั้ง quasibinomial (สำหรับพืชทั้งต้นเพื่อกำจัด pesudoreplicaiton) และแบบจำลองผสมสำหรับข้อมูลข้างต้นเพื่อเปรียบเทียบการรักษาและตอบคำถามการทดลองหลักของฉันดูเหมือนว่าจะทำงานเดียวกัน แต่ฉันจะไปด้วย เล่นกับ ZINB คืนนี้เพื่อดูว่ามันทำงานได้ดีแค่ไหน ฉันคิดว่าถ้าฉันสามารถแสดงให้เห็นอย่างชัดเจนว่าข้อมูลนี้มีการรวมกลุ่มกันอย่างรุนแรง (หรือเป็นศูนย์ที่สูงเกินจริง) ในตอนแรกจากนั้นให้เหตุผลทางชีววิทยาที่ดีสำหรับสิ่งที่เกิดขึ้นฉันจะถูกจัดตั้งขึ้นเพื่อดึง ZINB ในภายหลัง เพียงแค่เปรียบเทียบหนึ่งแบบกับ quasibinomial / แบบผสมและให้เหตุผลเนื่องจากมันให้ผลลัพธ์ที่ดีกว่านั่นคือสิ่งที่ฉันควรใช้ ฉันใช้ทั้ง quasibinomial (สำหรับพืชทั้งต้นเพื่อกำจัด pesudoreplicaiton) และแบบจำลองผสมสำหรับข้อมูลข้างต้นเพื่อเปรียบเทียบการรักษาและตอบคำถามการทดลองหลักของฉันดูเหมือนว่าจะทำงานเดียวกัน แต่ฉันจะไปด้วย เล่นกับ ZINB คืนนี้เพื่อดูว่ามันทำงานได้ดีแค่ไหน ฉันคิดว่าถ้าฉันสามารถแสดงให้เห็นอย่างชัดเจนว่าข้อมูลนี้มีการรวมกลุ่มกันอย่างรุนแรง (หรือเป็นศูนย์ที่สูงเกินจริง) ในตอนแรกจากนั้นให้เหตุผลทางชีววิทยาที่ดีสำหรับสิ่งที่เกิดขึ้นฉันจะถูกจัดตั้งขึ้นเพื่อดึง ZINB ในภายหลัง เพียงแค่เปรียบเทียบหนึ่งแบบกับ quasibinomial / แบบผสมและให้เหตุผลเนื่องจากมันให้ผลลัพธ์ที่ดีกว่านั่นคือสิ่งที่ฉันควรใช้
แต่ฉันไม่ต้องการเบี่ยงเบนความสนใจจากคำถามหลักของฉันมากเกินไปฉันจะทราบได้อย่างไรว่าข้อมูลของฉันสูงเกินจริงกว่าที่คาดไว้จากการกระจายแบบสุ่มหรือไม่ ในกรณีของฉันคำตอบคือสิ่งที่ฉันสนใจจริง ๆ พร้อมกับผลประโยชน์ที่เป็นไปได้สำหรับการสร้างแบบจำลองการเป็นโบนัส
ขอบคุณอีกครั้งสำหรับทุกเวลาและช่วยคุณ!
ไชโย BWGIA