คำถามติดแท็ก beta-binomial

11
สัญชาตญาณของการกระจายเบต้าคืออะไร
ข้อจำกัดความรับผิดชอบ: ฉันไม่ใช่นักสถิติ แต่เป็นวิศวกรซอฟต์แวร์ ความรู้เกี่ยวกับสถิติส่วนใหญ่มาจากการเรียนรู้ด้วยตนเองดังนั้นฉันยังมีช่องว่างมากมายในการทำความเข้าใจแนวคิดที่อาจดูไม่สำคัญสำหรับคนอื่นที่นี่ ดังนั้นฉันจะขอบคุณมากถ้าคำตอบมีคำศัพท์เฉพาะน้อยกว่าและคำอธิบายเพิ่มเติม ลองนึกภาพว่าคุณกำลังคุยกับคุณยายอยู่ :) ฉันพยายามที่จะเข้าใจลักษณะของการแจกแจงเบต้า - สิ่งที่ควรใช้และวิธีตีความในแต่ละกรณี ถ้าเราพูดถึงการกระจายตัวแบบปกติเราสามารถอธิบายได้ว่าเป็นเวลาที่รถไฟมาถึง: บ่อยที่สุดมันมาถึงในเวลาน้อยกว่าบ่อยครั้งคือ 1 นาทีก่อนหน้าหรือ 1 นาทีและไม่ค่อยมาถึงด้วยความแตกต่าง 20 นาทีจากค่าเฉลี่ย การแจกแจงแบบสม่ำเสมอจะอธิบายโอกาสของตั๋วแต่ละใบด้วยลอตเตอรี การแจกแจงแบบทวินามอาจอธิบายได้ด้วยการโยนเหรียญและอื่น ๆ แต่มีคำอธิบายที่เข้าใจง่ายเกี่ยวกับการแจกแจงเบต้าหรือไม่ สมมติว่าα=.99α=.99\alpha=.99และ\β=.5β=.5\beta=.5การกระจายเบต้าB(α,β)B(α,β)B(\alpha, \beta)ในกรณีนี้มีลักษณะเช่นนี้ (สร้างใน R): แต่จริงๆแล้วมันหมายถึงอะไร? เห็นได้ชัดว่าแกน Y เป็นความหนาแน่นของความน่าจะเป็น แต่สิ่งที่อยู่ในแกน X? ฉันขอขอบคุณคำอธิบายใด ๆ ไม่ว่าจะด้วยตัวอย่างนี้หรืออย่างอื่น

6
ความสัมพันธ์ระหว่างการแจกแจงแบบทวินามและเบต้า
ฉันเป็นโปรแกรมเมอร์มากกว่านักสถิติดังนั้นฉันหวังว่าคำถามนี้จะไร้เดียงสาเกินไป มันเกิดขึ้นในการสุ่มตัวอย่างการประมวลผลโปรแกรมในเวลาสุ่ม ถ้าฉันใช้เวลาสุ่มตัวอย่าง N = 10 ของสถานะของโปรแกรมฉันจะเห็นฟังก์ชั่น Foo ที่กำลังทำงานอยู่ตัวอย่างเช่น I = 3 ของตัวอย่างเหล่านั้น ฉันสนใจในสิ่งที่บอกฉันเกี่ยวกับเวลาจริง ๆ ที่ Foo กำลังดำเนินการ ฉันเข้าใจว่าฉันกระจายแบบทวินามด้วยค่าเฉลี่ย F * N ฉันก็รู้ว่าเนื่องจาก I และ N เป็น F ตามการแจกแจงแบบเบต้า อันที่จริงฉันได้ตรวจสอบแล้วโดยโปรแกรมความสัมพันธ์ระหว่างการแจกแจงสองอย่างนั่นคือ cdfBeta(I, N-I+1, F) + cdfBinomial(N, F, I-1) = 1 ปัญหาคือฉันไม่มีความรู้สึกที่เข้าใจได้ง่ายสำหรับความสัมพันธ์ ฉันไม่สามารถ "รูป" ทำไมจึงเป็นไปได้ แก้ไข: คำตอบทั้งหมดเป็นสิ่งที่ท้าทายโดยเฉพาะอย่างยิ่ง @ whuber ซึ่งฉันยังคงต้องห้อมล้อม แต่การนำสถิติในการสั่งซื้อเป็นประโยชน์มาก อย่างไรก็ตามฉันได้ตระหนักว่าฉันควรถามคำถามพื้นฐานเพิ่มเติม: …

3
แบบจำลองที่เหมาะสมสำหรับข้อมูลการนับที่น้อยเกินไปคืออะไร?
ฉันพยายามที่จะสร้างแบบจำลองข้อมูลนับใน R ที่เห็นได้ชัดว่าด้อยค่า (พารามิเตอร์การกระจายตัว ~ .40) นี่อาจเป็นสาเหตุที่รูปแบบแบบglmมีfamily = poissonหรือเชิงลบglm.nbมีความหมายไม่สำคัญ เมื่อฉันดูคำอธิบายข้อมูลของฉันฉันไม่มีข้อมูลการนับทั่วไปและส่วนที่เหลือในเงื่อนไขการทดลองทั้งสองของฉันก็เหมือนกันเช่นกัน ดังนั้นคำถามของฉันคือ: ฉันต้องใช้การวิเคราะห์การถดถอยแบบพิเศษสำหรับข้อมูลการนับของฉันหรือไม่หากข้อมูลการนับของฉันไม่ทำงานเหมือนข้อมูลการนับ บางครั้งฉันต้องเผชิญกับภาวะไม่ปกติ (โดยปกติจะเป็นเพราะความทรมาน) แต่ฉันใช้วิธีบูตสแตรปเปอร์เซ็นไทล์สำหรับการเปรียบเทียบวิธีการที่ถูกตัด (Wilcox, 2012) เพื่ออธิบายถึงความไม่เป็นมาตรฐาน วิธีการสำหรับการนับข้อมูลสามารถทดแทนด้วยวิธีการที่แข็งแกร่งใด ๆ ที่แนะนำโดย Wilcox และรับรู้ในแพ็คเกจ WRS หรือไม่ หากฉันต้องใช้การวิเคราะห์การถดถอยสำหรับข้อมูลนับฉันจะบัญชีสำหรับการกระจายต่ำกว่าได้อย่างไร ปัวซองและการกระจายตัวแบบลบลบถือว่าการกระจายตัวที่สูงขึ้นดังนั้นจึงไม่เหมาะสมใช่ไหม ฉันคิดว่าจะใช้การกระจายแบบกึ่ง - ปัวซองแต่โดยทั่วไปจะแนะนำให้กระจายตัวมากเกินไป ฉันอ่านเกี่ยวกับตัวแบบเบต้า - ทวินามซึ่งดูเหมือนว่าจะสามารถอธิบายได้มากกว่า - รวมถึงการด้อยค่าลงในVGAMชุดของ R ผู้เขียนดูเหมือนจะแนะนำการกระจาย Poisson tildedแต่ฉันไม่สามารถหาได้ในแพ็คเกจ . ใครบ้างที่สามารถแนะนำขั้นตอนการประมวลผลข้อมูลที่ด้อยคุณภาพและอาจมีตัวอย่างรหัส R ให้หรือไม่

3
เหตุใดจึงมี -1 ในฟังก์ชันความหนาแน่นของการแจกแจงแบบเบต้า
การแจกแจงเบต้าปรากฏภายใต้การกำหนดค่าสองค่า (หรือที่นี่ ) f ( x ) ∝ x α ( 1 - x ) βf(x)∝xα(1−x)β(1) f(x) \propto x^{\alpha} (1-x)^{\beta} \tag{1} หรือสิ่งที่ดูเหมือนว่าจะใช้บ่อยกว่าปกติ f ( x ) ∝ x α - 1 ( 1 - x ) β - 1f(x)∝xα−1(1−x)β−1(2) f(x) \propto x^{\alpha-1} (1-x)^{\beta-1} \tag{2} แต่ทำไมถึงมี " - 1−1-1 " ในสูตรที่สอง? …

3
เมื่อใดที่จะยุติการทดสอบ A / B แบบเบย์?
ฉันพยายามที่จะทำ A / B การทดสอบด้วยวิธีแบบเบย์เช่นเดียวกับในการเขียนโปรแกรมสำหรับความน่าจะเป็นแฮกเกอร์และคชกรรมการทดสอบ A / B บทความทั้งสองอนุมานว่าผู้มีอำนาจตัดสินใจตัดสินใจว่าตัวแปรใดดีกว่าโดยขึ้นอยู่กับความน่าจะเป็นของเกณฑ์บางอย่างเช่นดังนั้นจึงดีกว่า ความน่าจะเป็นนี้ไม่ได้ให้ข้อมูลใด ๆ ว่ามีข้อมูลเพียงพอที่จะสรุปได้หรือไม่ ดังนั้นจึงไม่ชัดเจนสำหรับฉันเมื่อต้องหยุดการทดสอบAP(pA>pB)=0.97P(pA>pB)=0.97P(p_A > p_B) = 0.97 AAA สมมติว่ามีสอง RVs ไบนารีและBและฉันต้องการที่จะประเมินว่าเป็นไปได้ที่p_A> p_Bและ\ frac {p_A - p_B} {} p_A> 5 \%ตามข้อสังเกตของและB นอกจากนี้สมมติว่าผู้ออกแบบโปสเตอร์ p_Aและp_Bนั้นเป็นรุ่นเบต้าAAABBBpA>pBpA>pB p_A > p_B pA−pBpA>5%pA−pBpA>5% \frac{p_A - p_B}{p_A} > 5\% AAABBBpApAp_ApBpBp_B เนื่องจากฉันสามารถหาพารามิเตอร์α,βα,β\alpha, \betaสำหรับpA|datapA|datap_A\,|\,\text{data} และpB|datapB|datap_B\,|\,\text{data} ฉันสามารถเก็บตัวอย่าง posteriors และประมาณP(pA>pB | data)P(pA>pB …

1
ช่วงการคาดการณ์สำหรับสัดส่วนความสำเร็จในอนาคตภายใต้การตั้งค่าแบบทวินาม
สมมติว่าฉันพอดีกับการถดถอยแบบทวินามและได้รับการประเมินจุดและเมทริกซ์ความแปรปรวนร่วม - ความแปรปรวนร่วมของสัมประสิทธิ์การถดถอย นั่นจะทำให้ฉันได้ CI สำหรับสัดส่วนที่คาดหวังของความสำเร็จในการทดลองในอนาคต, , แต่ฉันต้องการ CI สำหรับสัดส่วนที่สังเกตได้ มีคำตอบที่เกี่ยวข้องสองสามข้อที่โพสต์รวมถึงการจำลอง (สมมติว่าฉันไม่ต้องการทำเช่นนั้น) และลิงก์ไปยัง Krishnamoorthya et al (ซึ่งไม่ค่อยตอบคำถามของฉัน)ppp เหตุผลของฉันมีดังนี้: ถ้าเราใช้แค่แบบจำลอง Binomial เราถูกบังคับให้สมมติว่าถูกสุ่มตัวอย่างจากการแจกแจงแบบปกติ (ด้วย Wald CI ที่สอดคล้องกัน) และดังนั้นจึงเป็นไปไม่ได้ที่จะได้รับ CI สำหรับสัดส่วนที่สังเกตได้ในรูปแบบปิด หากเราสมมติว่าถูกสุ่มตัวอย่างจากการแจกแจงแบบเบต้าแล้วสิ่งต่างๆนั้นง่ายกว่ามากเนื่องจากการนับความสำเร็จจะเป็นไปตามการกระจายแบบเบต้า - ทวินาม เราก็จะต้องคิดว่ามีความไม่แน่นอนในพารามิเตอร์เบต้าประมาณไม่มีและ\ppppppαα\alphaββ\beta มีสามคำถาม: 1) ทฤษฎีหนึ่ง: คุณสามารถใช้การประมาณค่าพารามิเตอร์เบต้าหรือไม่ ฉันรู้ว่าการสร้าง CI สำหรับการสังเกตในอนาคตในการถดถอยเชิงเส้นหลาย Y=x′β+ϵ,ϵ∼N(0,σ2)Y=x′β+ϵ,ϵ∼N(0,σ2)Y = x'\beta + \epsilon, \epsilon \sim N(0, \sigma^2) พวกเขาทำอย่างนั้นแปรปรวนระยะผิดพลาด WRT, …

4
วิธีการทดสอบไคสแควร์หลังการทดสอบหลายตารางในตาราง 2 X 3
ชุดข้อมูลของฉันประกอบด้วยการเสียชีวิตโดยรวมหรือการอยู่รอดของสิ่งมีชีวิตที่ไซต์สามประเภททั้งฝั่งกลางและกลาง ตัวเลขในตารางด้านล่างแสดงถึงจำนวนเว็บไซต์ 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 ฉันต้องการทราบว่า # ของเว็บไซต์ที่มีอัตราการตาย 100% มีความสำคัญตามประเภทของไซต์หรือไม่ ถ้าฉันใช้ไคสแควร์ 2 x 3 ฉันจะได้ผลลัพธ์ที่สำคัญ มีการเปรียบเทียบแบบคู่หลังที่ฉันสามารถเรียกใช้หรือฉันควรใช้ ANOVA จิสติกส์หรือการถดถอยด้วยการแจกแจงแบบทวินามหรือไม่ ขอบคุณ!
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.