คำถามติดแท็ก beta-distribution

ตระกูลสองพารามิเตอร์ของการแจกแจง univariate ที่กำหนดในช่วงเวลา [0,1].

4
การเพิ่มความแม่นยำของเครื่องไล่ระดับสีจะลดลงเมื่อจำนวนการทำซ้ำเพิ่มขึ้น
ฉันกำลังทดลองกับอัลกอริทึมของเครื่องเร่งการไล่ระดับสีผ่านcaretแพ็คเกจใน R ใช้ชุดข้อมูลการรับสมัครวิทยาลัยขนาดเล็กฉันใช้รหัสต่อไปนี้: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
จะตีความค่าสัมประสิทธิ์จากการถดถอยเบต้าได้อย่างไร?
ฉันมีข้อมูลบางอย่างที่ถูกล้อมรอบระหว่าง 0 และ 1 ฉันได้ใช้betaregแพคเกจใน R เพื่อให้พอดีกับรูปแบบการถดถอยกับข้อมูลที่ถูกผูกไว้เป็นตัวแปรตาม คำถามของฉันคือฉันจะตีความสัมประสิทธิ์จากการถดถอยได้อย่างไร

3
CDF ปกติใดของการแจกแจงแบบแปรผันตามตัวแปรสุ่มเบต้า
สมมติว่าคุณกำหนด: X∼Beta(α,β)X∼Beta(α,β)X\sim\mbox{Beta}(\alpha,\beta) Y∼Φ−1(X)Y∼Φ−1(X)Y\sim \Phi^{-1}(X) ที่Φ−1Φ−1\Phi^{-1}เป็นสิ่งที่ตรงกันข้ามของCDF ของการกระจายแบบปกติมาตรฐาน คำถามของฉันคือมีการกระจายง่ายที่YYYต่อไปนี้หรือที่สามารถใกล้เคียงกับYYY ? ฉันถามเพราะฉันสงสัยอย่างมากจากผลการจำลอง (แสดงด้านล่าง) ที่YYYเปลี่ยนเป็นการแจกแจงแบบปกติเมื่อαα\alphaและββ\betaสูง แต่ฉันไม่รู้ว่าทำไมมันถึงเป็นคณิตศาสตร์ (แน่นอนว่าเมื่อα=1;β=1α=1;β=1\alpha=1;\beta=1 , XXXจะเหมือนกันและYYYจะเป็นมาตรฐานปกติ แต่ทำไมมันจะเป็นจริงสำหรับค่าที่สูงขึ้น?) หากไม่มาบรรจบกันเพื่อปกติสิ่งที่จะพารามิเตอร์ของการที่เป็นปกติในแง่ของαα\alphaและββ\beta ? (ฉันคาดหวังว่าค่าเฉลี่ยจะเป็นΦ−1(αα+β)Φ−1(αα+β)\Phi^{-1}(\frac{\alpha}{\alpha+\beta})เนื่องจากเป็นการเปลี่ยนแปลงของโหมด แต่ฉันไม่รู้ค่าเบี่ยงเบนมาตรฐาน) (วางวิธีอื่นนี้อาจจะถามว่า "ไม่Φ(Norm(μ,σ))Φ(Norm(μ,σ))\Phi(\mbox{Norm}(\mu, \sigma))บรรจบกับการกระจายเบต้าสำหรับทิศทางของบางμμ\muและσσ\sigma " ผมไม่แน่ใจว่าไม่ว่าจะเป็นเรื่องง่ายที่จะตอบ) ผลการจำลอง ที่นี่ฉันแสดงเหตุผลที่ฉันสงสัยว่าผลที่ได้เป็นเรื่องปกติ (เนื่องจากฉันไม่สามารถสำรองด้วยคณิตศาสตร์) การจำลองการสามารถทำได้ใน R กับและ ตัวอย่างเช่นการเลือกพารามิเตอร์สูงα = 3000และβ = 7000 :YYYqnormrnormα=3000α=3000\alpha=3000β=7000β=7000\beta=7000 hist(qnorm(rbeta(5000, 3000, 7000))) สิ่งนี้ดูปกติqqnormและการทดสอบ Shapiro-Wilk (ซึ่งปกติคือสมมุติฐานว่าง) แนะนำเช่น: qqnorm(qnorm(rbeta(5000, 3000, 7000))) shapiro.test(qnorm(rbeta(5000, 3000, 7000))) …

1
การกระจายเบต้าที่เหมาะสมใน Scipy
ตามที่วิกิพีเดียการกระจายเบต้าน่าจะมีสองพารามิเตอร์รูปร่าง: และβαα\alphaββ\beta เมื่อฉันโทรscipy.stats.beta.fit(x)ใน Python xจะมีการคืนค่าจำนวนพวงในช่วง , 4 ค่า สิ่งนี้ทำให้ฉันประหลาด[ 0 , 1 ][0,1][0,1] หลังจาก googling ผมพบว่าหนึ่งในค่าที่ส่งกลับมาจะต้องเป็น 'ตั้ง' เนื่องจากตัวแปรที่สามคือ 0 scipy.stats.beta.fit(x, floc=0)ถ้าผมโทร ไม่มีใครรู้ว่าสิ่งที่ตัวแปรที่สี่คือและถ้าสองคนแรกคือและβ ?αα\alphaββ\beta

3
ดังนั้นการกระจายเบต้า
เนื่องจากฉันแน่ใจว่าทุกคนที่นี่รู้อยู่แล้ว PDF ของการแจกแจงเบต้าX∼B(a,b)X∼B(a,b)X \sim B(a,b)มอบให้โดย f(x)=1B(a,b)xa−1(1−x)b−1f(x)=1B(a,b)xa−1(1−x)b−1f(x) = \frac{1}{B(a,b)}x^{a-1}(1-x)^{b-1} ฉันตามล่าหาสถานที่เพื่ออธิบายต้นกำเนิดของสูตรนี้ แต่ฉันหามันไม่เจอ ทุกบทความที่ฉันพบในการแจกแจงเบต้าดูเหมือนว่าจะให้สูตรนี้แสดงให้เห็นถึงรูปร่างบางส่วนของมันแล้วตรงไปยังการอภิปรายช่วงเวลาและต่อจากที่นั่น ฉันไม่ชอบใช้สูตรทางคณิตศาสตร์ที่ไม่สามารถหามาอธิบายได้ สำหรับดิสทริบิวชันอื่น ๆ (เช่นแกมม่าหรือทวินาม) มีการได้มาอย่างชัดเจนที่ฉันสามารถเรียนรู้และใช้งานได้ แต่ฉันไม่พบอะไรแบบนั้นสำหรับการแจกแจงแบบเบต้า ดังนั้นคำถามของฉันคือ: ต้นกำเนิดของสูตรนี้คืออะไร? มันจะมาจากหลักการแรกในบริบทใดก็ตามที่ถูกพัฒนามาตั้งแต่แรก? [เพื่อความกระจ่างแจ้งฉันไม่ได้ถามเกี่ยวกับวิธีการใช้การแจกแจงแบบเบต้าในสถิติแบบเบย์หรือความหมายในทางปฏิบัติในทางปฏิบัติ (ฉันได้อ่านตัวอย่างเบสบอล) ฉันแค่อยากรู้วิธีการหา PDF มีคำถามก่อนหน้านี้ที่ถามสิ่งที่คล้ายกัน แต่มันถูกทำเครื่องหมาย (ฉันคิดว่าไม่ถูกต้อง) เป็นคำถามซ้ำที่ไม่ได้แก้ปัญหาดังนั้นฉันจึงไม่สามารถค้นหาความช่วยเหลือได้ที่นี่] แก้ไข 2017-05-06: ขอบคุณทุกคนสำหรับคำถาม ฉันคิดว่าคำอธิบายที่ดีของสิ่งที่ฉันต้องการมาจากคำตอบอย่างใดอย่างหนึ่งที่ฉันได้รับเมื่อฉันถามอาจารย์ผู้สอนหลักสูตรนี้: "ฉันเดาว่าผู้คนจะได้รับความหนาแน่นปกติเป็นขีด จำกัด ของผลรวมของ n สิ่งหารด้วย sqrt (n) และคุณสามารถหาความหนาแน่นของปัวซองได้จากแนวคิดของเหตุการณ์ที่เกิดขึ้นในอัตราคงที่เช่นเดียวกันเพื่อให้ได้ ความหนาแน่นของเบต้าคุณจะต้องมีความคิดบางอย่างเกี่ยวกับสิ่งที่ทำให้การกระจายตัวของเบต้าเป็นอิสระจากและมีเหตุผลก่อนที่จะมีความหนาแน่น " ดังนั้นความคิด "ab initio" ในความคิดเห็นน่าจะใกล้เคียงกับสิ่งที่ฉันกำลังมองหา ฉันไม่ใช่นักคณิตศาสตร์ แต่ฉันรู้สึกสะดวกสบายที่สุดเมื่อใช้คณิตศาสตร์ที่ฉันสามารถหามาได้ หากต้นกำเนิดนั้นสูงเกินกว่าที่ฉันจะจัดการได้ดังนั้นไม่ว่าจะเป็น แต่ถ้าไม่ใช่ฉันก็อยากจะเข้าใจพวกเขา

2
ทำไมชุดการกระจายสินค้านี้
เรากำลังตรวจสอบการทดสอบทางสถิติแบบเบย์และพบกับปรากฏการณ์แปลก ๆ (สำหรับฉันอย่างน้อยที่สุด) พิจารณากรณีต่อไปนี้: เราสนใจที่จะวัดว่าประชากร A หรือ B ใดที่มีอัตราการแปลงสูงกว่า สำหรับการตรวจสอบสติเราตั้งค่านั่นคือความน่าจะเป็นของการแปลงเท่ากันทั้งสองกลุ่ม เราสร้างข้อมูลเทียมโดยใช้แบบจำลองทวินามเช่นpA=pBpA=pBp_A = p_BnA∼Binomial(N,pA)nA∼Binomial(N,pA)n_A \sim \text{Binomial}(N, p_A) จากนั้นเราพยายามประเมินโดยใช้แบบจำลองเบต้า - ทวินามแบบเบย์เพื่อให้เราได้รับสำหรับแต่ละอัตราการแปลงเช่นpA,pBpA,pBp_A, p_BPA∼Beta(1+nA,N−nA+1)PA∼Beta(1+nA,N−nA+1)P_A \sim \text{Beta}(1 + n_A, N - n_A +1 ) สถิติการทดสอบของเราคำนวณโดยการคำนวณผ่านทาง monte carloS=P(PA>PB|N,nA,nB)S=P(PA>PB|N,nA,nB)S = P(P_A > P_B\; |\; N, n_A, n_B) สิ่งที่ทำให้ผมประหลาดใจคือว่าถ้าแล้ว(0,1)} ความคิดของฉันคือว่ามันจะอยู่กึ่งกลางประมาณ 0.5 และยังมาบรรจบกันถึง 0.5 เป็นขนาดตัวอย่าง, , เติบโต pA=pBpA=pBp_A = …

2
คำนวณช่วงความมั่นใจสำหรับค่าเฉลี่ยของการแจกแจงแบบเบต้า
พิจารณาการแจกแจงแบบเบต้าสำหรับชุดคะแนนที่กำหนดใน [0,1] หลังจากคำนวณค่าเฉลี่ยแล้ว: μ = αα + βμ=αα+β \mu = \frac{\alpha}{\alpha+\beta} มีวิธีให้ช่วงความมั่นใจรอบ ๆ ค่าเฉลี่ยนี้ไหม

1
การกระจายแบบเกาส์เป็นกรณีเฉพาะของการแจกแจงแบบเบต้าหรือไม่
หากคุณดูการแจกแจงแบบเบต้าด้วยα=β= 4α=β=4\alpha=\beta=4มันจะดูคล้ายกับการแจกแจงแบบเกาส์มาก แต่มันคืออะไร คุณจะพิสูจน์ได้อย่างไรว่าการแจกแจงแบบเบต้า (4,4) เป็นแบบเกาส์เซสหรือไม่?

3
วิธีการใช้รูปแบบผสมโดยใช้ฟังก์ชั่น betareg ใน R?
ฉันมีชุดข้อมูลประกอบด้วยสัดส่วนที่วัด "ระดับกิจกรรม" ของลูกอ๊อดแต่ละตัวดังนั้นจึงทำให้ค่าที่ผูกไว้ระหว่าง 0 และ 1 ข้อมูลนี้ถูกรวบรวมโดยการนับจำนวนครั้งที่บุคคลย้ายภายในช่วงเวลาหนึ่ง (1 สำหรับการเคลื่อนไหว 0 สำหรับไม่มีการเคลื่อนไหว) จากนั้นค่าเฉลี่ยเพื่อสร้างหนึ่งค่าต่อบุคคล ผลกระทบคงที่หลักของฉันคือ "ระดับความหนาแน่น" ปัญหาที่ฉันเผชิญคือว่าฉันมีตัวแปรปัจจัย "บ่อน้ำ" ที่ฉันต้องการรวมไว้เป็นเอฟเฟกต์แบบสุ่ม - ฉันไม่สนใจความแตกต่างระหว่างบ่อน้ำ แต่ต้องการที่จะอธิบายถึงสถิติเหล่านั้น ประเด็นสำคัญอย่างหนึ่งเกี่ยวกับบ่อน้ำคือฉันมีเพียง 3 แห่งเท่านั้นและฉันเข้าใจว่ามันเป็นอุดมคติที่จะมีระดับปัจจัยมากกว่า (5+) เมื่อจัดการกับเอฟเฟกต์แบบสุ่ม หากเป็นไปได้ที่จะทำฉันต้องการคำแนะนำเกี่ยวกับวิธีการใช้รูปแบบผสมโดยใช้betareg()หรือbetamix()ในอาร์ฉันได้อ่านไฟล์วิธีใช้ R แต่ฉันมักจะพบพวกเขายากที่จะเข้าใจ (สิ่งที่แต่ละพารามิเตอร์อาร์กิวเมนต์จริงๆหมายถึงในบริบท ของข้อมูลของฉันเองและความหมายของผลลัพธ์ในแง่ของระบบนิเวศ) และดังนั้นฉันจึงมักจะทำงานได้ดีขึ้นผ่านตัวอย่าง ในบันทึกที่เกี่ยวข้องฉันสงสัยว่าถ้าฉันสามารถใช้glm()ภายใต้ตระกูลทวินามและลิงค์ logit แทนการทำบัญชีสุ่มเอฟเฟ็กต์กับข้อมูลประเภทนี้

2
การกระจายเบต้าเมื่อพลิกเหรียญ
หนังสือ Bayesian ของ Kruschke กล่าวว่าเกี่ยวกับการใช้การแจกแจงเบต้าสำหรับการพลิกเหรียญ ตัวอย่างเช่นหากเราไม่มีความรู้มาก่อนนอกจากความรู้ที่ว่าเหรียญมีด้านหัวและด้านท้ายนั่นเท่ากับการสังเกตก่อนหน้านี้หนึ่งหัวและหนึ่งหางซึ่งสอดคล้องกับ a = 1 และ b = 1 ทำไมไม่มีข้อมูลใดเท่ากับการได้เห็นหัวหนึ่งและหนึ่งหาง - 0 หัวและ 0 หางดูเหมือนเป็นธรรมชาติสำหรับฉัน

4
ฉันสามารถประมาณ (ตัวเลข) ค่าประมาณสำหรับการแจกแจงเบต้าด้วยอัลฟาและเบต้าขนาดใหญ่ได้อย่างไร
มีวิธีที่มีเสถียรภาพเชิงตัวเลขในการคำนวณค่าของการแจกแจงแบบเบต้าสำหรับจำนวนเต็มขนาดใหญ่ alpha, beta (เช่น alpha, beta> 1000000) หรือไม่ ที่จริงแล้วฉันต้องการเพียงแค่ช่วงความมั่นใจ 99% รอบ ๆ โหมดเท่านั้นหากนั่นทำให้ปัญหาง่ายขึ้น เพิ่ม : ฉันขอโทษคำถามของฉันไม่ได้ระบุไว้อย่างชัดเจนเหมือนที่ฉันคิด สิ่งที่ฉันต้องการทำคือ: ฉันมีเครื่องจักรที่ตรวจสอบผลิตภัณฑ์บนสายพานลำเลียง เศษส่วนของผลิตภัณฑ์เหล่านี้ถูกปฏิเสธโดยเครื่อง ตอนนี้หากผู้ประกอบการเครื่องจักรเปลี่ยนแปลงการตั้งค่าการตรวจสอบบางอย่างฉันต้องการแสดงให้เขา / เธอทราบอัตราการปฏิเสธโดยประมาณและคำแนะนำบางอย่างเกี่ยวกับความน่าเชื่อถือของการประมาณการในปัจจุบัน ดังนั้นฉันคิดว่าฉันปฏิบัติกับอัตราการปฏิเสธจริงเป็นตัวแปรสุ่ม X และคำนวณการแจกแจงความน่าจะเป็นสำหรับตัวแปรสุ่มนั้นตามจำนวนของวัตถุที่ถูกปฏิเสธ N และวัตถุที่ยอมรับ M ถ้าฉันถือว่าการกระจายก่อนหน้านี้เหมือนกันสำหรับ X นี่คือ การกระจายเบต้าขึ้นอยู่กับ N และ M ฉันสามารถแสดงการแจกแจงนี้ให้กับผู้ใช้โดยตรงหรือหาช่วงเวลา [l, r] เพื่อให้อัตราการปฏิเสธที่แท้จริงอยู่ในช่วงเวลานี้ด้วย p> = 0.99 (โดยใช้คำศัพท์ของ shabbychef) และแสดง ระยะห่าง สำหรับ M, N ขนาดเล็ก …

3
การทำความเข้าใจคอนจูเกตเบต้าก่อนการอนุมานแบบเบย์เกี่ยวกับความถี่
ต่อไปนี้เป็นข้อความที่ตัดตอนมาจาก Bolstad ของรู้เบื้องต้นเกี่ยวกับคชกรรมสถิติ สำหรับสิ่งที่คุณผู้เชี่ยวชาญออกมีนี้อาจจะมีเล็ก ๆ น้อย ๆ แต่ผมไม่เข้าใจว่าผู้เขียนสรุปว่าเราไม่ต้องทำใด ๆ รวมในการคำนวณความน่าจะเป็นหลังมูลค่าของบาง\ผมเข้าใจการแสดงออกที่สองซึ่งเป็นสัดส่วนและสถานที่ที่เงื่อนไขทั้งหมดมาจาก ( โอกาส x ก่อน) นอกจากนี้ฉันเข้าใจว่าเราไม่ต้องกังวลเกี่ยวกับตัวส่วนเนื่องจากตัวเศษมีสัดส่วนโดยตรง แต่ย้ายไปยังสมการที่สามเราไม่ลืมเกี่ยวกับตัวส่วนของกฎเบย์ มันไปไหน และค่าที่คำนวณโดยฟังก์ชันแกมม่านั้นไม่ใช่ค่าคงที่ใช่หรือไม่ ค่าคงที่ไม่ได้ยกเลิกในทฤษฎีบทเบย์หรือไม่ππ\pi

1
การกระจายตัวของอัตราส่วนของตัวแปรสุ่มไคสแควร์แบบพึ่งพา
สมมติว่าโดยที่เป็นอิสระX=X1+X2+⋯+XnX=X1+X2+⋯+Xn X = X_1 + X_2+\cdots+ X_n Xi∼N(0,σ2)Xi∼N(0,σ2)X_i \sim N(0,\sigma^2) คำถามของฉันคือการกระจายอะไรบ้าง Z=X2X21+X22+⋯+X2nZ=X2X12+X22+⋯+Xn2 Z = \frac{X^2}{X_1^2 + X_2^2 + \cdots + X_n^2} ทำตาม? ฉันรู้จากที่นี่ว่าอัตราส่วนของตัวแปรสุ่มไคสแควร์สองตัวแสดงเป็นตามการแจกแจงแบบเบต้า ผมคิดว่านี้จะถือว่าเป็นอิสระระหว่างและYในกรณีของฉันตัวส่วนของมีส่วนประกอบของกำลังสองWW+YWW+Y\frac{W}{W + Y}WWWYYYZZZXXX ฉันคิดว่าต้องติดตามความผันแปรของการกระจายเบต้า แต่ฉันไม่แน่ใจ และถ้าสมมติฐานนี้ถูกต้องฉันก็ไม่รู้จะพิสูจน์มันได้อย่างไรZZZ

1
เนื่องจากการแจกแจงเบต้ามีความคล้ายคลึงกันในรูปแบบทวินามทำไมเราจึงต้องการการกระจายเบต้า
ปรากฏว่าการแจกแจงทวินามนั้นคล้ายคลึงกันมากในรูปแบบของการแจกแจงแบบเบต้าและฉันสามารถกำหนดค่าคงที่อีกครั้งใน pdf ทั้งสองเพื่อให้พวกเขามีลักษณะเดียวกัน แล้วทำไมเราถึงต้องมีการแจกแจงเบต้า มันมีวัตถุประสงค์เฉพาะหรือไม่? ขอบคุณ!

1
การจัดการกับการถดถอยของตัวแปรตอบสนองที่มีขอบเขตผิดปกติ
ฉันกำลังพยายามที่จะสร้างแบบจำลองตัวแปรการตอบสนองที่ถูกผูกไว้ในทางทฤษฎีระหว่าง -225 และ +225 ตัวแปรคือคะแนนรวมที่ผู้เล่นได้รับเมื่อเล่นเกม แม้ว่าในทางทฤษฎีมันเป็นไปได้สำหรับวิชาที่จะทำคะแนน +225 แม้จะเป็นเช่นนี้เพราะคะแนนขึ้นอยู่กับการกระทำของอาสาสมัครเท่านั้น แต่ยังรวมถึงการกระทำของการกระทำอื่นที่คะแนนสูงสุดที่ทุกคนทำคือ 125 (นี่คือผู้เล่นสูงสุด 2 คนที่เล่นกันสามารถทำคะแนนได้) เกิดขึ้นด้วยความถี่สูงมาก คะแนนต่ำสุดคือ +35 ขอบเขตของ 125 นี้ทำให้เกิดปัญหากับการถดถอยเชิงเส้น สิ่งเดียวที่ฉันคิดได้คือการปรับขนาดการตอบสนองใหม่ให้อยู่ระหว่าง 0 ถึง 1 และใช้การถดถอยเบต้า ถ้าฉันทำเช่นนี้แม้ว่าฉันไม่แน่ใจว่าฉันสามารถพิสูจน์ได้ว่า 125 เป็นขอบเขตสูงสุด (หรือ 1 หลังจากการเปลี่ยนแปลง) เนื่องจากเป็นไปได้ที่จะได้คะแนน +225 นอกจากนี้ถ้าฉันทำสิ่งนี้ขอบเขตด้านล่างของฉันคือ 35 ขอบคุณ โจนาธาน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.