คำถามติดแท็ก gamma-distribution

การกระจายความน่าจะเป็นแบบไม่ต่อเนื่องที่ไม่เป็นลบจัดทำดัชนีโดยพารามิเตอร์เชิงบวกสองตัว

4
เมื่อใดจึงควรใช้แกมม่า GLM
การกระจายของแกมม่านั้นมีรูปร่างที่ค่อนข้างกว้างและด้วยการเชื่อมโยงระหว่างค่าเฉลี่ยและความแปรปรวนผ่านพารามิเตอร์ทั้งสองดูเหมือนว่าเหมาะสมที่จะจัดการกับ heteroskedasticity ในข้อมูลที่ไม่เป็นลบในวิธีที่ OLS ที่บันทึกการเปลี่ยนแปลงสามารถ ไม่ต้องดำเนินการโดยไม่ใช้ WLS หรือตัวประมาณ VCV ที่สอดคล้องกันของ heteroskedasticity ฉันจะใช้มันมากขึ้นสำหรับการสร้างแบบจำลองข้อมูลที่ไม่ใช่ลบเป็นประจำ แต่ฉันไม่รู้จักใครที่ใช้มันฉันไม่ได้เรียนรู้ในห้องเรียนที่เป็นทางการและวรรณกรรมที่ฉันอ่านไม่เคยใช้เลย เมื่อใดก็ตามที่ฉัน Google บางอย่างเช่น "การใช้แกมม่า GLM ในทางปฏิบัติ" ฉันจะได้รับคำแนะนำในการใช้เวลารอระหว่างเหตุการณ์ปัวซอง ตกลง. แต่ดูเหมือนว่าจะเข้มงวดและไม่สามารถใช้งานได้เท่านั้น อย่างไร้เดียงสาดูเหมือนว่าแกมม่า GLM เป็นวิธีที่ค่อนข้างเบาในการสร้างแบบจำลองข้อมูลที่ไม่ใช่เชิงลบเนื่องจากความยืดหยุ่นของแกมม่า แน่นอนคุณต้องตรวจสอบ QQ แปลงและแปลงที่เหลือเช่นรุ่นใด ๆ แต่มีข้อบกพร่องร้ายแรงที่ฉันหายไปหรือไม่ นอกเหนือจากการสื่อสารกับคนที่ "เพิ่งเรียกใช้ OLS" หรือไม่

4
การเลือกระหว่าง LM และ GLM สำหรับตัวแปรตอบกลับที่บันทึกการเปลี่ยนแปลง
ฉันพยายามที่จะเข้าใจปรัชญาที่อยู่เบื้องหลังโดยใช้แบบจำลองเชิงเส้นทั่วไป (GLM) เทียบกับแบบจำลองเชิงเส้น (LM) ฉันได้สร้างชุดข้อมูลตัวอย่างด้านล่างโดยที่: เข้าสู่ระบบ( y) = x + εlog⁡(y)=x+ε\log(y) = x + \varepsilon ตัวอย่างไม่ได้มีข้อผิดพลาดเป็นฟังก์ชันของขนาดของyดังนั้นฉันจะสมมติว่าโมเดลเชิงเส้นของบันทึกการแปลง y จะดีที่สุด ในตัวอย่างด้านล่างนี่เป็นกรณี (ฉันคิดว่า) - เนื่องจาก AIC ของ LM ในข้อมูลการแปลงบันทึกมีค่าต่ำที่สุด AIC ของการแจกแจงแกมมา GLM ที่มีฟังก์ชั่นบันทึกการเชื่อมโยงมีผลรวมของกำลังสองน้อยลง (SS) แต่การเพิ่มระดับความอิสระเพิ่มขึ้นส่งผลให้ AIC ที่สูงขึ้นเล็กน้อย ฉันรู้สึกประหลาดใจที่การแจกแจงแบบเกาส์ AIC นั้นสูงกว่ามาก (แม้ว่า SS จะเป็นรุ่นที่ต่ำที่สุด)εε\varepsilonYyy ฉันหวังว่าจะได้รับคำแนะนำเมื่อควรเข้าใกล้รุ่น GLM - มีบางสิ่งที่ฉันควรมองหาในโมเดล LM ของฉันที่พอดีกับส่วนที่เหลือเพื่อบอกฉันว่าการกระจายอื่นเหมาะสมกว่าหรือไม่ นอกจากนี้เราควรเลือกตระกูลการแจกจ่ายที่เหมาะสมอย่างไร ขอบคุณล่วงหน้าสำหรับความช่วยเหลือของคุณ [แก้ไข]: ตอนนี้ฉันได้ปรับสถิติสรุปเพื่อให้ …

3
ข้อใดมีหางที่หนักกว่า lognormal หรือแกมม่า
(นี่เป็นคำถามที่เพิ่งมาหาฉันทางอีเมลฉันได้เพิ่มบริบทบางส่วนจากบทสนทนาสั้น ๆ ก่อนหน้านี้กับบุคคลเดียวกัน) เมื่อปีที่แล้วมีคนบอกว่าการกระจายตัวของแกมม่านั้นหนักกว่า lognormal และตั้งแต่นั้นมาฉันก็บอกว่านั่นไม่ใช่กรณี ซึ่งเป็นนกที่หนักกว่า? ทรัพยากรบางอย่างที่ฉันสามารถใช้เพื่อสำรวจความสัมพันธ์มีอะไรบ้าง

4
วิธีการที่ดีสำหรับแปลงความหนาแน่นของตัวแปรที่ไม่เป็นลบใน R?
plot(density(rexp(100)) เห็นได้ชัดว่าความหนาแน่นทั้งหมดทางด้านซ้ายของศูนย์แสดงถึงอคติ ฉันต้องการสรุปข้อมูลบางอย่างสำหรับผู้ที่ไม่ใช่นักสถิติและฉันต้องการหลีกเลี่ยงคำถามเกี่ยวกับสาเหตุที่ข้อมูลที่ไม่ใช่เชิงลบมีความหนาแน่นทางด้านซ้ายของศูนย์ แปลงสำหรับการตรวจสอบแบบสุ่ม ฉันต้องการแสดงการกระจายของตัวแปรโดยกลุ่มการรักษาและกลุ่มควบคุม การแจกแจงแบบ exponential-ish ฮิสโทแกรมมีความซับซ้อนด้วยเหตุผลหลายประการ ค้นหา Google อย่างรวดเร็วทำให้ผมทำงานโดยสถิติในเมล็ดที่ไม่ใช่เชิงลบเช่น: นี้ แต่มีการนำมาใช้ใน R หรือไม่? ของวิธีการดำเนินการใด ๆ ของพวกเขา "ดีที่สุด" อย่างใดสำหรับสถิติเชิงพรรณนา? แก้ไข: แม้ว่าfromคำสั่งสามารถแก้ไขปัญหาปัจจุบันของฉันได้ก็คงจะดีที่จะรู้ว่ามีใครใช้เมล็ดในวรรณคดีโดยใช้การประมาณความหนาแน่นแบบไม่ลบ

4
ผลรวมทั่วไปของตัวแปรสุ่มแกมมา
ฉันได้อ่านแล้วว่าผลรวมของตัวแปรสุ่มแกมมาที่มีพารามิเตอร์ระดับเดียวกันเป็นตัวแปรสุ่มแกมมาอีกตัว ฉันยังได้เห็นกระดาษโดยMoschopoulosอธิบายวิธีการรวมของชุดสุ่มของตัวแปรสุ่มแกมมา ฉันได้ลองใช้วิธีการของ Moschopoulosแต่ยังไม่ประสบความสำเร็จ การสรุปชุดตัวแปรสุ่มแบบทั่วไปของแกมมามีลักษณะอย่างไร ในการทำให้คำถามนี้เป็นรูปธรรมสิ่งที่ดูเหมือนจะเป็น: Gamma(3,1)+Gamma(4,2)+Gamma(5,1)Gamma(3,1)+Gamma(4,2)+Gamma(5,1)\text{Gamma}(3,1) + \text{Gamma}(4,2) + \text{Gamma}(5,1) หากพารามิเตอร์ด้านบนไม่แสดงเป็นพิเศษโปรดแนะนำผู้อื่น

2
แกมมากับการแจกแจงล็อกปกติ
ฉันมีการแจกแจงที่สังเกตได้จากการทดลองซึ่งดูคล้ายกับการแจกแจงแกมม่าหรือ lognormal ฉันได้อ่านแล้วว่าการแจกแจงแบบล็อกนอเรนเป็นการแจกแจงความน่าจะเป็นเอนโทรปีสูงสุดสำหรับตัวแปรแบบสุ่มซึ่งค่าเฉลี่ยและความแปรปรวนของได้รับการแก้ไข การกระจายของแกมม่ามีคุณสมบัติคล้ายกันหรือไม่?XXXln(X)ln⁡(X)\ln(X)

5
ตัวอย่างชีวิตจริงของการแจกแจงทั่วไป
ฉันเป็นนักเรียนที่จบการศึกษาที่สนใจเรื่องสถิติ ฉันชอบเนื้อหาที่มากเกินไป แต่บางครั้งฉันก็รู้สึกลำบากกับการใช้งานกับชีวิตจริง โดยเฉพาะคำถามของฉันเกี่ยวกับการแจกแจงเชิงสถิติที่ใช้กันทั่วไป (ปกติ - เบต้า - แกมม่า ฯลฯ ) ฉันเดาว่าในบางกรณีฉันได้รับคุณสมบัติเฉพาะที่ทำให้การแจกแจงค่อนข้างดี - ตัวอย่างเช่นคุณสมบัติไร้ความจำของเลขชี้กำลัง แต่สำหรับอีกหลายกรณีฉันไม่ได้มีสัญชาตญาณเกี่ยวกับความสำคัญและพื้นที่การใช้งานของการแจกแจงทั่วไปที่เราเห็นในตำราเรียน อาจมีแหล่งข้อมูลที่ดีมากมายที่จัดการกับข้อกังวลของฉันฉันจะดีใจถ้าคุณสามารถแบ่งปันสิ่งเหล่านั้น ฉันจะมีแรงจูงใจมากขึ้นในเนื้อหาถ้าฉันสามารถเชื่อมโยงกับตัวอย่างในชีวิตจริง

3
ความสัมพันธ์ระหว่างการแจกแจงแกมม่ากับการแจกแจงแบบปกติ
ฉันเพิ่งพบว่าจำเป็นต้องได้รับ PDF สำหรับสแควร์ของตัวแปรสุ่มปกติที่มีค่าเฉลี่ย 0 ไม่ว่าด้วยเหตุผลใดก็ตามฉันเลือกที่จะไม่ทำให้ค่าความแปรปรวนเป็นปกติก่อน ถ้าฉันทำอย่างถูกต้องแล้วไฟล์ PDF นี้เป็นดังนี้: N2(x;σ2)=1σ2π−−√x−−√e−x2σ2N2(x;σ2)=1σ2πxe−x2σ2 N^2(x; \sigma^2) = \frac{1}{\sigma \sqrt{2 \pi} \sqrt{x}} e^{\frac{-x}{2\sigma^2}} ฉันสังเกตเห็นว่านี่เป็นความจริงเพียงแค่การกระจายตัวของแกมม่า: N2(x;σ2)=Gamma(x;12,2σ2)N2(x;σ2)=Gamma⁡(x;12,2σ2) N^2(x; \sigma^2) = \operatorname{Gamma}(x; \frac{1}{2}, 2 \sigma^2) และจากข้อเท็จจริงที่ว่าผลรวมของ gammas สองตัว (ที่มีพารามิเตอร์มาตราส่วนเดียวกัน) เท่ากับแกมม่าอีกอันหนึ่งมันก็จะบอกว่าแกมม่านั้นเทียบเท่ากับผลรวมของตัวแปรสุ่มปกติkkkกำลังสอง N2Σ(x;k,σ2)=Gamma(x;k2,2σ2)NΣ2(x;k,σ2)=Gamma⁡(x;k2,2σ2) N^2_\Sigma(x; k, \sigma^2) = \operatorname{Gamma}(x; \frac{k}{2}, 2 \sigma^2) ฉันรู้สึกประหลาดใจเล็กน้อย แม้ว่าฉันจะรู้ว่าการแจกแจงχ2χ2\chi^2 - การกระจายของผลรวมของRVs มาตรฐานแบบธรรมดา - เป็นกรณีพิเศษของแกมม่า, ฉันไม่ได้ตระหนักว่าแกมม่านั้นเป็นเพียงลักษณะทั่วไปที่อนุญาตให้ใช้ผลรวมของตัวแปรสุ่มปกติ ของความแปรปรวนใด ๆ …

2
วิธีตีความพารามิเตอร์ใน GLM with family = Gamma
คำถามนี้ถูกโยกย้ายจาก Stack Overflow เพราะสามารถตอบได้ในการตรวจสอบข้าม อพยพ 5 ปีที่ผ่านมา ฉันมีคำถามเกี่ยวกับการตีความพารามิเตอร์สำหรับ GLM ที่มีตัวแปรตามการกระจายแกมม่า นี่คือสิ่งที่ R ส่งคืนสำหรับ GLM ของฉันด้วยล็อกลิงค์: Call: glm(formula = income ~ height + age + educat + married + sex + language + highschool, family = Gamma(link = log), data = fakesoep) Deviance Residuals: Min 1Q Median 3Q Max -1.47399 -0.31490 …

2
การวินิจฉัยใดที่สามารถตรวจสอบการใช้งานตระกูล GLM หนึ่ง ๆ ได้
ดูเหมือนว่าจะเป็นประถม แต่ฉันมักจะติดอยู่ที่จุดนี้ ... ข้อมูลส่วนใหญ่ที่ฉันจัดการด้วยนั้นไม่ปกติและการวิเคราะห์ส่วนใหญ่อ้างอิงจากโครงสร้าง GLM สำหรับการวิเคราะห์ปัจจุบันของฉันฉันมีตัวแปรตอบสนองที่ "ความเร็วเดิน" (เมตร / นาที) เป็นเรื่องง่ายสำหรับฉันที่จะระบุว่าฉันไม่สามารถใช้ OLS ได้ แต่จากนั้นฉันมีความไม่แน่นอนอย่างมากในการตัดสินใจว่าครอบครัวใด (Gamma, Weibull และอื่น ๆ ) มีความเหมาะสม! ฉันใช้ Stata และดูการวินิจฉัยเช่นส่วนที่เหลือและความแตกต่างแบบเฮเทอโรซิสติซิตีค่าส่วนที่เหลือเทียบกับค่าติดตั้ง ฯลฯ ฉันทราบว่าการนับข้อมูลสามารถอยู่ในรูปแบบของอัตรา (เช่นอัตราอุบัติการณ์) และใช้แกมม่า (อะนาล็อกไปยังโมเดลลบลบทวินามแบบแยกขั้วแบบ overdispersed) แต่ต้องการ "ปืนสูบบุหรี่" เพื่อบอกว่าใช่คุณมีสิทธิ ครอบครัว. การดูค่าสารตกค้างมาตรฐานกับค่าติดตั้งเป็นวิธีเดียวและดีที่สุดในการทำเช่นนี้หรือไม่? ฉันต้องการใช้ตัวแบบผสมเพื่ออธิบายลำดับชั้นของข้อมูลด้วยเช่นกัน แต่ก่อนอื่นต้องแยกแยะว่าครอบครัวใดที่อธิบายตัวแปรตอบสนองของฉันได้ดีที่สุด ความช่วยเหลือใด ๆ ชื่นชม ภาษา Stata ชื่นชมโดยเฉพาะอย่างยิ่ง!

3
วิธีตัวอย่างจาก ?
ฉันต้องการตัวอย่างตามความหนาแน่น โดยที่และเป็นบวกอย่างเคร่งครัด (แรงจูงใจ: สิ่งนี้อาจเป็นประโยชน์สำหรับการสุ่มตัวอย่างของกิ๊บส์เมื่อพารามิเตอร์รูปร่างของความหนาแน่นแกมมามีรูปแบบเหมือนกันมาก่อน)f(a)∝cada−1Γ(a)1(1,∞)(a)f(a)∝cada−1Γ(a)1(1,∞)(a) f(a) \propto \frac{c^a d^{a-1}}{\Gamma(a)} 1_{(1,\infty)}(a) cccddd ไม่มีใครรู้วิธีการสุ่มตัวอย่างจากความหนาแน่นนี้ได้อย่างง่ายดาย? อาจจะเป็นมาตรฐานและมีบางสิ่งที่ฉันไม่รู้ ฉันคิดว่าอัลกอริธึมการคัดแยกที่โง่ที่จะทำงานได้มากหรือน้อย (หาโหมดของ , ตัวอย่างจากเครื่องแบบในกล่องขนาดใหญ่และปฏิเสธถ้า ) แต่ (i) มันไม่ได้มีประสิทธิภาพเลยและ (ii)จะใหญ่เกินไปสำหรับคอมพิวเตอร์ที่จะจัดการได้อย่างง่ายดายแม้ในระดับปานกลาง ขนาดใหญ่และD (โปรดทราบว่าโหมดสำหรับcขนาดใหญ่และdจะอยู่ที่a = cd )a∗a∗a^*fff(a,u)(a,u)(a,u)[0,10a∗]×[0,f(a∗)][0,10a∗]×[0,f(a∗)][0,10a^*]\times [0,f(a^*)]u>f(a)u>f(a)u>f(a)f(a∗)f(a∗)f(a^*)cccdddcccddda=cda=cda=cd ขอบคุณล่วงหน้าสำหรับความช่วยเหลือใด ๆ !

2
การประมาณค่าพารามิเตอร์การกระจายแกมมาโดยใช้ค่าเฉลี่ยตัวอย่างและค่ามาตรฐาน
ฉันพยายามประเมินพารามิเตอร์ของการแจกแจงแกมม่าที่เหมาะที่สุดกับตัวอย่างข้อมูลของฉัน ฉันต้องการใช้ค่าเฉลี่ย , std (และความแปรปรวน ) จากตัวอย่างข้อมูลไม่ใช่ค่าจริง - เนื่องจากสิ่งเหล่านี้จะไม่สามารถใช้ได้ในแอปพลิเคชันของฉัน ตามนี้เอกสารสูตรต่อไปนี้สามารถนำมาใช้ในการประมาณรูปร่างและขนาด: ฉันลองสิ่งนี้กับข้อมูลของฉันอย่างไรก็ตามผลลัพธ์แตกต่างกันมากเมื่อเทียบกับการกระจายแกมม่าที่เหมาะสมกับข้อมูลจริงโดยใช้ไลบรารีการเขียนโปรแกรมหลาม ฉันแนบข้อมูล / รหัสของฉันเพื่อแสดงปัญหาในมือ: import matplotlib.pyplot as plt import numpy as np from scipy.stats import gamma data = [91.81, 10.02, 27.61, 50.48, 3.34, 26.35, 21.0, 79.27, 31.04, 8.85, 109.2, 15.52, 11.03, 41.09, 10.75, 96.43, 109.52, 33.28, 7.66, 65.44, 52.43, 19.25, …

3
ผลรวมของตัวแปรสุ่มเลขชี้กำลังดังต่อไปนี้แกมม่าสับสนโดยพารามิเตอร์
ฉันได้เรียนรู้ผลรวมของตัวแปรสุ่มแบบเอกซ์โพเนนเชียลหลังจากการแจกแจงแกมม่า แต่ทุกที่ที่ฉันอ่านการตั้งค่าที่แตกต่างกัน ตัวอย่างเช่น Wiki อธิบายถึงความสัมพันธ์ แต่อย่าพูดว่าพารามิเตอร์ของพวกเขาหมายถึงอะไรจริง ๆ รูปร่างขนาดอัตรา 1 / อัตรา การแจกแจงแบบเชียล: ~xxxexp(λ)exp(λ)exp(\lambda) f(x|λ)=λe−λxf(x|λ)=λe−λxf(x|\lambda )=\lambda {{e}^{-\lambda x}} E[x]=1/λE[x]=1/λE[x]=1/ \lambda var(x)=1/λ2var(x)=1/λ2var(x)=1/{{\lambda}^2} การแจกแจงแกมมา:Γ(shape=α,scale=β)Γ(shape=α,scale=β)\Gamma(\text{shape}=\alpha, \text{scale}=\beta) f(x|α,β)=1βα1Γ(α)xα−1e−xβf(x|α,β)=1βα1Γ(α)xα−1e−xβf(x|\alpha ,\beta )=\frac{1}{{{\beta }^{\alpha }}}\frac{1}{\Gamma (\alpha )}{{x}^{\alpha -1}}{{e}^{-\frac{x}{\beta }}} E[x]=αβE[x]=αβE[x]=\alpha\beta var[x]=αβ2var[x]=αβ2var[x]=\alpha{\beta}^{2} ในการตั้งค่านี้∑i=1nxi∑i=1nxi\sum\limits_{i=1}^{n}{{{x}_{i}}}คืออะไร สิ่งที่ถูกต้องจะเป็นอย่างไร วิธีการเกี่ยวกับการขยายนี้เพื่อไคสแควร์?

1
ก่อสร้างการกระจาย Dirichlet ด้วยการกระจายแกมม่า
ให้X 1 , … , X k + 1X1,…,Xk+1X_1,\dots,X_{k+1}เป็นตัวแปรสุ่มอิสระที่ต่างกันซึ่งแต่ละอันมีการแจกแจงแกมม่าที่มีพารามิเตอร์α i , i = 1 , 2 , … , k + 1αi,i=1,2,…,k+1\alpha_i,i=1,2,\dots,k+1แสดงว่าY i = X iX 1 + ⋯ + X k + 1 ,i=1,…,kYi=XiX1+⋯+Xk+1,i=1,…,kY_i=\frac{X_i}{X_1+\cdots+X_{k+1}},i=1,\dots,k, มีการแบ่งส่วนร่วมเป็นDirichlet(α1,α2,…,αk;αk+1)Dirichlet(α1,α2,…,αk;αk+1)\text{Dirichlet}(\alpha_1,\alpha_2,\dots,\alpha_k;\alpha_{k+1}) PDF ร่วมของ( X 1 , … , X k + 1 ) = e …

2
ความเบ้ของลอการิทึมของตัวแปรสุ่มแกมม่า
พิจารณาแกมมาตัวแปรสุ่ม X∼Γ(α,θ)X∼Γ(α,θ)X\sim\Gamma(\alpha, \theta) ) มีสูตรเรียบร้อยสำหรับค่าเฉลี่ยความแปรปรวนและความเบ้: E[X]Var[X]Skewness[X]=αθ=αθ2=1/α⋅E[X]2=2/α−−√E[X]=αθVar⁡[X]=αθ2=1/α⋅E[X]2Skewness⁡[X]=2/α\begin{align} \mathbb E[X]&=\alpha\theta\\ \operatorname{Var}[X]&=\alpha\theta^2=1/\alpha\cdot\mathbb E[X]^2\\ \operatorname{Skewness}[X]&=2/\sqrt{\alpha} \end{align} พิจารณาในขณะนี้เข้าสู่ระบบเปลี่ยนตัวแปรสุ่มY=log(X)Y=log⁡(X)Y=\log(X) ) Wikipedia ให้สูตรสำหรับค่าเฉลี่ยและความแปรปรวน: E[Y]Var[Y]=ψ(α)+log(θ)=ψ1(α)E[Y]=ψ(α)+log⁡(θ)Var⁡[Y]=ψ1(α)\begin{align} \mathbb E[Y]&=\psi(\alpha)+\log(\theta)\\ \operatorname{Var}[Y]&=\psi_1(\alpha)\\ \end{align} ผ่านฟังก์ชัน digamma และ trigamma ซึ่งถูกกำหนดให้เป็นอนุพันธ์อันดับหนึ่งและสองของลอการิทึมของฟังก์ชันแกมมา สูตรสำหรับความเบ้คืออะไร? ฟังก์ชัน tetragamma จะปรากฏขึ้นหรือไม่ (สิ่งที่ทำให้ฉันสงสัยเกี่ยวกับสิ่งนี้คือตัวเลือกระหว่างการแจกแจงแบบปกติและแกมม่าดูการแจกแจงแบบแกมม่าและแบบลอบันปกติในสิ่งอื่น ๆ พวกเขาต่างกันในคุณสมบัติความเบ้ของพวกเขาโดยเฉพาะความเบ้ของบันทึกการ ความเบ้ของบันทึกของแกมม่าเป็นลบ แต่เป็นลบอย่างไร .. )

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.