คำถามติดแท็ก distributions

การแจกแจงเป็นการอธิบายทางคณิตศาสตร์ของความน่าจะเป็นหรือความถี่

6
วิธีการคำนวณค่าสัมประสิทธิ์ของกฎหมายของ Zipf จากชุดของความถี่สูงสุด?
ฉันมีความถี่ในการสืบค้นหลายครั้งและฉันจำเป็นต้องประเมินค่าสัมประสิทธิ์ของกฎหมายของ Zipf นี่คือความถี่สูงสุด: 26486 12053 5052 3033 2536 2391 1444 1220 1152 1039

3
อะไรคือข้อดีของการวัด Wasserstein เมื่อเทียบกับ Kullback-Leibler divergence?
อะไรคือความแตกต่างระหว่างWasserstein metricและKullback-Leibler divergence ? Wasserstein metric เรียกอีกอย่างหนึ่งว่าระยะทางของผู้มีอิทธิพลของโลก จากวิกิพีเดีย: Wasserstein (หรือ Vaserstein) เมตริกเป็นฟังก์ชันระยะทางที่กำหนดระหว่างการแจกแจงความน่าจะเป็นในพื้นที่เมตริกที่กำหนด M และ Kullback – Leibler divergence เป็นการวัดว่าการแจกแจงความน่าจะเป็นหนึ่งแยกจากการแจกแจงความน่าจะเป็นที่สองอย่างไร ฉันเคยเห็น KL ถูกใช้ในการเรียนรู้การใช้งานเครื่อง แต่เมื่อเร็ว ๆ นี้ฉันได้พบกับตัวชี้วัดของ Wasserstein มีแนวทางที่ดีเมื่อใช้อย่างใดอย่างหนึ่งหรือไม่? (ฉันมีชื่อเสียงไม่เพียงพอที่จะสร้างแท็กใหม่ด้วยWassersteinหรือEarth mover's distance.)

2
ลักษณะทั่วไปอย่างต่อเนื่องของการแจกแจงทวินามลบ
การแจกแจงลบทวินาม (NB)ถูกกำหนดในจำนวนเต็มไม่เป็นลบและมีฟังก์ชันมวลความน่าจะเป็นf(k;r,p)=(k+r−1k)pk(1−p)r.f(k;r,p)=(k+r−1k)pk(1−p)r.f(k;r,p)={\binom {k+r-1}{k}}p^{k}(1-p)^{r}.มันสมเหตุสมผลหรือไม่ที่จะต้องพิจารณาการกระจายอย่างต่อเนื่องบน reals ที่ไม่เป็นลบซึ่งกำหนดโดยสูตรเดียวกัน (แทนที่k∈N0k∈N0k\in \mathbb N_0โดยx∈R≥0x∈R≥0x\in\mathbb R_{\ge 0} )? ค่าสัมประสิทธิ์ทวินามสามารถเขียนเป็นผลิตภัณฑ์ของ(k+1)⋅…⋅(k+r−1)(k+1)⋅…⋅(k+r−1)(k+1)\cdot\ldots\cdot(k+r-1)ซึ่งเป็นที่ที่ดีที่กำหนดจริงใด ๆkkkkดังนั้นเราจะมี PDF f(x;r,p)∝∏i=1r−1(x+i)⋅px(1−p)r.f(x;r,p)∝∏i=1r−1(x+i)⋅px(1−p)r.f(x;r,p)\propto\prod_{i=1}^{r-1}(x+i)\cdot p^{x}(1-p)^{r}. โดยทั่วไปเราสามารถแทนที่ค่าสัมประสิทธิ์ทวินามด้วยฟังก์ชันแกมมาทำให้ค่าrไม่ใช่จำนวนเต็มrrr: f(x;r,p)∝Γ(x+r)Γ(x+1)Γ(r)⋅px(1−p)r.f(x;r,p)∝Γ(x+r)Γ(x+1)Γ(r)⋅px(1−p)r.f(x;r,p)\propto\frac{\Gamma(x+r)}{\Gamma(x+1)\Gamma(r)}\cdot p^{x}(1-p)^{r}. เป็นการกระจายที่ถูกต้องหรือไม่ มันมีชื่อหรือไม่? มันมีประโยชน์อะไรบ้าง? มันอาจจะเป็นสารประกอบหรือส่วนผสมบางอย่าง? มีสูตรปิดสำหรับค่าเฉลี่ยและความแปรปรวน (และค่าคงที่สัดส่วนใน PDF) หรือไม่ (ขณะนี้ฉันกำลังศึกษากระดาษที่ใช้แบบผสม NB (ที่มีค่าคงที่r=2r=2r=2 ) และเหมาะกับมันผ่านทาง EM อย่างไรก็ตามข้อมูลเป็นจำนวนเต็มหลังจากการทำให้เป็นมาตรฐานบางอย่างเช่นไม่ใช่จำนวนเต็มอย่างไรก็ตามผู้เขียนใช้สูตร NB มาตรฐานเพื่อคำนวณ ความเป็นไปได้และผลลัพธ์ที่สมเหตุสมผลดังนั้นทุกอย่างดูเหมือนจะใช้ได้ดีฉันพบว่ามันน่างงมากโปรดทราบว่าคำถามนี้ไม่เกี่ยวกับ NB GLM)

2
ฉันได้ยินมาว่าอัตราส่วนหรือผกผันของตัวแปรสุ่มมักเป็นปัญหาโดยไม่คาดหวัง ทำไมถึงเป็นอย่างนั้น?
ชื่อเป็นคำถาม ฉันได้รับการบอกว่าอัตราส่วนและผู้แปรผันของตัวแปรสุ่มมักเป็นปัญหา สิ่งที่มีความหมายคือความคาดหวังนั้นมักจะไม่มีอยู่จริง มีคำอธิบายทั่วไปอย่างง่าย ๆ หรือไม่?

1
คุณสมบัติของการกระจายครึ่ง Cauchy คืออะไร?
ขณะนี้ฉันกำลังทำงานกับปัญหาซึ่งฉันจำเป็นต้องพัฒนาอัลกอริทึมMarkov chain Monte Carlo (MCMC) สำหรับแบบจำลองพื้นที่ของรัฐ เพื่อให้สามารถแก้ปัญหาได้ฉันได้รับความน่าจะเป็น : p ( ) = 2I ( > 0) / (1+ ) เป็นค่าเบี่ยงเบนมาตรฐานของxττ\tauττ\tauττ\tauτ2τ2\tau^2ττ\tauxxx ตอนนี้ฉันรู้แล้วว่ามันคือการแจกแจงครึ่งโคชีเพราะฉันจำได้จากการดูตัวอย่างและเพราะฉันถูกบอกอย่างนั้น แต่ฉันไม่เข้าใจว่าทำไมมันถึงเป็นการกระจาย "Half-Cauchy" และคุณสมบัติที่มาพร้อมกับมัน ในแง่ของคุณสมบัติฉันไม่แน่ใจว่าสิ่งที่ฉันต้องการ ฉันค่อนข้างใหม่สำหรับทฤษฎีเศรษฐมิติประเภทนี้ ดังนั้นฉันจึงเข้าใจการกระจายตัวและวิธีที่เราใช้ในบริบทของแบบจำลองพื้นที่ของรัฐ ตัวแบบมีลักษณะดังนี้: Yเสื้อxt + 1at + 1p ( σ2)p ( τ)= xเสื้อ+ eเสื้อ= xเสื้อ+ at + 1∼ N ( 0 , τ2)∝ 1 / …

1
Multinomial (1 / n, …, 1 / n) สามารถแสดงลักษณะเป็นดิริเคิต (1, .. , 1) ที่แยกส่วนได้หรือไม่?
ดังนั้นคำถามนี้จะยุ่งเล็กน้อย แต่ฉันจะรวมกราฟสีสันเพื่อชดเชย ก่อนอื่นมาที่พื้นหลังของคำถาม พื้นหลัง สมมติว่าคุณมีการแจกแจงพหุคูณแบบหลายมิติแบบมิติที่มีโพรไบท์เท่ากันในประเภทให้เป็นจำนวนปกติ ( ) จากการแจกแจงนั่นคือ:nnnnnnπ=(π1,…,πn)π=(π1,…,πn)\pi = (\pi_1, \ldots, \pi_n)ccc (c1,…,cn)∼Multinomial(1/n,…,1/n)πi=cin(c1,…,cn)∼Multinomial(1/n,…,1/n)πi=cin(c_1, \ldots, c_n) \sim \text{Multinomial}(1/n, \ldots, 1/n) \\ \pi_i = {c_i \over n} ตอนนี้การกระจายทั่วมีการสนับสนุนใน -simplex แต่มีขั้นตอนแบบแยก ตัวอย่างเช่นด้วยการกระจายนี้มีการสนับสนุนดังต่อไปนี้ (จุดสีแดง):ππ\pinnnn=3n=3n = 3 การแจกแจงอื่นที่มีการรองรับที่คล้ายกันคือการแจกแจงแบบ -dimensionalนั่นคือการกระจายแบบสม่ำเสมอทั่วหน่วย simplex ตัวอย่างเช่นนี่คือการสุ่มจับจาก 3-dimesional :nnnDirichlet(1,…,1)Dirichlet(1,…,1)\text{Dirichlet}(1, \ldots, 1)Dirichlet(1,1,1)Dirichlet(1,1,1)\text{Dirichlet}(1, 1, 1) ตอนนี้ฉันมีความคิดว่าการกระจายของจากการแจกแจงอาจมีลักษณะเหมือนวาดจากที่มี discretized การสนับสนุนต่อเนื่องของ\ต่อเนื่องผมมีอยู่ในใจ (และที่ดูเหมือนว่าจะทำงานได้ดี) คือการใช้เวลาในแต่ละจุดในเริมและ "รอบมันออก" เพื่อจุดที่ใกล้ที่สุดที่อยู่ในการสนับสนุนของ\สำหรับ simplex …

3
การตรวจสอบก่อนหน้านี้เกี่ยวกับการแจกแจงแบบเบ้
ภายใต้นิยามคลาสสิกของค่าผิดปกติเป็นจุดข้อมูลที่อยู่ด้านนอก 1.5 * IQR จากควอไทล์ชั้นบนหรือล่างมีการสันนิษฐานของการแจกแจงแบบไม่เอียง สำหรับการแจกแจงแบบเบ้ (เอกซ์โพเนนเชียลปัวซองเรขาคณิต ฯลฯ ) เป็นวิธีที่ดีที่สุดในการตรวจหาค่าผิดปกติโดยการวิเคราะห์การแปลงฟังก์ชันดั้งเดิมหรือไม่? ตัวอย่างเช่นการแจกแจงแบบกระจายที่ควบคุมโดยการแจกแจงแบบเอ็กซ์โพเนนเชียลสามารถถูกแปลงด้วยฟังก์ชันบันทึก - ณ จุดไหนที่สามารถยอมรับค่าผิดปกติตามนิยาม IQR เดียวกันได้หรือไม่?

3
การแจกจ่ายนี้มีชื่อหรือไม่?
มันเกิดขึ้นกับฉันวันนี้ว่าการกระจาย อาจถูกมองว่าเป็นการประนีประนอมระหว่าง Gaussian และ Laplace การแจกแจงสำหรับและการแจกจ่ายดังกล่าวมีชื่อหรือไม่? และมันมีนิพจน์สำหรับค่าคงที่การทำให้เป็นมาตรฐานหรือไม่? แคลคูลัสทำให้ฉันตกเพราะฉันไม่รู้ว่าจะเริ่มแก้หาCในอินทิกรัล 1 = C \ cdot \ int _ {- \ infty} ^ \ infty \ exp \ left (- \ frac {| x- \ mu | ^ p} {\ beta} \ right) dx f(x)∝exp(−|x−μ|pβ)f(x)∝exp⁡(−|x−μ|pβ) f(x)\propto\exp\left(-\frac{|x-\mu|^p}{\beta}\right) x∈R,p∈[1,2]x∈R,p∈[1,2]x\in\mathbb{R}, p\in[1,2]β>0.β>0.\beta>0.CCC1 = C⋅ ∫∞- ∞ประสบการณ์( - …

2
ความแตกต่างของตัวแปรสุ่ม iid lognormal สองตัว
Let X1X1X_1และX2X2X_2 2 iidrv ของที่log(X1),log(X2)∼N(μ,σ)log⁡(X1),log⁡(X2)∼N(μ,σ)\log(X_1),\log(X_2) \sim N(\mu,\sigma) ) ผมอยากจะรู้ว่าการกระจายสำหรับX1- X2X1-X2X_1 - X_2 2 สิ่งที่ดีที่สุดที่ฉันสามารถทำได้คือนำซีรีย์ของทั้งสอง Taylor และได้รับความแตกต่างคือผลรวมของความแตกต่างระหว่างสอง rv ปกติและสอง chi-squared rv นอกเหนือจากความแตกต่างที่เหลือระหว่างเงื่อนไขที่เหลือ มีวิธีที่ตรงไปตรงมามากขึ้นที่จะได้รับการกระจายความแตกต่างระหว่าง 2 iid log-normal rv หรือไม่?

3
นักเรียนเป็นส่วนผสมของ Gaussian
ใช้เสื้อนักเรียนกับการกระจายองศาอิสระพารามิเตอร์ที่ตั้งและขนาดพารามิเตอร์มีความหนาแน่นลิตรsk>0k>0k > 0lllsss Γ ( k + 12)Γ ( k2k πs2----√){ 1 + k- 1( x - ls) }- ( k + 1 ) / 2,Γ(k+12)Γ(k2kπs2){1+k−1(x−ls)}−(k+1)/2,\frac{\Gamma \left(\frac{k+1}{2}\right)}{\Gamma\left(\frac{k}{2}\sqrt{k \pi s^2}\right)} \left\{ 1 + k^{-1}\left( \frac{x-l}{s}\right)\right\}^{-(k+1)/2}, ทำอย่างไรจึงจะแสดงให้เห็นว่านักเรียน -distribution สามารถเขียนเป็นส่วนผสมของการแจกแจงแบบเกาส์โดยให้ ,และรวมความหนาแน่นของข้อต่อเพื่อให้ได้ความหนาแน่นของส่วนขอบ ? อะไรคือพารามิเตอร์ของผลลัพธ์ -distribution ซึ่งเป็นฟังก์ชั่นของ ?X ∼ N ( μ , σ 2 …

4
วิธีคำนวณการแจกแจงสะสมใน R
ล็อคแล้ว คำถามและคำตอบนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ฉันต้องการคำนวณฟังก์ชันการแจกแจงสะสมของตัวอย่างข้อมูล มีบางอย่างที่คล้ายกับ hist () ใน R ที่วัดฟังก์ชันความหนาแน่นสะสมหรือไม่? ฉันลอง ecdf () แต่ฉันไม่เข้าใจตรรกะ
23 r  distributions  cdf 

4
จะทราบได้อย่างไรว่าการกระจายข้อมูลของฉันสมมาตร
ฉันรู้ว่าถ้าค่ามัธยฐานและค่าเฉลี่ยเท่ากันโดยประมาณนี่หมายความว่ามีการกระจายแบบสมมาตร แต่ในกรณีนี้ฉันไม่แน่ใจ ค่าเฉลี่ยและค่ามัธยฐานค่อนข้างใกล้เคียง (เพียง 0.487m / ความแตกต่างของถุงน้ำดี) ซึ่งจะทำให้ฉันบอกว่ามีการกระจายแบบสมมาตร แต่เมื่อมองที่กล่องสี่เหลี่ยมดูเหมือนว่ามันจะเป็นเชิงบวกเล็กน้อย (ค่ามัธยฐานนั้นใกล้เคียงกับไตรมาสที่ 1 โดยค่า) (ฉันใช้ Minitab หากคุณมีคำแนะนำเฉพาะสำหรับซอฟต์แวร์ชิ้นนี้)

3
การตีความทางสถิติของการกระจายเอนโทรปีสูงสุด
ฉันได้ใช้หลักการของเอนโทรปีสูงสุดเพื่อแสดงให้เห็นถึงการใช้การแจกแจงหลายอย่างในการตั้งค่าต่างๆ อย่างไรก็ตามฉันยังไม่สามารถกำหนดสถิติได้ซึ่งตรงกันข้ามกับข้อมูลทางทฤษฎีและการตีความเอนโทรปีสูงสุด กล่าวอีกนัยหนึ่งการเพิ่มค่าเอนโทรปีให้มากที่สุดหมายถึงคุณสมบัติทางสถิติของการแจกแจงอย่างไร มีใครวิ่งข้ามหรืออาจค้นพบตัวเองตีความทางสถิติของสูงสุด การกระจายของเอนโทรปีที่ไม่ได้ดึงดูดข้อมูล แต่เป็นเพียงแนวคิดที่น่าจะเป็น? เป็นตัวอย่างของการตีความดังกล่าว (ไม่จำเป็นต้องเป็นจริง): "สำหรับช่วงเวลาของความยาว L ตามอำเภอใจบนโดเมนของ RV (สมมติว่า 1-d ต่อเนื่องเพื่อความเรียบง่าย) ความน่าจะเป็นสูงสุดที่สามารถอยู่ในช่วงเวลานี้จะลดลง โดยการกระจายเอนโทรปีสูงสุด " ดังนั้นคุณจะเห็นว่าไม่มีการพูดคุยเกี่ยวกับ "ความเป็นสารสนเทศ" หรือแนวคิดทางปรัชญาอื่น ๆ


7
ความแตกต่างระหว่างตัวเลขที่กระจายอย่างสม่ำเสมอมีการแจกแจงแบบเดียวกันหรือไม่?
เรากลิ้งดายแบบ 6 ด้านเป็นจำนวนมาก การคำนวณความแตกต่าง (ค่าสัมบูรณ์) ระหว่างม้วนและม้วนก่อนหน้านั้นคาดว่าจะมีการกระจายความแตกต่างอย่างสม่ำเสมอหรือไม่ เพื่ออธิบายด้วย 10 ม้วน: roll num result diff 1 1 0 2 2 1 3 1 1 4 3 2 5 3 0 6 5 2 7 1 4 8 6 5 9 4 2 10 4 0 จะdiffค่าจะกระจายเหมือนกัน?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.