คำถามติดแท็ก distributions

การแจกแจงเป็นการอธิบายทางคณิตศาสตร์ของความน่าจะเป็นหรือความถี่


5
อะไรคือเหตุผลที่การเปลี่ยนแปลงการบันทึกใช้กับการแจกแจงแบบเบ้ขวา?
ฉันเคยได้ยินว่า การแปลงท่อนซุงเป็นที่นิยมกันมากที่สุดสำหรับการแจกแจงแบบเบ้ด้านขวาในการถดถอยเชิงเส้นหรือการถดถอยเชิงปริมาณ ฉันต้องการทราบว่ามีเหตุผลใดบ้างที่อยู่ภายใต้ข้อความนี้? ทำไมการแปลงบันทึกจึงเหมาะสมสำหรับการแจกแจงเบ้ที่ถูกต้อง วิธีการกระจายซ้ายเอียง?

1
MLE เทียบกับกำลังสองน้อยที่สุดในการแจกแจงความน่าจะเป็นที่เหมาะสม
ความประทับใจที่ฉันได้รับจากบทความหนังสือและบทความต่าง ๆ ที่ฉันอ่านคือวิธีที่แนะนำในการกระจายความน่าจะเป็นในชุดของข้อมูลที่แนะนำโดยใช้การประมาณความน่าจะเป็นสูงสุด (MLE) อย่างไรก็ตามในฐานะนักฟิสิกส์วิธีที่ง่ายกว่าคือการใส่ pdf ของโมเดลให้ตรงกับ pdf เชิงประจักษ์ของข้อมูลโดยใช้กำลังสองน้อยที่สุด ทำไม MLE จึงดีกว่ากำลังสองน้อยที่สุดในการแจกแจงความน่าจะเป็นที่เหมาะสม? ใครช่วยกรุณาชี้ให้ฉันไปที่กระดาษ / หนังสือวิทยาศาสตร์ที่ตอบคำถามนี้ ลางสังหรณ์ของฉันเป็นเพราะ MLE ไม่คิดว่ารูปแบบเสียงและ "เสียง" ในรูปแบบไฟล์ PDF ประจักษ์เป็น heteroscedastic และไม่ปกติ

2
การกระจายตัวที่อธิบายความแตกต่างระหว่างตัวแปรกระจายแบบทวินามลบ
การกระจาย Skellamอธิบายความแตกต่างระหว่างสองตัวแปรที่มีการแจกแจงปัวส์ซอง มีการแจกแจงแบบเดียวกันที่อธิบายความแตกต่างระหว่างตัวแปรที่ตามหลังการแจกแจงทวินามลบหรือไม่ ข้อมูลของฉันผลิตโดยกระบวนการปัวซง แต่รวมถึงเสียงรบกวนในปริมาณที่เหมาะสม ดังนั้นการสร้างแบบจำลองข้อมูลด้วยการแจกแจงลบทวินาม (NB) จึงทำงานได้ดี ถ้าฉันต้องการจำลองความแตกต่างระหว่างชุดข้อมูล NB สองชุดตัวเลือกของฉันคืออะไร หากช่วยได้ให้ถือว่าวิธีการและความแปรปรวนที่คล้ายกันสำหรับทั้งสองชุด

3
การทดสอบข้อมูลที่สร้างแบบสุ่มกับการกระจายที่ต้องการ
ฉันได้เขียนโปรแกรมที่สร้างข้อมูลแบบสุ่ม หากโปรแกรมทำงานอย่างถูกต้องข้อมูลนั้นควรเป็นไปตามการแจกแจงความน่าจะเป็นที่ทราบ ฉันต้องการรันโปรแกรมทำการคำนวณผลและคิดค่า p ก่อนใครบอกว่า: ฉันเข้าใจว่าการทดสอบสมมติฐานไม่สามารถตรวจพบเมื่อโปรแกรมทำงานอย่างถูกต้อง สามารถตรวจพบได้เมื่อทำงานไม่ถูกต้องในวิธีเฉพาะ (และถึงตอนนั้นการทดสอบ "ควร" ล้มเหลว X% ของเวลาขึ้นอยู่กับระดับความสำคัญที่คุณเลือก ... ) ดังนั้นฉันพยายามทำความเข้าใจว่าเครื่องมือใดที่เหมาะสม โดยเฉพาะอย่างยิ่ง: ฉันสามารถสร้างข้อมูลสุ่มได้มากเท่าที่ต้องการ สิ่งที่ฉันต้องทำก็คือปล่อยให้โปรแกรมทำงานนานพอ ดังนั้นฉันจึงไม่ จำกัด ขนาดตัวอย่างเฉพาะใด ๆ ฉันสนใจในเทคนิคที่สร้างค่า p ดังนั้นการจ้องมองที่กราฟและพูดว่า "ใช่ที่ดูเหมือนเชิงเส้นเชิงเส้น" ไม่ใช่ตัวเลือกที่น่าสนใจ เว้นแต่จะมีวิธีการใส่ตัวเลขจำนวนมากลงใน "ความไร้ประโยชน์" ของกราฟ ;-) สิ่งที่ฉันรู้จนถึงตอนนี้: ฉันได้เห็นสามประเภทหลักของการทดสอบที่กล่าวถึงซึ่งดูเหมือนว่าพวกเขาจะสามารถใช้งานได้: [เพียร์สัน] การทดสอบไคสแควร์, การทดสอบ Kolmogorov-Smirnov และการทดสอบ Anderson-Darling ปรากฏว่าการทดสอบไคสแควร์เป็นที่เหมาะสมสำหรับต่อเนื่องกระจายในขณะที่อีกสองคนที่มีความเหมาะสมมากขึ้นสำหรับการอย่างต่อเนื่องกระจาย (?) แหล่งข้อมูลหลายแห่งระบุว่าการทดสอบโฆษณานั้น "ดีกว่า" กว่าการทดสอบ KS แต่ไม่สามารถระบุรายละเอียดเพิ่มเติมได้ ในที่สุดการทดสอบทั้งหมดเหล่านี้น่าจะตรวจพบ "วิธีที่แตกต่าง" ของการเบี่ยงเบนจากการแจกแจงโมฆะที่ระบุ แต่ฉันไม่รู้จริง …

2
การกระจายตัวตัวอย่างจากประชากร Bernoulli สองคนที่เป็นอิสระ
สมมติว่าเรามีตัวอย่างของทั้งสองตัวแปรสุ่มอิสระ Bernoulli, Ber(θ1)Ber(θ1)\mathrm{Ber}(\theta_1)และBer(θ2)Ber(θ2)\mathrm{Ber}(\theta_2) ) เราจะพิสูจน์ได้อย่างไร(X¯1−X¯2)−(θ1−θ2)θ1(1−θ1)n1+θ2(1−θ2)n2−−−−−−−−−−−−−−√→dN(0,1)(X¯1−X¯2)−(θ1−θ2)θ1(1−θ1)n1+θ2(1−θ2)n2→dN(0,1)\frac{(\bar X_1-\bar X_2)-(\theta_1-\theta_2)}{\sqrt{\frac{\theta_1(1-\theta_1)}{n_1}+\frac{\theta_2(1-\theta_2)}{n_2}}}\xrightarrow{d} \mathcal N(0,1)? สมมติว่าn1≠n2n1≠n2n_1\neq n_2 2

2
สำหรับการแจกแจงแบบสมมาตรคือตัวอย่างใดหมายถึงตัวประมาณที่มีประสิทธิภาพมากกว่ามัธยฐานตัวอย่าง
ฉันทำงานหนักภายใต้ความเชื่อที่ว่าค่ามัธยฐานตัวอย่างเป็นตัวชี้วัดแนวโน้มกลางที่แข็งแกร่งกว่าค่าเฉลี่ยตัวอย่างเนื่องจากมันไม่สนใจค่าผิดปกติ ฉันจึงประหลาดใจที่ได้เรียนรู้ (ในคำตอบของคำถามอื่น ) ว่าสำหรับตัวอย่างที่ดึงมาจากการแจกแจงแบบปกติความแปรปรวนของค่าเฉลี่ยตัวอย่างจะน้อยกว่าความแปรปรวนของค่ามัธยฐานตัวอย่าง (อย่างน้อยสำหรับขนาดใหญ่nnn ) ฉันเข้าใจทางคณิตศาสตร์ว่าทำไมสิ่งนี้ถึงเป็นจริง มีวิธี "ปรัชญา" ในการมองสิ่งนี้หรือไม่ที่จะช่วยให้มีสัญชาตญาณว่าจะใช้มัธยฐานแทนที่จะใช้ค่าเฉลี่ยสำหรับการแจกแจงแบบอื่นหรือไม่? มีเครื่องมือทางคณิตศาสตร์ที่ช่วยตอบคำถามสำหรับการแจกแจงแบบเจาะจงหรือไม่?

2
การกระจายตัวของคือ ,คือการแจกแจงแบบสม่ำเสมอ?
ฉันมีสี่อิสระตัวแปรกระจายอย่างสม่ำเสมอ , ในแต่ละ [0,1]ฉันต้องการที่จะคำนวณการกระจายของ(โฆษณา)ฉันคำนวณการกระจายตัวของเป็น (ดังนั้น ) และจากจะเป็นตอนนี้การกระจายของจำนวนเงินที่คือ (นอกจากนี้ยังมี อิสระ)เพราะa,b,c,da,b,c,da,b,c,d[0,1][0,1][0,1](a−d)2+4bc(a−d)2+4bc(a-d)^2+4bcu2=4bcu2=4bcu_2=4bcf2(u2)=−14lnu24f2(u2)=−14ln⁡u24f_2(u_2)=-\frac{1}{4}\ln\frac{u_2}{4}u2∈(0,4]u2∈(0,4]u_2\in(0,4]u1=(a−d)2u1=(a−d)2u_1=(a-d)^2 f1(u1)=1−u1−−√u1−−√.f1(u1)=1−u1u1.f_1(u_1)=\frac{1-\sqrt{u_1}}{\sqrt{u_1}}.u1+u2u1+u2u_1+u_2u1,u2u1,u2u_1,\, u_2fu1+u2(x)=∫+∞−∞f1(x−y)f2(y)dy=−14∫401−x−y−−−−√x−y−−−−√⋅lny4dy,fu1+u2(x)=∫−∞+∞f1(x−y)f2(y)dy=−14∫041−x−yx−y⋅ln⁡y4dy,f_{u_1+u_2}(x)=\int_{-\infty}^{+\infty}f_1(x-y)f_2(y)dy=-\frac{1}{4}\int_0^4\frac{1-\sqrt{x-y}}{\sqrt{x-y}}\cdot\ln\frac{y}{4}dy,y∈(0,4]y∈(0,4]y\in(0,4]. ที่นี่จะต้องเป็นดังนั้นอินทิกรัลเท่ากับตอนนี้ฉันแทรกมันลงใน Mathematica และรับx>yx>yx>yfu1+u2(x)=−14∫x01−x−y−−−−√x−y−−−−√⋅lny4dy.fu1+u2(x)=−14∫0x1−x−yx−y⋅ln⁡y4dy.f_{u_1+u_2}(x)=-\frac{1}{4}\int_0^{x}\frac{1-\sqrt{x-y}}{\sqrt{x-y}}\cdot\ln\frac{y}{4}dy.fu1+u2(x)=14[−x+xlnx4−2x−−√(−2+lnx)].fu1+u2(x)=14[−x+xln⁡x4−2x(−2+ln⁡x)].f_{u_1+u_2}(x)=\frac{1}{4}\left[-x+x\ln\frac{x}{4}-2\sqrt{x}\left(-2+\ln x\right)\right]. ฉันสร้างชุดอิสระสี่ชุดประกอบด้วยตัวเลข10 ^ 6แต่ละชุดและดึงฮิสโตแกรมของ(โฆษณา) ^ 2 + 4bc :10 6 ( a - d ) 2 + 4 b ca,b,c,da,b,c,da,b,c,d10610610^6(a−d)2+4bc(a−d)2+4bc(a-d)^2+4bc และดึงพล็อตfu1+u2(x)fu1+u2(x)f_{u_1+u_2}(x) : โดยทั่วไปพล็อตจะคล้ายกับฮิสโตแกรม แต่ในช่วงเวลา(0,5)(0,5)(0,5)ส่วนใหญ่จะเป็นลบ (รากอยู่ที่ 2.27034) และหนึ่งของส่วนที่เป็นบวกคือ≈0.77≈0.77\approx 0.770.77 ความผิดพลาดอยู่ที่ไหน หรือฉันหายไปบางสิ่ง แก้ไข:ฉันปรับฮิสโตแกรมเพื่อแสดง PDF แก้ไข 2:ฉันคิดว่าฉันรู้ว่ามีปัญหาในการให้เหตุผลของฉัน - ในข้อ …

3
pdf และ pmf และ cdf มีข้อมูลเหมือนกันหรือไม่?
pdf และ pmf และ cdf มีข้อมูลเหมือนกันหรือไม่? สำหรับฉัน pdf ให้ความน่าจะเป็นทั้งหมดจนถึงจุดหนึ่ง (โดยทั่วไปคือพื้นที่ภายใต้ความน่าจะเป็น) pmf ให้ความน่าจะเป็นของบางจุด cdf ให้ความน่าจะเป็นภายใต้จุดหนึ่ง ดังนั้นสำหรับฉันไฟล์ PDF และ cdf มีข้อมูลเหมือนกัน แต่ pmf ไม่ได้เพราะมันให้ความน่าจะเป็นสำหรับxการแจกแจง

3
การทดสอบทางสถิติสำหรับการแจกแจงสองแบบที่ทราบเพียงการสรุป 5 หมายเลข
ฉันมีการแจกแจงสองแบบที่รู้จักกันเพียงการสรุป 5 หมายเลข (ขั้นต่ำ, ควอไทล์อันดับ 1, ค่ามัธยฐาน, ควอไทล์อันดับที่ 3, สูงสุด) และขนาดตัวอย่าง หาคำถามที่นี่ไม่ได้มีจุดข้อมูลทั้งหมด มีการทดสอบทางสถิติที่ไม่ใช่พารามิเตอร์ซึ่งช่วยให้ฉันตรวจสอบว่าการแจกแจงพื้นฐานของทั้งสองนั้นแตกต่างกันหรือไม่? ขอบคุณ!

3
เหตุใดฟังก์ชันการแจกแจงสะสม (CDF) จึงกำหนดการกระจายโดยเฉพาะ
ฉันได้รับการบอกเสมอว่า CDF ไม่เหมือนใคร แต่ PDF / PMF ไม่เหมือนกันทำไมจึงเป็นเช่นนั้น คุณสามารถยกตัวอย่างที่ PDF / PMF ไม่ซ้ำกันได้หรือไม่?

1
มีอะไรผิดปกติกับภาพประกอบนี้ของการกระจายหลังหรือไม่
ฉันมีภาพต่อไปนี้ซึ่งฉันได้รับการบอกเล่าว่าเป็นภาพประกอบของวิธีการแจกแจงความน่าจะเป็นหลังซึ่งเป็นการรวมกันของการแจกแจงก่อนหน้าและความน่าจะเป็น ฉันได้รับการบอกว่ามีบางอย่างผิดปกติกับภาพกล่าวคือการกระจายหลังไม่สามารถมีรูปแบบที่มันได้รับรูปแบบของฟังก์ชั่นความน่าจะเป็น แต่ฉันพยายามดิ้นรนที่จะคิดว่ามีอะไรผิดปกติกับภาพ หลังดูเหมือนว่าจะเป็นโอกาส แต่ดึงไปทางขวาโดยการกระจายก่อนหน้า สิ่งนี้ตรงกับความเข้าใจของฉันเกี่ยวกับสิ่งที่ควรเกิดขึ้นและเหมาะสม ไม่มีใครรู้ว่าสิ่งที่อาจจะผิดหรือเปล่า? ความคิดเดียวของฉันคือพื้นที่ด้านหลังอาจน้อยกว่าพื้นที่ภายใต้โอกาสเล็กน้อย สิ่งนี้ดูเหมือนจะเป็นเรื่องที่พิถีพิถันอย่างมากที่จะนำมาซึ่งแม้ว่าหลังดูเหมือนว่าจะอ้วนขึ้นกว่าความเป็นไปได้

3
การแจกแจง t ที่เหมาะสมใน R: พารามิเตอร์การปรับ
ฉันจะพอดีกับพารามิเตอร์ของการแจกแจงแบบทีคือพารามิเตอร์ที่สอดคล้องกับ 'เฉลี่ย' และ 'ส่วนเบี่ยงเบนมาตรฐาน' ของการแจกแจงแบบปกติ ฉันคิดว่าพวกมันถูกเรียกว่า 'mean' และ 'scaling / degrees of freedom' สำหรับการแจกแจงแบบ t? รหัสต่อไปนี้มักส่งผลให้เกิดข้อผิดพลาด 'การเพิ่มประสิทธิภาพล้มเหลว' library(MASS) fitdistr(x, "t") ฉันต้องปรับขนาด x ก่อนหรือแปลงเป็นความน่าจะเป็นหรือไม่? วิธีที่ดีที่สุดที่จะทำเช่นนั้น?

5
วิธีการระบุการกระจาย lognormal ในการโต้แย้งตระกูล glm ใน R?
คำถามง่าย ๆ : จะระบุการกระจายแบบ lognormal ในอาร์กิวเมนต์ตระกูล GLM ใน R ได้อย่างไร? ฉันไม่สามารถค้นหาวิธีการนี้สามารถทำได้ เหตุใด lognormal (หรือ exponential) จึงไม่มีตัวเลือกในการโต้แย้งครอบครัว? ที่ไหนสักแห่งใน R-Archives ฉันอ่านว่ามีการใช้ log-link สำหรับครอบครัวที่ตั้งค่าเป็น gaussian ใน GLM เพื่อระบุ lognormal อย่างไรก็ตามนี่เป็นเรื่องไร้สาระเพราะมันจะพอดีกับการถดถอยเชิงเส้นและ R เริ่มขอค่าเริ่มต้น มีใครทราบวิธีตั้งค่าการกระจาย lognormal (หรือเลขชี้กำลัง) สำหรับ GLM หรือไม่

3
จะตัดสินใจได้อย่างไรว่าตระกูล GLM ใดที่จะใช้?
ฉันมีข้อมูลความหนาแน่นของปลาที่ฉันพยายามเปรียบเทียบระหว่างเทคนิคการรวบรวมที่แตกต่างกันหลายอย่างข้อมูลมีค่าเป็นศูนย์จำนวนมากและฮิสโตแกรมมีลักษณะเป็น vaugley ที่เหมาะสมสำหรับการแจกแจงปัวซองยกเว้นว่าเป็นความหนาแน่นไม่ใช่ข้อมูลจำนวนเต็ม ฉันค่อนข้างใหม่สำหรับ GLM และใช้เวลาหลายวันที่ผ่านมาในการค้นหาทางออนไลน์เพื่อบอกวิธีการแจกจ่ายที่ใช้ แต่ล้มเหลวอย่างมากในการค้นหาแหล่งข้อมูลใด ๆ ที่ช่วยในการตัดสินใจ ฮิสโตแกรมตัวอย่างของข้อมูลมีลักษณะดังนี้: ฉันไม่รู้ว่าจะเลือกครอบครัวที่เหมาะสมเพื่อใช้กับ GLM อย่างไร หากใครมีคำแนะนำใด ๆ หรือสามารถให้ทรัพยากรฉันฉันควรตรวจสอบที่จะยอดเยี่ยม

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.