คำถามติดแท็ก distributions

การแจกแจงเป็นการอธิบายทางคณิตศาสตร์ของความน่าจะเป็นหรือความถี่

5
สัญชาตญาณในความแตกต่าง Kullback-Leibler (KL)
ฉันได้เรียนรู้เกี่ยวกับสัญชาตญาณที่อยู่เบื้องหลัง KL Divergence ว่าฟังก์ชันการแจกแจงแบบจำลองแตกต่างจากการกระจายข้อมูลเชิงทฤษฎี / จริง แหล่งที่มาฉันอ่านก็จะบอกว่าเข้าใจง่ายของระยะห่างระหว่างทั้งสองกระจายเป็นประโยชน์ แต่ไม่ควรดำเนินการอย่างแท้จริงเพราะสองกระจายและที่ KL Divergence ไม่สมมาตรในและQPPPQQQPPPQQQ ฉันไม่แน่ใจว่าจะเข้าใจคำแถลงสุดท้ายได้อย่างไรหรือนี่คือสิ่งที่สัญชาตญาณของ 'ระยะทาง' แตกสลายหรือไม่ ฉันขอขอบคุณตัวอย่างที่เรียบง่าย แต่ลึกซึ้ง

5
หากการทดสอบ t-test และ ANOVA สำหรับสองกลุ่มนั้นเท่ากันทำไมสมมติฐานของพวกเขาจึงไม่เท่ากัน?
ฉันแน่ใจว่าฉันมีสิ่งนี้ล้อมรอบหัวของฉันทั้งหมด แต่ฉันก็ไม่สามารถคิดออก t-test เปรียบเทียบการแจกแจงปกติสองรายการโดยใช้การแจกแจง Z นั่นเป็นเหตุผลที่มีการสันนิษฐานของปกติในข้อมูล ANOVA นั้นเทียบเท่ากับการถดถอยเชิงเส้นพร้อมตัวแปรจำลองและใช้ผลรวมของกำลังสองเหมือน OLS นั่นเป็นเหตุผลว่าทำไมจึงมีข้อสันนิษฐานเกี่ยวกับภาวะปกติของ ResidualS ฉันใช้เวลาหลายปี แต่ฉันคิดว่าในที่สุดฉันก็เข้าใจข้อเท็จจริงพื้นฐานเหล่านั้นแล้ว เหตุใดจึงต้องทดสอบ t-test เทียบเท่า ANOVA กับสองกลุ่ม พวกเขาจะเท่าเทียมกันได้อย่างไรถ้าพวกเขาไม่คิดแม้แต่เรื่องเดียวกันกับข้อมูล

3
การแปลความหมายของตัวทำนายการแปลงสภาพบันทึกและ / หรือการตอบสนอง
ฉันสงสัยว่ามันจะสร้างความแตกต่างในการตีความไม่ว่าจะเป็นเพียงขึ้นอยู่กับทั้งขึ้นอยู่กับและเป็นอิสระหรือตัวแปรอิสระเท่านั้นที่ถูกเปลี่ยนเข้าสู่ระบบ พิจารณากรณีของ log(DV) = Intercept + B1*IV + Error ฉันสามารถตีความ IV เป็นเปอร์เซ็นต์เพิ่มขึ้น แต่จะเปลี่ยนแปลงได้อย่างไรเมื่อฉันมี log(DV) = Intercept + B1*log(IV) + Error หรือเมื่อฉันมี DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

6
แรงจูงใจสำหรับระยะทาง Kolmogorov ระหว่างการแจกแจง
มีหลายวิธีในการวัดความคล้ายคลึงกันของการแจกแจงความน่าจะเป็นสองแบบ ในบรรดาวิธีการที่ได้รับความนิยม (ในแวดวงที่แตกต่างกัน) คือ: ระยะ Kolmogorov: ระยะทางระหว่างฟังก์ชันการกระจาย; ระยะทาง Kantorovich-Rubinstein: ความแตกต่างสูงสุดระหว่างความคาดหวังของ wrt ทั้งสองของการแจกแจงฟังก์ชันกับค่าคงที่ Lipschitz 111ซึ่งกลายเป็นระยะทางL1L1L^1ระหว่างฟังก์ชันการแจกแจง ล้อมรอบ-Lipschitz ระยะทาง: เช่นระยะ KR แต่ฟังก์ชั่นนอกจากนี้ยังจะต้องมีค่าสัมบูรณ์ที่มากที่สุด1111 สิ่งเหล่านี้มีข้อดีและข้อเสียต่างกัน การบรรจบกันในความหมายของ 3. จริง ๆ แล้วสอดคล้องกับการบรรจบกันในการกระจาย; การบรรจบกันในความหมายของ 1 หรือ 2 นั้นโดยทั่วไปแข็งแกร่งขึ้นเล็กน้อย (โดยเฉพาะถ้าXn=1nXn=1nX_n=\frac{1}{n}มีความน่าจะเป็น111จากนั้นXnXnX_nจะแปลงเป็น000ในการแจกแจง แต่ไม่ใช่ในระยะ Kolmogorov อย่างไรก็ตามหากการกระจายขีด จำกัด นั้นต่อเนื่องดังนั้นพยาธิวิทยานี้จะไม่เกิดขึ้น) จากมุมมองของความน่าจะเป็นเบื้องต้นหรือทฤษฎีการวัด 1. มีความเป็นธรรมชาติมากเพราะมันเปรียบเทียบความน่าจะเป็นของการอยู่ในบางชุด ในทางกลับกันมุมมองความน่าจะเป็นที่ซับซ้อนมากขึ้นมีแนวโน้มที่จะมุ่งเน้นไปที่ความคาดหวังมากกว่าความน่าจะเป็น นอกจากนี้จากมุมมองของการวิเคราะห์การทำงานระยะทางเช่น 2 หรือ 3 ขึ้นอยู่กับความเป็นคู่กับพื้นที่ฟังก์ชั่นบางอย่างน่าสนใจมากเพราะมีเครื่องมือทางคณิตศาสตร์จำนวนมากสำหรับการทำงานกับสิ่งต่าง ๆ อย่างไรก็ตามความประทับใจของฉัน (แก้ไขฉันถ้าฉันผิด!) คือในสถิติระยะทาง Kolmogorov …

6
วิธีการทดสอบโดยใช้ R เพื่อดูว่าข้อมูลเป็นไปตามการแจกแจงแบบปกติหรือไม่
ฉันมีชุดข้อมูลที่มีโครงสร้างต่อไปนี้: a word | number of occurrence of a word in a document | a document id ฉันจะทำการทดสอบสำหรับการแจกแจงแบบปกติใน R ได้อย่างไร? อาจเป็นคำถามง่าย ๆ แต่ฉันเป็นมือใหม่ R

5
ตัวเลขสุ่มชุดปลอม: กระจายอย่างเท่าเทียมกันมากกว่าข้อมูลชุดที่แท้จริง
ฉันกำลังมองหาวิธีการสร้างตัวเลขสุ่มที่ปรากฏจะได้รับเครื่องแบบกระจาย - และทุกการทดสอบจะแสดงให้พวกเขาเป็นเครื่องแบบ - ยกเว้นว่าพวกเขาจะกระจายกว่าข้อมูลเครื่องแบบจริงอย่างสม่ำเสมอมากขึ้น ปัญหาที่ฉันมีกับเครื่องแบบ "จริง" คือพวกเขาจะจัดกลุ่มเป็นครั้งคราว เอฟเฟกต์นี้แข็งแกร่งกว่าขนาดตัวอย่างที่ต่ำ Roughly พูดว่า: เมื่อฉันวาด randoms Uniform สองตัวใน U [0; 1] โอกาสอยู่ที่ประมาณ 10% ซึ่งอยู่ในช่วง 0.1 และ 1% ที่อยู่ภายใน 0.01 ดังนั้นฉันกำลังมองหาวิธีที่ดีในการสร้างตัวเลขสุ่มที่มีการกระจายกว่า randoms ใช้ตัวอย่างกรณี: บอกว่าฉันทำเกมคอมพิวเตอร์และฉันต้องการวางสมบัติแบบสุ่มบนแผนที่ (ไม่สนใจสิ่งอื่นใด) ฉันไม่ต้องการให้สมบัติอยู่ในที่เดียวมันควรอยู่ทั่วแผนที่ ถ้าผมใส่พูดว่าแรนดอมเครื่องแบบ 10 ชิ้นโอกาสที่จะไม่ต่ำมากที่มี 5 หรือใกล้เคียงกันมาก นี่อาจทำให้ผู้เล่นคนหนึ่งได้เปรียบกว่าผู้เล่นคนอื่น นึกถึงเรือกวาดทุ่นระเบิดโอกาส (แม้ว่าจะต่ำถ้ามีเหมืองมากพอ) คุณคิดว่าคุณโชคดีมากและชนะด้วยการคลิกเพียงครั้งเดียว แนวทางที่ไร้เดียงสามากสำหรับปัญหาของฉันคือการแบ่งข้อมูลออกเป็นกริด ตราบใดที่จำนวนมีขนาดใหญ่พอ (และมีปัจจัย) ก็สามารถบังคับใช้ความสม่ำเสมอเป็นพิเศษได้ด้วยวิธีนี้ ดังนั้นแทนที่จะวาด 12 ตัวแปรสุ่มจาก U [0; …

3
ข้อใดมีหางที่หนักกว่า lognormal หรือแกมม่า
(นี่เป็นคำถามที่เพิ่งมาหาฉันทางอีเมลฉันได้เพิ่มบริบทบางส่วนจากบทสนทนาสั้น ๆ ก่อนหน้านี้กับบุคคลเดียวกัน) เมื่อปีที่แล้วมีคนบอกว่าการกระจายตัวของแกมม่านั้นหนักกว่า lognormal และตั้งแต่นั้นมาฉันก็บอกว่านั่นไม่ใช่กรณี ซึ่งเป็นนกที่หนักกว่า? ทรัพยากรบางอย่างที่ฉันสามารถใช้เพื่อสำรวจความสัมพันธ์มีอะไรบ้าง

8
ฉันจะทดสอบได้อย่างไรว่าตัวอย่างที่ได้รับมาจากการแจกแจงปัวซอง
ฉันรู้ว่าการทดสอบภาวะปกติ แต่ฉันจะทดสอบ "Poisson-ness" ได้อย่างไร? ฉันมีตัวอย่างจำนวนเต็ม 1000 จำนวนที่ไม่เป็นลบซึ่งฉันสงสัยว่านำมาจากการแจกแจงแบบปัวซองและฉันต้องการทดสอบสิ่งนั้น

3
ความสัมพันธ์เชิงประจักษ์ระหว่างค่าเฉลี่ยมัธยฐานและโหมด
สำหรับการกระจายแบบ unimodal ที่มีความเบ้ปานกลางเรามีความสัมพันธ์เชิงประจักษ์ระหว่างค่าเฉลี่ยมัธยฐานและโหมด: ความสัมพันธ์นี้เป็นอย่างไร มา?(ค่าเฉลี่ย - โหมด) ∼ 3(ค่าเฉลี่ย - ค่ามัธยฐาน)(Mean - Mode)∼3(Mean - Median) \text{(Mean - Mode)}\sim 3\,\text{(Mean - Median)} คาร์ลเพียร์สันได้พล็อตความสัมพันธ์เหล่านี้หลายพันรายการก่อนก่อให้เกิดข้อสรุปนี้หรือมีเหตุผลที่สมเหตุสมผลในความสัมพันธ์นี้หรือไม่?

4
สถิติการสั่งซื้อโดยประมาณสำหรับตัวแปรสุ่มปกติ
มีสูตรที่รู้จักกันดีสำหรับสถิติการสั่งซื้อของการแจกแจงแบบสุ่มบางอย่างหรือไม่? โดยเฉพาะอย่างยิ่งสถิติลำดับแรกและสุดท้ายของตัวแปรสุ่มปกติ แต่คำตอบทั่วไปก็น่าจะได้รับการชื่นชมเช่นกัน แก้ไข:เพื่อชี้แจงฉันกำลังมองหาสูตรการประมาณที่สามารถประเมินมากขึ้นหรือน้อยลงอย่างชัดเจนไม่ใช่นิพจน์รวมที่แน่นอน ตัวอย่างเช่นฉันได้เห็นการประมาณสองค่าต่อไปนี้สำหรับสถิติลำดับแรก (เช่นค่าต่ำสุด) ของ rv ปกติ: e1:n≥μ−n−12n−1√σe1:n≥μ−n−12n−1σe_{1:n} \geq \mu - \frac{n-1}{\sqrt{2n-1}}\sigma และ e1:n≈μ+Φ−1(1n+1)σe1:n≈μ+Φ−1(1n+1)σe_{1:n} \approx \mu + \Phi^{-1} \left( \frac{1}{n+1} \right)\sigma ครั้งแรกของเหล่าสำหรับn=200n=200n=200ให้ประมาณe1:200≥μ−10σe1:200≥μ−10σe_{1:200} \geq \mu - 10\sigmaซึ่งดูเหมือนว่าลำพองผูกไว้หลวม ประการที่สองให้e1:200≈μ−2.58σe1:200≈μ−2.58σe_{1:200} \approx \mu - 2.58\sigmaขณะที่รวดเร็ว Monte Carlo ให้e1:200≈μ−2.75σe1:200≈μ−2.75σe_{1:200} \approx \mu - 2.75\sigmaดังนั้นมันจึงไม่ได้เป็นประมาณไม่ดี แต่ไม่ดีอย่างใดอย่างหนึ่งและที่สำคัญผมไม่ได้มีสัญชาติญาณใด ๆ เกี่ยวกับ มันมาจากไหน ความช่วยเหลือใด ๆ

9
ฉันจะจำลองผลรวมของตัวแปรสุ่มของเบอร์นูลลี่อย่างมีประสิทธิภาพได้อย่างไร
ฉันกำลังสร้างแบบจำลองตัวแปรสุ่ม ( ) ซึ่งเป็นผลรวมของตัวแปรสุ่ม Bernoulli อิสระบางตัว ( ) บาง ~ 15-40k แต่ละคนมีโอกาสประสบความสำเร็จที่แตกต่างกัน ( ) อย่างเป็นทางการที่และ\ Pr (x_i = 0) = 1 p_iYYYXiXiX_ipipip_iY=∑XiY=∑XiY=\sum X_iPr(Xi=1)=piPr(Xi=1)=pi\Pr(X_i=1)=p_iPr(Xi=0)=1−piPr(Xi=0)=1−pi\Pr(X_i=0)=1-p_i ฉันสนใจที่จะตอบคำถามอย่างรวดเร็วเช่นPr(Y&lt;=k)Pr(Y&lt;=k)\Pr(Y<=k) (โดยที่ได้รับkkk ) ขณะนี้ฉันใช้การจำลองแบบสุ่มเพื่อตอบคำถามดังกล่าว ผมสุ่มวาดแต่ละXiXiX_iตามมันpipip_iแล้วรวมทั้งหมดXiXiX_iค่าที่จะได้รับY'Y′Y′Y'ฉันทำซ้ำขั้นตอนนี้ไม่กี่พันครั้งและกลับส่วนครั้งที่Pr(Y′≤k)Pr(Y′≤k)\Pr(Y'\leq k)k) เห็นได้ชัดว่านี่ไม่ถูกต้องทั้งหมด (แม้ว่าความแม่นยำจะเพิ่มขึ้นอย่างมากเมื่อจำนวนการจำลองเพิ่มขึ้น) นอกจากนี้ดูเหมือนว่าฉันมีข้อมูลเพียงพอเกี่ยวกับการแจกจ่ายเพื่อหลีกเลี่ยงการจำลองการใช้งาน คุณคิดวิธีที่สมเหตุสมผลในการรับความน่าจะเป็นPr(Y≤k)Pr(Y≤k)\Pr(Y\leq k)หรือไม่? PS ฉันใช้ Perl &amp; R แก้ไข ฉันคิดว่าอาจจำเป็นต้องมีคำอธิบายเพิ่มเติม ฉันจะอธิบายการตั้งค่าของปัญหาของฉันในไม่ช้า รับเป็นจีโนมวงกลมที่มีเส้นรอบวงcและชุดของnช่วงแมปกับมัน ยกตัวอย่างเช่นและc=3*10^9 ranges={[100,200],[50,1000],[3*10^9-1,1000],...}หมายเหตุช่วงทั้งหมดถูกปิด (รวมปลายทั้งสอง) โปรดทราบว่าเราจัดการเฉพาะจำนวนเต็ม (หน่วยทั้งหมด) ฉันกำลังมองหาภูมิภาคบนวงกลมที่มีการซ่อนเร้นโดยnช่วงที่กำหนด ดังนั้นเพื่อทดสอบว่าช่วงความยาวxที่กำหนดบนวงกลมนั้นมีการปกปิดหรือไม่ฉันทดสอบสมมติฐานที่nช่วงนั้นมีการแมปแบบสุ่ม …

3
การประมาณ saddlepoint ทำงานอย่างไร
วิธีไม่ทำงานประมาณ saddlepoint? ปัญหาแบบไหนที่ดีสำหรับ (อย่าลังเลที่จะใช้ตัวอย่างหรือตัวอย่างเฉพาะตามภาพประกอบ) มีข้อบกพร่องความยากลำบากสิ่งต่าง ๆ ที่ต้องระวังหรือกับดักสำหรับคนไม่ระมัดระวังหรือไม่?

2
Kullback – Leibler vs Kolmogorov-Smirnov ระยะทาง
ฉันเห็นได้ว่ามีความแตกต่างอย่างเป็นทางการระหว่าง Kullback – Leibler กับ Kolmogorov-Smirnov อย่างไรก็ตามทั้งสองถูกใช้เพื่อวัดระยะห่างระหว่างการแจกแจง มีสถานการณ์ทั่วไปที่ควรใช้อย่างใดอย่างหนึ่งแทนอีกสถานการณ์หนึ่งหรือไม่? เหตุผลที่ต้องทำคืออะไร?

2
ทำความเข้าใจกับพารามิเตอร์ภายในการแจกแจงแบบทวินามลบ
ฉันพยายามใส่ข้อมูลของฉันเป็นแบบจำลองต่างๆและคิดว่าfitdistrฟังก์ชั่นจากไลบรารี่MASSของRให้ฉันNegative Binomialเป็นแบบที่ดีที่สุด ตอนนี้จากหน้าwikiคำจำกัดความได้รับเป็น: การแจกแจง NegBin (r, p) อธิบายความน่าจะเป็นของความล้มเหลว k และความสำเร็จ r ในการทดลอง k + r Bernoulli (p) ด้วยความสำเร็จในการทดลองครั้งสุดท้าย ใช้Rในการดำเนินการรูปแบบที่เหมาะสมให้ฉันสองพารามิเตอร์และmean dispersion parameterฉันไม่เข้าใจวิธีตีความสิ่งเหล่านี้เพราะฉันไม่เห็นพารามิเตอร์เหล่านี้ในหน้าวิกิ ทั้งหมดที่ฉันเห็นคือสูตรต่อไปนี้: ที่เป็นจำนวนของการสังเกตและk r=0...nตอนนี้ฉันจะเชื่อมโยงสิ่งเหล่านี้กับพารามิเตอร์ที่กำหนดโดยได้Rอย่างไร ไฟล์ช่วยเหลือไม่ได้ให้ข้อมูลมากนัก นอกจากนี้เพื่อพูดคำสองสามคำเกี่ยวกับการทดสอบของฉัน: ในการทดลองทางสังคมที่ฉันกำลังทำอยู่ฉันพยายามนับจำนวนผู้ใช้ที่ผู้ใช้แต่ละคนติดต่อในระยะเวลา 10 วัน ขนาดประชากรคือ 100 สำหรับการทดสอบ ตอนนี้ถ้าแบบจำลองนั้นเหมาะกับเนกาทีฟทวินามลบฉันสามารถพูดได้ว่ามันเป็นไปตามการกระจายตัวนั้น แต่ฉันต้องการเข้าใจความหมายที่เข้าใจง่ายที่อยู่เบื้องหลังสิ่งนี้ หมายความว่าอย่างไรว่าจำนวนคนที่ได้รับการติดต่อจากการทดสอบของฉันนั้นมีการกระจายตัวแบบทวินามลบ มีใครช่วยอธิบายสิ่งนี้ได้ไหม

10
ทำไมเวลาการเอาชีวิตรอดจึงมีการกระจายอย่างทวีคูณ
ฉันกำลังเรียนรู้การวิเคราะห์ความอยู่รอดจากบทความนี้ใน UCLA IDREและได้ดีดตัวขึ้นที่หัวข้อ 1.2.1 บทช่วยสอนบอกว่า: ... ถ้าเวลารอดชีวิตนั้นมีการแจกแจงแบบเลขชี้กำลังแล้วความน่าจะเป็นในการสังเกตเวลาการอยู่รอด ... ทำไมเวลาการเอาชีวิตรอดจึงมีการกระจายอย่างทวีคูณ ดูเหมือนว่าฉันผิดธรรมชาติมาก ทำไมไม่กระจายตามปกติ? สมมติว่าเรากำลังตรวจสอบช่วงชีวิตของสิ่งมีชีวิตบางอย่างภายใต้เงื่อนไขบางประการ (พูดจำนวนวัน) ควรจะอยู่ตรงกลางรอบจำนวนที่มีการเปลี่ยนแปลงบ้างหรือไม่ (พูด 100 วันกับความแปรปรวน 3 วัน)? หากเราต้องการให้เวลาเป็นบวกอย่างเคร่งครัดทำไมไม่แจกแจงแบบปกติด้วยค่าเฉลี่ยที่สูงขึ้นและความแปรปรวนน้อยมาก (แทบจะไม่มีโอกาสได้จำนวนลบ)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.