คำถามติดแท็ก distributions

การแจกแจงเป็นการอธิบายทางคณิตศาสตร์ของความน่าจะเป็นหรือความถี่

2
ทดสอบการกระจาย bimodal
ฉันสงสัยว่ามีการทดสอบทางสถิติเพื่อ "ทดสอบ" ความสำคัญของการกระจาย bimodal หรือไม่ ฉันหมายความว่าข้อมูลของฉันตรงกับการกระจาย bimodal มากแค่ไหน? ถ้าเป็นเช่นนั้นมีการทดสอบในโปรแกรม R หรือไม่?

5
กลยุทธ์การสอนการกระจายตัวตัวอย่าง
รุ่น tl; dr เวอร์ชัน ใดที่คุณใช้กลยุทธ์ที่ประสบความสำเร็จในการสอนการกระจายตัวตัวอย่าง (ของค่าเฉลี่ยตัวอย่าง) ในระดับปริญญาตรีเบื้องต้น? พื้นหลัง ในเดือนกันยายนฉันจะสอนหลักสูตรสถิติเบื้องต้นสำหรับนักศึกษาปีที่สองทางสังคมศาสตร์ (ส่วนใหญ่เป็นรัฐศาสตร์และสังคมวิทยา) โดยใช้David Basic Moore มันจะเป็นครั้งที่ห้าที่ผมเคยสอนหลักสูตรนี้และปัญหาหนึ่งที่ฉันเคยมีอย่างต่อเนื่องคือการที่นักเรียนได้ต่อสู้จริงๆกับความคิดของการกระจายการสุ่มตัวอย่าง มันครอบคลุมเป็นพื้นหลังสำหรับการอนุมานและปฏิบัติตามการแนะนำเบื้องต้นเกี่ยวกับความน่าจะเป็นที่พวกเขาดูเหมือนจะไม่มีปัญหาหลังจากมีอาการสะอึกเริ่มแรก (และโดยพื้นฐานแล้วฉันหมายถึงพื้นฐาน- หลังจากทั้งหมดนักเรียนเหล่านี้จำนวนมากได้รับการคัดเลือกด้วยตนเองเป็นสตรีมหลักสูตรที่เฉพาะเจาะจงเพราะพวกเขาพยายามที่จะหลีกเลี่ยงสิ่งใดก็ตามด้วยคำใบ้ที่คลุมเครือของ "คณิตศาสตร์") ฉันเดาว่าอาจจะออกจากหลักสูตร 60% โดยไม่มีความเข้าใจน้อยที่สุดประมาณ 25% เข้าใจหลักการ แต่ไม่ใช่การเชื่อมต่อกับแนวคิดอื่น ๆ และอีก 15% ที่เหลือเข้าใจอย่างถ่องแท้ ประเด็นหลัก ปัญหาที่นักเรียนดูเหมือนมีอยู่กับแอปพลิเคชัน เป็นการยากที่จะอธิบายว่าปัญหาที่แม่นยำคืออะไรนอกจากบอกว่าพวกเขาไม่เข้าใจ จากการสำรวจความคิดเห็นที่ฉันได้ดำเนินการภาคการศึกษาที่ผ่านมาและจากการตอบการสอบฉันคิดว่าส่วนหนึ่งของความยากลำบากคือความสับสนระหว่างวลีที่เกี่ยวข้องและคล้ายกันสองเสียง (การกระจายตัวตัวอย่างและการกระจายตัวอย่าง) ดังนั้นฉันจึงไม่ใช้วลี อีกต่อไป แต่แน่นอนว่านี่คือสิ่งที่ในขณะที่เกิดความสับสนในตอนแรกสามารถเข้าใจได้ง่ายด้วยความพยายามเพียงเล็กน้อยและไม่สามารถอธิบายความสับสนทั่วไปเกี่ยวกับแนวคิดของการแจกแจงตัวอย่าง (ฉันตระหนักว่าอาจเป็นฉันและการสอนของฉันที่เป็นปัญหาที่นี่! อย่างไรก็ตามฉันคิดว่าการเพิกเฉยต่อความเป็นไปได้ที่ไม่สะดวกนั้นมีเหตุผลที่จะทำเพราะนักเรียนบางคนดูเหมือนจะเข้าใจและโดยรวมแล้วทุกคน สิ่งที่ฉันได้ลอง ฉันต้องเถียงกับผู้ดูแลระบบระดับปริญญาตรีในแผนกของเราเพื่อแนะนำเซสชันในห้องปฏิบัติการคอมพิวเตอร์ที่คิดว่าการสาธิตซ้ำอาจเป็นประโยชน์ (ก่อนที่ฉันจะเริ่มสอนหลักสูตรนี้ไม่มีการใช้คอมพิวเตอร์ที่เกี่ยวข้อง) ในขณะที่ฉันคิดว่าสิ่งนี้ช่วยให้เข้าใจเนื้อหาโดยรวมของเนื้อหาหลักสูตรโดยทั่วไปฉันไม่คิดว่าหัวข้อนี้จะช่วยได้ ความคิดหนึ่งที่ฉันมีก็คือการไม่สอนอะไรเลยหรือไม่ให้น้ำหนักมากท่าทีที่ได้รับการสนับสนุนจากบางคน (เช่นAndrew Gelman ) ฉันไม่พบสิ่งนี้ที่น่าพึงพอใจโดยเฉพาะเนื่องจากมีการสอนที่รวดเร็วถึงตัวหารร่วมที่ต่ำที่สุดและที่สำคัญกว่านั้นคือปฏิเสธนักเรียนที่แข็งแกร่งและมีแรงจูงใจที่ต้องการเรียนรู้เพิ่มเติมเกี่ยวกับการประยุกต์ใช้ทางสถิติจากการทำความเข้าใจว่า ) ในทางตรงกันข้ามนักเรียนที่เป็นสื่อกลางดูเหมือนจะเข้าใจค่า p …

2
อะไรคือความแตกต่างระหว่างการทดสอบตามปกติของชาปิโร - วิลค์กับการทดสอบภาวะปกติของ Kolmogorov-Smirnov?
อะไรคือความแตกต่างระหว่างการทดสอบตามปกติของชาปิโร - วิลค์กับการทดสอบภาวะปกติของ Kolmogorov-Smirnov? ผลลัพธ์จากทั้งสองวิธีนี้จะแตกต่างกันเมื่อใด

5
วิธีจัดการกับข้อมูลแบบลำดับชั้น / ซ้อนในการเรียนรู้ของเครื่อง
ฉันจะอธิบายปัญหาด้วยตัวอย่าง สมมติว่าคุณต้องการที่จะทำนายรายได้ของแต่ละบุคคลที่มีคุณลักษณะบางอย่าง: {อายุ, เพศ, ประเทศ, ภูมิภาค, เมือง} คุณมีชุดข้อมูลการฝึกอบรมเช่นนั้น train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

4
ทฤษฎีกราฟในรูปแบบกราฟิกอยู่ที่ไหน
การแนะนำตัวแบบกราฟิกอธิบายว่า "... การแต่งงานระหว่างทฤษฎีกราฟและทฤษฎีความน่าจะเป็น" ฉันได้ทฤษฎีส่วนความน่าจะเป็น แต่ฉันมีปัญหาในการทำความเข้าใจว่าทฤษฎีกราฟตรงกับอะไรความเข้าใจเชิงลึกจากทฤษฎีกราฟได้ช่วยให้เราเข้าใจการกระจายความน่าจะเป็นและการตัดสินใจภายใต้ความไม่แน่นอนมากขึ้น ฉันกำลังมองหาตัวอย่างที่เป็นรูปธรรมนอกเหนือจากการใช้คำศัพท์ทางทฤษฎีกราฟที่ชัดเจนใน PGM เช่นการจำแนก PGM เป็น "ต้นไม้" หรือ "bipartite" หรือ "undirected" เป็นต้น

5
มีคำอธิบายว่าทำไมมีปรากฏการณ์ทางธรรมชาติมากมายที่ตามหลังการแจกแจงปกติ?
ฉันคิดว่านี่เป็นหัวข้อที่น่าสนใจและฉันไม่เข้าใจอย่างถ่องแท้ กฎแห่งฟิสิกส์ใดที่ทำให้เกิดปรากฏการณ์ทางธรรมชาติมากมายที่มีการแจกแจงแบบปกติ ดูเหมือนง่ายกว่าที่พวกเขาจะมีการแจกแจงแบบเดียวกัน มันยากสำหรับฉันที่จะเข้าใจสิ่งนี้และฉันรู้สึกว่าฉันขาดข้อมูลบางอย่าง ใครสามารถช่วยฉันด้วยคำอธิบายที่ดีหรือเชื่อมโยงฉันกับหนังสือ / วิดีโอ / บทความ?

3
ทำไมไม่รายงานค่าเฉลี่ยของการกระจาย bootstrap?
เมื่อหนึ่ง bootstraps พารามิเตอร์เพื่อรับข้อผิดพลาดมาตรฐานที่เราได้รับการกระจายของพารามิเตอร์ ทำไมเราไม่ใช้ค่าเฉลี่ยของการแจกแจงนั้นเป็นผลลัพธ์หรือค่าประมาณสำหรับพารามิเตอร์ที่เราพยายามหา การกระจายไม่ควรประมาณค่าจริงหรือไม่ ดังนั้นเราจะได้ค่าประมาณที่ดี "ที่แท้จริง"? แต่เรารายงานพารามิเตอร์ดั้งเดิมที่เราได้รับจากตัวอย่างของเรา ทำไมถึงเป็นอย่างนั้น? ขอบคุณ

3
การกระจายปัวซองแตกต่างจากการแจกแจงแบบปกติอย่างไร
ฉันสร้างเวกเตอร์ที่มีการแจกแจงปัวซงดังนี้: x = rpois(1000,10) ถ้าฉันใช้ฮิสโตแกรมhist(x)การแจกแจงนั้นดูเหมือนการแจกแจงปกติแบบรูประฆังที่คุ้นเคย อย่างไรก็ตามการทดสอบ Kolmogorov-Smirnoff ที่ใช้ks.test(x, 'pnorm',10,3)บอกว่าการกระจายนั้นแตกต่างจากการแจกแจงแบบปกติอย่างมีนัยสำคัญเนื่องจากมีpค่าน้อยมาก ดังนั้นคำถามของฉันคือ: การแจกแจงปัวซองนั้นแตกต่างจากการแจกแจงแบบปกติอย่างไรเมื่อฮิสโตแกรมมีลักษณะคล้ายกับการแจกแจงแบบปกติ

6
การตีความการทดสอบ Shapiro-Wilk
ฉันค่อนข้างใหม่กับสถิติและฉันต้องการความช่วยเหลือจากคุณ ฉันมีตัวอย่างเล็ก ๆ ดังนี้: H4U 0.269 0.357 0.2 0.221 0.275 0.277 0.253 0.127 0.246 ฉันรันการทดสอบ Shapiro-Wilk โดยใช้ R: shapiro.test(precisionH4U$H4U) และฉันได้ผลลัพธ์ดังนี้ W = 0.9502, p-value = 0.6921 ทีนี้ถ้าฉันสมมติว่าระดับนัยสำคัญที่ 0.05 กว่าค่า p มีค่ามากกว่า alpha (0.6921> 0.05) และฉันไม่สามารถปฏิเสธสมมติฐานว่างเกี่ยวกับการแจกแจงแบบปกติได้ แต่มันบอกว่าตัวอย่างมีการแจกแจงแบบปกติ ? ขอบคุณ!

3
R: การสุ่มฟอเรสต์การโยน NaN / Inf ในข้อผิดพลาด“ การเรียกฟังก์ชันต่างประเทศ” แม้จะไม่มีชุดข้อมูลของ NaN [ปิด]
ฉันใช้คาเร็ตเพื่อรันฟอเรสต์แบบสุ่มที่ผ่านการตรวจสอบความถูกต้องข้ามชุดข้อมูล ตัวแปร Y เป็นปัจจัย ไม่มีชุดข้อมูลของ NaN, Inf's หรือ NA ในชุดข้อมูลของฉัน อย่างไรก็ตามเมื่อใช้ป่าสุ่มฉันได้รับ Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs …

4
เราวัดความไม่สม่ำเสมอของการแจกแจงได้อย่างไร
ฉันกำลังพยายามหาตัวชี้วัดสำหรับการวัดความไม่สม่ำเสมอของการแจกแจงสำหรับการทดลองที่ฉันใช้อยู่ ฉันมีตัวแปรสุ่มที่ควรกระจายอย่างสม่ำเสมอในกรณีส่วนใหญ่และฉันต้องการระบุตัวอย่างของชุดข้อมูลที่และตัวแปรไม่กระจายอย่างสม่ำเสมอภายในระยะขอบ ตัวอย่างของชุดข้อมูลสามชุดแต่ละชุดมีการวัด 10 ค่าซึ่งแสดงความถี่ของการเกิดสิ่งที่ฉันวัดได้อาจเป็นดังนี้: a: [10% 11% 10% 9% 9% 11% 10% 10% 12% 8%] b: [10% 10% 10% 8% 10% 10% 9% 9% 12% 8%] c: [ 3% 2% 60% 2% 3% 7% 6% 5% 5% 7%] <-- non-uniform d: [98% 97% 99% 98% 98% 96% 99% 96% …

7
ชื่อของการเข้าใจผิดทางสถิติคืออะไรโดยผลของการโยนเหรียญก่อนหน้ามีอิทธิพลต่อความเชื่อเกี่ยวกับการพลิกเหรียญครั้งต่อไป?
อย่างที่เราทุกคนรู้กันดีว่าถ้าคุณพลิกเหรียญที่มีโอกาสเท่ากันในการลงจอดหัวเหมือนหางจากนั้นถ้าคุณพลิกเหรียญหลายครั้งครึ่งเวลาคุณจะได้หัวและครึ่งเวลาคุณจะได้หาง เมื่อพูดถึงเรื่องนี้กับเพื่อนพวกเขาบอกว่าถ้าคุณต้องพลิกเหรียญ 1,000 ครั้งและให้บอกว่า 100 ครั้งแรกที่มันตกลงมาจากหัวแล้วโอกาสในการลงหางก็เพิ่มขึ้น (ตรรกะก็คือถ้ามันไม่เอนเอียง) จากนั้นตามเวลาที่คุณพลิกมัน 1,000 ครั้งคุณจะมีประมาณ 500 หัวและ 500 ก้อยดังนั้นก้อยจะต้องมีโอกาสมากขึ้น) ฉันรู้ว่าการเข้าใจผิดเพราะผลลัพธ์ที่ผ่านมาไม่มีผลต่อผลลัพธ์ในอนาคต มีชื่อสำหรับการเข้าใจผิดที่เฉพาะเจาะจงหรือไม่? นอกจากนี้ยังมีคำอธิบายที่ดีกว่าว่าทำไมนี่ถึงผิดพลาด?

1
ตัวประมาณความน่าจะเป็นสูงสุดสำหรับการแจกแจงที่ถูกตัดทอน
พิจารณากลุ่มที่เป็นอิสระที่ได้รับจากตัวแปรสุ่มที่จะถือว่าเป็นไปตามการกระจายตัดทอน (เช่นตัดทอนกระจายปกติ ) รู้จักขั้นต่ำ ( จำกัด ) และค่าสูงสุดและแต่ของพารามิเตอร์ที่ไม่รู้จักและ 2 ถ้าตามการกระจายที่ไม่ถูกตัดทอนตัวประมาณค่าความน่าจะเป็นสูงสุดและสำหรับและจากจะเป็นค่าเฉลี่ยตัวอย่างNNNSSSXXXaaabbbμμ\mu X μ σ 2 μ σ 2 S μ = 1σ2σ2\sigma^2XXXμˆμ^\widehat\muσˆ2σ^2\widehat\sigma^2μμ\muσ2σ2\sigma^2SSS σ 2=1μˆ=1N∑iSiμ^=1N∑iSi\widehat\mu = \frac{1}{N} \sum_i S_iและตัวอย่างแปรปรวน 2 อย่างไรก็ตามสำหรับการแจกแจงที่ถูกตัดทอนตัวอย่างความแปรปรวนที่กำหนดในลักษณะนี้จะถูก จำกัด ด้วยดังนั้นจึงไม่ใช่ตัวประมาณที่สอดคล้องกันเสมอ: สำหรับมันไม่สามารถรวมกันในความน่าจะเป็นเมื่อไปที่อนันต์ ดังนั้นดูเหมือนว่าและไม่ใช่ตัวประมาณโอกาสสูงสุดของและสำหรับการแจกแจงที่ถูกตัดทอน แน่นอนว่าต้องมีการคาดการณ์ตั้งแต่และ(ข-)2σ2>(ข-)2σ2N μ σ 2μσ2μσ2σˆ2=1N∑i(Si−μˆ)2σ^2=1N∑i(Si−μ^)2\widehat\sigma^2 = \frac{1}{N} \sum_i (S_i - \widehat\mu)^2(b−a)2(b−a)2(b-a)^2σ2>(b−a)2σ2>(b−a)2\sigma^2 > (b-a)^2σ2σ2\sigma^2NNNμˆμ^\widehat\muσˆ2σ^2\widehat\sigma^2μμ\muσ2σ2\sigma^2μμ\muσ2σ2\sigma^2 พารามิเตอร์ของการแจกแจงแบบปกติที่ถูกตัดทอนไม่ได้เป็นค่าเฉลี่ยและความแปรปรวน ดังนั้นตัวประมาณค่าความน่าจะเป็นสูงสุดของพารามิเตอร์และของการแจกแจงแบบตัดทอนของค่าต่ำสุดและค่าสูงสุดที่ทราบคืออะไรσμμ\muσσ\sigma

3
การกระจายตัวแบบเกาส์อัตราส่วน: อนุพันธ์ wrt ต้นแบบ 's และ s
ผมทำงานกับสองการแจกแจงปรกติอิสระและYมีวิธี\ mu_xและ\ mu_yและความแปรปรวน\ ^ ซิก 2_xและ\ ^ ซิก 2_yY μ x μ y σ 2 x σ 2 yXXXYYYμxμx\mu_xμyμy\mu_yσ2xσx2\sigma^2_xσ2yσy2\sigma^2_y ฉันสนใจในการกระจายของอัตราส่วนของพวกเขาZ=X/YZ=X/YZ=X/Y Y ทั้งXXXหรือYYYมีค่าเฉลี่ยอยู่ที่ศูนย์ดังนั้นZZZไม่ได้กระจายเป็น Cauchy ฉันต้องการหา CDF ของZZZ , และจากนั้นใช้อนุพันธ์ของ CDF ด้วยความเคารพμxμx\mu_x , μyμy\mu_y , σ2xσx2\sigma^2_xและ\σ2yσy2\sigma^2_y ใครบ้างที่รู้กระดาษที่คำนวณเหล่านี้แล้ว? หรือจะทำสิ่งนี้ด้วยตัวเองได้อย่างไร? ฉันค้นพบสูตรสำหรับ CDF ในเอกสารปี 1969แต่การจดอนุพันธ์เหล่านี้จะเป็นความเจ็บปวดอย่างมาก อาจมีบางคนทำไปแล้วหรือรู้วิธีที่จะทำได้ง่าย ๆ ? ฉันต้องการทราบสัญญาณของตราสารอนุพันธ์เป็นส่วนใหญ่ กระดาษนี้ยังมีการประมาณที่ง่ายขึ้นในการวิเคราะห์ถ้าYYYเป็นบวกส่วนใหญ่ ฉันไม่มีข้อ จำกัด อย่างไรก็ตามการประมาณอาจมีสัญลักษณ์เดียวกับอนุพันธ์ที่แท้จริงแม้จะอยู่นอกช่วงพารามิเตอร์

1
การคำนวณซ้ำของเอฟเฟกต์จากโมเดล lmer
ฉันเพิ่งอ่านบทความนี้ซึ่งอธิบายถึงวิธีการคำนวณความสามารถในการทำซ้ำ (ความน่าเชื่อถือหรือความสัมพันธ์ภายในอินทราเน็ต) ของการวัดผ่านการสร้างแบบจำลองเอฟเฟกต์ผสม รหัส R จะเป็น: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.