คำถามติดแท็ก distributions

การแจกแจงเป็นการอธิบายทางคณิตศาสตร์ของความน่าจะเป็นหรือความถี่

3
การกระจายคืออะไร
ฉันรู้ความน่าจะเป็นและสถิติน้อยมากและฉันต้องการเรียนรู้ ฉันเห็นคำว่า "การกระจาย" ที่ใช้ทั่วสถานที่ในบริบทที่แตกต่างกัน ตัวอย่างเช่นตัวแปรสุ่มไม่ต่อเนื่องมี "การแจกแจงความน่าจะเป็น" ฉันรู้ว่านี่คืออะไร ตัวแปรสุ่มต่อเนื่องมีฟังก์ชั่นความหนาแน่นของความน่าจะเป็นแล้วสำหรับx∈Rx∈Rx\in\mathbb{R}ที่หนึ่งจากเพื่อของฟังก์ชั่นความหนาแน่นของความน่าจะเป็นฟังก์ชั่นการแจกแจงสะสมประเมินx−∞−∞-\inftyxxxxxx และชัดเจนเพียง "ฟังก์ชันการแจกแจง" นั้นมีความหมายเหมือนกันกับ "ฟังก์ชันการแจกแจงสะสม" อย่างน้อยเมื่อพูดถึงตัวแปรสุ่มแบบต่อเนื่อง (คำถาม: พวกมันมีความหมายเหมือนกันเสมอหรือไม่) แล้วมีการแจกแจงที่โด่งดังมากมาย กระจายการกระจาย ฯลฯ แต่อะไรคือการกระจาย ? มันเป็นฟังก์ชั่นการแจกแจงสะสมของตัวแปรสุ่มหรือไม่? หรือฟังก์ชันความหนาแน่นของความน่าจะเป็นของตัวแปรสุ่มΓΓ\Gammaχ2χ2\chi^2ΓΓ\GammaΓΓ\GammaΓΓ\Gamma แต่จากนั้นการแจกแจงความถี่ของชุดข้อมูล จำกัด จะปรากฏเป็นฮิสโตแกรม เรื่องสั้นสั้น: ในความน่าจะเป็นและสถิติความหมายของคำว่า "การกระจาย" คืออะไร? ฉันรู้คำจำกัดความของการแจกแจงในวิชาคณิตศาสตร์ (องค์ประกอบของการเว้นวรรคคู่ของการรวบรวมฟังก์ชั่นการทดสอบที่มีโทโพโลยีขีด จำกัด แบบอุปนัย) แต่ไม่ใช่ความน่าจะเป็นและสถิติ

5
การกระจายตัวตัวอย่างของกลุ่มตัวอย่างมีความหมายอย่างไรกับค่าเฉลี่ยประชากร
ฉันพยายามเรียนรู้สถิติเพราะฉันพบว่ามันแพร่หลายมากจนห้ามไม่ให้ฉันเรียนรู้บางสิ่งหากฉันไม่เข้าใจอย่างถูกต้อง ฉันมีปัญหาในการทำความเข้าใจแนวคิดเรื่องการกระจายตัวตัวอย่างของค่าเฉลี่ยตัวอย่าง ฉันไม่เข้าใจวิธีที่หนังสือและเว็บไซต์อธิบาย ฉันคิดว่าฉันมีความเข้าใจ แต่ไม่แน่ใจว่าถูกต้องหรือไม่ ด้านล่างนี้เป็นความพยายามของฉันที่จะเข้าใจ เมื่อเราพูดถึงปรากฏการณ์บางอย่างที่เกิดจากการแจกแจงแบบปกติมันเป็นเรื่องปกติ (ไม่เสมอไป) เกี่ยวกับประชากร เราต้องการใช้สถิติเชิงอนุมานเพื่อทำนายบางสิ่งเกี่ยวกับประชากรบางคน แต่ไม่มีข้อมูลทั้งหมด เราใช้การสุ่มตัวอย่างและแต่ละตัวอย่างของขนาด n เท่ากันน่าจะเลือก เราเอาตัวอย่างจำนวนมากมาบอกว่า 100 แล้วการกระจายตัวของตัวอย่างเหล่านั้นจะเป็นปกติประมาณตามทฤษฎีลิมิตที่ศูนย์กลาง ค่าเฉลี่ยของค่าเฉลี่ยตัวอย่างจะประมาณค่าเฉลี่ยของประชากร ตอนนี้สิ่งที่ฉันไม่เข้าใจคือหลายครั้งที่คุณเห็น "ตัวอย่าง 100 คน ... " เราจะไม่ต้องการตัวอย่าง 10s หรือ 100s จาก 100 คนเพื่อประมาณค่าเฉลี่ยประชากรหรือไม่ หรือเป็นกรณีที่เราสามารถนำตัวอย่างเดียวที่มีขนาดใหญ่พอบอก 1,000 แล้วบอกว่าค่าเฉลี่ยจะประมาณค่าเฉลี่ยประชากรหรือไม่ หรือเราใช้ตัวอย่าง 1,000 คนจากนั้นสุ่ม 100 ตัวอย่าง 100 คนในแต่ละตัวอย่างจากเดิม 1,000 คนที่เราเอามาแล้วใช้เป็นการประมาณของเรา การใช้ตัวอย่างที่มีขนาดใหญ่พอที่จะประมาณค่าเฉลี่ย (เกือบ) ใช้ได้หรือไม่ ประชากรจำเป็นต้องเป็นปกติหรือเปล่าสำหรับการทำงานนี้?

2
การกระจายแบบใดที่ใช้กันมากที่สุดในการจำลองเวลาตอบกลับของเซิร์ฟเวอร์
ฉันมีแอปพลิเคชันที่ใช้ servlet ซึ่งฉันจะวัดเวลาที่ใช้ในการดำเนินการตามคำขอแต่ละครั้งให้กับเซิร์ฟเล็ตนั้น ฉันคำนวณสถิติอย่างง่ายเช่นค่าเฉลี่ยและค่าสูงสุดแล้ว ฉันต้องการที่จะสร้างการวิเคราะห์ที่ซับซ้อนมากขึ้นและทำเช่นนั้นฉันเชื่อว่าฉันต้องทำแบบจำลองเวลาตอบสนองเหล่านี้อย่างถูกต้อง แน่นอนว่าเวลาตอบสนองนั้นเป็นไปตามการกระจายที่รู้จักกันดีและมีเหตุผลที่ดีที่จะเชื่อว่าการกระจายตัวเป็นรูปแบบที่ถูกต้อง อย่างไรก็ตามฉันไม่รู้ว่าการกระจายตัวนี้ควรเป็นอย่างไร Log-normal และ Gamma เป็นสิ่งที่คำนึงถึงและคุณสามารถสร้างข้อมูลเวลาตอบสนองตามจริงได้ ไม่มีใครมีมุมมองเกี่ยวกับสิ่งที่การกระจายเวลาตอบสนองควรทำตาม?

2
เหตุใดยอดสูงสุดของสะพานบราวเนียนจึงมีการกระจาย Kolmogorov – Smirnov?
การกระจาย Kolmogorov-Smirnov เป็นที่รู้จักจากการทดสอบ Kolmogorov-Smirnov อย่างไรก็ตามมันยังเป็นการกระจายของยอดสูงสุดของสะพานบราวเนียน เนื่องจากสิ่งนี้ไม่ชัดเจน (สำหรับฉัน) ฉันจึงขอให้คุณอธิบายอย่างง่าย ๆ เกี่ยวกับความบังเอิญนี้ ยินดีต้อนรับการอ้างอิงยัง

2
พารามิเตอร์ที่สองสำหรับการแจกแจงแบบปกติคือความแปรปรวนหรือค่าเบี่ยงเบนมาตรฐาน
บางครั้งฉันเคยเห็นหนังสืออ้างอิงพารามิเตอร์ที่สองในการแจกแจงแบบปกติว่าส่วนเบี่ยงเบนมาตรฐานและความแปรปรวน ตัวอย่างเช่นตัวแปรสุ่ม X ~ N (0, 4) มันไม่ชัดเจนว่าซิกม่าหรือซิกม่ากำลังสองเท่ากับ 4 ฉันแค่ต้องการหาแบบแผนทั่วไปที่ใช้เมื่อค่าเบี่ยงเบนมาตรฐานหรือความแปรปรวนไม่ได้ระบุ

2
การแจกจ่ายแบบใดที่จะใช้กับแบบจำลองเวลาก่อนรถไฟมาถึง
ฉันกำลังพยายามสร้างแบบจำลองข้อมูลบางอย่างในเวลาที่รถไฟมาถึง ฉันต้องการที่จะใช้การกระจายที่จับ"อีกต่อไปผมรอจะขึ้นรถไฟไปนี้จะแสดงขึ้น" ดูเหมือนว่าการแจกจ่ายดังกล่าวควรมีลักษณะเป็น CDF ดังนั้น P (รถไฟแสดงขึ้น | รอ 60 นาที) ใกล้เคียงกับ 1 การกระจายแบบใดที่เหมาะสมที่จะใช้ที่นี่

2
สำหรับ iid varianbles สุ่ม
มีการแจกแจงสำหรับตัวแปรสุ่ม iid สองตัวที่การกระจายข้อต่อของX - Yเหมือนกันมากกว่าการสนับสนุน [0,1] หรือไม่?X,YX,YX,YX−YX−YX-Y

2
การสุ่มตัวอย่างจากการกระจายที่ไม่เหมาะสม (ใช้ MCMC และอื่น ๆ )
คำถามพื้นฐานของฉันคือคุณจะตัวอย่างจากการกระจายที่ไม่เหมาะสมอย่างไร มันทำให้รู้สึกถึงตัวอย่างจากการกระจายที่ไม่เหมาะสมหรือไม่ ความคิดเห็นของซีอานที่นี่เป็นประเภทที่อยู่คำถาม แต่ฉันกำลังมองหารายละเอียดเพิ่มเติมเกี่ยวกับเรื่องนี้ เฉพาะกับ MCMC: ในการพูดคุยเกี่ยวกับ MCMC และการอ่านเอกสารผู้เขียนเน้นที่การได้รับการแจกแจงหลังที่เหมาะสม มีกระดาษที่มีชื่อเสียงGeyer (1992)ที่ผู้เขียนลืมตรวจสอบว่าหลังของพวกเขาถูกต้องหรือไม่ (เป็นกระดาษที่ยอดเยี่ยม) แต่สมมติว่าเรามีความเป็นไปได้ที่และการแจกแจงก่อนหน้าที่ไม่เหมาะสมในθเช่นนั้นผลลัพธ์หลังนั้นไม่เหมาะสมเช่นกันและ MCMC ใช้เพื่อสุ่มตัวอย่างจากการแจกแจง ในกรณีนี้ตัวอย่างบ่งชี้อะไร มีข้อมูลที่เป็นประโยชน์ในตัวอย่างนี้หรือไม่? ฉันรู้ว่าลูกโซ่มาร์คอฟที่นี่นั้นเป็นทั้งชั่วคราวหรือเป็นโมฆะซ้ำ จะมีสิ่งใดที่ได้ผลดีหากเป็นโมฆะซ้ำหรือไม่?ฉ( x | θ )ฉ(x|θ)f(x|\theta)θθ\theta ในที่สุดในคำตอบของนีลจีที่นี่เขาพูดถึง โดยทั่วไปคุณสามารถสุ่มตัวอย่าง (ใช้ MCMC) จากด้านหลังแม้ว่ามันจะไม่เหมาะสมก็ตาม เขากล่าวถึงการสุ่มตัวอย่างดังกล่าวเป็นเรื่องปกติในการเรียนรู้อย่างลึกซึ้ง หากเป็นจริงสิ่งนี้จะสมเหตุสมผลได้อย่างไร

4
การเพิ่มความแม่นยำของเครื่องไล่ระดับสีจะลดลงเมื่อจำนวนการทำซ้ำเพิ่มขึ้น
ฉันกำลังทดลองกับอัลกอริทึมของเครื่องเร่งการไล่ระดับสีผ่านcaretแพ็คเกจใน R ใช้ชุดข้อมูลการรับสมัครวิทยาลัยขนาดเล็กฉันใช้รหัสต่อไปนี้: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
คำถามสัมภาษณ์ที่ดีสำหรับผู้สมัครขั้นตอนวิธีเชิงสถิติคืออะไร?
ฉันกำลังสัมภาษณ์ผู้คนถึงตำแหน่งนักพัฒนาอัลกอริทึม / นักวิจัยในด้านสถิติ / การเรียนรู้ของเครื่องจักร / บริบทการขุดข้อมูล ฉันกำลังมองหาคำถามที่จะถามเพื่อพิจารณาเป็นพิเศษความคุ้นเคยความเข้าใจและความลื่นไหลของผู้สมัครกับทฤษฎีพื้นฐานเช่นคุณสมบัติพื้นฐานของความคาดหวังและความแปรปรวนการแจกแจงทั่วไปบางอย่าง ฯลฯ คำถามไปที่ปัจจุบันของฉันคือ: "มีปริมาณที่ไม่รู้จักซึ่งเราอยากจะประเมินด้วยเหตุนี้เรามีตัวประมาณY 1 , Y 2 , … , Y nซึ่งได้รับXนั้นไม่เอนเอียงและเป็นอิสระและ แต่ละคนมีความแปรปรวนที่รู้จักกันσ 2 ฉันแตกต่างกันไปสำหรับแต่ละคนค้นหาตัวประมาณที่เหมาะสมที่สุดY = f ( Y 1 , … , Y n )ซึ่งไม่เอนเอียงและมีความแปรปรวนน้อยที่สุด "XXXY1, วาย2, … , YnY1,Y2,...,YnY_1, Y_2, \ldots, Y_nXXXσ2ผมσผม2\sigma_i^2Y= f( Y1, … , Yn)Y=ฉ(Y1,...,Yn)Y=f(Y_1,\ldots, Y_n) ฉันคาดหวังว่าผู้สมัครที่จริงจังในการจัดการกับมันได้อย่างง่ายดาย (ให้เวลาในการคำนวณการคำนวณ) …

5
อะไรคือการกระจายของลูกเต๋าหลายเหลี่ยมที่ม้วนตัวทั้งหมดในคราวเดียว
นำของแข็ง 5 Platonic ออกจากชุดลูกเต๋า Dungeons & Dragons เหล่านี้ประกอบด้วยลูกเต๋า 4 ด้าน, 6 ด้าน (ธรรมเนียม), 8-sided, 12-sided และ 20-sided ทั้งหมดเริ่มต้นที่หมายเลข 1 และนับขึ้น 1 ด้วยจำนวนทั้งหมด รีดพวกเขาทั้งหมดในครั้งเดียวนำผลรวมของพวกเขา (ผลรวมขั้นต่ำคือ 5, สูงสุดคือ 50) ทำหลาย ๆ ครั้ง การกระจายคืออะไร? เห็นได้ชัดว่าพวกเขามีแนวโน้มไปสู่จุดต่ำสุดเนื่องจากมีตัวเลขที่ต่ำกว่าสูงกว่า แต่จะมีจุดเปลี่ยนที่เด่นในแต่ละเขตของการตายของแต่ละคนหรือไม่? [แก้ไข: เห็นได้ชัดว่าสิ่งที่ดูเหมือนไม่ชัดเจน ตามที่ผู้วิจารณ์คนหนึ่งกล่าวว่าค่าเฉลี่ยคือ (5 + 50) /2=27.5 ฉันไม่ได้คาดหวังสิ่งนี้ ฉันยังอยากเห็นกราฟ] [แก้ไข 2: มันสมเหตุสมผลมากกว่าที่จะเห็นว่าการกระจายของ n ลูกเต๋าเหมือนกันกับแต่ละลูกเต๋าแยกกันรวมกัน]

2
ค่าเบี่ยงเบนสัมบูรณ์กลาง (MAD) และ SD ของการแจกแจงที่แตกต่างกัน
สำหรับข้อมูลที่กระจายตามปกติค่าเบี่ยงเบนมาตรฐานและค่าเบี่ยงเบนสัมบูรณ์แบบมัธยฐานMADสัมพันธ์กันโดย:σσ\sigmaMADMAD\text{MAD} σ=Φ−1(3/4)⋅MAD≈1.4826⋅MAD,σ=Φ−1(3/4)⋅MAD≈1.4826⋅MAD,\sigma=\Phi^{-1}(3/4)\cdot \text{MAD}\approx1.4826\cdot\text{MAD}, โดยที่เป็นฟังก์ชันการแจกแจงสะสมสำหรับการแจกแจงแบบปกติมาตรฐานΦ()Φ()\Phi() มีความสัมพันธ์แบบเดียวกันสำหรับการแจกแจงแบบอื่นหรือไม่?

2
การสุ่มตัวอย่างถูกต้องตามกฎหมายสำหรับการอนุมานหรือไม่?
Bayesians บางคนโจมตีการอนุมานบ่อยครั้งที่ระบุว่า "ไม่มีการกระจายตัวอย่างที่ไม่ซ้ำ" เพราะมันขึ้นอยู่กับความตั้งใจของนักวิจัย (Kruschke, Aguinis, & Joo, 2012, p. 733) ตัวอย่างเช่นสมมติว่านักวิจัยเริ่มเก็บข้อมูล แต่เงินทุนของเขาลดลงอย่างไม่คาดคิดหลังจากมีผู้เข้าร่วม 40 คน การแจกแจงการสุ่มตัวอย่าง (และ CIs ที่ตามมาและค่า p) จะถูกกำหนดที่นี่ได้อย่างไร เราจะสมมติว่ากลุ่มตัวอย่างแต่ละชุดมี N = 40 หรือไม่ หรือมันจะประกอบไปด้วยตัวอย่างที่มี N ที่แตกต่างกันโดยแต่ละขนาดจะพิจารณาจากเวลาสุ่มอื่น ๆ ที่เงินทุนของเขาอาจถูกตัด? t, F, chi-square (ฯลฯ ), การแจกแจงโมฆะที่พบในตำราเรียนทั้งหมดสันนิษฐานว่า N ได้รับการแก้ไขและคงที่สำหรับตัวอย่างที่เป็นส่วนประกอบทั้งหมด แต่สิ่งนี้อาจไม่เป็นจริงในทางปฏิบัติ ด้วยขั้นตอนการหยุดที่แตกต่างกันทุกครั้ง (เช่นหลังจากช่วงเวลาหนึ่งหรือจนกว่าผู้ช่วยของฉันจะเหนื่อย) ดูเหมือนจะมีการแจกแจงตัวอย่างที่แตกต่างกันและการใช้การแจกแจงคงที่ N แบบลองและจริงเหล่านี้ไม่เหมาะสม การวิพากษ์วิจารณ์นี้สร้างความเสียหายต่อความถูกต้องตามกฎหมายของ CIs บ่อยและค่า p อย่างไร …

4
ฉันจะดำเนินการถดถอยกับข้อมูลที่ไม่ปกติซึ่งยังคงไม่ปกติเมื่อเปลี่ยนเป็นอย่างไร
ฉันมีข้อมูล (158 ราย) ซึ่งได้มาจากคำตอบของ Likert ในการตอบแบบสอบถาม 21 ข้อ ฉันต้องการ / จำเป็นต้องทำการวิเคราะห์การถดถอยเพื่อดูว่ารายการใดในแบบสอบถามทำนายการตอบสนองต่อรายการโดยรวม (ความพึงพอใจ) คำตอบจะไม่กระจายตามปกติ (ตามการทดสอบของ KS) และฉันได้เปลี่ยนมันในทุก ๆ วิธีที่ฉันสามารถคิดได้ (ผกผัน, บันทึก, log10, sqrt, กำลังสอง) และมันก็ปฏิเสธที่จะกระจายตามปกติอย่างดื้อรั้น พล็อตที่เหลือดูทั่วทุกสถานที่ดังนั้นฉันเชื่อว่ามันไม่ถูกต้องตามกฎหมายที่จะทำการถดถอยเชิงเส้นและแกล้งทำเป็นว่ามันทำงานได้ตามปกติ (ไม่ใช่การกระจายปัวซอง) ฉันคิดว่าเป็นเพราะคำตอบมีการรวมกลุ่มอย่างใกล้ชิดมาก (ค่าเฉลี่ยคือ 3.91, 95% CI 3.88 ถึง 3.95) ดังนั้นฉันคิดว่าฉันต้องการวิธีใหม่ในการแปลงข้อมูลของฉันหรือต้องการการถดถอยแบบไม่ใช้พารามิเตอร์ แต่ฉันไม่รู้ว่าฉันสามารถทำได้ใน SPSS

1
ผลคูณของตัวแปรสุ่มอิสระสองตัว
ฉันมีตัวอย่างประมาณ 1,000 ค่า ข้อมูลเหล่านี้จะได้รับจากผลิตภัณฑ์ของทั้งสองตัวแปรสุ่มอิสระξ∗ψξ∗ψ\xi \ast \psi ψ ตัวแปรสุ่มครั้งแรกที่มีการกระจายชุดξ∼U(0,1)ξ∼U(0,1)\xi \sim U(0,1) ) ไม่รู้จักการแจกแจงของตัวแปรสุ่มตัวที่สอง ฉันจะประเมินการกระจายตัวของตัวแปรสุ่มตัวที่สอง ( ) ได้อย่างไรψψ \psi

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.