คำถามติดแท็ก distributions

การแจกแจงเป็นการอธิบายทางคณิตศาสตร์ของความน่าจะเป็นหรือความถี่

4
การแจกแจงก่อนหน้าอย่างไม่ทราบข้อมูลสำหรับพารามิเตอร์มาตราส่วน
ฉันใช้การแจกแจงแบบปกติของล็อกเป็นการแจกแจงก่อนหน้าสำหรับพารามิเตอร์สเกล (สำหรับการแจกแจงแบบปกติ, การแจกแจงแบบอื่น ๆ ) เมื่อฉันมีความคิดคร่าวๆเกี่ยวกับสิ่งที่สเกลควรจะเป็น แต่ต้องการทำผิดด้าน มากเกี่ยวกับมัน ฉันใช้เพราะการใช้นั้นทำให้ฉันเข้าใจได้ง่าย แต่ฉันไม่ได้เห็นคนอื่นใช้ มีอันตรายซ่อนอยู่หรือไม่?

5
การประเมินความสำคัญของความแตกต่างในการแจกแจง
ฉันมีข้อมูลสองกลุ่ม แต่ละตัวมีการกระจายตัวแปรหลายตัวแตกต่างกัน ฉันพยายามที่จะพิจารณาว่าการแจกแจงของสองกลุ่มนี้แตกต่างกันอย่างมีนัยสำคัญทางสถิติหรือไม่ ฉันมีข้อมูลทั้งในรูปแบบ raw และ binned ในง่ายต่อการจัดการกับหมวดหมู่แยกที่มีการนับความถี่ในแต่ละ ฉันควรใช้การทดสอบ / ขั้นตอน / วิธีการใดเพื่อตรวจสอบว่าทั้งสองกลุ่มมีความแตกต่างอย่างมีนัยสำคัญหรือไม่และฉันจะทำเช่นนั้นใน SAS หรือ R (หรือ Orange) ได้อย่างไร

2
วิธีการแปลงผกผันทำงานอย่างไร
วิธีการผกผันทำงานอย่างไร สมมติว่าฉันมีตัวอย่างสุ่มมีความหนาแน่นมากกว่าและดังนั้นจึงมี CDFใน(0,1)แล้วตามด้วยวิธีการผกผันที่ฉันได้รับการกระจายของเป็นF_X X1,X2,...,XnX1,X2,...,XnX_1,X_2,...,X_nf(x;θ)=1θx(1−θ)θf(x;θ)=1θx(1−θ)θf(x;\theta)={1\over \theta} x^{(1-\theta)\over \theta} 0&lt;x&lt;10&lt;x&lt;10<x<1FX(x)=x1/θFX(x)=x1/θF_X(x)=x^{1/\theta}(0,1)(0,1)(0,1)XXXF−1X(u)=uθFX−1(u)=uθF_X^{-1}(u)=u^\theta ดังนั้นมีการกระจายของ ? นี่เป็นวิธีการกลับด้านหรือไม่uθuθu^\thetaXXX u&lt;-runif(n) x&lt;-u^(theta)

2
ทำไมตัวแปรสุ่ม“ ลบทวินาม” จึงเรียกว่า
ฉันไม่เข้าใจว่าทำไมตัวแปรสุ่ม "ลบทวินาม" จึงมีชื่อนั้น สิ่งที่เป็นลบเกี่ยวกับมัน? ทวินามเกี่ยวกับมันคืออะไร? อะไรคือลบ - ทวินามเกี่ยวกับมัน

3
การแจกแจงความแตกต่างระหว่างการแจกแจงสองแบบปกติ
ฉันมีฟังก์ชันความหนาแน่นของความน่าจะเป็นสองแบบของการแจกแจงแบบปกติ: f1(x1|μ1,σ1)=1σ12π−−√e−(x−μ1)22σ21f1(x1|μ1,σ1)=1σ12πe−(x−μ1)22σ12f_1(x_1 \; | \; \mu_1, \sigma_1) = \frac{1}{\sigma_1\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_1)^2}{2\sigma_1^2} } และ f2(x2|μ2,σ2)=1σ22π−−√e−(x−μ2)22σ22f2(x2|μ2,σ2)=1σ22πe−(x−μ2)22σ22f_2(x_2 \; | \; \mu_2, \sigma_2) = \frac{1}{\sigma_2\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_2)^2}{2\sigma_2^2} } ฉันกำลังมองหาฟังก์ชั่นความหนาแน่นของความน่าจะเป็นของการแยกระหว่างx1x1x_1และx2x2x_2 2 ฉันคิดว่านั่นหมายถึงฉันกำลังมองหาฟังก์ชันความหนาแน่นของความน่าจะเป็นของ|x1−x2||x1−x2||x_1 - x_2|. ถูกต้องหรือไม่ ฉันจะหาสิ่งนั้นได้อย่างไร

4
จะทดสอบได้อย่างไรว่าการกระจายตัวของฉันนั้นต่อเนื่องหลายรูปแบบ?
เมื่อฉันพล็อตฮิสโตแกรมของข้อมูลของฉันมันมีสองจุด: นั่นหมายความว่าอาจมีการกระจายแบบหลายโหมดหรือไม่? ฉันวิ่งdip.testใน R ( library(diptest)) และผลลัพธ์คือ: D = 0.0275, p-value = 0.7913 ฉันสามารถสรุปได้ว่าข้อมูลของฉันมีการกระจายหลายโหมด? ข้อมูล 10346 13698 13894 19854 28066 26620 27066 16658 9221 13578 11483 10390 11126 13487 15851 16116 24102 30892 25081 14067 10433 15591 8639 10345 10639 15796 14507 21289 25444 26149 23612 19671 12447 13535 10667 …

2
การแจกแจงแบบใดที่มีวิธีแก้ปัญหาแบบปิดเพื่อการประมาณค่าโอกาสสูงสุด
การแจกแจงแบบใดมีวิธีแก้ปัญหาแบบปิดสำหรับการประมาณค่าความน่าจะเป็นสูงสุดของพารามิเตอร์จากตัวอย่างการสังเกตการณ์อิสระ

4
วิธีการฉายเวกเตอร์ใหม่บนพื้นที่ PCA?
หลังจากทำการวิเคราะห์องค์ประกอบหลัก (PCA) ฉันต้องการฉายเวกเตอร์ใหม่ลงบนพื้นที่ PCA (เช่นค้นหาพิกัดในระบบพิกัด PCA) ผมได้คำนวณ PCA ในภาษา R prcompโดยใช้ ตอนนี้ฉันควรคูณเวกเตอร์ของฉันด้วยเมทริกซ์การหมุน PCA ควรจัดองค์ประกอบหลักในเมทริกซ์นี้เป็นแถวหรือคอลัมน์?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

12
ตัวอย่างชีวิตจริงของการแจกแจงที่มีความเบ้เชิงลบ
โดยได้รับแรงบันดาลใจจาก " ตัวอย่างชีวิตจริงของการแจกแจงร่วมกัน " ฉันสงสัยว่าตัวอย่างแบบสอนที่ผู้คนใช้เพื่อแสดงความเบ้เชิงลบคืออะไร มีตัวอย่างมากมาย "บัญญัติ" ของการแจกแจงแบบสมมาตรหรือปกติที่ใช้ในการสอน - แม้ว่าคนที่ชอบความสูงและน้ำหนักจะไม่รอดจากการตรวจสอบทางชีวภาพอย่างใกล้ชิด! ความดันโลหิตอาจสูงกว่าปกติ ฉันชอบข้อผิดพลาดในการวัดทางดาราศาสตร์ - ที่น่าสนใจในประวัติศาสตร์พวกมันไม่น่าจะโกหกในทิศทางเดียวมากกว่าอีกทิศทางหนึ่งโดยมีข้อผิดพลาดเล็ก ๆ น่าจะมีขนาดใหญ่กว่ามาก ตัวอย่างการสอนทั่วไปสำหรับความเบ้เชิงบวก ได้แก่ รายได้ของผู้คน ไมล์สะสมสำหรับรถยนต์มือสองเพื่อขาย เวลาปฏิกิริยาในการทดลองทางจิตวิทยา ราคาบ้าน; จำนวนการเคลมอุบัติเหตุจากลูกค้าประกัน จำนวนเด็กในครอบครัว ความมีเหตุผลทางกายภาพของพวกเขามักจะเกิดจากการถูก จำกัด ที่ด้านล่าง (โดยปกติเป็นศูนย์), ด้วยค่าต่ำที่เป็นไปได้, แม้เป็นเรื่องธรรมดา, แต่มีขนาดใหญ่มาก สำหรับความเบ้เชิงลบฉันพบว่ามันยากที่จะให้ตัวอย่างที่ชัดเจนและชัดเจนที่ผู้ชมอายุน้อย (schoolers สูง) สามารถเข้าใจได้อย่างสังหรณ์ใจบางทีอาจเป็นเพราะการแจกแจงชีวิตจริงน้อยลงมีขอบเขตบนที่ชัดเจน ตัวอย่างที่ไม่ดีที่ฉันสอนที่โรงเรียนคือ "จำนวนนิ้ว" ชาวบ้านส่วนใหญ่มีสิบ แต่บางคนสูญเสียหนึ่งอุบัติเหตุหรือมากกว่านั้น ผลที่สุดคือ "99% ของผู้คนมีจำนวนนิ้วที่สูงกว่าค่าเฉลี่ย"! Polydactylyทำให้ปัญหาซับซ้อนเนื่องจากสิบไม่ใช่ขอบเขตบนที่เข้มงวด เนื่องจากทั้งนิ้วที่หายไปและนิ้วเสริมเป็นเหตุการณ์ที่หายากมันอาจไม่ชัดเจนสำหรับนักเรียนที่มีผลกระทบมากกว่า ผมมักจะใช้การกระจายทวินามสูงพีแต่นักเรียนมักจะพบว่า "จำนวนองค์ประกอบที่น่าพอใจในแบตช์นั้นเบ้ในทางลบ" น้อยกว่าความจริงที่ว่า "จำนวนองค์ประกอบที่ผิดพลาดในแบตช์นั้นเบ้เชิงบวก" (หนังสือเป็นชุดรูปแบบอุตสาหกรรมฉันชอบไข่ที่ร้าวและไม่บุบสลายในกล่องสิบสอง) บางทีนักเรียนอาจรู้สึกว่า …

2
เราสามารถเห็นรูปร่างของเส้นโค้งปกติที่ใดที่หนึ่งในธรรมชาติหรือไม่?
ฉันไม่ต้องการทราบว่าปรากฏการณ์บางอย่างในธรรมชาติมีการแจกแจงแบบปกติหรือไม่ แต่เราสามารถเห็นรูปร่างของเส้นโค้งปกติที่ใดที่หนึ่งที่เราสามารถเห็นได้ในกล่อง Galton หรือไม่ ดูรูปนี้จากWikipedia โปรดทราบว่ารูปร่างหรือเส้นโค้งทางคณิตศาสตร์จำนวนมากสามารถมองเห็นได้โดยตรงในธรรมชาติตัวอย่างเช่นค่าเฉลี่ยสีทองและเกลียวลอการิทึมสามารถพบได้ในหอยทาก คำตอบที่ไร้เดียงสาอันดับแรกคือไม่ว่าเนินเขาที่ไม่ถูกต้องมักจะ "พอดี" การกระจายแบบปกติ :-)

4
ค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนในกรณีขอบคืออะไร?
ความแม่นยำหมายถึง: p = true positives / (true positives + false positives) มันถูกต้องหรือไม่ที่ในฐานะtrue positivesและfalse positivesวิธีที่ 0 ความแม่นยำเข้าใกล้ 1? คำถามเดียวกันสำหรับการเรียกคืน: r = true positives / (true positives + false negatives) ขณะนี้ฉันกำลังใช้การทดสอบทางสถิติที่ฉันต้องการคำนวณค่าเหล่านี้และบางครั้งมันก็เกิดขึ้นที่ตัวส่วนเป็น 0 และฉันสงสัยว่าจะคืนค่าใดให้กับกรณีนี้ PS: ขอโทษแท็กที่ไม่เหมาะสมผมอยากจะใช้recall, precisionและlimitแต่ฉันไม่สามารถสร้างแท็กใหม่ ๆ
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

2
จากการแจกแจงแบบสม่ำเสมอจนถึงการแจกแจงแบบเลขชี้กำลังและในทางกลับกัน
นี้น่าจะเป็นคำถามเล็กน้อย แต่การค้นหาของฉันได้รับการไร้ผลเพื่อให้ห่างไกลรวมทั้งบทความวิกิพีเดียนี้และ "บทสรุปของการกระจาย" เอกสาร ถ้ามีการแจกแจงแบบเดียวกันนั่นหมายความว่าตามการแจกแจงเอ็กซ์โพเนนเชียลหรือไม่?XXXeXeXe^X ในทำนองเดียวกันถ้าตามการแจกแจงเอ็กซ์โปเนนเชียลมันหมายถึงตามการกระจายตัวแบบสม่ำเสมอหรือไม่?YYYln(Y)ln(Y)ln(Y)


3
ช่วงเวลาของการกระจาย - การใช้งานสำหรับช่วงเวลาบางส่วนหรือสูงกว่า?
เป็นเรื่องปกติที่จะใช้ช่วงเวลาที่สองสามและสี่ของการแจกแจงเพื่ออธิบายคุณสมบัติบางอย่าง ช่วงเวลาหรือช่วงเวลาบางช่วงที่สูงกว่าช่วงที่สี่อธิบายคุณสมบัติที่มีประโยชน์ของการแจกแจงหรือไม่?

7
สิ่งที่เป็นทางเลือกให้กับ boxplot
ฉันกำลังสร้างเว็บไซต์ซึ่งแสดงข้อมูลการสำรวจสำมะโนประชากรสำหรับรูปหลายเหลี่ยมที่ผู้ใช้เลือก &amp; ต้องการแสดงการกระจายตัวของพารามิเตอร์ต่างๆแบบกราฟิก (กราฟหนึ่งต่อพารามิเตอร์) ข้อมูลมักจะมีคุณสมบัติดังต่อไปนี้: ขนาดตัวอย่างมีแนวโน้มที่จะใหญ่ (พูดประมาณ 10,000 จุดข้อมูล) ช่วงของค่ามักจะมีขนาดใหญ่ (ตัวอย่างเช่นจำนวนประชากรขั้นต่ำอาจน้อยกว่า 100 และสูงสุดอาจเท่ากับ 500,000) q1 มักจะใกล้เคียงกับค่าต่ำสุด (พูด 200) ในขณะที่ q2 &amp; q3 จะอยู่ภายใน 10,000 มันดูไม่เหมือนการแจกแจงแบบปกติ ฉันไม่ใช่นักสถิติดังนั้นคำอธิบายของฉันอาจไม่ชัดเจน ฉันต้องการแสดงการกระจายตัวนี้บนกราฟซึ่งพลเมืองจะมองเห็นได้ (คนธรรมดาถ้าคุณต้องการ) ฉันชอบที่จะใช้ฮิสโตแกรมที่ดีที่สุด แต่มันเป็นไปไม่ได้เนื่องจากค่าที่หลากหลายเนื่องจากการทำถังขยะไม่ใช่เรื่องง่าย &amp; ส่งตรงไปข้างหน้า จากสิ่งที่ฉันรู้เกี่ยวกับสถิติพล็อตกล่องเป็นสิ่งที่มักใช้ในการแสดงข้อมูลประเภทนี้ แต่ฉันรู้สึกว่าสำหรับคนธรรมดาการถอดรหัสพล็อตบ็อกซ์นั้นไม่ใช่เรื่องง่าย ตัวเลือกของฉันคืออะไรเพื่อแสดงข้อมูลนี้ในลักษณะที่เข้าใจง่าย

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.