คำถามติดแท็ก truncation

การตัดทอนเป็นกระบวนการที่ส่งผลให้มีการละเว้นข้อมูลที่เกินเกณฑ์

4
ข้อดีของการ Winsorizing กับการตัดแต่งข้อมูลคืออะไร
ข้อมูลการล้างข้อมูลหมายถึงการแทนที่ค่าสูงสุดของชุดข้อมูลด้วยค่าเปอร์เซ็นไทล์ที่แน่นอนจากปลายแต่ละด้านในขณะที่การตัดหรือตัดทอนนั้นเกี่ยวข้องกับการลบค่าสุดขีดเหล่านั้นออก ฉันมักจะเห็นวิธีการทั้งสองที่กล่าวถึงเป็นตัวเลือกที่ทำงานได้เพื่อลดผลกระทบของค่าผิดปกติเมื่อคำนวณสถิติเช่นค่าเฉลี่ยหรือส่วนเบี่ยงเบนมาตรฐาน แต่ฉันไม่เห็นว่าทำไมจึงมีวิธีหนึ่งที่เลือกได้ มีข้อดีหรือข้อเสียที่เกี่ยวข้องกับการใช้ Winsorizing หรือ Trimming หรือไม่? มีสถานการณ์บางอย่างที่จะใช้วิธีใดวิธีหนึ่งดีกว่า มีการใช้บ่อยครั้งในทางปฏิบัติหรือใช้แทนกันโดยทั่วไปหรือไม่?

2
การเซ็นเซอร์และการตัดทอนแตกต่างกันอย่างไร
ในหนังสือแบบจำลองทางสถิติและวิธีการสำหรับข้อมูลอายุการใช้งานเขียนไว้: การเซ็นเซอร์:เมื่อการสังเกตไม่สมบูรณ์เนื่องจากสาเหตุบางอย่างแบบสุ่ม การตัดปลาย:เมื่อธรรมชาติที่ไม่สมบูรณ์ของการสังเกตเกิดจากกระบวนการคัดเลือกอย่างเป็นระบบซึ่งมีอยู่ในการออกแบบการศึกษา อะไรคือความหมายของ "กระบวนการคัดเลือกอย่างเป็นระบบซึ่งมีอยู่ในการออกแบบการศึกษา" ในคำจำกัดความของการตัดทอน? การเซ็นเซอร์และการตัดทอนแตกต่างกันอย่างไร

1
ตัวประมาณความน่าจะเป็นสูงสุดสำหรับการแจกแจงที่ถูกตัดทอน
พิจารณากลุ่มที่เป็นอิสระที่ได้รับจากตัวแปรสุ่มที่จะถือว่าเป็นไปตามการกระจายตัดทอน (เช่นตัดทอนกระจายปกติ ) รู้จักขั้นต่ำ ( จำกัด ) และค่าสูงสุดและแต่ของพารามิเตอร์ที่ไม่รู้จักและ 2 ถ้าตามการกระจายที่ไม่ถูกตัดทอนตัวประมาณค่าความน่าจะเป็นสูงสุดและสำหรับและจากจะเป็นค่าเฉลี่ยตัวอย่างNNNSSSXXXaaabbbμμ\mu X μ σ 2 μ σ 2 S μ = 1σ2σ2\sigma^2XXXμˆμ^\widehat\muσˆ2σ^2\widehat\sigma^2μμ\muσ2σ2\sigma^2SSS σ 2=1μˆ=1N∑iSiμ^=1N∑iSi\widehat\mu = \frac{1}{N} \sum_i S_iและตัวอย่างแปรปรวน 2 อย่างไรก็ตามสำหรับการแจกแจงที่ถูกตัดทอนตัวอย่างความแปรปรวนที่กำหนดในลักษณะนี้จะถูก จำกัด ด้วยดังนั้นจึงไม่ใช่ตัวประมาณที่สอดคล้องกันเสมอ: สำหรับมันไม่สามารถรวมกันในความน่าจะเป็นเมื่อไปที่อนันต์ ดังนั้นดูเหมือนว่าและไม่ใช่ตัวประมาณโอกาสสูงสุดของและสำหรับการแจกแจงที่ถูกตัดทอน แน่นอนว่าต้องมีการคาดการณ์ตั้งแต่และ(ข-)2σ2>(ข-)2σ2N μ σ 2μσ2μσ2σˆ2=1N∑i(Si−μˆ)2σ^2=1N∑i(Si−μ^)2\widehat\sigma^2 = \frac{1}{N} \sum_i (S_i - \widehat\mu)^2(b−a)2(b−a)2(b-a)^2σ2>(b−a)2σ2>(b−a)2\sigma^2 > (b-a)^2σ2σ2\sigma^2NNNμˆμ^\widehat\muσˆ2σ^2\widehat\sigma^2μμ\muσ2σ2\sigma^2μμ\muσ2σ2\sigma^2 พารามิเตอร์ของการแจกแจงแบบปกติที่ถูกตัดทอนไม่ได้เป็นค่าเฉลี่ยและความแปรปรวน ดังนั้นตัวประมาณค่าความน่าจะเป็นสูงสุดของพารามิเตอร์และของการแจกแจงแบบตัดทอนของค่าต่ำสุดและค่าสูงสุดที่ทราบคืออะไรσμμ\muσσ\sigma

1
ตัวเลขที่ถูกตัดทอนจากเครื่องกำเนิดตัวเลขสุ่มยังคงเป็น 'สุ่ม' หรือไม่
ต่อไปนี้'การตัดปลาย'หมายถึงการลดความแม่นยำของตัวเลขสุ่มและไม่ตัดทอนชุดตัวเลขสุ่ม ตัวอย่างเช่นถ้าฉันมีตัวเลขสุ่มอย่างแท้จริง (ดึงมาจากการแจกแจงใด ๆ เช่นปกติเครื่องแบบ ฯลฯ ) ด้วยความแม่นยำตามอำเภอใจและฉันจะตัดทอนตัวเลขทั้งหมดเพื่อให้ท้ายที่สุดฉันก็จบด้วยชุดตัวเลขnแต่ละตัวมี 2 หลักหลังจุดทศนิยม ฉันสามารถเรียกหมายเลขสุ่มใหม่นี้ได้หรือไม่nnnnnn ฉันมากับคำถามนี้เมื่อฉันได้อ่านเกี่ยวกับฮาร์ดแวร์ที่สร้างตัวเลขสุ่ม บทความ Wikipedia กล่าวว่าพวกเขาสร้างตัวเลขสุ่มโดยการวัดกระบวนการทางกายภาพ แต่เนื่องจากการวัดนี้มีข้อ จำกัด (ข้อผิดพลาดในการวัดความแม่นยำแน่นอน ฯลฯ ) เราสามารถโทรหาหมายเลขที่สร้างโดยฮาร์ดแวร์เหล่านี้ได้หรือไม่

3
การกระจายที่ถูกตัดทอนหมายความว่าอย่างไร
ในบทความวิจัยเกี่ยวกับการวิเคราะห์ความอ่อนไหวของตัวแบบสมการเชิงอนุพันธ์สามัญของระบบไดนามิกผู้เขียนให้การแจกแจงของพารามิเตอร์แบบจำลองเป็นการแจกแจงแบบปกติ (Mean = 1e-4, std = 3e-5) ถูกตัดให้อยู่ในช่วง [0.5e -4 1.5e-4] จากนั้นเขาใช้ตัวอย่างจากการแจกแจงแบบตัดปลายนี้เพื่อจำลองสถานการณ์ของแบบจำลอง การกระจายแบบตัดปลายและตัวอย่างจากการกระจายแบบตัดปลายหมายความว่าอย่างไร ฉันสามารถสร้างวิธีนี้ได้สองวิธี: ตัวอย่างจากการแจกแจงแบบปกติ แต่ไม่ต้องสนใจค่าสุ่มทั้งหมดที่อยู่นอกช่วงที่ระบุก่อนการจำลอง ได้รับการกระจาย "ปกติที่ถูกตัดทอน" เป็นพิเศษและรับตัวอย่างจากมัน แนวทางที่ถูกต้องและเท่าเทียมกันเหล่านี้หรือไม่ ผมเชื่อว่าในกรณีแรกหากมีการพล็อตทดลอง CDF / pdf ของกลุ่มตัวอย่างก็จะดูไม่เหมือนการกระจายปกติเพราะโค้งไม่ขยายไปถึง± ∞±∞\pm\infty ∞

4
แพ็กเกจ R / Stata สำหรับ GEE ลบทวินามลบศูนย์ที่ถูกตัดทอน?
นี่คือโพสต์แรกของฉัน ฉันขอบคุณสำหรับชุมชนนี้อย่างแท้จริง ฉันพยายามวิเคราะห์ข้อมูลการนับตามยาวที่ไม่มีการตัดทอน (ความน่าจะเป็นที่ตัวแปรตอบสนอง = 0 คือ 0) และค่าเฉลี่ย! = ความแปรปรวนดังนั้นการกระจายแบบทวินามลบจึงถูกเลือกผ่านปัวซอง ฟังก์ชั่น / คำสั่งที่ฉันได้ตัดออก: R ฟังก์ชั่น gee () ใน R ไม่ได้เป็นศูนย์สำหรับการตัดทอนหรือการแจกแจงแบบทวินามเชิงลบ (แม้จะไม่ได้โหลดแพ็คเกจ MASS) glm.nb () ใน R ไม่อนุญาตสำหรับโครงสร้างความสัมพันธ์ที่แตกต่างกัน vglm () จากแพ็คเกจ VGAM สามารถใช้ประโยชน์จากตระกูล posnegbinomial แต่มีปัญหาเช่นเดียวกับคำสั่ง ztnb ของ Stata (ดูด้านล่าง) ซึ่งฉันไม่สามารถปรับรูปแบบใหม่โดยใช้โครงสร้างความสัมพันธ์ที่ไม่ขึ้นกับอิสระ Stata หากข้อมูลไม่ยาวฉันสามารถใช้แพ็คเกจ Stata ztnb เพื่อทำการวิเคราะห์ของฉันได้ แต่คำสั่งนั้นจะถือว่าการสังเกตของฉันเป็นอิสระ ฉันได้จัดการ GLMM ด้วยเหตุผลด้านระเบียบวิธี / …

2
สุ่มตัวอย่างการกระจายเบต้าที่มีประสิทธิภาพอย่างมีประสิทธิภาพ
ฉันจะสุ่มตัวอย่างอย่างมีประสิทธิภาพจากการกระจายต่อไปนี้ได้อย่างไร? x ∼ B ( α , β) , x > k x∼B(α,β), x>k x \sim B(\alpha, \beta),\space x > k หากไม่ใหญ่เกินไปการสุ่มตัวอย่างการปฏิเสธอาจเป็นวิธีที่ดีที่สุด แต่ฉันไม่แน่ใจว่าจะดำเนินการอย่างไรเมื่อkมีขนาดใหญ่ อาจจะมีการประมาณแบบเชิงเส้นกำกับบางอย่างที่สามารถใช้ได้?kkkkkk

2
การเซ็นเซอร์ / การตัดปลายใน JAGS
ฉันมีคำถามเกี่ยวกับวิธีแก้ไขปัญหาการตรวจสอบใน JAGS ฉันสังเกตการผสมแบบสองตัวแปรตามปกติซึ่งค่า X มีข้อผิดพลาดในการวัด ฉันต้องการจำลอง 'ค่าเฉลี่ย' ที่แท้จริงของค่าการตรวจสอบที่สังเกตได้ ⌈xtrue+ϵ⌉=xobserved ϵ∼N(0,sd=.5)⌈xtrue+ϵ⌉=xobserved ϵ∼N(0,sd=.5)\begin{align*} \lceil x_{true}+\epsilon \rceil = x_{observed} \ \epsilon \sim N(0,sd=.5) \end{align*} นี่คือสิ่งที่ฉันมีตอนนี้: for (i in 1:n){ x[i,1:2]~dmnorm(mu[z[i],1:2], tau[z[i],1:2,1:2]) z[i]~dcat(prob[ ]) } Y ยังมีข้อผิดพลาดในการวัด สิ่งที่ฉันต้องการทำคืออะไรเช่นนี้: for (i in 1:n){ x_obs[i] ~ dnorm(x_true[i],prec_x)I(x_true[i],) y_obs[i] ~ dnorm(y_true[i],prec_y) c(x_true[i]:y_true[i])~dmnorm(mu[ z [ i ],1:2], tau[z[i],1:2,1:2]) …

4
รูปแบบประวัติเหตุการณ์แบบไม่ต่อเนื่อง (การอยู่รอด) ใน R
ฉันกำลังพยายามปรับโมเดลที่ไม่ต่อเนื่องใน R แต่ฉันไม่แน่ใจว่าจะทำอย่างไร ฉันได้อ่านแล้วว่าคุณสามารถจัดระเบียบตัวแปรตามในแถวต่างกันหนึ่งตัวสำหรับแต่ละการสังเกตเวลาและการใช้glmฟังก์ชั่นที่มีลิงค์ logit หรือ cloglog ในแง่นี้ฉันมีสามคอลัมน์: ID, Event(1 หรือ 0 ในแต่ละช่วงเวลา) และTime Elapsed(ตั้งแต่จุดเริ่มต้นของการสังเกต) รวมทั้ง covariates อื่น ๆ ฉันจะเขียนรหัสเพื่อให้พอดีกับรุ่นได้อย่างไร ตัวแปรตามคืออะไร ฉันเดาว่าฉันสามารถใช้Eventเป็นตัวแปรตามและรวมTime Elapsedอยู่ใน covariates แต่สิ่งที่เกิดขึ้นกับID? ฉันต้องการมันไหม ขอบคุณ
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

2
การสุ่มตัวอย่างจากการแจกแจงปกติแบบพับเท่ากับการสุ่มตัวอย่างจากการแจกแจงแบบปกติที่ถูกตัดทอนที่ 0 หรือไม่
ฉันต้องการจำลองจากความหนาแน่นปกติ (พูดค่าเฉลี่ย = 1, sd = 1) แต่ต้องการค่าบวกเท่านั้น วิธีหนึ่งคือการจำลองจากปกติและรับค่าสัมบูรณ์ ฉันคิดว่านี่เป็นเรื่องปกติที่ถูกพับ ฉันเห็นใน R มีฟังก์ชั่นสำหรับการสร้างตัวแปรแบบสุ่มที่ถูกตัดทอน หากฉันจำลองจากปกติที่ถูกตัดทอน (ตัดที่ 0) นี่จะเท่ากับวิธีการพับหรือไม่?
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.