คำถามติดแท็ก estimation

แท็กนี้กว้างเกินไป โปรดระบุแท็กที่เฉพาะเจาะจงมากขึ้น สำหรับคำถามเกี่ยวกับคุณสมบัติของตัวประมาณค่าเฉพาะให้ใช้แท็ก [estimators] แทน

1
ตัวประมาณความน่าจะเป็นสูงสุดสำหรับการแจกแจงที่ถูกตัดทอน
พิจารณากลุ่มที่เป็นอิสระที่ได้รับจากตัวแปรสุ่มที่จะถือว่าเป็นไปตามการกระจายตัดทอน (เช่นตัดทอนกระจายปกติ ) รู้จักขั้นต่ำ ( จำกัด ) และค่าสูงสุดและแต่ของพารามิเตอร์ที่ไม่รู้จักและ 2 ถ้าตามการกระจายที่ไม่ถูกตัดทอนตัวประมาณค่าความน่าจะเป็นสูงสุดและสำหรับและจากจะเป็นค่าเฉลี่ยตัวอย่างNNNSSSXXXaaabbbμμ\mu X μ σ 2 μ σ 2 S μ = 1σ2σ2\sigma^2XXXμˆμ^\widehat\muσˆ2σ^2\widehat\sigma^2μμ\muσ2σ2\sigma^2SSS σ 2=1μˆ=1N∑iSiμ^=1N∑iSi\widehat\mu = \frac{1}{N} \sum_i S_iและตัวอย่างแปรปรวน 2 อย่างไรก็ตามสำหรับการแจกแจงที่ถูกตัดทอนตัวอย่างความแปรปรวนที่กำหนดในลักษณะนี้จะถูก จำกัด ด้วยดังนั้นจึงไม่ใช่ตัวประมาณที่สอดคล้องกันเสมอ: สำหรับมันไม่สามารถรวมกันในความน่าจะเป็นเมื่อไปที่อนันต์ ดังนั้นดูเหมือนว่าและไม่ใช่ตัวประมาณโอกาสสูงสุดของและสำหรับการแจกแจงที่ถูกตัดทอน แน่นอนว่าต้องมีการคาดการณ์ตั้งแต่และ(ข-)2σ2>(ข-)2σ2N μ σ 2μσ2μσ2σˆ2=1N∑i(Si−μˆ)2σ^2=1N∑i(Si−μ^)2\widehat\sigma^2 = \frac{1}{N} \sum_i (S_i - \widehat\mu)^2(b−a)2(b−a)2(b-a)^2σ2>(b−a)2σ2>(b−a)2\sigma^2 > (b-a)^2σ2σ2\sigma^2NNNμˆμ^\widehat\muσˆ2σ^2\widehat\sigma^2μμ\muσ2σ2\sigma^2μμ\muσ2σ2\sigma^2 พารามิเตอร์ของการแจกแจงแบบปกติที่ถูกตัดทอนไม่ได้เป็นค่าเฉลี่ยและความแปรปรวน ดังนั้นตัวประมาณค่าความน่าจะเป็นสูงสุดของพารามิเตอร์และของการแจกแจงแบบตัดทอนของค่าต่ำสุดและค่าสูงสุดที่ทราบคืออะไรσμμ\muσσ\sigma

4
การตรวจสอบความถูกต้องไขว้ภายนอกและการเลือกรุ่น
ความเข้าใจของฉันคือว่าด้วยการตรวจสอบข้ามและการเลือกรูปแบบเราพยายามที่จะอยู่สองสิ่ง: P1 ประเมินการสูญเสียที่คาดหวังของประชากรเมื่อฝึกอบรมกับตัวอย่างของเรา P2 . วัดและรายงานความไม่แน่นอนของการประมาณนี้ของเรา (ความแปรปรวนช่วงความเชื่อมั่นอคติ ฯลฯ ) การปฏิบัติมาตรฐานดูเหมือนว่าจะทำการตรวจสอบข้ามซ้ำเนื่องจากจะช่วยลดความแปรปรวนของเครื่องมือประมาณค่าของเรา อย่างไรก็ตามเมื่อพูดถึงการรายงานและการวิเคราะห์ความเข้าใจของฉันคือการตรวจสอบภายในดีกว่าการตรวจสอบภายนอกเพราะ: เป็นการดีกว่าที่จะรายงาน: สถิติของเครื่องมือประมาณค่าของเราเช่นช่วงความเชื่อมั่น, ความแปรปรวน, ค่าเฉลี่ย ฯลฯ ของตัวอย่างเต็มรูปแบบ (ในกรณีนี้คือตัวอย่าง CV) กว่าการรายงาน: การสูญเสียตัวประมาณของเราในชุดย่อยที่ระงับไว้ของตัวอย่างดั้งเดิมเนื่องจาก: (i) นี่จะเป็นการวัดเดียว ( แม้ว่าเราเลือกตัวประมาณค่าของเรากับ CV ) (ii) เครื่องมือประมาณค่าของเราสำหรับการวัดเดี่ยวนี้จะได้รับการฝึกอบรมในชุด (เช่นชุด CV) ที่มีขนาดเล็กกว่าตัวอย่างเริ่มต้นของเราเนื่องจากเราต้องทำให้มีที่ว่างสำหรับชุดที่ค้างไว้ ผลนี้ในลำเอียงมากขึ้น (ในแง่ร้าย) การประมาณค่าในP1 ถูกต้องหรือไม่ ถ้าไม่ใช่เพราะอะไร พื้นหลัง: มันง่ายที่จะหาหนังสือที่แนะนำให้แบ่งตัวอย่างของคุณออกเป็นสองชุด: CVชุดซึ่งเป็นที่ต่อมาซ้ำแล้วซ้ำอีกแบ่งออกเป็นรถไฟและการตรวจสอบชุด ชุดhold-out (test) ใช้เฉพาะเมื่อสิ้นสุดเพื่อรายงานประสิทธิภาพของตัวประมาณ คำถามของฉันคือความพยายามในการทำความเข้าใจข้อดีและข้อได้เปรียบของวิธีตำราเรียนนี้โดยพิจารณาว่าเป้าหมายของเราคือการจัดการปัญหาP1และP2ในตอนต้นของโพสต์นี้ สำหรับฉันแล้วการรายงานเกี่ยวกับชุดทดสอบการระงับถือเป็นการปฏิบัติที่ไม่ดีเนื่องจากการวิเคราะห์ตัวอย่าง CV นั้นให้ข้อมูลมากกว่า K-fold ซ้อนกันซ้ำ K-fold: …

2
อคติของตัวประมาณโมเมนต์ของการแจกแจงล็อก
ฉันกำลังทำการทดลองเชิงตัวเลขซึ่งประกอบด้วยการสุ่มตัวอย่างการแจกแจงแบบลอกล็อกและพยายามประเมินช่วงเวลาโดยสองวิธี:X∼LN(μ,σ)X∼LN(μ,σ)X\sim\mathcal{LN}(\mu, \sigma)E[Xn]E[Xn]\mathbb{E}[X^n] ดูค่าเฉลี่ยตัวอย่างของXnXnX^n การประมาณและโดยใช้ตัวอย่างหมายถึงแล้วใช้ความจริงที่ว่าสำหรับการแจกแจงแบบปกติเรามี2/2)μμ\muσ2σ2\sigma^2log(X),log2(X)log⁡(X),log2⁡(X)\log(X), \log^2(X)E[Xn]=exp(nμ+(nσ)2/2)E[Xn]=exp⁡(nμ+(nσ)2/2)\mathbb{E}[X^n]=\exp(n \mu + (n \sigma)^2/2) คำถามคือ : ฉันพบการทดลองว่าวิธีที่สองมีประสิทธิภาพดีกว่าวิธีแรกเมื่อฉันเก็บจำนวนตัวอย่างไว้และเพิ่มโดยปัจจัยบางตัว T มีคำอธิบายง่ายๆสำหรับข้อเท็จจริงนี้หรือไม่?μ,σ2μ,σ2\mu, \sigma^2 ฉันกำลังแนบรูปที่แกน x คือ T ในขณะที่แกน y คือค่าของเปรียบเทียบค่าที่แท้จริงของ (เส้นสีส้ม) ไปยังค่าที่ประมาณไว้ วิธีที่ 1 - จุดสีฟ้าวิธีที่ 2 - จุดสีเขียว แกน y อยู่ในระดับล็อกE [ X 2 ] = exp ( 2 μ + 2 σ 2 )E[X2]E[X2]\mathbb{E}[X^2]E[X2]=exp(2μ+2σ2)E[X2]=exp⁡(2μ+2σ2)\mathbb{E}[X^2] = \exp(2 …

8
วิธีประมาณจำนวนคนที่เข้าร่วมกิจกรรม (พูดการชุมนุมทางการเมือง)?
นักเรียนคนหนึ่งถามฉันในวันนี้ "พวกเขารู้ได้อย่างไรว่ามีผู้คนมากมายที่เข้าร่วมกิจกรรมกลุ่มใหญ่เช่น Stewart / Colbert 'Rally to Restore Sanity' ในวอชิงตัน ดี.ซี. " สำนักข่าวรายงานการประมาณการเป็นหมื่น แต่วิธีการใดที่ใช้ในการรับการประมาณการเหล่านั้นและเชื่อถือได้อย่างไร เห็นได้ชัดว่ามีบทความหนึ่งเรื่องการประเมินใบอนุญาตจอดรถของพวกเขา ... แต่เรามีเทคนิคอะไรอีกบ้าง โปรดทราบว่าฉันไม่ได้พูดถึงการทดลองจับภาพ / เอาคืนหรืออะไรทำนองนั้น ฉันไม่มีความคิดใด ๆ ฉันคาดเดาล่วงหน้าว่าไม่มีวิธีการเฉพาะสำหรับสิ่งนี้และสิ่งใดที่มีอยู่มาก (เช่นจำนวนใบอนุญาตจอดรถที่ถูกขาย) มันเป็นเรื่องจริงเหรอ? สำหรับวัตถุประสงค์ของความมั่นคงแห่งชาติ - แน่นอนว่ามันเป็นไปได้ที่จะให้นักวิเคราะห์นั่งลงพร้อมภาพถ่ายดาวเทียมและนับจำนวนผู้คนที่นั่นด้วย ฉันสงสัยว่าวิธีนี้ใช้บ่อยมาก

6
วิธีการคำนวณค่าสัมประสิทธิ์ของกฎหมายของ Zipf จากชุดของความถี่สูงสุด?
ฉันมีความถี่ในการสืบค้นหลายครั้งและฉันจำเป็นต้องประเมินค่าสัมประสิทธิ์ของกฎหมายของ Zipf นี่คือความถี่สูงสุด: 26486 12053 5052 3033 2536 2391 1444 1220 1152 1039


2
พื้นที่ความหนาแน่นสูงสุด (HDR) คืออะไร
ในการอนุมานเชิงสถิติปัญหา 9.6b กล่าวถึง "ภูมิภาคที่มีความหนาแน่นสูงสุด (HDR)" อย่างไรก็ตามฉันไม่พบคำจำกัดความของคำนี้ในหนังสือ หนึ่งคำที่คล้ายกันคือความหนาแน่นหลังสูงสุด (HPD) แต่มันไม่เหมาะสมในบริบทนี้เนื่องจาก 9.6b ไม่ได้พูดถึงเรื่องก่อนหน้า และในการแก้ปัญหาที่แนะนำมันบอกว่า "เห็นได้ชัดว่าc(y)c(y)c(y)คือ HDR" หรือ HDR เป็นภูมิภาคที่มีโหมดไฟล์ PDF อยู่หรือไม่? พื้นที่ความหนาแน่นสูงสุด (HDR) คืออะไร

4
การประมาณค่าพารามิเตอร์ของการแจกแจงแบบ t
ตัวประมาณโอกาสสูงสุดสำหรับพารามิเตอร์ของการแจกแจงแบบ t คืออะไร พวกมันมีอยู่ในรูปแบบปิดหรือไม่? การค้นหาโดย Google อย่างรวดเร็วไม่ได้ให้ผลลัพธ์ใด ๆ แก่ฉัน วันนี้ฉันสนใจกรณี univariate แต่บางทีฉันอาจจะต้องขยายโมเดลเป็นหลายมิติ แก้ไข: ฉันจริง ๆ แล้วส่วนใหญ่สนใจในพารามิเตอร์ที่ตั้งและขนาด สำหรับตอนนี้ฉันสามารถสรุปได้ว่าค่าพารามิเตอร์องศาอิสระได้รับการแก้ไขและอาจใช้รูปแบบตัวเลขเพื่อหาค่าที่ดีที่สุดในภายหลัง

2
วิธีการหาค่าฟังก์ชันความน่าจะเป็นสำหรับการแจกแจงแบบทวินามสำหรับการประมาณค่าพารามิเตอร์
ตามที่มิลเลอร์และ Freund ของความน่าจะเป็นและสถิติสำหรับวิศวกร 8ED (pp.217-218) ฟังก์ชั่นความเป็นไปได้ที่จะขยายใหญ่สุดสำหรับการกระจายทวินาม (Bernoulli ทดลอง) จะได้รับเป็น L ( p ) = ∏ni = 1พีxผม( 1 - p )1 - xผมL(พี)=Πผม=1nพีxผม(1-พี)1-xผมL(p) = \prod_{i=1}^np^{x_i}(1-p)^{1-x_i} จะมาถึงสมการนี้ได้อย่างไร ดูเหมือนว่าฉันจะค่อนข้างชัดเจนเกี่ยวกับดิสทริบิวชันอื่น ๆ ปัวซองและเกาส์; L ( θ ) = ∏ni = 1PDF หรือ PMF ของ distL(θ)=Πผม=1nPDF หรือ PMF ของ distL(\theta) = \prod_{i=1}^n \text{PDF or PMF …

1
การประมาณที่ไม่สอดคล้องกันจะดีกว่าไหม?
ความสอดคล้องเป็นตัวประมาณค่าคุณสมบัติตามธรรมชาติและสำคัญ แต่มีสถานการณ์ที่อาจจะดีกว่าถ้าใช้ตัวประมาณค่าที่ไม่สอดคล้องกันแทนที่จะเป็นตัวประมาณที่สอดคล้องกัน? โดยเฉพาะอย่างยิ่งมีตัวอย่างของตัวประมาณค่าที่ไม่สอดคล้องกันซึ่งมีประสิทธิภาพดีกว่าตัวประมาณค่าที่สอดคล้องกันที่สมเหตุสมผลสำหรับขอบเขตทั้งหมด (เทียบกับฟังก์ชันการสูญเสียที่เหมาะสม)?nnn

3
การประมาณค่าเมทริกซ์ความแปรปรวนร่วมแบบไม่เอนเอียงสำหรับข้อมูลการตรวจสอบแบบทวีคูณ
การวิเคราะห์ทางเคมีของตัวอย่างด้านสิ่งแวดล้อมมักจะถูกตรวจสอบด้านล่างที่ข้อ จำกัด การรายงาน หลังสามารถเปลี่ยนแปลงได้ตามสัดส่วนของค่าตัวแปรอื่น ๆ ตัวอย่างเช่นตัวอย่างที่มีความเข้มข้นสูงของสารประกอบหนึ่งอาจต้องทำให้เจือจางเพื่อการวิเคราะห์ส่งผลให้เกิดสัดส่วนเงินเฟ้อของการ จำกัด การเซ็นเซอร์สำหรับสารประกอบอื่น ๆ ทั้งหมดที่วิเคราะห์ในเวลาเดียวกันในตัวอย่างนั้น อีกตัวอย่างหนึ่งบางครั้งการปรากฏตัวของสารประกอบสามารถเปลี่ยนการตอบสนองของการทดสอบกับสารประกอบอื่น ๆ ("การแทรกแซงเมทริกซ์"); เมื่อตรวจพบโดยห้องปฏิบัติการมันจะขยายขีด จำกัด การรายงานตามที่กำหนด ฉันกำลังมองหาวิธีที่ใช้งานได้จริงเพื่อประเมินเมทริกซ์ความแปรปรวนร่วม -Vovance ทั้งหมดสำหรับชุดข้อมูลดังกล่าวโดยเฉพาะอย่างยิ่งเมื่อสารประกอบจำนวนมากประสบการเซ็นเซอร์มากกว่า 50% ซึ่งมักเป็นกรณี แบบจำลองการแจกแจงแบบดั้งเดิมคือลอการิทึมของความเข้มข้น (จริง) มีการกระจายแบบหลายช่วงและสิ่งนี้ดูเหมือนจะเหมาะสมในทางปฏิบัติดังนั้นวิธีแก้ปัญหาสำหรับสถานการณ์นี้จะเป็นประโยชน์ (โดย "ใช้งานจริง" ฉันหมายถึงวิธีการที่สามารถเข้ารหัสได้อย่างน่าเชื่อถือในสภาพแวดล้อมซอฟต์แวร์ที่มีอยู่อย่างน้อยหนึ่งอย่างเช่น R, Python, SAS และอื่น ๆ ในวิธีที่ดำเนินการอย่างรวดเร็วพอที่จะรองรับการคำนวณซ้ำซ้ำเช่นเกิดขึ้นในหลาย ๆ และสิ่งใดที่มีเสถียรภาพพอสมควร [ซึ่งเป็นเหตุผลที่ฉันลังเลที่จะสำรวจการใช้งานข้อผิดพลาดแม้ว่าวิธีการแบบเบย์โดยทั่วไปยินดีต้อนรับ] ขอบคุณล่วงหน้าสำหรับความคิดของคุณในเรื่องนี้


4
วิธีการฉายเวกเตอร์ใหม่บนพื้นที่ PCA?
หลังจากทำการวิเคราะห์องค์ประกอบหลัก (PCA) ฉันต้องการฉายเวกเตอร์ใหม่ลงบนพื้นที่ PCA (เช่นค้นหาพิกัดในระบบพิกัด PCA) ผมได้คำนวณ PCA ในภาษา R prcompโดยใช้ ตอนนี้ฉันควรคูณเวกเตอร์ของฉันด้วยเมทริกซ์การหมุน PCA ควรจัดองค์ประกอบหลักในเมทริกซ์นี้เป็นแถวหรือคอลัมน์?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

4
ค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนในกรณีขอบคืออะไร?
ความแม่นยำหมายถึง: p = true positives / (true positives + false positives) มันถูกต้องหรือไม่ที่ในฐานะtrue positivesและfalse positivesวิธีที่ 0 ความแม่นยำเข้าใกล้ 1? คำถามเดียวกันสำหรับการเรียกคืน: r = true positives / (true positives + false negatives) ขณะนี้ฉันกำลังใช้การทดสอบทางสถิติที่ฉันต้องการคำนวณค่าเหล่านี้และบางครั้งมันก็เกิดขึ้นที่ตัวส่วนเป็น 0 และฉันสงสัยว่าจะคืนค่าใดให้กับกรณีนี้ PS: ขอโทษแท็กที่ไม่เหมาะสมผมอยากจะใช้recall, precisionและlimitแต่ฉันไม่สามารถสร้างแท็กใหม่ ๆ
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

1
ทำไมตัวประมาณ James-Stein จึงเรียกตัวประมาณว่า
ฉันได้อ่านเกี่ยวกับตัวประมาณ James-Stein มันถูกกำหนดไว้ในบันทึกนี้เป็น θ^=(1−p−2∥X∥2)Xθ^=(1−p−2‖X‖2)X \hat{\theta}=\left(1 - \frac{p-2}{\|X\|^2}\right)X ฉันได้อ่านหลักฐานแล้ว แต่ฉันไม่เข้าใจข้อความต่อไปนี้: ตัวประเมินเจมส์ - สไตน์ย่อตัวส่วนประกอบแต่ละส่วนของเข้าหาจุดกำเนิด ...XXX "ย่อส่วนแต่ละส่วนของไปทางต้นกำเนิด" หมายความว่าอย่างไร ฉันกำลังคิดว่าจะชอบ ซึ่งเป็นจริงในกรณีนี้ตราบใดที่ตั้งแต่ ‖ θ - 0 ‖ 2 < ‖ X - 0 ‖ 2 , ( P + 2 ) < ‖ X ‖ 2 ‖ θ ‖ = ‖ X ‖ 2 - …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.