คำถามติดแท็ก method-of-moments

วิธีการประมาณค่าพารามิเตอร์โดยการหาค่าช่วงเวลาของตัวอย่างและจำนวนประชากรจากนั้นแก้สมการสำหรับพารามิเตอร์ที่ไม่รู้จัก

7
ตัวอย่างที่วิธีการของช่วงเวลาสามารถเอาชนะโอกาสสูงสุดในกลุ่มตัวอย่างขนาดเล็ก?
ตัวประมาณความน่าจะเป็นสูงสุด (MLE) นั้นมีประสิทธิภาพแบบเชิงเส้นกำกับ เราเห็นผลลัพธ์ที่เกิดขึ้นจริงซึ่งพวกเขามักจะทำได้ดีกว่าวิธีการประมาณการณ์ (MoM) (เมื่อมีความแตกต่างกัน) แม้ในขนาดตัวอย่างที่มีขนาดเล็ก ที่นี่ 'ดีกว่า' หมายถึงในแง่ของการมีความแปรปรวนน้อยลงเมื่อทั้งสองไม่เอนเอียงและโดยทั่วไปแล้วความคลาดเคลื่อนกำลังสองน้อยกว่า (MSE) หมายถึงมากขึ้น อย่างไรก็ตามคำถามที่เกิดขึ้น: มีบางกรณีที่ MoM สามารถเอาชนะ MLE - บนMSE ได้หรือไม่พูดในกลุ่มตัวอย่างขนาดเล็ก? (ซึ่งนี่ไม่ใช่สถานการณ์ที่แปลก / เลว - กล่าวคือให้เงื่อนไขว่า ML จะมีอยู่ / มีประสิทธิภาพในการถือ asymptotically) คำถามติดตามจะเป็น 'ขนาดเล็กได้อย่างไร' - นั่นคือถ้ามีตัวอย่างมีบางอย่างที่ยังคงมีขนาดตัวอย่างที่ค่อนข้างใหญ่บางทีแม้แต่ขนาดตัวอย่างที่แน่นอนทั้งหมด? [ฉันสามารถหาตัวอย่างของตัวประมาณแบบเอนเอียงที่สามารถเอาชนะ ML ในตัวอย่างที่ จำกัด ได้ แต่ไม่ใช่ MoM] เพิ่มการบันทึกย้อนหลัง: การมุ่งเน้นของฉันที่นี่เป็นหลักในกรณีที่ไม่มีการเปลี่ยนแปลง (ซึ่งจริงๆแล้วคือสิ่งที่ความอยากรู้พื้นฐานของฉันมาจาก) ฉันไม่ต้องการแยกแยะกรณีหลายตัวแปร แต่ฉันก็ไม่ต้องการโดยเฉพาะอย่างยิ่งที่จะหลงทางในการอภิปรายอย่างกว้างขวางเกี่ยวกับการประเมินของ James-Stein

5
การประมาณความน่าจะเป็นสูงสุด - ทำไมจึงถูกใช้แม้ว่าจะมีอคติในหลาย ๆ กรณี
การประมาณความเป็นไปได้สูงสุดมักส่งผลให้ตัวประมาณแบบเอนเอียง (เช่นการประมาณค่าความแปรปรวนตัวอย่างนั้นมีความลำเอียงสำหรับการแจกแจงแบบเกาส์) อะไรทำให้เป็นที่นิยมมาก ทำไมมันถูกใช้อย่างมาก? นอกจากนี้สิ่งใดที่ทำให้ดีกว่าวิธีอื่น - วิธีการของช่วงเวลา นอกจากนี้ฉันสังเกตเห็นว่าสำหรับเกาส์เซียนตัวประมาณค่า MLE ที่เรียบง่ายทำให้มันไม่เอนเอียง เหตุใดการปรับขนาดนี้จึงไม่ใช่ขั้นตอนมาตรฐาน ฉันหมายถึง - เพราะเหตุใดหลังจากการคำนวณ MLE จึงไม่ใช่กิจวัตรในการค้นหามาตราส่วนที่จำเป็นเพื่อทำให้ตัวประมาณมีความเป็นกลาง การปฏิบัติมาตรฐานดูเหมือนจะเป็นการคำนวณธรรมดาของการประมาณค่า MLE ยกเว้นแน่นอนสำหรับกรณี Gaussian ที่รู้จักกันดีซึ่งเป็นที่รู้จักกันดีว่าปัจจัยการปรับสเกล

2
ตรรกะเบื้องหลังวิธีการของช่วงเวลาคืออะไร?
ทำไมใน "วิธีการของช่วงเวลา" เราเปรียบเทียบช่วงเวลาตัวอย่างกับช่วงเวลาของประชากรเพื่อหาตัวประมาณค่าจุด ตรรกะอยู่เบื้องหลังสิ่งนี้อยู่ที่ไหน

4
อะไรกันแน่? พวกเขาได้รับมาอย่างไร
โดยทั่วไปเราได้รับการแนะนำให้รู้จักกับวิธีการประมาณช่วงเวลาโดย "การเทียบช่วงเวลาของประชากรกับตัวอย่างตัวอย่าง" จนกว่าเราจะประมาณพารามิเตอร์ทั้งหมดของประชากร ดังนั้นในกรณีที่มีการแจกแจงแบบปกติเราจะต้องใช้ช่วงเวลาที่หนึ่งและสองเพราะพวกเขาอธิบายการกระจายตัวนี้อย่างเต็มที่ E( X) = μ⟹Σni = 1Xผม/ n= X¯E(X)=μ⟹Σผม=1nXผม/n=X¯E(X) = \mu \implies \sum_{i=1}^n X_i/n = \bar{X} E( X2) = μ2+ σ2⟹Σni = 1X2ผม/ nE(X2)=μ2+σ2⟹Σผม=1nXผม2/nE(X^2) = \mu^2 + \sigma^2 \implies \sum_{i=1}^n X_i^2/n และเราสามารถคำนวณทางทฤษฎีได้มากถึงช่วงเวลาเพิ่มเติมตาม:nnn E(Xr)⟹∑ni=1Xri/nE(Xr)⟹∑i=1nXir/nE(X^r) \implies \sum_{i=1}^nX_i^r /n ฉันจะสร้างสัญชาตญาณได้อย่างไรว่าช่วงเวลาใดเป็นจริง ฉันรู้ว่าพวกเขามีอยู่เป็นแนวคิดในฟิสิกส์และคณิตศาสตร์ แต่ฉันคิดว่ามันไม่สามารถใช้ได้โดยตรงโดยเฉพาะอย่างยิ่งเพราะฉันไม่รู้วิธีที่จะทำให้นามธรรมจากแนวคิดมวลชนไปสู่จุดข้อมูล ดูเหมือนว่าจะใช้คำเฉพาะในทางสถิติซึ่งแตกต่างจากการใช้งานในสาขาอื่น อะไรลักษณะของข้อมูลของฉันกำหนดวิธีการที่หลายคน ( ) ในช่วงเวลาที่มีโดยรวม?rrr

1
โอกาสสูงสุดและวิธีการของช่วงเวลาผลิตตัวประมาณเดียวกันเมื่อใด
ฉันถูกถามคำถามนี้เมื่อวันก่อนและไม่เคยคิดมาก่อน สัญชาตญาณของฉันมาจากข้อดีของตัวประมาณค่าแต่ละตัว ความเป็นไปได้สูงสุดนั้นดีกว่าเมื่อเรามีความมั่นใจในกระบวนการสร้างข้อมูลเพราะต่างจากวิธีการในช่วงเวลาที่ใช้ความรู้ของการกระจายทั้งหมด เนื่องจากตัวประมาณค่า MoM ใช้ข้อมูลที่มีอยู่ในช่วงเวลาเท่านั้นดูเหมือนว่าทั้งสองวิธีควรสร้างค่าประมาณเดียวกันเมื่อสถิติที่เพียงพอสำหรับพารามิเตอร์ที่เราพยายามจะประมาณนั้นเป็นช่วงเวลาของข้อมูล ฉันตรวจสอบผลลัพธ์นี้ด้วยการแจกแจงไม่กี่ครั้ง ปกติ (ค่าเฉลี่ยและความแปรปรวนที่ไม่รู้จัก), เอ็กซ์โปเนนเชียลและปัวซองมีสถิติที่เพียงพอเท่ากับช่วงเวลาของพวกเขาและมีตัวประมาณค่า MLEs และ MoM เหมือนกัน ถ้าเราดู Uniformสถิติที่เพียงพอสำหรับคือและตัวประมาณ MoM และ MLE แตกต่างกัน( 0 , θ )(0,θ)(0,\theta)θθ\thetaสูงสุด( X1, ⋯ , Xยังไม่มีข้อความ)สูงสุด(X1,⋯,Xยังไม่มีข้อความ)\max(X_1,\cdots,X_N) ฉันคิดว่าบางทีนี่อาจเป็นเหตุการณ์ที่แปลกประหลาดของตระกูลเอ็กซ์โพเนนเชียล แต่สำหรับ Laplace ที่มีค่าเฉลี่ยสถิติที่เพียงพอคือ1n∑ | Xผม|1nΣ|Xผม|\frac{1}{n} \sum |X_i| และตัวประมาณค่า MLE และ MoM สำหรับความแปรปรวนไม่เท่ากัน ฉันไม่สามารถแสดงผลลัพธ์ใด ๆ โดยทั่วไปได้ มีใครทราบถึงเงื่อนไขทั่วไปบ้างไหม หรือแม้แต่ตัวอย่างเคาน์เตอร์ก็ช่วยให้ฉันปรับสัญชาตญาณ

1
เชื่อมโยงระหว่างฟังก์ชั่นสร้างช่วงเวลาและฟังก์ชั่นพิเศษ
ฉันพยายามเข้าใจการเชื่อมโยงระหว่างฟังก์ชั่นสร้างช่วงเวลากับฟังก์ชั่นพิเศษ ฟังก์ชั่นสร้างช่วงเวลาถูกกำหนดเป็น: MX(t)=E(exp(tX))=1+tE(X)1+t2E(X2)2!+⋯+tnE(Xn)n!MX(t)=E(exp⁡(tX))=1+tE(X)1+t2E(X2)2!+⋯+tnE(Xn)n! M_X(t) = E(\exp(tX)) = 1 + \frac{t E(X)}{1} + \frac{t^2 E(X^2)}{2!} + \dots + \frac{t^n E(X^n)}{n!} การใช้การขยายอนุกรมของฉันสามารถหาช่วงเวลาทั้งหมดของการแจกแจงสำหรับตัวแปรสุ่ม Xexp(tX)=∑∞0(t)n⋅Xnn!exp⁡(tX)=∑0∞(t)n⋅Xnn!\exp(tX) = \sum_0^{\infty} \frac{(t)^n \cdot X^n}{n!} ฟังก์ชั่นคุณสมบัติถูกกำหนดเป็น: φX(t)=E(exp(itX))=1+itE(X)1−t2E(X2)2!+…+(it)nE(Xn)n!φX(t)=E(exp⁡(itX))=1+itE(X)1−t2E(X2)2!+…+(it)nE(Xn)n! \varphi_X(t) = E(\exp(itX)) = 1 + \frac{it E(X)}{1} - \frac{t^2 E(X^2)}{2!} + \ldots + \frac{(it)^n E(X^n)}{n!} iiii2=−1i2=−1i^2 = -1+++

1
ANOVA นั้นขึ้นอยู่กับวิธีการของช่วงเวลาและไม่ใช่โอกาสสูงสุดหรือไม่?
ฉันเห็นว่ามีการพูดถึงในสถานที่ต่าง ๆ ที่ ANOVA ทำการประมาณโดยใช้วิธีการของช่วงเวลา ฉันสับสนกับคำยืนยันดังกล่าวเพราะแม้ว่าฉันจะไม่คุ้นเคยกับวิธีการของช่วงเวลา แต่ความเข้าใจของฉันคือมันเป็นสิ่งที่แตกต่างจากและไม่เทียบเท่ากับวิธีการของโอกาสสูงสุด; ในอีกทางหนึ่งการวิเคราะห์ความแปรปรวนสามารถถูกมองว่าเป็นการถดถอยเชิงเส้นด้วยตัวพยากรณ์เชิงหมวดหมู่และการประมาณค่า OLS ของพารามิเตอร์การถดถอยเป็นโอกาสสูงสุด ดังนั้น: สิ่งที่มีคุณสมบัติขั้นตอนการวิเคราะห์ความแปรปรวนเป็นวิธีการของช่วงเวลา? ระบุว่า ANOVA นั้นเทียบเท่ากับ OLS ที่มีตัวพยากรณ์หมวดหมู่ไม่ได้หรือไม่? หากทั้งสองวิธีใดที่กลายเป็นสิ่งที่เทียบเท่าในกรณีพิเศษของ ANOVA ปกติจะมีสถานการณ์ ANOVA เฉพาะบางอย่างหรือไม่เมื่อความแตกต่างมีความสำคัญ? การออกแบบที่ไม่สมดุล? มาตรการซ้ำแล้วซ้ำอีก? การออกแบบแบบผสม (ระหว่างวิชา + ภายในวิชา)?

1
ความแตกต่าง / ความสัมพันธ์ระหว่างวิธีการของช่วงเวลากับ GMM คืออะไร?
บางคนสามารถอธิบายความแตกต่างระหว่างวิธีการของช่วงเวลากับ GMM (วิธีการทั่วไปของช่วงเวลา) ความสัมพันธ์ของพวกเขาและอื่น ๆ ที่ควรใช้เมื่อใด

3
วิธีการช่วงเวลาคืออะไรและแตกต่างจาก MLE อย่างไร
โดยทั่วไปดูเหมือนว่าวิธีการของช่วงเวลาเป็นเพียงการจับคู่ค่าเฉลี่ยตัวอย่างที่สังเกตหรือความแปรปรวนกับช่วงเวลาทางทฤษฎีเพื่อรับการประมาณค่าพารามิเตอร์ นี่มักจะเหมือนกับ MLE สำหรับครอบครัวเอ็กซ์โปเนนเชียลฉันรวบรวม อย่างไรก็ตามมันยากที่จะหาคำจำกัดความที่ชัดเจนของวิธีการของช่วงเวลาและการอภิปรายที่ชัดเจนว่าทำไม MLE ดูเหมือนจะได้รับการสนับสนุนโดยทั่วไปแม้ว่ามันจะเป็นเรื่องยากที่จะหาโหมดของฟังก์ชั่นความน่าจะเป็น คำถามนี้MLE มีประสิทธิภาพมากกว่าวิธี Moment หรือไม่? มีคำพูดจากศ. โดนัลด์รูบิน (ที่ฮาร์วาร์ด) ที่บอกว่าทุกคนรู้จักตั้งแต่ยุค 40 ที่ MLE ชนะ MoM แต่ฉันสนใจที่จะรู้ประวัติหรือเหตุผลในเรื่องนี้

2
ฉันจะทราบวิธีการประมาณค่าพารามิเตอร์ที่จะเลือกได้อย่างไร
มีวิธีการค่อนข้างน้อยสำหรับการประมาณค่าพารามิเตอร์ที่นั่น MLE, UMVUE, MoM, การตัดสินใจเชิงทฤษฎีและอื่น ๆ ทั้งหมดดูเหมือนว่าพวกเขามีเหตุผลเชิงเหตุผลว่าทำไมพวกเขาถึงมีประโยชน์สำหรับการประมาณค่าพารามิเตอร์ มีวิธีใดวิธีหนึ่งที่ดีกว่าวิธีอื่นหรือเป็นเพียงแค่วิธีที่เรากำหนดว่าตัวประเมินที่ "เหมาะสมที่สุด" (คล้ายกับวิธีการลดข้อผิดพลาด orthogonal ให้เกิดการประมาณที่แตกต่างจากวิธีกำลังสองน้อยที่สุด)?

2
อธิบายวิธีการทั่วไปของช่วงเวลาให้กับผู้ที่ไม่ใช่นักสถิติ
ฉันจะอธิบายวิธีการทั่วไปในช่วงเวลาและวิธีการที่ใช้กับนักสถิติที่ไม่ใช่? จนถึงตอนนี้ฉันจะไปด้วย: มันเป็นสิ่งที่เราใช้ในการประเมินเงื่อนไขเช่นค่าเฉลี่ยและการเปลี่ยนแปลงตามตัวอย่างที่เรารวบรวม ฉันจะอธิบายส่วนที่คุณประเมินเวกเตอร์พารามิเตอร์โดยการลดความแปรปรวนได้อย่างไร

1
รูปแบบการเรียนรู้แบบลึกใดที่สามารถจำแนกหมวดหมู่ที่ไม่ได้เกิดร่วมกัน
ตัวอย่าง: ฉันมีประโยคในรายละเอียดงาน: "วิศวกรอาวุโสของ Java ในสหราชอาณาจักร" ฉันต้องการที่จะใช้รูปแบบการเรียนรู้ที่ลึกที่จะคาดการณ์ว่ามันเป็น 2 ประเภทและEnglish IT jobsถ้าฉันใช้รูปแบบการจำแนกแบบดั้งเดิมมันสามารถทำนายได้เพียง 1 ฉลากที่มีsoftmaxฟังก์ชั่นที่ชั้นสุดท้าย ดังนั้นฉันสามารถใช้โครงข่ายประสาทเทียม 2 แบบในการทำนาย "ใช่" / "ไม่" กับทั้งสองหมวดหมู่ แต่ถ้าเรามีหมวดหมู่มากขึ้นมันก็แพงเกินไป ดังนั้นเราจึงมีรูปแบบการเรียนรู้หรือการเรียนรู้ด้วยเครื่องเพื่อคาดการณ์ 2 หมวดหมู่ขึ้นไปพร้อมกันหรือไม่ "แก้ไข": ด้วย 3 ป้ายกำกับโดยวิธีดั้งเดิมมันจะถูกเข้ารหัสโดย [1,0,0] แต่ในกรณีของฉันมันจะถูกเข้ารหัสโดย [1,1,0] หรือ [1,1,1] ตัวอย่าง: หากเรามี 3 ป้ายกำกับและประโยคอาจเหมาะกับป้ายกำกับเหล่านี้ทั้งหมด ดังนั้นถ้าผลลัพธ์จากฟังก์ชัน softmax คือ [0.45, 0.35, 0.2] เราควรแบ่งมันออกเป็น 3 label หรือ 2 label หรืออาจเป็นหนึ่ง? ปัญหาหลักเมื่อเราทำคือ: …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.