คำถามติดแท็ก estimators

กฎสำหรับการคำนวณโดยประมาณของปริมาณที่กำหนดตามข้อมูลที่สังเกตได้ [Wikipedia]

3
ความแตกต่างระหว่างตัวประมาณที่สอดคล้องกันและตัวประมาณที่ไม่เอนเอียงคืออะไร?
ฉันแปลกใจจริงๆที่ไม่มีใครถามคำถามนี้แล้ว ... เมื่อพูดถึงเครื่องมือประมาณสองคำที่ใช้บ่อยคือ "สอดคล้อง" และ "ไม่เอนเอียง" คำถามของฉันง่าย: อะไรคือความแตกต่าง? คำจำกัดความทางเทคนิคที่แม่นยำของคำเหล่านี้มีความซับซ้อนอย่างเป็นธรรมและมันเป็นเรื่องยากที่จะได้รับความรู้สึกที่ใช้งานง่ายสำหรับสิ่งที่พวกเขาหมายถึง ฉันจินตนาการได้ว่าตัวประมาณที่ดีและตัวประมาณที่แย่ แต่ฉันมีปัญหาในการดูว่าตัวประมาณตัวใดสามารถสนองเงื่อนไขหนึ่งได้และไม่ใช่อีกตัว

2
ตัวประเมินแบบเอนเอียงจะดีกว่าแบบเป็นกลางเมื่อใด
เห็นได้ชัดหลายครั้งว่าทำไมคนคนหนึ่งถึงชอบประมาณค่าที่เป็นกลาง แต่มีสถานการณ์ใดบ้างที่เราอาจชอบตัวประมาณค่าเอนเอียงมากกว่าตัวเอนเอียง?

1
Quantile regression: ข้อผิดพลาดมาตรฐานใด
summary.rqฟังก์ชั่นจากบทความ quantregให้ความหลากหลายของตัวเลือกสำหรับการประมาณการข้อผิดพลาดมาตรฐานของสัมประสิทธิ์การถดถอย quantile สถานการณ์พิเศษอะไรบ้างที่แต่ละสถานการณ์มีความเหมาะสมที่สุด "อันดับ" ซึ่งสร้างช่วงความเชื่อมั่นสำหรับพารามิเตอร์ที่ประเมินโดยการคว่ำการทดสอบยศตามที่อธิบายไว้ใน Koenker (1994) ตัวเลือกเริ่มต้นจะถือว่าความผิดพลาดคือ iid ในขณะที่ตัวเลือก iid = FALSE ใช้ข้อเสนอของ Koenker Machado (1999) ดูเอกสารประกอบสำหรับ rq.fit.br สำหรับข้อโต้แย้งเพิ่มเติม "iid" ซึ่งสันนิษฐานว่าข้อผิดพลาดคือ iid และคำนวณการประมาณค่าเมทริกซ์ความแปรปรวนร่วมแบบ asymptotic เช่นเดียวกับใน KB (1978) "nid" ซึ่งทึกทักท้องถิ่น (เป็นเอกภาพ) เป็นเชิงเส้น (ใน x) ของฟังก์ชั่นที่เป็นเงื่อนไขและคำนวณคำนวณแซนวิชฮิวเบอร์โดยใช้ประมาณการท้องถิ่นของกระจัดกระจาย "เคอร์" ซึ่งใช้การประเมินเคอร์เนลของแซนด์วิชตามที่เสนอโดย Powell (1990) "boot" ซึ่งใช้หนึ่งในหลาย ๆ ทางเลือกในการบู๊ตที่เป็นไปได้เพื่อประเมินข้อผิดพลาดมาตรฐาน ฉันได้อ่านเอกสารเชิงประจักษ์อย่างน้อย 20 เรื่องซึ่งมีการนำไปใช้ในชุดเวลาหรือมิติตัดขวางและไม่เคยเห็นการกล่าวถึงตัวเลือกข้อผิดพลาดมาตรฐาน

3
ค่า p เป็นค่าประมาณหรือไม่?
เนื่องจากสามารถคำนวณช่วงความเชื่อมั่นสำหรับค่า p และเนื่องจากการประมาณช่วงเวลาตรงข้ามคือการประมาณค่าจุด: ค่า p เป็นค่าประมาณจุดหรือไม่

9
ความแตกต่างระหว่างตัวประมาณและสถิติคืออะไร?
ฉันได้เรียนรู้ว่าสถิติเป็นคุณลักษณะที่คุณสามารถหาได้จากกลุ่มตัวอย่างจากการทดลองขนาดที่มีขนาดเดียวกันจำนวนมากการคำนวณคุณลักษณะนี้สำหรับพวกเขาทั้งหมดและพล็อตไฟล์ pdf เราได้การกระจายของแอตทริบิวต์ที่เกี่ยวข้องหรือการกระจายของสถิติที่เกี่ยวข้อง ฉันยังได้ยินด้วยว่าสถิติถูกสร้างขึ้นเพื่อเป็นตัวประมาณสองแนวคิดนี้แตกต่างกันอย่างไร

3
R: การสุ่มฟอเรสต์การโยน NaN / Inf ในข้อผิดพลาด“ การเรียกฟังก์ชันต่างประเทศ” แม้จะไม่มีชุดข้อมูลของ NaN [ปิด]
ฉันใช้คาเร็ตเพื่อรันฟอเรสต์แบบสุ่มที่ผ่านการตรวจสอบความถูกต้องข้ามชุดข้อมูล ตัวแปร Y เป็นปัจจัย ไม่มีชุดข้อมูลของ NaN, Inf's หรือ NA ในชุดข้อมูลของฉัน อย่างไรก็ตามเมื่อใช้ป่าสุ่มฉันได้รับ Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs …

2
ความสัมพันธ์ระหว่างตัวประมาณค่า OLS สำหรับการสกัดกั้นและความชัน
ในรูปแบบการถดถอยอย่างง่าย Y= β0+ β1x + ε ,Y=β0+β1x+ε, y = \beta_0 + \beta_1 x + \varepsilon, ตัวประมาณ OLSและมีความสัมพันธ์กันββ^O L S0β^0OLS\hat{\beta}_0^{OLS}β^O L S1β^1OLS\hat{\beta}_1^{OLS} สูตรสำหรับความสัมพันธ์ระหว่างตัวประมาณสองตัวคือ (ถ้าฉันได้มาอย่างถูกต้อง): Corr( β^O L S0, β^O L S1) = - ∑ni = 1xผมn--√Σni = 1x2ผม-------√.Corr⁡(β^0OLS,β^1OLS)=-Σผม=1nxผมnΣผม=1nxผม2. \operatorname{Corr}(\hat{\beta}_0^{OLS},\hat{\beta}_1^{OLS}) = \frac{-\sum_{i=1}^{n}x_i}{\sqrt{n} \sqrt{\sum_{i=1}^{n}x_i^2} }. คำถาม: คำอธิบายที่เข้าใจง่ายสำหรับการปรากฏตัวของความสัมพันธ์คืออะไร? การปรากฏตัวของความสัมพันธ์มีนัยสำคัญหรือไม่? โพสต์ได้รับการแก้ไขและยืนยันว่าความสัมพันธ์หายไปกับขนาดตัวอย่างได้ถูกลบออก (ขอบคุณ @whuber และ @ChristophHanck)

2
หด VS เป็นกลาง : ประมาณของ
ในหัวของฉันมีความสับสนเกี่ยวกับตัวประมาณสองประเภทของค่าประชากรของสัมประสิทธิ์สหสัมพันธ์เพียร์สัน A. ฟิชเชอร์ (2458)แสดงให้เห็นว่าสำหรับประชากรปกติ bivariate เชิงประจักษ์คือตัวเอนเอียงของลำเอียงแม้ว่าอคติจะมีจำนวนมากพอสมควรจริงเพียงเล็กน้อยสำหรับกลุ่มตัวอย่างขนาดเล็ก ( ) ตัวอย่างดูถูกในแง่ที่ว่ามันอยู่ใกล้กับกว่า\(ยกเว้นเมื่อสมัยเป็นหรือสำหรับแล้วเป็นกลาง.) หลายเกือบประมาณเป็นกลางของได้รับการเสนอที่ดีที่สุดคนหนึ่งอาจจะเป็นOlkin และแพรตต์ (1958)ρ n &lt; 30 r ρrrrρρ\rhon&lt;30n&lt;30n<30rrrρρ\rhoρ 0 ± 1 r000ρρ\rho000±1±1\pm 1rrrρρ\rhoแก้ไข :rrr runbiased=r[1+1−r22(n−3)]runbiased=r[1+1−r22(n−3)]r_\text{unbiased} = r \left [1+\frac{1-r^2}{2(n-3)} \right ] B.มีการกล่าวกันว่าในการถดถอยพบว่าประเมินค่าประชากร R-square ที่สอดคล้องกัน หรือมีการถดถอยง่ายๆก็คือว่า overestimates 2 จากข้อเท็จจริงนั้นฉันได้เห็นข้อความมากมายที่บอกว่านั้นมีอคติเชิงบวกเมื่อเทียบกับซึ่งหมายถึงค่าสัมบูรณ์:นั้นไกลจากมากกว่า (นั่นเป็นคำสั่งจริงหรือไม่) ข้อความบอกว่ามันเป็นปัญหาเดียวกันกับการประมาณค่าเกินของค่าเบี่ยงเบนมาตรฐานโดยค่าตัวอย่าง มีหลายสูตรที่จะ "ปรับ" สังเกตใกล้กับพารามิเตอร์ประชากรของ Wherry's (1931)r 2 ρ 2 rR2R2R^2r2r2r^2ρ2ρ2\rho^2rrrr 0 ρ …

2
คุณสมบัติพยากรณ์ของตัวประมาณคืออะไร?
อะไรคือสิ่งที่oracle คุณสมบัติของประมาณการ? เป้าหมายการสร้างแบบจำลองใดที่เกี่ยวข้องกับคุณสมบัติของพยากรณ์ (ทำนาย, อธิบาย, ... )? ทั้งคำอธิบายเชิงทฤษฎีที่เข้มงวดและโดยเฉพาะอย่างยิ่ง

1
ชุดข้อมูล Anscombe ที่มีกล่องและพล็อตมัสสุเดียวกัน (หมายถึง / std / median / MAD / min / max)
แก้ไข: เนื่องจากคำถามนี้ได้ขยายออกไปแล้วบทสรุป: การค้นหาชุดข้อมูลที่มีความหมายและตีความได้ที่แตกต่างกันด้วยสถิติแบบผสมที่เหมือนกัน (หมายถึงค่ามัธยฐานค่ากลางและการกระจายตัวที่เกี่ยวข้องและการถดถอย) กลุ่ม Anscombe (ดูจุดประสงค์ในการแสดงข้อมูลมิติสูง? ) เป็นตัวอย่างที่โด่งดังของชุดข้อมูลสี่xxx , yyyพร้อมค่าเฉลี่ยส่วนเบี่ยงเบนมาตรฐาน / ส่วนเบี่ยงเบนมาตรฐานเดียวกัน (บนสี่xxxและสี่แยกyyy ) และOLSแบบเชิงเส้นเดียวกันการถดถอยและผลรวมที่เหลือของช่องสี่เหลี่ยมและค่าสัมประสิทธิ์สหสัมพันธ์R2R2R^2 2 ℓ2ℓ2\ell_2สถิติชนิด (ขอบและร่วมกัน) จึงเดียวกันในขณะที่ชุดข้อมูลที่แตกต่างกันค่อนข้าง EDIT (จากความคิดเห็น OP) ปล่อยให้ชุดข้อมูลขนาดเล็กแยกกันให้ฉันเสนอการตีความบางอย่าง ชุดที่ 1 สามารถมองเห็นได้เป็นความสัมพันธ์เชิงเส้นมาตรฐาน (เลียนแบบ, ถูกต้อง) ความสัมพันธ์กับเสียงรบกวนแบบกระจาย ชุดที่ 2 แสดงให้เห็นถึงความสัมพันธ์ที่สะอาดซึ่งอาจเป็นจุดศูนย์กลางของความพอดีระดับสูงกว่า ชุดที่ 3 แสดงให้เห็นถึงการพึ่งพาสถิติเชิงเส้นที่ชัดเจนด้วยหนึ่งในค่าผิดเพี้ยน ชุดที่ 4 เป็นเรื่องยุ่งยากมากขึ้น: ความพยายามในการ "ทำนาย" จากxดูเหมือนว่าจะผิดพลาด การออกแบบของxอาจเผยให้เห็นปรากฏการณ์ฮิสเทรีซิสที่มีค่าไม่เพียงพอ, ผลกระทบเชิงปริมาณ ( xอาจเป็นปริมาณมากเกินไป) หรือผู้ใช้เปลี่ยนตัวแปรตามและอิสระyyyxxxxxxxxx ดังนั้นคุณสมบัติสรุปจึงซ่อนพฤติกรรมที่แตกต่างกันมาก ชุดที่ 2 …


2
มีแอปพลิเคชันทางสถิติที่ต้องมีความสอดคล้องที่แข็งแกร่งหรือไม่
ฉันสงสัยว่ามีคนรู้หรือมีแอปพลิเคชันในสถิติที่จำเป็นต้องใช้ตัวประมาณความมั่นคงที่แข็งแกร่งแทนความสอดคล้องที่อ่อนแอ นั่นคือความสอดคล้องที่แข็งแกร่งเป็นสิ่งจำเป็นสำหรับแอปพลิเคชันและแอปพลิเคชันจะไม่ทำงานด้วยความสอดคล้องที่อ่อนแอ

2
เครื่องมือประมาณค่าความน่าจะเป็นสูงสุด - แบบเกาส์หลายตัวแปร
บริบท Multivariate Gaussian ปรากฏขึ้นบ่อยครั้งในการเรียนรู้ของเครื่องและผลลัพธ์ต่อไปนี้จะใช้ในหนังสือและหลักสูตร ML หลายหลักสูตรโดยไม่มีการสืบทอด ข้อมูลที่ได้รับในรูปของเมทริกซ์ของมิติ ถ้าเราคิดว่าข้อมูลตามตัวแปรแบบเกาส์ กระจายด้วยพารามิเตอร์หมายถึง ( ) และความแปรปรวนร่วมเมทริกซ์ ( ) เครื่องมือประมาณการความน่าจะเป็นสูงสุดจะได้รับจาก:XX\mathbf{X} m×pm×p m \times ppppμμ\mup×1p×1p \times 1 ΣΣ\Sigmap×pp×pp \times p μ^=1m∑mi=1x(i)=x¯μ^=1m∑i=1mx(i)=x¯\hat \mu = \frac{1}{m} \sum_{i=1}^m \mathbf{ x^{(i)} } = \mathbf{\bar{x}} Σ^=1m∑mi=1(x(i)−μ^)(x(i)−μ^)TΣ^=1m∑i=1m(x(i)−μ^)(x(i)−μ^)T\hat \Sigma = \frac{1}{m} \sum_{i=1}^m \mathbf{(x^{(i)} - \hat \mu) (x^{(i)} -\hat \mu)}^T ฉันเข้าใจว่าความรู้ของหลายตัวแปรเกาส์เซียนนั้นเป็นสิ่งที่จำเป็นสำหรับหลักสูตร ML หลาย ๆ …

1
โอกาสสูงสุดและวิธีการของช่วงเวลาผลิตตัวประมาณเดียวกันเมื่อใด
ฉันถูกถามคำถามนี้เมื่อวันก่อนและไม่เคยคิดมาก่อน สัญชาตญาณของฉันมาจากข้อดีของตัวประมาณค่าแต่ละตัว ความเป็นไปได้สูงสุดนั้นดีกว่าเมื่อเรามีความมั่นใจในกระบวนการสร้างข้อมูลเพราะต่างจากวิธีการในช่วงเวลาที่ใช้ความรู้ของการกระจายทั้งหมด เนื่องจากตัวประมาณค่า MoM ใช้ข้อมูลที่มีอยู่ในช่วงเวลาเท่านั้นดูเหมือนว่าทั้งสองวิธีควรสร้างค่าประมาณเดียวกันเมื่อสถิติที่เพียงพอสำหรับพารามิเตอร์ที่เราพยายามจะประมาณนั้นเป็นช่วงเวลาของข้อมูล ฉันตรวจสอบผลลัพธ์นี้ด้วยการแจกแจงไม่กี่ครั้ง ปกติ (ค่าเฉลี่ยและความแปรปรวนที่ไม่รู้จัก), เอ็กซ์โปเนนเชียลและปัวซองมีสถิติที่เพียงพอเท่ากับช่วงเวลาของพวกเขาและมีตัวประมาณค่า MLEs และ MoM เหมือนกัน ถ้าเราดู Uniformสถิติที่เพียงพอสำหรับคือและตัวประมาณ MoM และ MLE แตกต่างกัน( 0 , θ )(0,θ)(0,\theta)θθ\thetaสูงสุด( X1, ⋯ , Xยังไม่มีข้อความ)สูงสุด(X1,⋯,Xยังไม่มีข้อความ)\max(X_1,\cdots,X_N) ฉันคิดว่าบางทีนี่อาจเป็นเหตุการณ์ที่แปลกประหลาดของตระกูลเอ็กซ์โพเนนเชียล แต่สำหรับ Laplace ที่มีค่าเฉลี่ยสถิติที่เพียงพอคือ1n∑ | Xผม|1nΣ|Xผม|\frac{1}{n} \sum |X_i| และตัวประมาณค่า MLE และ MoM สำหรับความแปรปรวนไม่เท่ากัน ฉันไม่สามารถแสดงผลลัพธ์ใด ๆ โดยทั่วไปได้ มีใครทราบถึงเงื่อนไขทั่วไปบ้างไหม หรือแม้แต่ตัวอย่างเคาน์เตอร์ก็ช่วยให้ฉันปรับสัญชาตญาณ

1
สัญชาตญาณของตัวอย่างที่แลกเปลี่ยนได้ภายใต้สมมติฐานว่างคืออะไร
การทดสอบการเปลี่ยนรูป (เรียกอีกอย่างว่าการทดสอบแบบสุ่มการทดสอบแบบสุ่มอีกครั้งหรือการทดสอบที่แน่นอน) มีประโยชน์มากและมีประโยชน์เมื่อสมมติฐานของการแจกแจงปกติที่ต้องการโดยตัวอย่างเช่นt-testไม่พบและเมื่อการเปลี่ยนแปลงของค่าโดยการจัดอันดับ การทดสอบแบบไม่มีพารามิเตอร์Mann-Whitney-U-testจะนำไปสู่การสูญเสียข้อมูลมากขึ้น อย่างไรก็ตามไม่ควรมองข้ามสมมุติฐานข้อเดียวและข้อเดียวเพียงข้อเดียวเมื่อใช้การทดสอบชนิดนี้คือข้อสมมติฐานของความสามารถแลกเปลี่ยนได้ของตัวอย่างภายใต้สมมติฐานว่าง เป็นที่น่าสังเกตว่าวิธีการแบบนี้สามารถใช้ได้เมื่อมีตัวอย่างมากกว่าสองตัวอย่างเช่นสิ่งที่นำไปใช้ในcoinแพ็คเกจ R คุณช่วยกรุณาใช้ภาษาที่เป็นรูปเป็นร่างหรือปรีชาเชิงแนวคิดในภาษาอังกฤษธรรมดาเพื่อแสดงสมมติฐานนี้ได้หรือไม่? นี่จะมีประโยชน์มากในการอธิบายปัญหาที่ถูกมองข้ามในหมู่ผู้ที่ไม่ใช่นักสถิติเช่นฉัน หมายเหตุ: จะเป็นประโยชน์อย่างมากหากพูดถึงกรณีที่การใช้การทดสอบการเปลี่ยนแปลงไม่ถือหรือไม่ถูกต้องภายใต้สมมติฐานเดียวกัน ปรับปรุง: สมมติว่าฉันมี 50 วิชาที่รวบรวมจากคลินิกท้องถิ่นในเขตของฉันโดยการสุ่ม พวกเขาถูกสุ่มให้รับยาหรือยาหลอกในอัตราส่วน 1: 1 พวกเขาทั้งหมดถูกวัดสำหรับ Paramerter 1 Par1ที่ V1 (พื้นฐาน), V2 (3 เดือนต่อมา) และ V3 (1 ปีต่อมา) วิชาทั้งหมด 50 กลุ่มสามารถแบ่งเป็น 2 กลุ่มตามคุณสมบัติ A; ค่าบวก = 20 และค่าลบ = 30 นอกจากนี้ยังสามารถจัดกลุ่มย่อยได้อีก 2 กลุ่มตามคุณลักษณะ B; B positive = …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.