คำถามติดแท็ก estimation

แท็กนี้กว้างเกินไป โปรดระบุแท็กที่เฉพาะเจาะจงมากขึ้น สำหรับคำถามเกี่ยวกับคุณสมบัติของตัวประมาณค่าเฉพาะให้ใช้แท็ก [estimators] แทน

3
การประมาณ n ในปัญหาของตัวสะสมคูปอง
ในรูปแบบของปัญหาเกี่ยวกับตัวสะสมคูปองคุณไม่ทราบจำนวนคูปองและต้องพิจารณาจากข้อมูล ฉันจะอ้างถึงสิ่งนี้ว่าเป็นปัญหาคุกกี้โชคลาภ: ป.ร. ให้ไว้ไม่ทราบจำนวนข้อความคุกกี้โชคลาภที่แตกต่างกันnnnประมาณการnnnโดยการสุ่มตัวอย่างคุกกี้หนึ่งที่เวลาและการนับจำนวนครั้งในแต่ละโชคลาภจะปรากฏขึ้น กำหนดจำนวนตัวอย่างที่จำเป็นในการรับช่วงความมั่นใจที่ต้องการในการประมาณนี้ โดยทั่วไปฉันต้องการอัลกอริทึมที่สุ่มตัวอย่างข้อมูลเพียงพอที่จะเข้าถึงช่วงความเชื่อมั่นที่กำหนดให้พูดn±5n±5n \pm 5ด้วยความมั่นใจ95%95%95\%สำหรับความเรียบง่ายเราสามารถสรุปได้ว่าโชคชะตาทั้งหมดปรากฏขึ้นพร้อมกับความน่าจะเป็น / ความถี่เท่ากัน แต่นี่ไม่เป็นความจริงสำหรับปัญหาทั่วไปที่มากขึ้น ดูเหมือนว่าจะคล้ายกับปัญหารถถังเยอรมันแต่ในกรณีนี้คุกกี้โชคลาภไม่ได้ติดป้ายกำกับตามลำดับและไม่มีการสั่งซื้อ

3
ฉันสามารถสร้างการแจกแจงแบบปกติจากขนาดตัวอย่างและค่า min และ max ได้หรือไม่ ฉันสามารถใช้จุดกึ่งกลางเพื่อกำหนดค่าเฉลี่ยของพร็อกซี
ฉันรู้ว่านี่อาจจะเป็นค่าเช่าเล็กน้อยสถิติ แต่นี่เป็นปัญหาของฉัน ฉันมีข้อมูลช่วงจำนวนมากกล่าวคือขนาดต่ำสุดสูงสุดและตัวอย่างของตัวแปร สำหรับข้อมูลเหล่านี้บางส่วนฉันก็มีค่าเฉลี่ย แต่ไม่มากนัก ฉันต้องการที่จะเปรียบเทียบช่วงเหล่านี้กับแต่ละอื่น ๆ เพื่อหาปริมาณความแปรปรวนของแต่ละช่วงและเพื่อเปรียบเทียบค่าเฉลี่ย ฉันมีเหตุผลที่ดีที่จะสมมติว่าการกระจายนั้นสมมาตรรอบค่าเฉลี่ยและข้อมูลจะมีการแจกแจงแบบเกาส์ ด้วยเหตุนี้ฉันจึงคิดว่าฉันสามารถพิสูจน์ได้ว่าใช้จุดกึ่งกลางของการแจกแจงเป็นพร็อกซีสำหรับค่าเฉลี่ยเมื่อไม่อยู่ สิ่งที่ฉันต้องการทำคือสร้างการแจกแจงใหม่สำหรับแต่ละช่วงจากนั้นใช้สิ่งนั้นเพื่อให้ค่าเบี่ยงเบนมาตรฐานหรือข้อผิดพลาดมาตรฐานสำหรับการแจกแจงนั้น ข้อมูลเดียวที่ฉันมีคือค่าสูงสุดและต่ำสุดที่สังเกตได้จากตัวอย่างและจุดกลางเป็นพร็อกซีสำหรับค่าเฉลี่ย ด้วยวิธีนี้ฉันหวังว่าจะสามารถคำนวณค่าเฉลี่ยถ่วงน้ำหนักสำหรับแต่ละกลุ่มและคำนวณสัมประสิทธิ์การแปรผันสำหรับแต่ละกลุ่มได้เช่นกันตามข้อมูลช่วงที่ฉันมีและสมมติฐานของฉัน (ของการแจกแจงแบบสมมาตรและปกติ) ฉันวางแผนที่จะใช้ R เพื่อทำสิ่งนี้ดังนั้นความช่วยเหลือเกี่ยวกับโค้ดจะได้รับการชื่นชมเช่นกัน

1
ค่าประมาณของประชากร R-Square คืออะไร
ฉันสนใจที่จะประเมินค่าไม่เอนเอียงในการถดถอยเชิงเส้นแบบหลายค่าR2R2R^2 ในการไตร่ตรองฉันสามารถนึกถึงสองค่าที่ต่างกันซึ่งการประมาณค่าที่เป็นกลางของอาจพยายามเทียบR2R2R^2 จากตัวอย่าง :R2R2R^2 r-square ที่จะได้รับหากสมการถดถอยที่ได้จากตัวอย่าง (เช่น ) ถูกนำไปใช้กับข้อมูลจำนวนอนันต์ภายนอกกับตัวอย่าง แต่จากข้อมูลเดียวกัน กระบวนการสร้างβ^β^\hat{\beta} ประชากร :R2R2R^2 r-square ที่จะได้รับถ้าตัวอย่างที่ไม่มีที่สิ้นสุดได้รับและรูปแบบที่พอดีกับตัวอย่างที่ไม่มีที่สิ้นสุด (เช่น ) หรืออีกทางหนึ่งเพียงแค่ R-Square โดยนัยโดยกระบวนการสร้างข้อมูลที่รู้จักββ\beta ผมเข้าใจว่าการปรับR2R2R^2ถูกออกแบบมาเพื่อชดเชยการ overfitting สังเกตในตัวอย่าง 2 อย่างไรก็ตามมันไม่ชัดเจนว่าการปรับค่านั้นเป็นค่าประมาณที่เป็นกลางโดยประมาณของหรือไม่และหากเป็นการประมาณการที่ไม่เอนเอียงซึ่งคำจำกัดความสองประการข้างต้นของนั้นมีเป้าหมายเพื่อประเมินR2R2R^2R2R2R^2R2R2R^2R2R2R^2 ดังนั้นคำถามของฉัน: ค่าประมาณที่เป็นกลางของสิ่งที่ฉันเรียกข้างบนจากตัวอย่างR2R2R^2คืออะไร ค่าประมาณที่เป็นกลางของสิ่งที่ฉันเรียกข้างบนประชากรคืออะไร?R2R2R^2 มีการอ้างอิงใด ๆ ที่ให้การจำลองหรือหลักฐานอื่น ๆ เกี่ยวกับความเป็นกลางหรือไม่?

3
ฉันสามารถใช้การทดสอบ Kolmogorov-Smirnov และประมาณค่าพารามิเตอร์การกระจายได้หรือไม่
ฉันได้อ่านแล้วว่าการทดสอบ Kolmogorov-Smirnov ไม่ควรใช้เพื่อทดสอบความดีของการแจกแจงที่มีการประมาณค่าพารามิเตอร์จากตัวอย่าง การแยกตัวอย่างของฉันออกเป็นสองส่วนและใช้ครึ่งแรกสำหรับการประมาณค่าพารามิเตอร์และอีกอันสำหรับการทดสอบ KS หรือไม่ ขอบคุณล่วงหน้า

3
ระเบิดอยู่ที่ไหน: จะประเมินความน่าจะเป็นอย่างไร, ผลรวมแถวและคอลัมน์ที่ได้รับ?
คำถามนี้ได้รับแรงบันดาลใจจากมินิเกมจาก Pokemon Soulsilver: ลองนึกภาพมี 15 ระเบิดซ่อนอยู่ในพื้นที่ 5x6 นี้ (แก้ไข: สูงสุด 1 ระเบิด / เซลล์): ทีนี้คุณจะประเมินความน่าจะเป็นในการหาลูกระเบิดในสนามที่ระบุโดยรวมของแถว / คอลัมน์อย่างไร หากคุณดูที่คอลัมน์ 5 (จำนวนระเบิดทั้งหมด = 5) คุณอาจคิดว่า: ภายในคอลัมน์นี้โอกาสที่จะพบระเบิดในแถวที่ 2 นั้นเพิ่มเป็นสองเท่าของโอกาสที่จะพบหนึ่งในแถวที่ 1 สมมติฐาน (ผิด) นี้ของสัดส่วนโดยตรงซึ่งโดยทั่วไปสามารถอธิบายได้ว่าเป็นการวาดมาตรฐานการดำเนินการทดสอบอิสระ (เช่นใน Chi-Square) ในบริบทที่ไม่ถูกต้องจะนำไปสู่การประมาณดังต่อไปนี้: อย่างที่คุณเห็นสัดส่วนโดยตรงจะนำไปสู่การประมาณความน่าจะเป็นมากกว่า 100% และก่อนหน้านั้นจะผิด ดังนั้นฉันจึงทำการจำลองการคำนวณของพีชคณิตที่เป็นไปได้ทั้งหมดซึ่งนำไปสู่ ​​276 ความเป็นไปได้ที่ไม่ซ้ำกันของการวางระเบิด 15 ครั้ง (ผลรวมของแถวและคอลัมน์ที่กำหนด) นี่คือค่าเฉลี่ยของโซลูชัน 276 รายการ: นี่เป็นวิธีแก้ไขที่ถูกต้อง แต่เนื่องจากงานคำนวณเลขชี้กำลังฉันต้องการค้นหาวิธีการประมาณค่า คำถามของฉันคือตอนนี้: มีวิธีการทางสถิติที่จัดตั้งขึ้นเพื่อประเมินสิ่งนี้หรือไม่? ฉันสงสัยว่านี่เป็นปัญหาที่ทราบแล้วมันถูกเรียกอย่างไรและหากมีเอกสาร …

6
การประมาณค่า MLE เทียบกับ MAP จะใช้เมื่อใด
MLE = การประมาณความน่าจะเป็นสูงสุด MAP = หลังที่ใหญ่ที่สุด MLE ใช้งานง่าย / ไร้เดียงสาโดยเริ่มจากความน่าจะเป็นของการสังเกตที่กำหนดพารามิเตอร์ (เช่นฟังก์ชันความน่าจะเป็น)และพยายามค้นหาพารามิเตอร์ที่สอดคล้องกับการสังเกตการณ์ที่สุด แต่มันไม่ได้คำนึงถึงความรู้เดิม MAP ดูเหมือนจะสมเหตุสมผลมากกว่าเนื่องจากคำนึงถึงความรู้เดิมผ่านกฎของเบย์ นี่คือคำถามที่เกี่ยวข้อง แต่คำตอบนั้นไม่ละเอียด /signals/13174/differences-using-maximum-likelihood-or-maximum-a-posteriori-for-deconvolution-d ดังนั้นฉันคิดว่า MAP ดีกว่ามาก นั่นถูกต้องใช่ไหม? และฉันควรใช้อันไหนดี?

3
การคำนวณที่มีประสิทธิภาพเชิงคำนวณของโหมดหลายตัวแปร
เวอร์ชั่นสั้น: อะไรคือวิธีที่มีประสิทธิภาพมากที่สุดในการคำนวณโหมดของชุดข้อมูลหลายมิติตัวอย่างจากการแจกแจงแบบต่อเนื่อง รุ่นยาว: ฉันมีชุดข้อมูลที่ฉันต้องการประเมินโหมดของ โหมดไม่ตรงกับค่าเฉลี่ยหรือค่ามัธยฐาน ตัวอย่างที่แสดงด้านล่างนี้เป็นตัวอย่าง 2D แต่โซลูชัน ND น่าจะดีกว่า: ปัจจุบันวิธีการของฉันคือ คำนวณการประมาณความหนาแน่นของเคอร์เนลบนกริดเท่ากับความละเอียดที่ต้องการของโหมด มองหาจุดที่คำนวณมากที่สุด เห็นได้ชัดว่านี่เป็นการคำนวณ KDE ในจุดที่ไม่น่าเชื่อถือซึ่งเป็นสิ่งที่ไม่ดีโดยเฉพาะอย่างยิ่งหากมีจุดข้อมูลจำนวนมากที่มีมิติสูงหรือฉันคาดหวังความละเอียดที่ดีในโหมด ทางเลือกอื่นคือใช้การจำลองการอบอ่อนอัลกอริธึมทางพันธุกรรม ฯลฯ เพื่อค้นหาจุดสูงสุดทั่วโลกใน KDE คำถามคือว่ามีวิธีการคำนวณที่ชาญฉลาดกว่านี้หรือไม่?

2
ปัญหาความสามารถในการประมาณค่าพารามิเตอร์
ให้และเป็นตัวแปรสุ่มสี่ตัวซึ่งโดยที่เป็นพารามิเตอร์ที่ไม่รู้จัก นอกจากนี้สมมติว่า ,แล้วอันไหนที่เป็นจริงY1, วาย2, วาย3Y1,Y2,Y3Y_1,Y_2,Y_3Y4Y4Y_4E( Y1) = θ1- θ3; E ( Y2) = θ1+ θ2- θ3; E ( Y3) = θ1- θ3; E ( Y4) = θ1- θ2- θ3E(Y1)=θ1−θ3; E(Y2)=θ1+θ2−θ3; E(Y3)=θ1−θ3; E(Y4)=θ1−θ2−θ3E(Y_1)=\theta_1-\theta_3;\space\space E(Y_2)=\theta_1+\theta_2-\theta_3;\space\space E(Y_3)=\theta_1-\theta_3;\space\space E(Y_4)=\theta_1-\theta_2-\theta_3θ1, θ2, θ3θ1,θ2,θ3\theta_1,\theta_2,\theta_3VR ( Yผม) = σ2Var(Yi)=σ2Var(Y_i)=\sigma^2i = 1 , 2 , 3 , 4i=1,2,3,4.i=1,2,3,4. A.สามารถประมาณได้θ1, …

1
เหตุใดเลขคณิตจึงมีขนาดเล็กกว่าการแจกแจงจึงมีความหมายในการแจกแจงแบบล็อก - ปกติ
ดังนั้นฉันจึงมีการสร้างกระบวนการสุ่มเข้าสู่ระบบกระจายตามปกติตัวแปรสุ่มXนี่คือฟังก์ชันความหนาแน่นของความน่าจะเป็นที่สอดคล้องกัน:XXX ผมอยากประมาณการกระจายตัวของการแจกแจงแบบเดิมสักครู่, สมมุติว่าช่วงเวลาที่ 1: ค่าเฉลี่ยเลขคณิต ในการทำเช่นนั้นฉันวาด 100 ตัวแปรสุ่ม 10,000 ครั้งเพื่อให้ฉันสามารถคำนวณค่าเฉลี่ยเลขคณิตได้ 10,000 ค่า มีสองวิธีที่แตกต่างกันในการประมาณค่าเฉลี่ย (อย่างน้อยนั่นคือสิ่งที่ฉันเข้าใจ: ฉันอาจผิด): โดยการคำนวณทางคณิตศาสตร์อย่างชัดเจนหมายถึงวิธีปกติ: X¯= ∑i = 1ยังไม่มีข้อความXผมยังไม่มีข้อความ.X¯=∑i=1NXiN.\bar{X} = \sum_{i=1}^N \frac{X_i}{N}. หรือโดยการประมาณและจากการแจกแจงปกติพื้นฐาน:จากนั้นค่าเฉลี่ยเป็นμ μ = N Σฉัน= 1ล็อก( X ฉัน )σσ\sigmaμμ\muˉ X =exp(μ+1μ = ∑i = 1ยังไม่มีข้อความเข้าสู่ระบบ( Xผม)ยังไม่มีข้อความσ2= ∑i = 1ยังไม่มีข้อความ( บันทึก( Xผม) - μ )2ยังไม่มีข้อความμ=∑i=1Nlog⁡(Xi)Nσ2=∑i=1N(log⁡(Xi)−μ)2N\mu = \sum_{i=1}^N \frac{\log …

4
ทรัพย์สินเชิงปริมาณของประชากรเป็น“ พารามิเตอร์” หรือไม่?
ฉันค่อนข้างคุ้นเคยกับความแตกต่างระหว่างสถิติของคำและพารามิเตอร์ ฉันเห็นสถิติเป็นค่าที่ได้จากการใช้ฟังก์ชั่นกับข้อมูลตัวอย่าง อย่างไรก็ตามตัวอย่างส่วนใหญ่ของพารามิเตอร์เกี่ยวข้องกับการกำหนดการกระจายพารามิเตอร์ ตัวอย่างทั่วไปคือค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานเพื่อกำหนดพารามิเตอร์การแจกแจงปกติหรือสัมประสิทธิ์และความแปรปรวนข้อผิดพลาดในการกำหนดพารามิเตอร์เป็นการถดถอยเชิงเส้น อย่างไรก็ตามมีค่าอื่น ๆ อีกมากมายของการกระจายตัวของประชากรที่น้อยกว่าต้นแบบ (เช่น, ต่ำสุด, สูงสุด, r-Square ในการถดถอยหลายครั้ง, .25 quantile, ค่ามัธยฐาน, จำนวนของตัวทำนายที่มีค่าสัมประสิทธิ์ไม่ใช่ศูนย์, ความเบ้, จำนวน ของความสัมพันธ์ในเมทริกซ์สหสัมพันธ์มากกว่า. 3 เป็นต้น) ดังนั้นคำถามของฉันคือ: ทรัพย์สินเชิงปริมาณของประชากรควรมีป้ายกำกับว่า "พารามิเตอร์" หรือไม่? ถ้าใช่แล้วทำไม หากไม่มีคุณลักษณะใดที่ไม่ควรระบุพารามิเตอร์ พวกเขาควรติดป้ายอะไร และทำไม? อธิบายรายละเอียดเกี่ยวกับความสับสน บทความ Wikipedia เกี่ยวกับตัวประมาณค่า: "ตัวประมาณค่า" หรือ "การประมาณค่าจุด" คือสถิติ (นั่นคือฟังก์ชันของข้อมูล) ที่ใช้เพื่ออนุมานค่าของพารามิเตอร์ที่ไม่รู้จักในแบบจำลองทางสถิติ แต่ฉันสามารถกำหนดค่าที่ไม่รู้จักเป็น. 25 quantile และฉันสามารถพัฒนาตัวประมาณค่าสำหรับค่าที่ไม่รู้จักนั้น คือคุณสมบัติเชิงปริมาณของประชากรทั้งหมดไม่ใช่พารามิเตอร์ในลักษณะเดียวกับที่บอกว่าค่าเฉลี่ยและ sd เป็นพารามิเตอร์ของการแจกแจงแบบปกติทว่ามันถูกต้องตามกฎหมายที่จะพยายามประเมินคุณสมบัติเชิงปริมาณของประชากร

2
Hessian ของความน่าจะเป็นของโปรไฟล์ที่ใช้สำหรับการประเมินข้อผิดพลาดมาตรฐาน
คำถามนี้เป็นแรงบันดาลใจโดยหนึ่งในนี้ ฉันค้นหาสองแหล่งและนี่คือสิ่งที่ฉันพบ A. van der Vaart, สถิติ Assymptotic: มันเป็นไปไม่ได้ที่จะคำนวณความเป็นไปได้ของโพรไฟล์อย่างชัดเจน แต่การประเมินเชิงตัวเลขมักเป็นไปได้ จากนั้นความน่าจะเป็นของโปรไฟล์อาจช่วยลดมิติของฟังก์ชันความน่าจะเป็นได้ ฟังก์ชั่นความน่าจะเป็นโพรไฟล์มักจะใช้ในลักษณะเดียวกับฟังก์ชั่นความน่าจะเป็น (ธรรมดา) ของโมเดลพาราเมตริก นอกเหนือจากการจุดของพวกเขาสูงสุดประมาณθ , อนุพันธ์ที่สองที่θจะใช้เป็นประมาณการลบผกผันของเมทริกซ์ความแปรปรวน asymptotic ของ e ๆ การวิจัยล่าสุดดูเหมือนจะตรวจสอบการปฏิบัตินี้θ^θ^\hat\thetaθ^θ^\hat\theta J. Wooldridge การวิเคราะห์ทางเศรษฐมิติของข้อมูลส่วนและข้อมูลพาเนล (เหมือนกันทั้งสองรุ่น): ในฐานะที่เป็นอุปกรณ์สำหรับการศึกษาคุณสมบัติเชิงซีเอ็นซีฟังก์ชันความเข้มข้นของวัตถุประสงค์มีค่า จำกัด เนื่องจากขึ้นอยู่กับค่าของWทั้งหมดซึ่งในกรณีนี้ฟังก์ชั่นวัตถุประสงค์ไม่สามารถเขียนเป็นผลรวมของคำสั่งสรุปอิสระแบบกระจาย การตั้งค่าหนึ่งที่สมการ (12.89) คือผลรวมของฟังก์ชั่น iid เกิดขึ้นเมื่อเราตั้งสมาธิกับเอฟเฟกต์เฉพาะของแต่ละบุคคลจากแบบจำลองข้อมูลแผงบางแบบไม่เชิงเส้น นอกจากนี้ฟังก์ชั่นวัตถุประสงค์ที่เข้มข้นยังมีประโยชน์ในการสร้างความเท่าเทียมของวิธีการประมาณที่แตกต่างกันg(W,β)g(W,β)g(W,\beta)WWW Wooldridge กล่าวถึงปัญหาในบริบทที่กว้างขึ้นของตัวประมาณ M ดังนั้นมันจึงใช้กับตัวประมาณความเป็นไปได้สูงสุดเช่นกัน ดังนั้นเราจึงได้คำตอบสองข้อสำหรับคำถามเดียวกัน มารในความคิดของฉันอยู่ในรายละเอียด สำหรับบางรุ่นเราสามารถใช้ hessian ของความน่าจะเป็นของโปรไฟล์ได้อย่างปลอดภัยสำหรับบางรุ่นที่ไม่ มีผลลัพธ์ทั่วไปใดบ้างที่ให้เงื่อนไขเมื่อเราสามารถทำได้ (หรือไม่สามารถทำได้)?

4
ข้อผิดพลาดกำลังสองเฉลี่ยใช้เพื่อประเมินความเหนือกว่าของตัวประมาณหนึ่งตัวเทียบกับอีกตัวหนึ่งหรือไม่?
สมมติว่าเรามีสองประมาณและสำหรับพารามิเตอร์บางxในการพิจารณาว่าตัวประมาณใดที่ "ดีกว่า" เราจะดูที่ MSE (หมายถึงข้อผิดพลาดกำลังสอง) หรือไม่ กล่าวอีกนัยหนึ่งเรามองไปที่โดยที่คืออคติของตัวประมาณและคือความแปรปรวนของตัวประมาณ MSE ที่ดีกว่าใดจะเป็นตัวประมาณที่แย่กว่านั้น?α 2 x M S E = β 2 + σ 2 β σ 2α1α1\alpha_1α2α2\alpha_2xxxMSE= β2+ σ2MSE=β2+σ2MSE = \beta^2+ \sigma^2ββ\betaσ2σ2\sigma^2
13 estimation  mse 

1
วิธีการปรับโมเดลข้อผิดพลาดในการวัด“ แบบง่าย”
ฉันกำลังมองหาวิธีการที่สามารถใช้ในการประมาณรูปแบบข้อผิดพลาดในการวัด "OLS" x i = X i + e x , i Y i = α + β X iyi=Yi+ey,iyi=Yi+ey,iy_{i}=Y_{i}+e_{y,i} xผม= Xผม+ ex , ixi=Xi+ex,ix_{i}=X_{i}+e_{x,i} Yผม= α + βXผมYi=α+βXiY_{i}=\alpha + \beta X_{i} ในกรณีที่ข้อผิดพลาดที่มีความเป็นอิสระปกติที่ไม่รู้จักแปรปรวนและ{2} OLS "มาตรฐาน" จะไม่ทำงานในกรณีนี้ σ 2 xσ2Yσy2\sigma_{y}^{2}σ2xσx2\sigma_{x}^{2} วิกิพีเดียมีวิธีแก้ปัญหาที่ไม่น่าสนใจ - ทั้งสองบังคับให้คุณคิดว่า "อัตราส่วนแปรปรวน"หรือ " อัตราส่วนความน่าเชื่อถือ "เป็นที่รู้จักที่คือความแปรปรวนของ regressor จริงx_iฉันไม่พอใจกับสิ่งนี้เพราะคนที่ไม่รู้ความแปรปรวนจะรู้อัตราส่วนได้อย่างไร λ=σ 2 …

1
LARS เทียบกับโคตรของโคตร
ข้อดีและข้อเสียของการใช้ LARS [1] เมื่อเทียบกับการใช้โคตรของพิกัดสำหรับการถดถอยเชิงเส้นแบบ L1 ที่เหมาะสมคืออะไร ฉันสนใจในเรื่องของประสิทธิภาพเป็นหลัก (ปัญหาของฉันมักจะNอยู่ในหลักแสนและp<20) อย่างไรก็ตามข้อมูลเชิงลึกอื่น ๆ ก็จะได้รับการชื่นชมเช่นกัน แก้ไข: เนื่องจากฉันได้โพสต์คำถาม, chl ได้ชี้ให้เห็นกระดาษ [2] โดย Friedman และคณะที่พิกัดโคตรถูกแสดงว่าเร็วกว่าวิธีอื่นมาก หากเป็นกรณีนี้ฉันควรเป็นผู้ประกอบการเพียงแค่ลืมเกี่ยวกับ LARS ในความโปรดปรานของการสืบเชื้อสายมาประสานงาน? [1] Efron, Bradley; Hastie เทรเวอร์; Johnstone, Iain และ Tibshirani, Robert (2004) "การถดถอยมุมน้อยที่สุด" พงศาวดารของสถิติ 32 (2): pp 407–499 [2] Jerome H. Friedman, Trevor Hastie, Rob Tibshirani, "เส้นทางการทำให้เป็นมาตรฐานสำหรับตัวแบบเชิงเส้นทั่วไปผ่านพิกัดโคตร", วารสารซอฟท์แวร์สถิติ, อัตรา …

5
ทำไมมันถึงอ้างว่าตัวอย่างมักจะแม่นยำกว่าการสำรวจสำมะโนประชากร?
เมื่อเรียนรู้วิธีการสุ่มตัวอย่างฉันพบสองข้อความต่อไปนี้: 1) ข้อผิดพลาดการสุ่มตัวอย่างนำไปสู่ความแปรปรวนส่วนใหญ่ข้อผิดพลาดการสุ่มตัวอย่างจะทำให้เกิดอคติ 2) เนื่องจากข้อผิดพลาดที่ไม่ได้สุ่มตัวอย่างกลุ่มตัวอย่างจึงมักจะแม่นยำกว่า CENSUS ฉันไม่ทราบว่าจะเข้าใจข้อความทั้งสองนี้ได้อย่างไร ตรรกะพื้นฐานในการรับสองข้อความนี้คืออะไร?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.