คำถามติดแท็ก assumptions

อ้างถึงเงื่อนไขที่ขั้นตอนสถิติให้การประมาณการและ / หรือการอนุมานที่ถูกต้อง เช่นเทคนิคทางสถิติจำนวนมากต้องการสมมติฐานที่ว่าข้อมูลถูกสุ่มตัวอย่างในบางวิธี ผลลัพธ์เชิงทฤษฎีเกี่ยวกับตัวประมาณมักจะต้องใช้สมมติฐานเกี่ยวกับกลไกการสร้างข้อมูล

2
"ไม่มีทฤษฎีอาหารกลางวันฟรี" ใช้กับการทดสอบทางสถิติทั่วไปหรือไม่
ผู้หญิงที่ฉันทำงานขอให้ฉันทำ ANOVA แบบทางเดียวกับข้อมูลบางอย่าง ฉันตอบว่าข้อมูลนั้นเป็นข้อมูลการวัดซ้ำ (อนุกรมเวลา) และฉันคิดว่าการสันนิษฐานว่ามีการละเมิดความเป็นอิสระ เธอตอบว่าฉันไม่ควรกังวลเกี่ยวกับสมมติฐานเพียงทำแบบทดสอบและเธอจะคำนึงถึงว่าอาจไม่ตรงตามสมมติฐาน ดูเหมือนจะไม่ถูกต้องสำหรับฉัน ฉันค้นคว้ามาแล้วและพบว่าการโพสต์บล็อกที่ยอดเยี่ยมนี้โดย David Robinson การจัดกลุ่ม K- หมายถึงไม่ใช่อาหารกลางวันฟรี ฉันได้ดูเอกสารต้นฉบับและติดตามสิ่งต่างๆและคณิตศาสตร์ตรงไปตรงมาเล็กน้อย ส่วนสำคัญของมัน - ตามที่ David Robinson - ดูเหมือนว่าพลังของการทดสอบทางสถิติมาจากสมมติฐานของมัน และเขาให้สองตัวอย่างที่ยอดเยี่ยม เมื่อฉันอ่านบทความอื่น ๆ และโพสต์บล็อกเกี่ยวกับบทความนี้ดูเหมือนว่าจะมีการอ้างอิงเสมอในแง่ของการเรียนรู้แบบควบคุมหรือค้นหา ดังนั้นคำถามของฉันคือทฤษฎีบทนี้ใช้กับการทดสอบทางสถิติโดยทั่วไปหรือไม่? กล่าวอีกนัยหนึ่งเราสามารถพูดได้ว่าพลังของ t-test หรือ ANOVA นั้นมาจากการยึดมั่นในสมมติฐานและอ้างอิงทฤษฎีบทอาหารกลางวันฟรี ฉันเป็นหนี้เอกสารฉบับสุดท้ายของเจ้านายเกี่ยวกับงานที่ฉันทำและฉันอยากรู้ว่าฉันสามารถอ้างอิงทฤษฎีบท No Free Lunch ได้หรือไม่โดยระบุว่าคุณไม่สามารถเพิกเฉยต่อสมมติฐานของการทดสอบทางสถิติและบอกว่าคุณจะนำสิ่งนั้นไปใช้ บัญชีเมื่อประเมินผล

2
การกระจายแบบปกติ X และ Y มีแนวโน้มที่จะส่งผลให้เกิดการตกค้างแบบกระจายตามปกติหรือไม่
ที่นี่การตีความที่ผิดของสมมติฐานของภาวะปกติในการถดถอยเชิงเส้นถูกกล่าวถึง (ที่ 'ปกติ' หมายถึง X และ / หรือ Y มากกว่าที่เหลือ) และโปสเตอร์ถามว่ามันเป็นไปได้ที่จะมีการกระจาย X และ Y ไม่ปกติ และยังคงมีการกระจายสารตกค้างตามปกติ คำถามของฉันคือ: โดยทั่วไปมีการกระจาย X และ Y มีแนวโน้มที่จะส่งผลให้ส่วนที่เหลือกระจายตามปกติ? มีการโพสต์ที่เกี่ยวข้องมากมาย แต่ฉันไม่เชื่อว่ามีใครถามคำถามนี้โดยเฉพาะ ฉันรู้ว่านี่อาจเป็นจุดที่น่าสนใจหากมีเพียงการถดถอยเพียงครั้งเดียวที่ต้องทำ แต่ก็น้อยลงหากมีการทดสอบหลายครั้ง สมมติว่าฉันมีตัวแปร 100 X ซึ่งทั้งหมดมีความเบ้เหมือนกันและฉันต้องการทดสอบพวกเขาทั้งหมด ถ้าฉันเปลี่ยนพวกมันทั้งหมดเป็นการกระจายตัวแบบปกติมันจะเป็นไปได้ไหมที่ฉันจะมีตัวแปร X น้อยกว่าที่ต้องการการตรวจสอบอีกครั้ง (โดยไม่มีการแปลงที่ต่างกัน / ไม่มีการเปลี่ยนแปลง) เนื่องจากเศษซากที่ไม่กระจายตามปกติ

2
การตีความเมทริกซ์ความแปรปรวนร่วม -
สมมติว่าเรามีโมเดลเชิงเส้นModel1และvcov(Model1)ให้เมทริกซ์ต่อไปนี้: (Intercept) latitude sea.distance altitude (Intercept) 28.898100 -23.6439000 -34.1523000 0.50790600 latitude -23.643900 19.7032500 28.4602500 -0.42471450 sea.distance -34.152300 28.4602500 42.4714500 -0.62612550 altitude 0.507906 -0.4247145 -0.6261255 0.00928242 สำหรับตัวอย่างนี้เมทริกซ์นี้แสดงอะไร? สมมติฐานอะไรที่เราสามารถสร้างโมเดลของเราได้อย่างปลอดภัยและเป็นตัวแปรอิสระ

2
การตรวจสอบค่าคงที่สำหรับค่าปกติในโมเดลเชิงเส้นทั่วไป
กระดาษนี้ใช้แบบจำลองเชิงเส้นทั่วไป (ทั้งการแจกแจงแบบทวินามและลบแบบทวินามลบ) เพื่อวิเคราะห์ข้อมูล แต่ในส่วนการวิเคราะห์ทางสถิติของวิธีการมีคำสั่งนี้: ... และลำดับที่สองโดยการสร้างแบบจำลองข้อมูลการแสดงตนโดยใช้ตัวแบบการถดถอยโลจิสติกและข้อมูลเวลาการค้นหาโดยใช้แบบจำลองเชิงเส้นทั่วไป (GLM) การแจกแจงแบบทวินามลบพร้อมฟังก์ชั่นบันทึกการเชื่อมโยงถูกใช้เพื่อสร้างแบบจำลองข้อมูลเวลาการหาอาหาร (Welsh et al. 1996) และตรวจสอบความเพียงพอของแบบจำลอง ใช้การทดสอบ Shapiro – Wilk หรือ Kolmogorov – Smirnov เพื่อทดสอบภาวะปกติทั้งนี้ขึ้นอยู่กับขนาดตัวอย่าง ข้อมูลถูกบันทึกการแปลงก่อนการวิเคราะห์ให้เป็นไปตามปกติ หากพวกเขาถือว่าการแจกแจงข้อผิดพลาดทวินามและลบทวินามก็แน่นอนว่าพวกเขาไม่ควรตรวจสอบความเป็นปกติของเศษซาก?

4
สมมติฐานการกระจายตัวแบบตกค้าง
ทำไมจึงจำเป็นต้องวางสมมุติฐานการกระจายในข้อผิดพลาดเช่น yi=Xβ+ϵiyi=Xβ+ϵiy_i = X\beta + \epsilon_{i}กับϵi∼N(0,σ2)ϵi∼N(0,σ2)\epsilon_{i} \sim \mathcal{N}(0,\sigma^{2}) ) ทำไมไม่เขียน yi=Xβ+ϵiyi=Xβ+ϵiy_i = X\beta + \epsilon_{i}กับyi∼N(Xβ^,σ2)yi∼N(Xβ^,σ2)y_i \sim \mathcal{N}(X\hat{\beta},\sigma^{2}) , ที่ว่าในกรณีใดϵi=yi−y^ϵi=yi−y^\epsilon_i = y_i - \hat{y} Y ฉันเคยเห็นมันเน้นว่าข้อสันนิษฐานของการกระจายสินค้าถูกวางไว้บนข้อผิดพลาดไม่ใช่ข้อมูล แต่ไม่มีคำอธิบาย ฉันไม่เข้าใจความแตกต่างระหว่างสูตรทั้งสองนี้จริงๆ บางแห่งที่ฉันเห็นสมมติฐานการกระจายถูกวางไว้บนข้อมูล (Bayesian lit. ดูเหมือนว่าส่วนใหญ่) แต่เวลาส่วนใหญ่ข้อสันนิษฐานที่วางอยู่บนข้อผิดพลาด เมื่อสร้างแบบจำลองทำไม / ควรเลือกที่จะเริ่มต้นด้วยสมมติฐานหนึ่งหรืออื่น ๆ ?

2
เหตุใดบางคนทดสอบสมมติฐานตัวแบบถดถอยเหมือนกับข้อมูลดิบของพวกเขาและคนอื่น ๆ ทดสอบพวกเขาในส่วนที่เหลือ
ฉันเป็นนักศึกษาปริญญาเอกสาขาจิตวิทยาเชิงทดลองและฉันพยายามอย่างหนักเพื่อพัฒนาทักษะและความรู้เกี่ยวกับวิธีการวิเคราะห์ข้อมูลของฉัน จนกระทั่งปีที่ 5 ของฉันในด้านจิตวิทยาฉันคิดว่ารูปแบบการถดถอย (เช่น ANOVA) ถือว่าเป็นสิ่งต่อไปนี้: ความปกติของข้อมูล ความแปรปรวนเป็นเนื้อเดียวกันสำหรับข้อมูลและอื่น ๆ หลักสูตรระดับปริญญาตรีของฉันทำให้ฉันเชื่อว่าข้อสันนิษฐานนั้นเกี่ยวกับข้อมูล อย่างไรก็ตามในปีที่ 5 ผู้สอนของฉันบางคนขีดเส้นใต้ข้อเท็จจริงที่ว่าข้อสันนิษฐานนั้นเกี่ยวกับข้อผิดพลาด (ประมาณโดยค่าตกค้าง) และไม่ใช่ข้อมูลดิบ เมื่อเร็ว ๆ นี้ฉันกำลังพูดถึงคำถามสมมติฐานกับเพื่อนร่วมงานของฉันบางคนที่ยอมรับว่าพวกเขาค้นพบความสำคัญของการตรวจสอบสมมติฐานเกี่ยวกับส่วนที่เหลือเฉพาะในปีสุดท้ายของมหาวิทยาลัย ถ้าฉันเข้าใจดีโมเดลที่เหมือนการถดถอยจะทำให้ข้อสันนิษฐานผิดพลาด ดังนั้นจึงเหมาะสมที่จะตรวจสอบสมมติฐานเกี่ยวกับส่วนที่เหลือ ถ้าใช่ทำไมบางคนตรวจสอบสมมติฐานเกี่ยวกับข้อมูลดิบ? เป็นเพราะขั้นตอนการตรวจสอบดังกล่าวประมาณว่าเราจะได้อะไรจากการตรวจสอบสิ่งที่เหลืออยู่? ฉันจะขัดจังหวะด้วยความสงสัยเกี่ยวกับปัญหานี้กับบางคนที่มีความรู้ที่แม่นยำกว่าเพื่อนร่วมงานของฉันและฉันฉันขอขอบคุณล่วงหน้าสำหรับคำตอบของคุณ

2
ข้อสมมติฐานเชิงบรรทัดฐานอะไรบ้างที่จำเป็นสำหรับการทดสอบแบบไม่มีคู่ แล้วพวกเขาจะพบกันเมื่อไหร่?
หากเราต้องการทำการทดสอบแบบจับคู่ความต้องการคือ (ถ้าฉันเข้าใจอย่างถูกต้อง) ว่าความแตกต่างเฉลี่ยระหว่างหน่วยการวัดที่ตรงกันจะถูกกระจายตามปกติ ในการทดสอบ t-test แบบคู่ซึ่งเป็นข้อต่อ (AFAIK) ในความต้องการว่าความแตกต่างระหว่างหน่วยการวัดที่ตรงกันจะถูกกระจายตามปกติ (แม้ว่าการกระจายตัวของกลุ่มเปรียบเทียบทั้งสองกลุ่มจะไม่ปกติ) อย่างไรก็ตามในการทดสอบแบบไม่จับคู่เราไม่สามารถพูดคุยเกี่ยวกับความแตกต่างระหว่างหน่วยที่ตรงกันดังนั้นเราต้องการให้การสังเกตจากทั้งสองกลุ่มเป็นเรื่องปกติเพื่อให้ความแตกต่างของค่าเฉลี่ยของพวกเขาเป็นเรื่องปกติ ซึ่งทำให้ฉันคำถามของฉัน: เป็นไปได้หรือไม่สำหรับการแจกแจงแบบไม่ปกติสองแบบเพื่อให้ความแตกต่างของค่าเฉลี่ยถูกกระจายตามปกติ (และตอบสนองความต้องการที่จำเป็นของเราในการดำเนินการทดสอบ t ที่ไม่มีคู่กับพวกเขา - อีกครั้ง - เท่าที่ฉันเข้าใจ) อัปเดต: (ขอบคุณทุกคำตอบ) ฉันเห็นว่ากฎทั่วไปที่เรากำลังมองหาคือความแตกต่างของค่าเฉลี่ยจะเป็นเรื่องปกติซึ่งน่าจะเป็นข้อสันนิษฐานที่ดี (ต่ำกว่าพอ n) เนื่องจาก CLT นี่เป็นสิ่งที่น่าอัศจรรย์สำหรับฉัน (ไม่น่าแปลกใจเพียงแค่น่าอัศจรรย์) สำหรับวิธีการนี้สำหรับการทดสอบแบบไม่ใช้คู่ แต่ไม่ได้ผลสำหรับการทดสอบตัวอย่างแบบเดี่ยว นี่คือรหัส R เพื่อแสดง: n1 <- 10 n2 <- 10 mean1 <- 50 mean2 <- 50 R <- 10000 # diffs …

1
เงื่อนไข homoskedasticity เทียบกับ heteroskedasticity
จากเศรษฐมิติโดย Fumio Hayashi (Chpt 1): ไม่มีเงื่อนไข Homoskedasticity: ช่วงเวลาที่สองของข้อผิดพลาด E (εᵢ²) เป็นค่าคงที่ตลอดการสังเกต รูปแบบการทำงาน E (εᵢ² | xi) เป็นค่าคงที่ตลอดการสังเกต เงื่อนไข Homoskedasticity: ข้อ จำกัด ที่ช่วงเวลาที่สองของข้อผิดพลาด E (εᵢ²) เป็นค่าคงที่ตลอดการสังเกตถูกยกขึ้น ดังนั้นช่วงเวลาที่สองตามเงื่อนไข E (εᵢ² | xi) สามารถแตกต่างกันในการสังเกตผ่านการพึ่งพาที่เป็นไปได้ในxᵢ ดังนั้นคำถามของฉัน: เงื่อนไข Homoskedasticity แตกต่างจาก Heteroskedasticity อย่างไร ความเข้าใจของฉันคือว่ามี heteroskedasticity เมื่อช่วงเวลาที่สองแตกต่างจากการสังเกต (xᵢ)

1
อะไรคือดัชนีที่ดีของระดับของการละเมิดกฎเกณฑ์และฉลากที่สื่อความหมายสามารถแนบกับดัชนีนั้นได้?
บริบท: ในคำถามก่อนหน้านี้ @Robbie ถามในการศึกษามีประมาณ 600 กรณีว่าทำไมการทดสอบภาวะปกติอย่างมีนัยสำคัญปัญหาที่ไม่ปกติยังแปลงปัญหาการแจกแจงปกติ หลายคนระบุว่าการทดสอบความสำคัญของภาวะปกตินั้นไม่มีประโยชน์มากนัก ด้วยตัวอย่างขนาดเล็กการทดสอบดังกล่าวไม่มีอำนาจมากพอที่จะตรวจจับการละเมิดกฎเกณฑ์และตัวอย่างที่มีขนาดใหญ่พวกเขาจะตรวจพบการละเมิดกฎเกณฑ์ที่มีขนาดเล็กเพียงพอไม่ต้องกังวล สำหรับฉันแล้วดูเหมือนว่าปัญหานี้จะคล้ายกับการอภิปรายเกี่ยวกับการทดสอบที่สำคัญและขนาดผลกระทบ หากคุณมุ่งเน้นเฉพาะการทดสอบที่สำคัญเมื่อคุณมีกลุ่มตัวอย่างขนาดใหญ่คุณสามารถตรวจจับเอฟเฟ็กต์เล็ก ๆ ที่ไม่เกี่ยวข้องกับการใช้งานจริงและตัวอย่างขนาดเล็กคุณไม่มีพลังเพียงพอ ในบางกรณีที่ฉันเคยเห็นหนังสือแนะนำคนที่คุณสามารถมีตัวอย่าง "ใหญ่เกินไป" เพราะเอฟเฟกต์ขนาดเล็กจะมีความสำคัญทางสถิติ ในบริบทของการทดสอบอย่างมีนัยสำคัญและขนาดของเอฟเฟ็กต์การแก้ปัญหาอย่างง่ายอย่างหนึ่งคือการมุ่งเน้นไปที่การประเมินขนาดของเอฟเฟกต์ที่น่าสนใจแทนที่จะหมกมุ่นอยู่กับกฎการตัดสินใจแบบไบนารีว่ามีหรือไม่มีผล ช่วงความเชื่อมั่นที่มีต่อขนาดเอฟเฟกต์เป็นหนึ่งในวิธีการดังกล่าวหรือคุณสามารถใช้วิธีการแบบเบย์บางรูปแบบ ยิ่งไปกว่านั้นโดเมนงานวิจัยต่าง ๆ สร้างความคิดเกี่ยวกับขนาดของเอฟเฟกต์ที่กำหนดในทางปฏิบัติสำหรับดีขึ้นหรือแย่ลงการใช้ฮิวริสติกฉลากเช่น "เล็ก", "ปานกลาง" และ "เอฟเฟ็กต์ขนาดใหญ่" สิ่งนี้ยังนำไปสู่การแนะนำอย่างชาญฉลาดในการเพิ่มขนาดตัวอย่างเพื่อให้ได้ความแม่นยำสูงสุดในการประมาณค่าพารามิเตอร์ที่กำหนด นี่ทำให้ฉันสงสัยว่าทำไมวิธีการที่คล้ายกันโดยยึดตามช่วงความเชื่อมั่นของขนาดเอฟเฟกต์นั้นไม่ได้ดำเนินการอย่างกว้างขวางมากขึ้นในการทดสอบสมมติฐาน คำถาม: อะไรคือดัชนีเดี่ยวที่ดีที่สุดของระดับที่ข้อมูลละเมิดกฎเกณฑ์? หรือเป็นเรื่องที่ดีกว่าถ้าพูดถึงดัชนีการฝ่าฝืนกฎเกณฑ์หลาย ๆ อย่าง (เช่นความเบ้, เคิร์ตซีส, ความแพร่หลายในค่าผิดปกติ) จะคำนวณช่วงความมั่นใจได้อย่างไร (หรืออาจใช้วิธีการแบบเบย์) สำหรับดัชนี? คุณสามารถกำหนดป้ายกำกับด้วยวาจาแบบใดให้กับดัชนีนั้นเพื่อระบุระดับของการละเมิดกฎเกณฑ์ (เช่นอ่อนปานกลางปานกลางแข็งแรงมาก ฯลฯ ) จุดประสงค์ของฉลากดังกล่าวอาจช่วยนักวิเคราะห์ที่มีประสบการณ์น้อยลงในการฝึกอบรมสัญชาตญาณว่าการละเมิดกฎเกณฑ์เป็นปัญหาหรือไม่

3
อะไรคือสมมติฐานของการวิเคราะห์ปัจจัย?
ฉันต้องการตรวจสอบว่าฉันเข้าใจการวิเคราะห์ตัวประกอบ [คลาสสิคเชิงเส้น] (FA) โดยเฉพาะอย่างยิ่งสมมติฐานที่สร้างขึ้นก่อนหน้านี้ (และหลังจากนั้น) FA ข้อมูลบางส่วนควรมีความสัมพันธ์เริ่มแรกและมีความสัมพันธ์เชิงเส้นที่เป็นไปได้ระหว่างกัน หลังจากทำการวิเคราะห์ปัจจัยข้อมูลจะถูกกระจายตามปกติ (การกระจายตัวแบบ bivariate สำหรับแต่ละคู่) และไม่มีความสัมพันธ์ระหว่างปัจจัย (ทั่วไปและจำเพาะ) และไม่มีความสัมพันธ์ระหว่างตัวแปรจากปัจจัยหนึ่งและตัวแปรจากปัจจัยอื่น ๆ ถูกต้องหรือไม่

1
R / mgcv: เพราะเหตุใดผลิตภัณฑ์ te () และ ti () เทนเซอร์จึงให้พื้นผิวที่แตกต่างกัน
mgcvแพคเกจสำหรับการRมีสองฟังก์ชั่นสำหรับการปฏิสัมพันธ์กระชับเมตริกซ์ผลิตภัณฑ์: และte() ti()ฉันเข้าใจการแบ่งขั้นพื้นฐานของการใช้แรงงานระหว่างคนทั้งสอง (ปรับให้เหมาะสมกับการทำงานแบบไม่เป็นเชิงเส้นเปรียบเทียบกับการย่อยสลายการโต้ตอบนี้เป็นผลกระทบหลักและการโต้ตอบ) สิ่งที่ฉันไม่เข้าใจคือสาเหตุte(x1, x2)และti(x1) + ti(x2) + ti(x1, x2)อาจให้ผลลัพธ์ที่แตกต่าง (เล็กน้อย) MWE (ดัดแปลงมาจาก?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

1
สมมติฐานปกติในการถดถอยเชิงเส้น
ในฐานะที่เป็นข้อสันนิษฐานของการถดถอยเชิงเส้นปกติของการกระจายของข้อผิดพลาดบางครั้งก็ผิด "ขยาย" หรือตีความว่าเป็นความจำเป็นสำหรับความปกติของ y หรือ x เป็นไปได้หรือไม่ที่จะสร้างสถานการณ์ / ชุดข้อมูลที่ที่ X และ Y ไม่ได้เป็นแบบปกติ แต่มีข้อผิดพลาดเกิดขึ้นดังนั้นค่าประมาณการถดถอยเชิงเส้นที่ได้รับจึงถูกต้อง?

3
สมมติฐานเชิงเส้นตรงในการถดถอยเชิงเส้นเป็นเพียงนิยามของหรือไม่?
ฉันกำลังแก้ไขการถดถอยเชิงเส้น หนังสือเรียนของ Greene กล่าวว่า: ตอนนี้แน่นอนจะมีสมมติฐานอื่น ๆ ในรูปแบบการถดถอยเชิงเส้นเช่น 0 สมมติฐานนี้รวมกับข้อสมมติเชิงเส้นตรง (ซึ่งมีผลบังคับใช้กำหนด ) วางโครงสร้างบนแบบจำลองϵE(ϵ|X)=0E(ϵ|X)=0E(\epsilon|X)=0ϵϵ\epsilon อย่างไรก็ตามการวางตัวเป็นเส้นตรงด้วยตัวมันเองไม่ได้วางโครงสร้างใด ๆ ไว้ในแบบจำลองของเราเนื่องจากสามารถทำได้โดยพลการอย่างสมบูรณ์ สำหรับตัวแปรใด ๆไม่ว่าอะไรก็ตามความสัมพันธ์ระหว่างเราสองคนนั้นสามารถกำหนดเช่นนั้นเพื่อให้สมมติฐานเชิงเส้นตรง ดังนั้นความเป็นเส้นตรง "สมมติฐาน" ควรเรียกว่านิยามของๆ แทนที่จะเป็นข้อสมมติX , y ϵ ϵϵϵ\epsilonX,yX,yX, yϵϵ\epsilonϵϵ\epsilon ดังนั้นฉันสงสัย : กรีนเป็นคนเลอะเทอะหรือเปล่า? จริง ๆ แล้วเขาควรจะเขียน: ? นี่คือ "สมมติฐานเชิงเส้นตรง" ที่วางโครงสร้างในแบบจำลองE(y|X)=XβE(y|X)=XβE(y|X)=X\beta หรือฉันต้องยอมรับว่าการวางตัวเป็นเส้นตรงไม่ได้วางโครงสร้างลงบนแบบจำลอง แต่จะกำหนดเท่านั้นโดยที่สมมติฐานอื่น ๆ จะใช้นิยามของเพื่อวางโครงสร้างบนแบบจำลองϵϵϵ\epsilonϵϵ\epsilon แก้ไข : เนื่องจากมีความสับสนรอบสมมติฐานอื่นให้ฉันเพิ่มชุดเต็มของสมมติฐานที่นี่: นี่คือจากกรีน, การวิเคราะห์ทางเศรษฐมิติ, 7 เอ็ด พี 16

2
การถดถอย: ทำไมการทดสอบภาวะปกติของเศษโดยรวมแทนที่จะเหลือเงื่อนไขใน
ฉันเข้าใจว่าในการถดถอยเชิงเส้นข้อผิดพลาดจะถูกกระจายโดยปกติเงื่อนไขตามค่าที่ทำนายของ y จากนั้นเราดูที่เหลือเป็นพร็อกซีสำหรับข้อผิดพลาด มันมักจะแนะนำให้สร้างผลลัพธ์เช่นนี้ อย่างไรก็ตามฉันไม่เข้าใจว่าจุดใดที่ได้รับส่วนที่เหลือของแต่ละจุดข้อมูลและทำการบดเข้าด้วยกันในพล็อตเดียว ฉันเข้าใจว่าเราไม่น่าจะมีจุดข้อมูลเพียงพอที่จะประเมินว่าเรามีค่าคงที่ปกติตามค่าที่ทำนายไว้ของ y หรือไม่ อย่างไรก็ตามไม่ใช่คำถามว่าเรามีสารตกค้างตามปกติโดยรวมแยกจากกันหรือไม่และเป็นสิ่งที่ไม่เกี่ยวข้องอย่างชัดเจนกับสมมติฐานแบบจำลองของค่าคงที่ปกติที่แต่ละค่าคาดการณ์ของ y เราไม่สามารถมีค่าคงที่ปกติในแต่ละค่าที่คาดการณ์ของ y ในขณะที่มีค่าคงที่โดยรวมที่ค่อนข้างไม่ปกติ

1
เหตุใดข้อผิดพลาดที่ไม่ได้กระจายทั่วไปทำให้ความถูกต้องของข้อความสำคัญของเราไม่เป็นจริง
มีการสันนิษฐานว่าเป็นเรื่องปกติเมื่อพิจารณารูปแบบของ OLS และนั่นคือข้อผิดพลาดที่ได้รับการกระจายตามปกติ ฉันเรียกดูผ่านการตรวจสอบข้ามและดูเหมือนว่า Y และ X ไม่จำเป็นต้องเป็นปกติเพื่อให้ข้อผิดพลาดเป็นปกติ คำถามของฉันคือสาเหตุที่เมื่อเรามีข้อผิดพลาดที่ไม่ได้กระจายทั่วไปความถูกต้องของข้อความสำคัญของเราถูกบุกรุก ทำไมช่วงความมั่นใจจะกว้างหรือแคบเกินไป

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.