คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

4
เหตุใดจึงต้องใช้ตัวแปรควบคุมในส่วนที่แตกต่าง
ฉันมีคำถามเกี่ยวกับวิธีแยกความแตกต่างด้วยสมการมาตรฐานต่อไปนี้: โดยที่ treat เป็นตัวแปรจำลองสำหรับกลุ่มและโพสต์ที่ได้รับการรักษา y=a+b1treat+b2post+b3treat⋅post+uy=a+b1treat+b2post+b3treat⋅post+u y= a + b_1\text{treat}+ b_2\text{post} + b_3\text{treat}\cdot\text{post} + u ตอนนี้คำถามของฉันง่าย: ทำไมกระดาษส่วนใหญ่ยังคงใช้ตัวแปรควบคุมเพิ่มเติม? ฉันคิดว่าหากการคาดการณ์แนวโน้มแบบขนานนั้นถูกต้องเราไม่ควรกังวลเกี่ยวกับการควบคุมเพิ่มเติม ฉันคิดเพียง 2 เหตุผลที่เป็นไปได้ว่าทำไมถึงใช้ตัวแปรควบคุม: หากไม่มีพวกเขาแนวโน้มจะไม่ขนานกัน เนื่องจากสเปค DnD นั้นมีความแตกต่างในแนวโน้มระหว่างกลุ่มการรักษาและกลุ่มควบคุม ณ เวลาที่ทำการรักษากับการแทรกแซง (เช่นคำศัพท์ที่ปฏิบัติต่อการรักษา * โพสต์) - เมื่อเราไม่ได้ควบคุมตัวแปรอื่น ๆ สัมประสิทธิ์ของการโต้ตอบอาจจบลง - / understated มีใครบ้างไหมที่ให้ความกระจ่างเกี่ยวกับปัญหานี้ เหตุผลของฉัน 1) หรือ 2) สมเหตุสมผลไหม? ฉันไม่เข้าใจการใช้ตัวแปรควบคุมใน DnD อย่างสมบูรณ์

2
วิธีที่ดีที่สุดในการรวมการตอบสนองแบบไบนารีและแบบต่อเนื่อง
ฉันกำลังพยายามหาวิธีที่ดีที่สุดในการทำนายจำนวนเงินที่ชำระสำหรับ บริษัท ตัวแทนเรียกเก็บเงิน ตัวแปรตามไม่ได้เป็นศูนย์เฉพาะเมื่อมีการชำระเงินแล้ว เป็นที่เข้าใจกันดีว่ามีจำนวนศูนย์เป็นจำนวนมากเพราะคนส่วนใหญ่ไม่สามารถเข้าถึงหรือไม่สามารถชำระหนี้คืนได้ นอกจากนี้ยังมีความสัมพันธ์เชิงลบที่แข็งแกร่งมากระหว่างจำนวนหนี้และความน่าจะเป็นในการชำระเงิน โดยปกติแล้วฉันจะสร้างแบบจำลองโลจิสติกส์เพื่อทำนายความน่าจะเป็นของการจ่าย / ไม่จ่ายเงิน แต่สิ่งนี้มีผลลัพธ์ที่โชคร้ายในการค้นหาคนที่มียอดคงเหลือต่ำสุด มีวิธีรวมรูปแบบการจ่าย / การจ่ายที่ไม่ใช่โลจิสติกเข้ากับแบบจำลองแยกที่ทำนายจำนวนเงินที่ชำระหรือไม่

1
การติดตามของ Pillai มีลักษณะทั่วไปและการติดตามของ Hotelling-Lawley หรือไม่
ในการตั้งค่าการถดถอยหลายตัวแปรหลายตัวแปร (vector regressor และ regressand) การทดสอบหลักสี่แบบสำหรับสมมติฐานทั่วไป (Wilk's Lambda, Pillai-Bartlett, Hotelling-Lawley และรูตที่ใหญ่ที่สุดของ Roy) ทั้งหมดขึ้นอยู่กับค่าลักษณะเฉพาะของเมทริกซ์ , โดยที่และคือเมทริกซ์รูปแบบ 'อธิบาย' และ 'รวม'HE−1HE−1H E^{-1}HHHEEE ฉันสังเกตเห็นว่าสถิติของ Pillai และ Hotelling-Lawley สามารถแสดงเป็น สำหรับตามลำดับ0 ฉันกำลังมองหาที่แอพลิเคชันที่กระจายของร่องรอยนี้, ที่กำหนดไว้สำหรับ analogues ประชากรของและเป็นที่น่าสนใจสำหรับกรณี (ข้อผิดพลาดแบบโมดูโลในการทำงานของฉัน) ฉันอยากรู้ว่ามีการรวมกันของสถิติตัวอย่างสำหรับทั่วไปหรือการวางนัยทั่วไปอื่น ๆ ที่รวบรวมการทดสอบแบบดั้งเดิมสองรายการหรือมากกว่านั้น ฉันรู้ว่าไม่เท่ากับหรือψκ=Tr(H[κH+E]−1),ψκ=Tr(H[κH+E]−1),\psi_{\kappa} = \mbox{Tr}\left(H\left[\kappa H + E\right]^{-1}\right),κ=1,0κ=1,0\kappa = 1, 0HHHEEEκ κ 0 1κ=2κ=2\kappa = 2κκ\kappaκκ\kappa000111ตัวเศษดูเหมือน Chi-square ภายใต้ null …

2
regularization
มีหลายวิธีในการดำเนินการทำให้เป็นมาตรฐาน - L0L0L_0, L1L1L_1และ L2L2L_2บรรทัดฐานตามบรรทัดฐานเช่น ตามFriedman Hastie & Tibsharani , regularizer ที่ดีที่สุดขึ้นอยู่กับปัญหา: คือธรรมชาติของฟังก์ชั่นเป้าหมายที่แท้จริง, พื้นฐานที่ใช้เฉพาะ, อัตราส่วนสัญญาณต่อเสียงรบกวน, และขนาดตัวอย่าง มีการวิจัยเชิงประจักษ์เปรียบเทียบวิธีการและประสิทธิภาพของวิธีการทำให้เป็นมาตรฐานแบบต่างๆหรือไม่?

1
การถดถอยกับข้อผิดพลาดของนักเรียนไร้ประโยชน์หรือไม่?
โปรดดูการแก้ไข เมื่อคุณมีข้อมูลที่มีก้อยมากการทำถดถอยด้วยความผิดพลาดของนักเรียนดูเหมือนจะเป็นสิ่งที่ใช้งานง่าย ขณะสำรวจความเป็นไปได้นี้ฉันพบบทความนี้: Breusch, TS, Robertson, JC, & Welsh, AH (1 พฤศจิกายน 1997) เสื้อผ้าใหม่ของจักรพรรดิ: บทวิจารณ์ของรูปแบบการถดถอยหลายตัวแปร Statistica Neerlandica, 51, 3. ) ( ลิงก์ , pdf ) ซึ่งระบุว่าพารามิเตอร์ scale และ degree of freedom ไม่สามารถระบุได้ด้วยความเคารพซึ่งกันและกันในบางแง่มุมและเนื่องจากการทำแบบถดถอยด้วยข้อผิดพลาด t ไม่ได้ทำอะไรมากไปกว่าการถดถอยเชิงเส้นมาตรฐาน Zellner (1976) เสนอรูปแบบการถดถอยซึ่งเวกเตอร์ข้อมูล (หรือเวกเตอร์ข้อผิดพลาด) ถูกแทนด้วยการรับรู้จากการแจกแจงของนักเรียนหลายตัวแปร รุ่นนี้ได้รับความสนใจเป็นอย่างมากเพราะดูเหมือนว่าจะขยายข้อสันนิษฐานแบบเกาส์เซียนแบบทั่วไปเพื่อให้มีการแจกแจงข้อผิดพลาดที่หนักกว่า จำนวนของผลลัพธ์ในเอกสารระบุว่าขั้นตอนการอนุมานมาตรฐานสำหรับแบบเกาส์เซียนยังคงเหมาะสมภายใต้สมมติฐานการกระจายแบบกว้างกว่าซึ่งนำไปสู่การเรียกร้องความทนทานของวิธีมาตรฐาน เราแสดงให้เห็นว่าแม้ว่าทั้งสองแบบจำลองทางคณิตศาสตร์จะมีความแตกต่างกัน แต่เพื่อจุดประสงค์ในการอนุมานเชิงสถิติพวกมันแยกไม่ออก ความหมายเชิงประจักษ์ของแบบจำลองหลายตัวแปร t นั้นเหมือนกับแบบจำลองแบบเกาส์เซียนอย่างแม่นยำ ดังนั้นข้อเสนอแนะของการแสดงข้อมูลที่กว้างกว่านั้นจึงเป็นการหลอกลวงและการเรียกร้องความแข็งแกร่งนั้นทำให้เข้าใจผิด บทสรุปเหล่านี้สามารถเข้าถึงได้จากมุมมองทั้งแบบประจำและแบบเบย์ เรื่องนี้ทำให้ฉันประหลาดใจ ฉันไม่มีความซับซ้อนทางคณิตศาสตร์ในการประเมินข้อโต้แย้งของพวกเขาดีดังนั้นฉันจึงมีคำถามสองสามข้อ: …

3
ส่วนที่เหลือสำหรับการถดถอยโลจิสติกและระยะทางของคุก
มีข้อสมมติฐานเฉพาะใด ๆ เกี่ยวกับข้อผิดพลาดของการถดถอยโลจิสติกหรือไม่เช่นความแปรปรวนคงที่ของข้อผิดพลาดและค่าปกติของส่วนที่เหลือ? นอกจากนี้โดยทั่วไปเมื่อคุณมีคะแนนที่มีระยะทางของ Cook มากกว่า 4 / n คุณจะลบออกไหม หากคุณลบออกคุณจะทราบได้อย่างไรว่ารุ่นที่มีจุดลบนั้นดีกว่า

2
ความเสถียรของโมเดลในการตรวจสอบความถูกต้องของโมเดลการถดถอย
เมื่อพิจารณาถึงการข้ามการตรวจสอบหลายครั้งของการถดถอยโลจิสติกส์และการประมาณค่าหลาย ๆ ค่าของสัมประสิทธิ์การถดถอยแต่ละวิธีควรวัดว่าตัวทำนาย (หรือชุดของผู้ทำนาย) มีเสถียรภาพและมีความหมายหรือไม่ขึ้นอยู่กับสัมประสิทธิ์การถดถอย ? สิ่งนี้แตกต่างสำหรับการถดถอยเชิงเส้นหรือไม่?

2
วิธีการเลือกการแปลงที่ดีที่สุดเพื่อให้เป็นเส้นตรง?
ฉันต้องการทำการถดถอยเชิงเส้นหลายครั้งและจากนั้นเพื่อทำนายค่าใหม่ด้วยการประมาณค่าเล็กน้อย ฉันมีตัวแปรตอบสนองของฉันอยู่ในช่วงตั้งแต่ -2 ถึง +7 และตัวทำนายสามตัว (ช่วงประมาณ +10 - +200) การกระจายเกือบปกติ แต่ความสัมพันธ์ระหว่างการตอบสนองและตัวทำนายนั้นไม่ใช่เชิงเส้นฉันเห็นเส้นโค้งบนแปลง ตัวอย่างเช่นนี้: http://cs10418.userapi.com/u17020874/153949434/x_9898cf38.jpg ฉันต้องการใช้การแปลงเพื่อให้เป็นเชิงเส้น ฉันพยายามเปลี่ยนตัวแปรการตอบสนองโดยการตรวจสอบฟังก์ชั่นต่าง ๆ และดูที่แปลงผลลัพธ์เพื่อดูความสัมพันธ์เชิงเส้นระหว่างการตอบสนองและตัวทำนาย และฉันพบว่ามีฟังก์ชั่นมากมายที่สามารถให้ความสัมพันธ์เชิงเส้นที่มองเห็นได้กับฉัน ตัวอย่างเช่นฟังก์ชั่น t1=log(y+2.5)t1=log⁡(y+2.5)t_1=\log(y+2.5) t2=1log(y+5)t2=1log⁡(y+5)t_2=\frac{1}{\log(y+5)} t3=1y+5t3=1y+5t_3=\frac{1}{y+5} t4=1(y+10)3t4=1(y+10)3t_4=\frac{1}{(y+10)^3} t5=1(y+3)13t5=1(y+3)13t_5=\frac{1}{(y+3)^\frac{1}{3}}ฯลฯ ให้ผลลัพธ์ที่คล้ายกัน: http://cs10418.userapi.com/u17020874/153949434/x_06f13dbf.jpg หลังจากที่ฉันจะแปลงกลับค่าที่ทำนายไว้ (สำหรับเป็นเป็นต้น) การแจกแจงจะคล้ายกันมากหรือน้อยกว่าปกติt=1(y+10)3t=1(y+10)3t=\frac{1}{(y+10)^3}y′=1t13−10y′=1t13−10y’=\frac{1}{t^\frac{1}{3}}-10 ฉันจะเลือกการแปลงที่ดีที่สุดสำหรับข้อมูลของฉันได้อย่างไร มีวิธีเชิงปริมาณ (และไม่ซับซ้อนมาก) ในการประเมินความเป็นเชิงเส้นหรือไม่? เพื่อพิสูจน์ว่าการแปลงที่เลือกนั้นดีที่สุดหรือค้นหาโดยอัตโนมัติหากเป็นไปได้ หรือวิธีเดียวที่จะทำได้คือการถดถอยแบบหลายเส้นที่ไม่เป็นเชิงเส้น?

3
โมเดลเชิงเส้น Heteroscedasticity
ฉันมีโมเดลเชิงเส้นต่อไปนี้: เพื่อแก้ไขปัญหาความแตกต่างแบบตกค้างฉันพยายามใช้การแปลงบันทึกกับตัวแปรตามเป็นแต่ฉันยังคงเห็นแฟน ๆ มีผลต่อส่วนที่เหลือ ค่า DV มีขนาดค่อนข้างเล็กดังนั้นการเพิ่มค่าคงที่ +1 ก่อนที่จะบันทึกอาจไม่เหมาะสมในกรณีนี้log(Y+1)log⁡(Y+1)\log(Y + 1) > summary(Y) Min. :-0.0005647 1st Qu.: 0.0001066 Median : 0.0003060 Mean : 0.0004617 3rd Qu.: 0.0006333 Max. : 0.0105730 NA's :30.0000000 ฉันจะแปลงตัวแปรเพื่อปรับปรุงข้อผิดพลาดการทำนายและความแปรปรวนได้อย่างไรโดยเฉพาะอย่างยิ่งสำหรับค่าที่เหมาะสมที่สุด

2
วิธีการดำเนินการถดถอยแบบเกาส์กระบวนการเมื่อฟังก์ชั่นการเปลี่ยนแปลงประมาณเมื่อเวลาผ่านไป?
อะไรคือกลยุทธ์ที่ดีสำหรับการดำเนินการถดถอยแบบเกาส์เมื่อฟังก์ชั่นที่ฉันพยายามประมาณการเปลี่ยนแปลงอยู่ตลอดเวลา? วิธีการไร้เดียงสาที่เกิดขึ้นในใจของฉันคือใช้เฉพาะจุดข้อมูลล่าสุด N เพื่อทำการถดถอย กลยุทธ์ที่ดีกว่าคืออะไร

3
เหตุใดจึงมีค่า R ^ 2 (และสิ่งที่กำหนดไว้) เมื่อ lm ไม่มีความแปรปรวนในค่าที่คาดการณ์
พิจารณารหัส R ต่อไปนี้: example <- function(n) { X <- 1:n Y <- rep(1,n) return(lm(Y~X)) } #(2.13.0, i386-pc-mingw32) summary(example(7)) #R^2 = .1963 summary(example(62)) #R^2 = .4529 summary(example(4540)) #R^2 = .7832 summary(example(104))) #R^2 = 0 #I did a search for n 6:10000, the result for R^2 is NaN for #n = 2, …
10 r  regression 

4
วิธีการตีความสัมประสิทธิ์การแปลงลอการิทึมในการถดถอยเชิงเส้น?
สถานการณ์ของฉันคือ ฉันมีตัวแปรพึ่งพาอย่างต่อเนื่อง 1 ตัวและตัวแปรทำนายต่อเนื่อง 1 ตัวที่ฉันเปลี่ยนลอการิทึมเพื่อทำให้ปกติเหลืออยู่สำหรับการถดถอยเชิงเส้นอย่างง่าย ฉันขอขอบคุณความช่วยเหลือใด ๆ เกี่ยวกับวิธีที่ฉันสามารถเชื่อมโยงตัวแปรที่แปลงสภาพเหล่านี้กับบริบทดั้งเดิมของพวกเขา ฉันต้องการใช้การถดถอยเชิงเส้นเพื่อทำนายจำนวนวันที่นักเรียนพลาดโรงเรียนในปี 2011 ตามจำนวนวันที่พวกเขาพลาดในปี 2010 นักเรียนส่วนใหญ่พลาด 0 วันหรือเพียงไม่กี่วันข้อมูลจะเอียงไปทางซ้าย ดังนั้นจึงจำเป็นต้องมีการแปลงสภาพเพื่อใช้การถดถอยเชิงเส้น ฉันใช้ log10 (var + 1) สำหรับทั้งสองตัวแปร (ฉันใช้ +1 สำหรับนักเรียนที่ไม่ได้เรียน 0 วัน) ฉันกำลังใช้การถดถอยเพราะฉันต้องการเพิ่มในปัจจัยการจัดหมวดหมู่ - เพศ / เชื้อชาติ ฯลฯ ปัญหาของฉันคือ: ผู้ชมที่ฉันต้องการย้อนกลับไปจะไม่เข้าใจ log10 (y) = log (ค่าคงที่) + บันทึก (var2) x (และตรงไปตรงมาไม่ทำฉัน) คำถามของฉันคือ: a) มีวิธีที่ดีกว่าในการตีความตัวแปรที่ถูกแปลงในการถดถอยหรือไม่? เช่นเคยพลาด …

4
LaTeX เอาท์พุตสำหรับวัตถุ summary.lm ของ R - ในขณะที่แสดงข้อมูลนอกตาราง [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน3 ปีที่ผ่านมา ดูเหมือนว่าฉันจะเป็นแบบพื้นฐาน แต่ฉันไม่สามารถหาวิธีแก้ปัญหาออนไลน์ได้ดังนั้นฉันจึงสงสัยว่าจะพลาดอะไรบ้าง ฉันต้องการรวมเอาท์พุทของวัตถุสรุป lm ภายในเอกสาร Sweave (.Rnw) ฉันสามารถส่งออกสรุป. lm ตามที่เป็นอยู่หรือใช้แพ็คเกจ xtable / Hmisc (ผ่านคำสั่ง xtable หรือลาเท็กซ์) มีบางอย่างเช่น xtable ที่ให้ข้อมูลสรุปที่มีให้จากนอกตารางหรือไม่ ( , F สถิติ ฯลฯ ... ?)R2R2R^2
10 r  regression 

2
เมื่อใดจึงจะใช้การกระจายของนักเรียนหรือปกติในการถดถอยเชิงเส้น
ฉันกำลังดูปัญหาและในการทดสอบสัมประสิทธิ์บางครั้งฉันเห็นคนที่ใช้การแจกแจงของนักเรียนและบางครั้งฉันเห็นการแจกแจงแบบปกติ กฎคืออะไร?


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.