คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

3
ประโยชน์ของทฤษฎีบท Frisch-Waugh
ฉันควรจะสอนทฤษฎีบท Frish Waugh ในสาขาเศรษฐศาสตร์ซึ่งฉันไม่ได้ศึกษา ฉันเข้าใจคณิตศาสตร์ที่อยู่ข้างหลังและฉันก็หวังว่าความคิดนี้เช่นกัน "ค่าสัมประสิทธิ์ที่คุณได้รับสำหรับค่าสัมประสิทธิ์เฉพาะจากแบบจำลองเชิงเส้นหลายเส้นนั้นเท่ากับสัมประสิทธิ์ของตัวแบบการถดถอยอย่างง่ายถ้าคุณ" กำจัด "อิทธิพลของตัวถดถอยอื่น ๆ ดังนั้นแนวคิดทางทฤษฎีจึงเจ๋งมาก (ถ้าฉันเข้าใจผิดโดยสิ้นเชิงฉันยินดีต้อนรับการแก้ไข) แต่มันมีประเพณีดั้งเดิม / การปฏิบัติบางอย่าง? แก้ไข : ฉันยอมรับคำตอบแล้ว แต่ยังยินดีที่จะมีคำตอบใหม่ที่นำตัวอย่าง / แอปพลิเคชันอื่นมาใช้

1
การแปลง betas ที่ได้มาตรฐานกลับไปเป็นตัวแปรดั้งเดิม
ฉันรู้ว่านี่อาจเป็นคำถามง่าย ๆ แต่หลังจากค้นหาฉันไม่พบคำตอบที่ฉันค้นหา ฉันมีปัญหาที่ฉันจำเป็นต้องสร้างมาตรฐานให้กับตัวแปรที่เรียกใช้ (การถดถอยริดจ์) เพื่อคำนวณค่าประมาณสันเขาของเบต้า ฉันต้องแปลงกลับไปเป็นขนาดดั้งเดิม แต่ฉันจะทำสิ่งนี้ได้อย่างไร ฉันพบสูตรสำหรับกรณีที่มีการแปรสภาพนั้น β∗=β^SxSy.β∗=β^SxSy. \beta^* = \hat\beta \frac{S_x}{S_y} \>. สิ่งนี้ได้รับใน D. Gujarati เศรษฐมิติพื้นฐานหน้า 175 สูตร (6.3.8) โดยที่เป็นตัวประมาณจากการถดถอยที่ทำงานบนตัวแปรมาตรฐานและเป็นตัวประมาณเดียวกันที่แปลงกลับไปเป็นมาตราส่วนดั้งเดิมคือค่าเบี่ยงเบนมาตรฐานตัวอย่างของรีจีสเตอร์และคือค่าเบี่ยงเบนมาตรฐานตัวอย่างβ∗β∗\beta^*β^β^\hat\betaSySyS_ySxSxS_x น่าเสียดายที่หนังสือเล่มนี้ไม่ครอบคลุมผลลัพธ์ที่คล้ายคลึงกันสำหรับการถดถอยหลายครั้ง นอกจากนี้ฉันไม่แน่ใจว่าฉันเข้าใจคดี bivariate หรือไม่ การปรับพีชคณิตอย่างง่ายให้สูตรในระดับเดิม:β^β^\hat\beta β^=β∗SySxβ^=β∗SySx \hat\beta=\beta^* \frac{S_y}{S_x} ดูเหมือนว่าแปลกสำหรับฉันที่ที่คำนวณกับตัวแปรที่ได้รับการยุบแล้วจะต้องมีการยุบโดยอีกครั้งเพื่อที่จะถูกแปลงกลับ? (และทำไมค่าเฉลี่ยไม่ถูกเพิ่มเข้ามา)β^β^\hat\betaSxSxS_xSxSxS_x ดังนั้นใครบางคนสามารถอธิบายวิธีการทำเช่นนี้สำหรับกรณีหลายตัวแปรโดยมีแหล่งที่มาเพื่อให้ฉันเข้าใจผลลัพธ์

2
ฟังก์ชั่นที่มีอิทธิพลและ OLS
ฉันพยายามที่จะเข้าใจว่าการทำงานของฟังก์ชั่นมีอิทธิพลอย่างไร มีคนอธิบายได้ในบริบทของการถดถอย OLS แบบง่าย ๆ yi=α+β⋅xi+εiyi=α+β⋅xi+εi\begin{equation} y_i = \alpha + \beta \cdot x_i + \varepsilon_i \end{equation} ที่ฉันต้องการฟังก์ชั่นที่มีอิทธิพลสำหรับ\ββ\beta

5
ฉันจะคำนวณได้อย่างไรว่าการถดถอยเชิงเส้นของฉันมีความแตกต่างอย่างมีนัยสำคัญทางสถิติจากเส้นทฤษฎีที่รู้จักหรือไม่?
ฉันมีข้อมูลบางอย่างที่พอดีกับเส้นตรง ๆ : เมื่อฉันทำการถดถอยเชิงเส้นของค่าเหล่านี้ฉันจะได้สมการเชิงเส้น: y=0.997x−0.0136y=0.997x−0.0136y = 0.997x-0.0136 ในโลกที่เหมาะสมการควรจะมีxy=xy=xy = x เห็นได้ชัดว่าค่าเชิงเส้นของฉันใกล้เคียงกับอุดมคตินั้น แต่ไม่แน่นอน คำถามของฉันคือฉันจะทราบได้อย่างไรว่าผลลัพธ์นี้มีนัยสำคัญทางสถิติหรือไม่ ค่า 0.997 แตกต่างอย่างมีนัยสำคัญจาก 1 หรือไม่? -0.01 แตกต่างอย่างมีนัยสำคัญจาก 0 หรือไม่ หรือว่าเป็นสถิติเดียวกันและฉันสามารถสรุปได้ว่าด้วยระดับความเชื่อมั่นที่สมเหตุสมผลหรือไม่?y=xy=xy=x การทดสอบทางสถิติที่ดีที่ฉันสามารถใช้ได้คืออะไร ขอบคุณ

5
เหตุใดการถดถอยเชิงเส้นจึงใช้ฟังก์ชันต้นทุนตามระยะทางแนวดิ่งระหว่างสมมติฐานและจุดข้อมูลอินพุต
สมมติว่าเรามีจุดข้อมูลอินพุต (ตัวทำนายผล) และเอาต์พุต (ตอบกลับ) A, B, C, D, E และเราต้องการให้เส้นตรงผ่านจุดต่างๆ นี่เป็นปัญหาง่าย ๆ ในการอธิบายคำถาม แต่สามารถขยายไปยังมิติที่สูงขึ้นได้เช่นกัน คำชี้แจงปัญหา แบบที่ดีที่สุดในปัจจุบันหรือสมมติฐานจะถูกแสดงด้วยเส้นสีดำด้านบน ลูกศรสีน้ำเงิน ( →→\color{blue}\rightarrow ) แสดงระยะทางแนวตั้งระหว่างจุดข้อมูลกับจุดที่เหมาะสมที่สุดในปัจจุบันโดยการวาดเส้นแนวตั้งจากจุดจนถึงจุดตัดกับเส้น ลูกศรสีเขียว ( ) ถูกวาดเช่นนั้นในแนวตั้งฉากกับสมมติฐานปัจจุบันที่จุดตัดดังนั้นจึงแสดงระยะห่างน้อยที่สุดระหว่างจุดข้อมูลและสมมติฐานปัจจุบัน สำหรับจุด A และ B เส้นที่ลากขึ้นมานั้นจะเป็นแนวตั้งกับการคาดเดาที่ดีที่สุดในปัจจุบันและคล้ายกับเส้นที่แนวตั้งกับแกน x สำหรับจุดสองจุดนี้เส้นสีฟ้าและสีเขียวทับซ้อนกัน แต่ไม่ใช้สำหรับจุด C, D และ E→→\color{green}\rightarrow หลักการกำลังสองน้อยสุดกำหนดฟังก์ชันต้นทุนสำหรับการถดถอยเชิงเส้นโดยการลากเส้นแนวตั้งผ่านจุดข้อมูล (A, B, C, D หรือ E) ไปยังสมมติฐานที่คาดการณ์ ( ) ในรอบการฝึกอบรมที่กำหนดและแสดงด้วย→→\color{blue}\rightarrow CostFunction=∑Ni=1(yi−hθ(xi))2CostFunction=∑i=1N(yi−hθ(xi))2Cost Function …

5
การถดถอยเชิงเส้นมีความหมายทางสถิติอย่างไร แต่มีค่า r กำลังสองต่ำมาก
ฉันเข้าใจว่าหมายความว่าแบบจำลองนั้นไม่ดีในการทำนายจุดข้อมูลแต่ละจุด แต่ได้สร้างแนวโน้มที่มั่นคง (เช่น y ขึ้นไปเมื่อ x เพิ่มขึ้น)

2
เหตุใดการถดถอยเชิงเส้นจึงมีข้อสันนิษฐานเกี่ยวกับส่วนที่เหลือ แต่แบบจำลองเชิงเส้นทั่วไปมีสมมติฐานในการตอบสนอง
ทำไมการถดถอยเชิงเส้นและโมเดลทั่วไปจึงมีสมมติฐานที่ไม่สอดคล้องกัน? ในการถดถอยเชิงเส้นเราถือว่าส่วนที่เหลือมาจาก Gaussian ในการถดถอยอื่น ๆ (การถดถอยโลจิสติกส์การถดถอยพิษ) เราคิดว่าการตอบสนองนั้นมาจากการแจกแจงบางส่วน (ทวินามการเป็นพิษ ฯลฯ ) เหตุใดบางครั้งจึงถือว่าเวลาที่เหลืออยู่และเวลาอื่น ๆ เป็นเพราะเราต้องการได้มาซึ่งคุณสมบัติที่แตกต่างกันหรือไม่? แก้ไข: ฉันคิดว่าเครื่องหมาย 999 แสดงสองรูปแบบที่เท่ากัน อย่างไรก็ตามฉันมีข้อสงสัยเพิ่มเติมอีกหนึ่งข้อเกี่ยวกับ iid: คำถามอื่น ๆ ของฉัน มีข้อสมมติฐานในเรื่องการถดถอยโลจิสติกหรือไม่? แสดงโมเดลเชิงเส้นทั่วไปไม่มีสมมติฐาน iid (อิสระ แต่ไม่เหมือนกัน) นั่นคือความจริงที่ว่าสำหรับการถดถอยเชิงเส้นหากเราตั้งสมมติฐานว่ามีส่วนที่เหลือเราจะมี iid แต่ถ้าเราตั้งสมมติฐานในการตอบสนองเราจะมีตัวอย่างที่เป็นอิสระ แต่ไม่เหมือนกัน (Gaussian แตกต่างกัน )μμ\mu

3
เหตุใดจึงถูกต้องเพื่อทำให้เสียเวลาอนุกรมด้วยการถดถอย
มันอาจเป็นคำถามแปลก ๆ เลย แต่ในฐานะที่เป็นสามเณรในเรื่องที่ฉันสงสัยว่าทำไมเราถึงใช้การถดถอยเพื่อทำให้เป็นอนุกรมเวลาถ้าหนึ่งในสมมติฐานของการถดถอยคือข้อมูลที่ควรใช้ในขณะที่ข้อมูลที่ใช้ในการถดถอยนั้น ไม่ใช่ id

2
เมื่อพิจารณาจากโมเดลการถดถอยเชิงเส้นสองแบบ
ฉันเรียนหลักสูตรการเรียนรู้ด้วยเครื่องที่วิทยาลัยของฉัน หนึ่งในคำถามหนึ่งคำถามนี้ถูกถาม รุ่น 1: y=θx+ϵy=θx+ϵ y = \theta x + \epsilon รุ่น 2: y=θx+θ2x+ϵy=θx+θ2x+ϵ y = \theta x + \theta^2 x + \epsilon รุ่นใดที่เหมาะกับข้อมูลที่ดีกว่า (สมมติว่าข้อมูลสามารถสร้างแบบจำลองโดยใช้การถดถอยเชิงเส้น) คำตอบที่ถูกต้อง (ตามอาจารย์) ก็คือทั้งสองรุ่นจะทำงานได้ดีเท่ากัน อย่างไรก็ตามฉันเชื่อว่ารุ่นแรกจะเหมาะกว่า นี่คือเหตุผลที่อยู่เบื้องหลังคำตอบของฉัน รุ่นที่สองซึ่งสามารถเขียนใหม่เป็น , α = θ + θ 2จะไม่เหมือนกับรุ่นแรก อันที่จริงแล้วαเป็นพาราโบลาและดังนั้นจึงมีค่าต่ำสุด ( - 0.25ในกรณีนี้) ด้วยเหตุนี้ช่วงของθในรุ่นแรกจึงมากกว่าช่วงของαในรุ่นที่สอง ดังนั้นหากข้อมูลเป็นเช่นนั้นแบบที่ดีที่สุดมีความชันน้อยกว่า- 0.25โมเดลที่สองจะทำงานได้ไม่ดีมากเมื่อเทียบกับรุ่นแรก อย่างไรก็ตามในกรณีที่ความลาดเอียงของแบบที่ดีที่สุดมากกว่าαx+ϵαx+ϵ \alpha x + \epsilon …

4
ทำไมเป็น
หมายเหตุ: SSTSSTSST = ผลรวมของกำลังสองรวมSSESSESSE = ผลรวมของข้อผิดพลาดกำลังสองและSSRSSRSSR = ผลรวมการถดถอยของกำลังสอง สมการในชื่อเรื่องมักเขียนเป็น: ∑i=1n(yi−y¯)2=∑i=1n(yi−y^i)2+∑i=1n(y^i−y¯)2∑i=1n(yi−y¯)2=∑i=1n(yi−y^i)2+∑i=1n(y^i−y¯)2\sum_{i=1}^n (y_i-\bar y)^2=\sum_{i=1}^n (y_i-\hat y_i)^2+\sum_{i=1}^n (\hat y_i-\bar y)^2 คำถามตรงไปตรงมาสวย แต่ฉันกำลังมองหาคำอธิบายที่ใช้งานง่าย อย่างสังหรณ์ใจดูเหมือนว่าฉันชอบSST≥SSE+SSRSST≥SSE+SSRSST\geq SSE+SSRจะทำให้รู้สึกมากขึ้น ตัวอย่างเช่นสมมติว่าจุดxixix_iได้ค่า y ที่สอดคล้องyi=5yi=5y_i=5และYฉัน = 3ที่Yฉันเป็นจุดที่สอดคล้องกันบนเส้นถดถอย นอกจากนี้ยังคิดว่าค่าเฉลี่ยค่า y สำหรับชุดข้อมูลที่เป็นˉ Y = 0 จากนั้นสำหรับจุดนี้ฉัน, Sy^i=3y^i=3\hat y_i=3y^iy^i\hat y_iy¯=0y¯=0\bar y=0SST=(5−0)2=52=25SST=(5−0)2=52=25SST=(5-0)^2=5^2=25ในขณะที่SSE=(5−3)2=22=4SSE=(5−3)2=22=4SSE=(5-3)^2=2^2=4และSSR=(3−0)2=32=9SSR=(3−0)2=32=9SSR=(3-0)^2=3^2=9 9 เห็นได้ชัดว่า9+4&lt;259+4&lt;259+4<25 25 ผลลัพธ์นี้จะไม่ทำให้เป็นชุดข้อมูลทั้งหมดหรือไม่ ฉันไม่เข้าใจ

2
วิธีปรับข้อมูลให้ราบรื่น
ฉันมีข้อมูลบางอย่างที่ฉันต้องการให้ราบเรียบเพื่อให้จุดที่ราบเรียบลดลงแบบ monotonically ข้อมูลของฉันลดลงอย่างรวดเร็วจากนั้นก็เริ่มเป็นที่ราบสูง นี่คือตัวอย่างการใช้ R df &lt;- data.frame(x=1:10, y=c(100,41,22,10,6,7,2,1,3,1)) ggplot(df, aes(x=x, y=y))+geom_line() เทคนิคการปรับให้เรียบแบบไหนที่ฉันสามารถใช้ได้ นอกจากนี้มันคงจะดีถ้าฉันสามารถบังคับให้จุดที่ปรับให้เรียบครั้งที่ 1 ใกล้เคียงกับจุดที่ฉันสังเกตเห็น

3
เครือข่ายประสาทลึก - เพียงเพื่อการจำแนกภาพ?
ตัวอย่างทั้งหมดที่ฉันพบโดยใช้ความเชื่ออย่างลึกล้ำหรือโครงข่ายประสาทเทียมใช้สำหรับการจำแนกภาพการตรวจจับแชทและการรู้จำเสียง โครงข่ายใยประสาทเทียมแบบลึกยังมีประโยชน์สำหรับงานการปรับเปลี่ยนแบบดั้งเดิมซึ่งคุณสมบัติไม่ได้มีโครงสร้าง (เช่นไม่จัดเรียงตามลำดับหรือตาราง) ถ้าใช่คุณยกตัวอย่างได้ไหม

1
เหตุใดตัวแบบผสมแบบผสมจึงแก้ปัญหาการพึ่งพาได้?
สมมติว่าเราสนใจว่าคะแนนสอบของนักเรียนจะได้รับผลกระทบจากจำนวนชั่วโมงที่นักเรียนเหล่านั้นเรียนอย่างไร เพื่อสำรวจความสัมพันธ์นี้เราสามารถเรียกใช้การถดถอยเชิงเส้นต่อไปนี้: exam.gradesi=a+β1×hours.studiedi+eiexam.gradesi=a+β1×hours.studiedi+ei \text{exam.grades}_i = a + \beta_1 \times \text{hours.studied}_i + e_i แต่ถ้าเราสุ่มตัวอย่างนักเรียนจากโรงเรียนต่าง ๆ เราอาจคาดหวังว่านักเรียนในโรงเรียนเดียวกันจะคล้ายกันมากกว่านักเรียนจากโรงเรียนต่าง ๆ เพื่อจัดการกับปัญหาการพึ่งพานี้คำแนะนำในหนังสือเรียน / บนเว็บไซต์จำนวนมากคือการใช้เอฟเฟกต์แบบผสมและเข้าโรงเรียนเป็นเอฟเฟกต์แบบสุ่ม ดังนั้นโมเดลจะกลายเป็น: แต่ทำไมมันถึงแก้ปัญหาการพึ่งพาที่มีอยู่ในการถดถอยเชิงเส้น?exam.gradesi=a+β1×hours.studiedi+schoolj+eiexam.gradesi=a+β1×hours.studiedi+schoolj+ei \text{exam.grades}_i = a + \beta_1 \times \text{hours.studied}_i + \text{school}_j + e_i โปรดตอบกลับราวกับว่าคุณกำลังคุยกับเด็กอายุ 12 ปี

2
GLM: การตรวจสอบตัวเลือกการกระจายและฟังก์ชันลิงก์
ฉันมีโมเดลเชิงเส้นทั่วไปที่ใช้ฟังก์ชันการแจกแจงแบบเกาส์และล็อกลิงก์ หลังจากติดตั้งแบบจำลองแล้วฉันจะตรวจสอบส่วนที่เหลือ: พล็อต QQ, ส่วนที่เหลือเทียบกับค่าที่คาดการณ์ไว้, ฮิสโตแกรมของส่วนที่เหลือ (ยอมรับว่าจำเป็นต้องใช้ความระมัดระวังเนื่องจาก) ทุกอย่างดูดี สิ่งนี้ดูเหมือนจะแนะนำ (สำหรับฉัน) ว่าทางเลือกของการแจกแจงแบบเกาส์นั้นค่อนข้างสมเหตุสมผล หรืออย่างน้อยที่สุดสิ่งที่เหลืออยู่สอดคล้องกับการกระจายตัวที่ฉันใช้ในแบบจำลองของฉัน Q1 : มันจะไปไกลเกินกว่าที่จะยืนยันว่าเป็นตัวเลือกการกระจายตัวของฉันหรือไม่? ฉันเลือกฟังก์ชั่นบันทึกการเชื่อมโยงเพราะตัวแปรตอบกลับของฉันเป็นค่าบวกเสมอ แต่ฉันต้องการการยืนยันว่าเป็นทางเลือกที่ดี Q2 : มีการทดสอบใด ๆ เช่นการตรวจสอบสิ่งที่เหลืออยู่สำหรับการเลือกการแจกแจงที่สามารถรองรับฟังก์ชั่นลิงค์ของฉันได้หรือไม่? (การเลือกฟังก์ชั่นลิงค์ดูเหมือนจะเป็นเรื่องที่ไม่ชอบใจฉันเนื่องจากแนวทางเดียวที่ฉันสามารถค้นหาได้นั้นค่อนข้างคลุมเครือและมีคลื่นมือซึ่งน่าจะเป็นเหตุผลที่ดี)

1
จาก exp (สัมประสิทธิ์) ถึงอัตราต่อรองและการตีความใน Logistic Regression พร้อมปัจจัย
ฉันใช้การถดถอยเชิงเส้นตรงของการยอมรับเข้าเรียนในวิทยาลัยกับคะแนน SAT และภูมิหลังของครอบครัว / ชาติพันธุ์ ข้อมูลเป็นตัวละคร นี่คือการติดตามคำถามก่อนหน้านี้ตอบแล้ว คำถามที่มุ่งเน้นในการรวบรวมและการตีความอัตราส่วนอัตราต่อรองเมื่อออกจาก SAT คะแนนกันเพื่อความเรียบง่าย ตัวแปรคือAccepted(0 หรือ 1) และBackground("red" หรือ "blue") ฉันตั้งค่าข้อมูลเพื่อให้ผู้คนในพื้นหลัง "สีแดง" มีแนวโน้มที่จะเข้าไป: fit &lt;- glm(Accepted~Background, data=dat, family="binomial") exp(cbind(Odds_Ratio_RedvBlue=coef(fit), confint(fit))) Odds_Ratio_RedvBlue 2.5 % 97.5 % (Intercept) 0.7088608 0.5553459 0.9017961 Backgroundred 2.4480042 1.7397640 3.4595454 คำถาม: 0.7 เป็นอัตราส่วนที่ผิดปกติของบุคคลที่มีพื้นหลังเป็น "สีน้ำเงิน" หรือไม่? ฉันถามสิ่งนี้เพราะฉันได้รับ 0.7 " Backgroundblue" ถ้าฉันเรียกใช้รหัสต่อไปนี้แทน: fit …
14 r  regression  logistic 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.