คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

3
การถดถอยของผลลัพธ์ (อัตราส่วนหรือเศษส่วน) ระหว่าง 0 และ 1
ผมคิดว่าการสร้างแบบจำลองการคาดการณ์อัตราส่วน/ขที่≤ ขและ> 0และB > 0 ดังนั้นอัตราส่วนจะอยู่ระหว่าง0และ1a / ba/ba/ba ≤ ba≤ba \le ba > 0a>0a > 0b > 0b>0b > 0000111 ฉันสามารถใช้การถดถอยเชิงเส้นแม้ว่ามันจะไม่ได้ จำกัด อยู่ที่ 0..1 ฉันไม่มีเหตุผลที่จะเชื่อว่าความสัมพันธ์นั้นเป็นเส้นตรง แต่แน่นอนว่ามันมักจะถูกนำมาใช้เป็นโมเดลแรกง่ายๆ ฉันสามารถใช้การถดถอยโลจิสติกได้แม้ว่าโดยปกติจะใช้ในการทำนายความน่าจะเป็นของผลลัพธ์แบบสองสถานะไม่ใช่เพื่อทำนายค่าต่อเนื่องจากช่วง 0..1 หากไม่รู้อะไรเพิ่มเติมคุณจะใช้การถดถอยเชิงเส้นการถดถอยโลจิสติกหรือตัวเลือกที่ซ่อนอยู่cหรือไม่?

5
คะแนนความชอบต่างจากการเพิ่ม covariates ในการถดถอยอย่างไรและเมื่อใดที่พวกเขาต้องการคะแนนหลัง
ฉันยอมรับว่าฉันค่อนข้างใหม่กับคะแนนความชอบและการวิเคราะห์เชิงสาเหตุ สิ่งหนึ่งที่ไม่ชัดเจนสำหรับฉันในฐานะผู้มาใหม่คือ "การปรับสมดุล" โดยใช้คะแนนความชอบมีความแตกต่างทางคณิตศาสตร์จากสิ่งที่เกิดขึ้นเมื่อเราเพิ่ม covariates ลงในการถดถอย มีอะไรแตกต่างกันเกี่ยวกับการผ่าตัดและทำไมมันถึงดีกว่าการเพิ่มประชากรย่อยในการถดถอย ฉันเคยเห็นการศึกษาบางอย่างที่ทำการเปรียบเทียบเชิงประจักษ์ของวิธีการ แต่ฉันไม่เคยเห็นการสนทนาที่ดีเกี่ยวกับคุณสมบัติทางคณิตศาสตร์ของทั้งสองวิธีและทำไม PSM ให้ยืมตัวเองไปสู่การตีความเชิงสาเหตุ ดูเหมือนจะมีความสับสนและการโต้เถียงกันมากมายในสาขานี้ซึ่งทำให้สิ่งต่าง ๆ ยากขึ้น ความคิดใด ๆ เกี่ยวกับสิ่งนี้หรือตัวชี้ไปยังแหล่งข้อมูลที่ดี / กระดาษเพื่อทำความเข้าใจความแตกต่าง? (ฉันค่อย ๆ เดินผ่านหนังสือเวรกรรมของจูเดียเพิร์ลดังนั้นไม่จำเป็นต้องชี้ให้ฉันเห็น)

5
จะหาวิธีการแก้ปัญหาการถดถอยของสันเขาได้อย่างไร?
ฉันกำลังมีปัญหาบางอย่างกับการได้มาของวิธีแก้ปัญหาการถดถอยของสันเขา ฉันรู้วิธีการแก้ปัญหาการถดถอยโดยไม่มีคำศัพท์ β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. แต่หลังจากเพิ่มคำศัพท์ L2เข้ากับฟังก์ชั่นค่าใช้จ่ายλ∥β∥22λ‖β‖22\lambda\|\beta\|_2^2 β=(XTX+λI)−1XTy.β=(XTX+λI)−1XTy.\beta = (X^TX + \lambda I)^{-1}X^Ty.

2
วิธีการอ่านแปลงระยะทางของ Cook?
ไม่มีใครรู้วิธีการทำงานว่าคะแนน 7, 16 และ 29 เป็นคะแนนที่มีอิทธิพลหรือไม่? ฉันอ่านบางที่เพราะระยะทางของ Cook ต่ำกว่า 1 พวกเขาไม่ใช่ ฉันถูกไหม?

4
โควาเรียตที่ไม่มีนัยสำคัญทางสถิติควร 'เก็บไว้ใน' เมื่อสร้างแบบจำลองหรือไม่?
ฉันมีโควาเรียร์หลายตัวในการคำนวณแบบจำลองและไม่ใช่ทั้งหมดที่มีนัยสำคัญทางสถิติ ฉันควรลบสิ่งที่ไม่ใช่หรือไม่ คำถามนี้อธิบายถึงปรากฏการณ์ แต่ไม่ตอบคำถามของฉัน: จะตีความผลกระทบที่ไม่สำคัญของ covariate ใน ANCOVA อย่างไร ไม่มีอะไรในคำตอบสำหรับคำถามนั้นที่ชี้ให้เห็นว่ามีการแปรผันที่ไม่สำคัญออกไปแม้ว่าตอนนี้ฉันมีแนวโน้มที่จะเชื่อว่าพวกเขาควรจะอยู่ต่อไปก่อนที่จะอ่านคำตอบนั้น ยังสามารถอธิบายความแปรปรวนบางอย่าง (และช่วยให้แบบจำลอง) โดยไม่จำเป็นต้องอธิบายจำนวนเกินกว่าขีด จำกัด บางอย่าง (ค่าขีด จำกัด นัยสำคัญซึ่งฉันเห็นว่าไม่สามารถใช้ได้กับ covariates) มีอีกคำถามหนึ่งในประวัติย่อที่คำตอบดูเหมือนจะบ่งบอกว่า covariates ควรเก็บไว้โดยไม่คำนึงถึงความสำคัญ แต่ก็ไม่ชัดเจนในเรื่องนั้น (ฉันต้องการเชื่อมโยงกับคำถามนั้น แต่ฉันไม่สามารถติดตามได้อีกในตอนนี้) ดังนั้น ... โควาเรียต์ที่ไม่แสดงว่ามีนัยสำคัญทางสถิติควรถูกเก็บไว้ในการคำนวณสำหรับโมเดลหรือไม่? (ฉันได้แก้ไขคำถามนี้เพื่อชี้แจงว่า covariates ไม่เคยอยู่ในรูปแบบผลลัพธ์โดยการคำนวณอยู่ดี) หากต้องการเพิ่มความซับซ้อนจะเกิดอะไรขึ้นถ้าค่าความแปรปรวนร่วมมีความสำคัญทางสถิติสำหรับชุดย่อยบางส่วนของข้อมูล (ชุดย่อยที่ต้องดำเนินการแยกต่างหาก) ฉันจะเริ่มต้นที่จะรักษา covariate มิฉะนั้นจะต้องใช้โมเดลที่แตกต่างกันหรือคุณจะมี covariate ที่มีนัยสำคัญทางสถิติหายไปในกรณีใดกรณีหนึ่ง หากคุณมีคำตอบสำหรับคดีแยกนี้เช่นกันโปรดพูดถึงมัน

6
การถดถอยมุมต่ำกับบ่วง
การถดถอยแบบมุมต่ำและบ่วงนั้นมีแนวโน้มที่จะสร้างเส้นทางการทำให้เป็นมาตรฐานที่คล้ายกันมาก (เหมือนกันยกเว้นเมื่อค่าสัมประสิทธิ์กากบาทเป็นศูนย์) พวกเขาทั้งสองสามารถปรับได้อย่างมีประสิทธิภาพโดยอัลกอริทึมที่เหมือนจริง มีเหตุผลเชิงปฏิบัติหรือไม่ที่จะชอบวิธีหนึ่งมากกว่าอีกวิธี?
39 regression  lasso 

3
จำเป็นต้องมีมาตรฐานก่อนการถดถอยโลจิสติกที่เหมาะสมหรือไม่
คำถามของฉันคือเราจำเป็นต้องสร้างมาตรฐานให้กับชุดข้อมูลเพื่อให้แน่ใจว่าตัวแปรทั้งหมดมีขนาดเท่ากันระหว่าง [0,1] ก่อนการถดถอยโลจิสติกที่เหมาะสม สูตรคือ: xi−min(xi)max(xi)−min(xi)xi−min(xi)max(xi)−min(xi)\frac{x_i-\min(x_i)}{\max(x_i)-\min(x_i)} ชุดข้อมูลของฉันมี 2 ตัวแปรพวกเขาอธิบายสิ่งเดียวกันสำหรับสองช่องทาง แต่ปริมาณนั้นแตกต่างกัน สมมติว่าเป็นจำนวนการเข้าชมของลูกค้าในร้านค้าสองแห่งและที่นี่คือว่าลูกค้าซื้อหรือไม่ เพราะลูกค้าสามารถเยี่ยมชมร้านค้าทั้งสองหรือร้านค้าครั้งแรกสองครั้งร้านค้าที่สองก่อนที่เขาจะทำการซื้อ แต่จำนวนการเข้าชมของลูกค้าทั้งหมดสำหรับร้านค้าที่ 1 นั้นใหญ่กว่าร้านที่สองถึง 10 เท่า เมื่อฉันเหมาะสมกับการถดถอยโลจิสติกนี้โดยไม่มีมาตรฐาน, coef(store1)=37, coef(store2)=13; coef(store1)=133, coef(store2)=11ถ้าฉันมาตรฐานข้อมูลแล้ว บางสิ่งเช่นนี้ วิธีใดที่เหมาะสมกว่า ถ้าฉันทำโมเดลต้นไม้ตัดสินใจให้เหมาะสมล่ะ ฉันรู้ว่าโมเดลโครงสร้างแบบต้นไม้ไม่จำเป็นต้องมีมาตรฐานเพราะตัวแบบเองจะปรับมันอย่างใด แต่การตรวจสอบกับคุณทุกคน

3
เหตุใดการถดถอยพหุนามจึงถือว่าเป็นกรณีพิเศษของการถดถอยเชิงเส้นหลายเส้น
หากแบบจำลองพหุนามถดถอยความสัมพันธ์แบบไม่เชิงเส้นจะพิจารณาเป็นกรณีพิเศษของการถดถอยเชิงเส้นหลายแบบได้อย่างไร วิกิพีเดียตั้งข้อสังเกตว่า "แม้ว่าการถดถอยพหุนามจะเหมาะกับโมเดลที่ไม่เป็นเชิงเส้นกับข้อมูล แต่เป็นปัญหาการประมาณเชิงสถิติมันเป็นเชิงเส้นในแง่ที่ว่าฟังก์ชันการถดถอยเป็นเส้นตรงในพารามิเตอร์ที่ไม่รู้จักซึ่งประมาณจากข้อมูล "E(y|x)E(y|x)\mathbb{E}(y | x) การถดถอยเชิงเส้นพหุนามเป็นอย่างไรในพารามิเตอร์ที่ไม่รู้จักหากพารามิเตอร์เป็นค่าสัมประสิทธิ์สำหรับคำที่มีคำสั่ง 2≥≥\ge

2
ปัวซองและการถดถอยทวินามลบเมื่อใดจะพอดีกับค่าสัมประสิทธิ์เดียวกัน
ฉันสังเกตเห็นว่าใน R, Poisson และการถดถอยแบบทวินามลบ (NB) ดูเหมือนจะเหมาะสมกับค่าสัมประสิทธิ์เดียวกันสำหรับการจัดหมวดหมู่ แต่ไม่ต่อเนื่องทำนาย ตัวอย่างเช่นนี่คือการถดถอยด้วยตัวพยากรณ์หมวดหมู่: data(warpbreaks) library(MASS) rs1 = glm(breaks ~ tension, data=warpbreaks, family="poisson") rs2 = glm.nb(breaks ~ tension, data=warpbreaks) #compare coefficients cbind("Poisson"=coef(rs1), "NB"=coef(rs2)) นี่คือตัวอย่างที่มีตัวทำนายอย่างต่อเนื่องโดยที่ปัวซองและ NB มีค่าสัมประสิทธิ์ต่างกัน: data(cars) rs1 = glm(dist ~ speed, data=cars, family="poisson") rs2 = glm.nb(dist ~ speed, data=cars) #compare coefficients cbind("Poisson"=coef(rs1), "NB"=coef(rs2)) (แน่นอนว่าสิ่งเหล่านี้จะไม่นับข้อมูลและตัวแบบนั้นไม่มีความหมาย ... …

5
การทำนายในการถดถอยแบบค็อกซ์
ฉันกำลังทำการถดถอยหลายตัวแปร Cox ฉันมีตัวแปรอิสระที่สำคัญและค่าเบต้า รูปแบบเหมาะสมกับข้อมูลของฉันได้เป็นอย่างดี ตอนนี้ฉันต้องการใช้แบบจำลองของฉันและทำนายความอยู่รอดของการสังเกตใหม่ ฉันไม่ชัดเจนว่าจะทำอย่างไรกับโมเดล Cox ในการถดถอยเชิงเส้นหรือแบบลอจิสติกมันจะง่ายเพียงแค่ใส่ค่าของการสังเกตใหม่ลงในการถดถอยและทวีคูณพวกมันด้วยเบตาดังนั้นผมจึงมีการทำนายผล ฉันจะตัดสินอันตรายพื้นฐานของฉันได้อย่างไร ฉันต้องการมันนอกเหนือจากการคำนวณการทำนาย สิ่งนี้ทำในรูปแบบ Cox ได้อย่างไร?

8
มันถูกต้องหรือไม่ที่จะรวมการวัดพื้นฐานเป็นตัวแปรควบคุมเมื่อทดสอบผลกระทบของตัวแปรอิสระต่อคะแนนการเปลี่ยนแปลง?
ฉันพยายามเรียกใช้การถดถอย OLS: DV: การเปลี่ยนแปลงของน้ำหนักในช่วงหนึ่งปี (น้ำหนักเริ่มต้น - น้ำหนักสุดท้าย) IV: ไม่ว่าคุณจะออกกำลังกายหรือไม่ก็ตาม อย่างไรก็ตามดูเหมือนว่าคนที่มีน้ำหนักมากจะลดน้ำหนักได้มากขึ้นต่อการออกกำลังกายมากกว่าคนที่ผอมลง ดังนั้นฉันต้องการรวมตัวแปรควบคุม: CV: น้ำหนักเริ่มต้นเริ่มต้น อย่างไรก็ตามตอนนี้น้ำหนักเริ่มต้นจะใช้ทั้งสองในการคำนวณตัวแปรตามและเป็นตัวแปรควบคุม ไม่เป็นไร สิ่งนี้ละเมิดสมมติฐานของ OLS หรือไม่

1
การจัดศูนย์กลางข้อมูลกำจัดการสกัดกั้นในการถดถอยและ PCA อย่างไร
ฉันได้อ่านเกี่ยวกับอินสแตนซ์ที่เราจัดเก็บข้อมูลไว้ (เช่นด้วยการทำให้เป็นมาตรฐานหรือ PCA) เพื่อที่จะลบการสกัดกั้น (ดังที่ได้กล่าวไว้ในคำถามนี้ ) ฉันรู้ว่ามันง่าย แต่ฉันมีเวลายากที่จะเข้าใจในเรื่องนี้ ใครสามารถให้สัญชาตญาณหรือการอ้างอิงที่ฉันสามารถอ่านได้?

2
การตีความเอาท์พุทของ R สำหรับการถดถอยแบบทวินาม
ฉันค่อนข้างใหม่กับการทดสอบข้อมูลทวินาม แต่จำเป็นต้องทำและตอนนี้ฉันไม่แน่ใจว่าจะตีความผลลัพธ์ได้อย่างไร ตัวแปร y คือตัวแปรตอบสนองเป็นแบบทวินามและปัจจัยที่อธิบายได้นั้นมีความต่อเนื่อง นี่คือสิ่งที่ฉันได้รับเมื่อสรุปผลลัพธ์: glm(formula = leaves.presence ~ Area, family = binomial, data = n) Deviance Residuals: Min 1Q Median 3Q Max -1.213 -1.044 -1.023 1.312 1.344 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 *** leaves.presence 0.0008166 0.0002472 3.303 0.000956 *** --- …

3
ความแปรปรวนของการประเมินการตรวจสอบความถูกต้องข้าม
TL, DR:ดูเหมือนว่าตรงกันข้ามกับคำแนะนำซ้ำ ๆ การตรวจสอบความถูกต้องแบบข้ามครั้งเดียว (LOO-CV) - นั่นคือKKK -fold CV กับKKK (จำนวนเท่า) เท่ากับยังไม่มีข้อความยังไม่มีข้อความN (จำนวนเท่า)ของการสังเกตการฝึกอบรม) - ให้ค่าประมาณของข้อผิดพลาดในการวางนัยทั่วไปซึ่งเป็นตัวแปรที่น้อยที่สุดสำหรับใด ๆKKKไม่ใช่ตัวแปรมากที่สุดโดยสมมติว่ามีความมั่นคงในรูปแบบ / อัลกอริทึมชุดข้อมูลหรือทั้งสองอย่าง ถูกต้องเนื่องจากฉันไม่เข้าใจเงื่อนไขความมั่นคงนี้จริงๆ) บางคนสามารถอธิบายได้อย่างชัดเจนว่าเงื่อนไขความมั่นคงนี้คืออะไร? มันเป็นความจริงหรือไม่ที่การถดถอยเชิงเส้นเป็นหนึ่งในอัลกอริทึม "เสถียร" ซึ่งหมายความว่าในบริบทนั้น LOO-CV เป็นทางเลือกที่ดีที่สุดของ CV อย่างเคร่งครัดเท่าที่ความลำเอียงและความแปรปรวนของความคลาดเคลื่อนของการประมาณ ภูมิปัญญาดั้งเดิมคือทางเลือกของKKKในKKK -fold CV ตามการแลกเปลี่ยนความแปรปรวนแบบอคติเช่นค่าที่ต่ำกว่าของKKK (ใกล้ถึง 2) นำไปสู่การประมาณการข้อผิดพลาดของการวางนัยทั่วไปที่มีอคติในแง่ร้ายมากขึ้น ของKKK (ใกล้ยังไม่มีข้อความยังไม่มีข้อความN ) นำไปสู่การประมาณการที่มีอคติน้อยกว่า แต่มีความแปรปรวนมากขึ้น คำอธิบายทั่วไปสำหรับปรากฏการณ์ของความแปรปรวนที่เพิ่มขึ้นด้วยKKKอาจได้รับความเด่นชัดที่สุดในองค์ประกอบของการเรียนรู้ทางสถิติ (หัวข้อ 7.10.1): ด้วย K = N ตัวประมาณค่าการตรวจสอบความถูกต้องไขว้กันนั้นมีความเป็นกลางโดยประมาณสำหรับข้อผิดพลาดการคาดการณ์ที่แท้จริง (คาดว่า) แต่อาจมีความแปรปรวนสูงเนื่องจาก N …

3
เปรียบเทียบ SVM และการถดถอยโลจิสติก
ใครช่วยกรุณาเล่าให้ฉันฟังหน่อยว่าจะเลือก SVM หรือ LR ได้ไหม? ฉันต้องการที่จะเข้าใจสัญชาตญาณเบื้องหลังสิ่งที่แตกต่างระหว่างเกณฑ์การปรับให้เหมาะสมของการเรียนรู้ไฮเปอร์เพลนของทั้งสองโดยมีจุดมุ่งหมายที่เกี่ยวข้องดังนี้: SVM: พยายามเพิ่มระยะห่างระหว่างเวกเตอร์สนับสนุนที่ใกล้ที่สุด LR: เพิ่มความน่าจะเป็นระดับหลังให้มากที่สุด ลองพิจารณาพื้นที่ของคุณสมบัติเชิงเส้นสำหรับทั้ง SVM และ LR ความแตกต่างบางประการที่ฉันรู้แล้ว: SVM นั้นถูกกำหนดไว้แล้ว (แต่เราสามารถใช้แบบจำลอง Platts สำหรับคะแนนความน่าจะเป็น) ในขณะที่ LR นั้นน่าจะเป็น สำหรับพื้นที่เคอร์เนล SVM นั้นเร็วกว่า (จัดเก็บเพียงสนับสนุนเวกเตอร์)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.