คำถามติดแท็ก regression-strategies

กลยุทธ์การสร้างแบบจำลองการถดถอย

8
ในการถดถอยเชิงเส้นเมื่อใดที่เหมาะสมที่จะใช้บันทึกของตัวแปรอิสระแทนที่จะเป็นค่าจริง
ฉันกำลังมองหาการกระจายการประพฤติที่ดีขึ้นสำหรับตัวแปรอิสระที่เป็นปัญหาหรือเพื่อลดผลกระทบของค่าผิดปกติหรืออย่างอื่นหรือไม่?

7
ประโยชน์ของการแยกตัวแปรทำนายอย่างต่อเนื่องคืออะไร?
ฉันสงสัยว่าสิ่งที่มีค่าในการใช้ตัวแปรทำนายอย่างต่อเนื่องและสลายมัน (เช่นเป็น quintiles) ก่อนที่จะใช้ในแบบจำลอง สำหรับฉันแล้วดูเหมือนว่าการเปลี่ยนแปลงตัวแปรทำให้เราสูญเสียข้อมูล นี่เป็นเพียงเพื่อให้เราสามารถจำลองเอฟเฟกต์ที่ไม่ใช่เชิงเส้นได้หรือไม่ ถ้าเราเก็บตัวแปรอย่างต่อเนื่องและมันไม่ได้เป็นความสัมพันธ์เชิงเส้นตรงที่เราจะต้องเกิดขึ้นกับเส้นโค้งบางชนิดเพื่อให้พอดีกับข้อมูลหรือไม่

3
ฟอเรสต์แบบสุ่มสามารถนำมาใช้สำหรับการเลือกคุณสมบัติในการถดถอยเชิงเส้นหลายแบบได้หรือไม่?
เนื่องจาก RF สามารถจัดการแบบไม่เป็นเชิงเส้น แต่ไม่สามารถให้ค่าสัมประสิทธิ์ได้คุณควรใช้ฟอเรสต์แบบสุ่มเพื่อรวบรวมคุณลักษณะที่สำคัญที่สุดจากนั้นจึงเสียบคุณลักษณะเหล่านั้นเข้ากับแบบจำลองการถดถอยเชิงเส้นหลายแบบเพื่อให้ได้ค่าสัมประสิทธิ์

5
การจำลองโมเดลการถดถอยโลจิสติก
เป็นไปได้หรือไม่ที่จะจัดโมเดลการถดถอยโลจิสติกให้มากเกินไป? ฉันเห็นวิดีโอที่บอกว่าหากพื้นที่ของฉันภายใต้เส้นโค้ง ROC สูงกว่า 95% ก็น่าจะติดตั้งได้มากกว่า แต่เป็นไปได้หรือไม่ที่จะปรับรูปแบบการถดถอยโลจิสติกให้เหมาะสม?

1
องศาอิสระที่เหลือที่เหมาะสมหลังจากปล่อยเงื่อนไขจากแบบจำลอง
ฉันกำลังสะท้อนให้เห็นถึงการอภิปรายรอบคำถามนี้และโดยเฉพาะอย่างยิ่งความคิดเห็นแฟรงก์ฮาร์เรลที่ประมาณการของการเปลี่ยนแปลงรูปแบบการลดลง (เช่นหนึ่งจากการที่จำนวนของตัวแปรอธิบายได้รับการทดสอบและปฏิเสธ) ควรใช้เยองศาทั่วไปของเสรีภาพ ศาสตราจารย์ฮาร์เรลล์ชี้ให้เห็นว่าสิ่งนี้จะใกล้เคียงกับองศาอิสระที่เหลืออยู่ของแบบจำลอง "เต็ม" แบบดั้งเดิม (ที่มีตัวแปรทั้งหมด) มากกว่าแบบจำลองสุดท้าย (ซึ่งตัวแปรจำนวนหนึ่งถูกปฏิเสธ) คำถามที่ 1 หากฉันต้องการใช้วิธีการที่เหมาะสมกับบทสรุปและสถิติมาตรฐานทั้งหมดจากแบบจำลองที่ลดลง (แต่ขาดการดำเนินการอย่างเต็มรูปแบบขององศาความเป็นอิสระทั่วไป) วิธีการที่สมเหตุสมผลจะเป็นเพียงแค่ใช้องศาอิสระที่เหลือจาก แบบจำลองเต็มรูปแบบในการประมาณค่าความแปรปรวนที่เหลือเป็นต้น คำถามที่ 2 หากข้างต้นเป็นจริงและฉันต้องการที่จะทำมันRอาจจะง่ายเหมือนการตั้งค่า finalModel$df.residual <- fullModel$df.residual ในบางจุดของแบบฝึกหัดการสร้างแบบจำลองที่ซึ่ง finalModel และ fullModel ถูกสร้างขึ้นด้วย lm () หรือฟังก์ชันที่คล้ายกัน หลังจากที่ฟังก์ชั่นเช่นสรุป () และ confint () ดูเหมือนจะทำงานกับ df.residual ที่ต้องการแม้ว่าจะส่งคืนข้อความแสดงข้อผิดพลาดว่ามีบางคนได้บดบังด้วยวัตถุ finalModel อย่างชัดเจน

3
การประเมินการถดถอยโลจิสติกและการตีความความดีงามของ Hosmer-Lemeshow of Fit
ดังที่เราทุกคนรู้กันว่ามี 2 วิธีในการประเมินรูปแบบการถดถอยโลจิสติกส์และพวกเขากำลังทดสอบสิ่งที่แตกต่างกันมาก พลังการทำนาย: รับสถิติที่วัดว่าคุณสามารถทำนายตัวแปรตามได้ดีเพียงใดขึ้นอยู่กับตัวแปรอิสระ Pseudo R ^ 2 ที่รู้จักกันดีคือ McFadden (1974) และ Cox and Snell (1989) สถิติความถูกต้อง การทดสอบกำลังบอกว่าคุณสามารถทำได้ดียิ่งขึ้นด้วยการทำให้แบบจำลองมีความซับซ้อนมากขึ้นหรือไม่ซึ่งเป็นการทดสอบว่ามีเชิงเส้นหรือการโต้ตอบใด ๆ หรือไม่ ฉันใช้การทดสอบทั้งสองแบบกับโมเดลซึ่งเพิ่มกำลังสองและการโต้ตอบ อยู่แล้ว: >summary(spec_q2) Call: glm(formula = result ~ Top + Right + Left + Bottom + I(Top^2) + I(Left^2) + I(Bottom^2) + Top:Right + Top:Bottom + Right:Left, family = …

2
แบบจำลองสุดท้าย (พร้อมการผลิต) ควรได้รับการฝึกอบรมกับข้อมูลที่สมบูรณ์หรือเพียงแค่ในชุดการฝึกอบรม?
สมมติว่าฉันฝึกหลายรุ่นในชุดฝึกอบรมเลือกหนึ่งชุดที่ดีที่สุดโดยใช้ชุดการตรวจสอบความถูกต้องไขว้และประสิทธิภาพที่วัดได้ในชุดทดสอบ ดังนั้นตอนนี้ฉันมีหนึ่งรุ่นที่ดีที่สุดสุดท้าย ฉันควรสั่งการฝึกอบรมใหม่กับข้อมูลที่มีอยู่ทั้งหมดหรือโซลูชันการจัดส่งที่ฝึกอบรมเฉพาะชุดฝึกอบรมหรือไม่ ถ้าอย่างหลังทำไม? การอัปเดต: ตามที่ @ P.Windridge ระบุไว้การส่งแบบจำลองโดยทั่วไปหมายถึงการจัดส่งแบบจำลองโดยไม่มีการตรวจสอบความถูกต้อง แต่เราสามารถรายงานประสิทธิภาพของชุดการทดสอบและหลังจากนั้นฝึกจำลองข้อมูลที่สมบูรณ์แบบอย่างถูกต้องคาดหวังว่าประสิทธิภาพจะดีขึ้นเพราะเราใช้แบบจำลองที่ดีที่สุดของเราบวกกับข้อมูลมากขึ้น ปัญหาใดที่อาจเกิดขึ้นจากวิธีการดังกล่าว

5
การถดถอยเชิงปริมาณเมื่อใดที่แย่กว่า OLS
นอกเหนือจากสถานการณ์เฉพาะบางอย่างที่เราต้องเข้าใจความสัมพันธ์ที่มีเงื่อนไขอย่างมีเงื่อนไขแล้วสถานการณ์ใดที่นักวิจัยควรเลือก OLS เหนือ Quantile Regression ฉันไม่ต้องการคำตอบว่า "ถ้าไม่มีประโยชน์ในการทำความเข้าใจความสัมพันธ์ท้าย" เพราะเราสามารถใช้การถดถอยแบบมัธยฐานแทน OLS

2
Bayesian กำลังคิดเรื่องกำลังพลเกินกำลัง
ฉันทุ่มเทเวลาอย่างมากในการพัฒนาวิธีการและซอฟต์แวร์สำหรับตรวจสอบแบบจำลองการทำนายในโดเมนสถิติที่ใช้บ่อย ในการนำแนวคิดแบบเบย์มาใช้ในการฝึกฝนและการสอนฉันเห็นความแตกต่างที่สำคัญในการโอบกอด ขั้นแรกการสร้างแบบจำลองการทำนายแบบเบย์ขอให้นักวิเคราะห์คิดอย่างหนักเกี่ยวกับการแจกแจงก่อนหน้าซึ่งอาจปรับให้เข้ากับคุณสมบัติของผู้สมัครและนักบวชเหล่านี้จะดึงแบบจำลองไปทางพวกเขา (กล่าวคือบรรลุการหด / ลงโทษ ) ประการที่สองวิธีเบย์ "ของจริง" ไม่ได้ส่งผลให้มีรูปแบบเดียว แต่ก็มีการกระจายหลังทั้งหมดสำหรับการทำนาย เมื่อคำนึงถึงคุณสมบัติของเบย์เซียนแล้วความหมายของการ overfitting หมายความว่าอะไร? เราควรประเมินมันหรือไม่? ถ้าเป็นเช่นนั้นได้อย่างไร เราจะรู้ได้อย่างไรว่าแบบจำลองแบบเบย์มีความน่าเชื่อถือสำหรับการใช้งานภาคสนาม? หรือว่าเป็นจุดที่สงสัยตั้งแต่ผู้โพสต์จะดำเนินการตามความไม่แน่นอนให้เตือนทั้งหมดเมื่อเราใช้แบบจำลองที่เราพัฒนาขึ้นสำหรับการทำนาย? ความคิดจะเปลี่ยนไปอย่างไรถ้าเราบังคับให้แบบจำลอง Bayesian กลั่นเป็นตัวเลขเดียวเช่นความเสี่ยงด้านหลัง / โหมด / ค่ามัธยฐานด้านหลัง? ผมเห็นความคิดที่เกี่ยวข้องบางอย่างที่นี่ การอภิปรายขนานอาจจะพบได้ที่นี่ คำถามติดตามผล :: ถ้าเราเป็นคนเบย์อย่างเต็มที่และใช้เวลาคิดเกี่ยวกับนักบวชก่อนที่จะเห็นข้อมูลและเราพอดีกับแบบจำลองที่มีการระบุความน่าจะเป็นของข้อมูลอย่างเหมาะสมเราถูกบังคับให้พอใจกับแบบจำลองของเรา ? หรือเราจำเป็นต้องทำในสิ่งที่เราทำในโลกที่มีผู้ถูกเลือกแบบสุ่มอาจถูกคาดการณ์ได้ดีโดยเฉลี่ย แต่ถ้าเราเลือกวิชาที่มีการทำนายต่ำมากหรือมีค่าที่คาดการณ์ไว้สูงมากจะมีการถดถอย หมายถึงอะไร

2
LASSO ประสบปัญหาการถดถอยแบบขั้นตอนเหมือนกันหรือไม่?
วิธีการเลือกตัวแปรแบบอัลกอริธึมแบบขั้นตอนมีแนวโน้มที่จะเลือกแบบจำลองที่มีอคติมากกว่าหรือน้อยกว่าทุกการประมาณค่าในตัวแบบการถดถอย ( ββ\beta s และ SEs, p-ค่า, สถิติF , ฯลฯ ) ตัวพยากรณ์เท็จตามวรรณกรรมจำลองที่สมเหตุสมผล LASSO ประสบปัญหาในลักษณะที่เหมือนกันเมื่อใช้เพื่อเลือกตัวแปรหรือไม่?

1
การทำให้ขนาดตัวอย่างเป็นตัวแปรสุ่มหมายความว่าอย่างไร
แฟรงก์ฮาร์เรลได้เริ่มต้นบล็อก ( สถิติการคิด) ในโพสต์ชั้นนำของเขาเขาแสดงคุณสมบัติที่สำคัญบางอย่างของปรัชญาทางสถิติของเขา ในรายการอื่น ๆ มันรวมถึง: ทำให้ขนาดตัวอย่างเป็นตัวแปรสุ่มเมื่อทำได้ การทำให้ขนาดตัวอย่างเป็นตัวแปรสุ่มหมายความว่าอย่างไร อะไรคือข้อดีของการทำเช่นนี้? ทำไมถึงเป็นที่นิยมมากกว่า?

3
การสร้างแบบจำลองและการเลือกโดยใช้ Hosmer และคณะ 2013. การประยุกต์ใช้การถดถอยโลจิสติกใน R
นี่เป็นโพสต์แรกของฉันใน StackExchange แต่ฉันได้ใช้มันเป็นทรัพยากรมาระยะหนึ่งแล้วฉันจะพยายามอย่างดีที่สุดที่จะใช้รูปแบบที่เหมาะสมและทำการแก้ไขที่เหมาะสม นอกจากนี้ยังเป็นคำถามที่มีหลายส่วน ฉันไม่แน่ใจว่าฉันควรแยกคำถามออกเป็นหลายกระทู้หรือกระทู้เดียว เนื่องจากคำถามมาจากส่วนหนึ่งในข้อความเดียวกันฉันคิดว่ามันจะเกี่ยวข้องกับการโพสต์เป็นคำถามเดียว ฉันกำลังค้นคว้าการใช้ถิ่นที่อยู่ของสัตว์เลี้ยงลูกด้วยนมขนาดใหญ่เพื่อทำวิทยานิพนธ์ปริญญาโท เป้าหมายของโครงการนี้คือเพื่อให้ผู้จัดการป่าไม้ (ซึ่งน่าจะไม่ใช่นักสถิติ) ที่มีกรอบการปฏิบัติเพื่อประเมินคุณภาพของที่อยู่อาศัยในดินแดนที่พวกเขาจัดการเกี่ยวกับสายพันธุ์นี้ สัตว์ตัวนี้ค่อนข้างเข้าใจยากผู้เชี่ยวชาญด้านที่อยู่อาศัยและมักจะอยู่ในพื้นที่ห่างไกล มีการศึกษาค่อนข้างน้อยเกี่ยวกับการกระจายของสายพันธุ์โดยเฉพาะฤดูกาล สัตว์หลายตัวติดตั้งปลอกคอ GPS เป็นระยะเวลาหนึ่งปี หนึ่งร้อยสถานที่ (50 ฤดูร้อนและ 50 ฤดูหนาว) ได้รับการสุ่มเลือกจากข้อมูลปลอกคอ GPS ของสัตว์แต่ละตัว นอกจากนี้ 50 คะแนนถูกสร้างแบบสุ่มภายในบ้านของสัตว์แต่ละตัวเพื่อทำหน้าที่เป็นตำแหน่ง "ว่าง" หรือ "หลอก" สำหรับที่ตั้งแต่ละแห่งตัวแปรที่อยู่อาศัยหลายแห่งถูกสุ่มตัวอย่างในฟิลด์ (ขนาดเส้นผ่าศูนย์กลางต้นไม้, แนวนอน, เศษไม้หยาบ ฯลฯ ) และตัวอย่างจำนวนมากถูกสุ่มตัวอย่างจากระยะไกลผ่าน GIS (ระดับความสูง, ระยะห่างจากถนน, ความทนทาน ฯลฯ ) ตัวแปรส่วนใหญ่จะต่อเนื่องยกเว้นตัวแปรเด็ดขาด 1 อันที่มี 7 ระดับ เป้าหมายของฉันคือใช้การสร้างแบบจำลองการถดถอยเพื่อสร้างฟังก์ชั่นการเลือกทรัพยากร (RSF) เพื่อสร้างแบบจำลองความน่าจะเป็นสัมพัทธ์ของการใช้หน่วยทรัพยากร …

5
ฉันสามารถละเว้นค่าสัมประสิทธิ์สำหรับปัจจัยที่ไม่มีนัยสำคัญในแบบจำลองเชิงเส้นได้หรือไม่?
หลังจากหาความกระจ่างเกี่ยวกับสัมประสิทธิ์โมเดลเชิงเส้นตรงนี้ฉันมีคำถามติดตามเกี่ยวกับค่าที่ไม่ลงนาม (ค่า p สูง) สำหรับค่าสัมประสิทธิ์ระดับปัจจัย ตัวอย่าง: หากโมเดลเชิงเส้นของฉันมีปัจจัยที่มี 10 ระดับและมีเพียง 3 ของระดับเหล่านั้นที่มีค่า p สำคัญที่เกี่ยวข้องกับพวกเขาเมื่อใช้แบบจำลองในการทำนาย Y ฉันสามารถเลือกที่จะไม่รวมคำว่าสัมประสิทธิ์ได้ ระดับที่ไม่มีนัยสำคัญ? ยิ่งไปกว่านั้นมันจะผิดหรือไม่ที่จะปั้นก้อนหิน 7 ระดับที่ไม่สำคัญออกเป็นระดับเดียวและวิเคราะห์อีกครั้ง?

4
ตัวแปรใดอธิบายถึงส่วนประกอบ PCA และในทางกลับกัน
ใช้ข้อมูลนี้: head(USArrests) nrow(USArrests) ฉันสามารถทำ PCA เป็นเช่นนี้: plot(USArrests) otherPCA <- princomp(USArrests) ฉันสามารถรับส่วนประกอบใหม่ได้ otherPCA$scores และสัดส่วนของความแปรปรวนที่อธิบายโดยส่วนประกอบด้วย summary(otherPCA) แต่ถ้าฉันต้องการรู้ว่าตัวแปรใดที่อธิบายส่วนใหญ่โดยองค์ประกอบหลัก? และในทางกลับกัน: เป็นเช่น PC1 หรือ PC2 ส่วนใหญ่อธิบายโดยmurder? ฉันจะทำสิ่งนี้ได้อย่างไร ฉันสามารถพูดได้เช่นว่า PC1 นั้นสามารถอธิบายได้ 80% โดยmurderหรือassault? ฉันคิดว่าการโหลดช่วยฉันที่นี่ แต่พวกเขาแสดงทิศทางที่ไม่อธิบายความแปรปรวนตามที่ฉันเข้าใจเช่น otherPCA$loadings Loadings: Comp.1 Comp.2 Comp.3 Comp.4 Murder 0.995 Assault -0.995 UrbanPop -0.977 -0.201 Rape -0.201 0.974

2
เราสามารถใช้ตัวแปรอิสระอย่างเด็ดขาดในการวิเคราะห์จำแนกหรือไม่?
ในการวิเคราะห์จำแนกจำแนกตัวแปรตามเป็นหมวด แต่ฉันสามารถใช้ตัวแปรเด็ดขาด (เช่นสถานะที่อยู่อาศัย: ชนบทเมือง) พร้อมกับตัวแปรต่อเนื่องอื่น ๆ เป็นตัวแปรอิสระในการวิเคราะห์จำแนกเชิงเส้น?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.