คำถามติดแท็ก regression-strategies

กลยุทธ์การสร้างแบบจำลองการถดถอย

1
ชี้แจงเกี่ยวกับการอ่านคำย่อ
ต่อไปนี้เป็น Nomogram ที่สร้างขึ้นจากชุดข้อมูล mtcars พร้อมแพ็กเกจ rms สำหรับสูตร: mpg ~ wt + am + qsec ตัวแบบนั้นดูดีด้วย R2 ที่ 0.85 และ P <0.00001 > mod Linear Regression Model ols(formula = mpg ~ wt + am + qsec, data = mtcars) Model Likelihood Discrimination Ratio Test Indexes Obs 32 LR chi2 60.64 R2 …

3
เกณฑ์และการตัดสินใจสำหรับความไม่เป็นเส้นตรงในแบบจำลองทางสถิติคืออะไร
ฉันหวังว่าคำถามทั่วไปต่อไปนี้จะสมเหตุสมผล โปรดทราบว่าสำหรับวัตถุประสงค์ของคำถามนี้โดยเฉพาะฉันไม่สนใจเหตุผลทางทฤษฎี (โดเมนหัวเรื่อง) สำหรับการแนะนำที่ไม่ใช่เชิงเส้น ดังนั้นฉันจะกำหนดคำถามแบบเต็มดังนี้: กรอบตรรกะคืออะไร( เกณฑ์และหากเป็นไปได้กระบวนการตัดสินใจ ) สำหรับการนำเสนอแบบไม่เป็นเชิงเส้นในแบบจำลองเชิงสถิติด้วยเหตุผลนอกเหนือจากเชิงทฤษฎี (โดเมนเรื่อง)? เช่นเคยทรัพยากรและการอ้างอิงที่เกี่ยวข้องก็ยินดีต้อนรับเช่นกัน

2
วิธีที่ดีที่สุดในการสร้างแผนภูมิการเติบโต
ฉันต้องสร้างแผนภูมิ (คล้ายกับแผนภูมิการเจริญเติบโต) สำหรับเด็กอายุ 5 ถึง 15 ปี (เพียง 5,6,7 และอื่น ๆ ไม่มีค่าเศษส่วนเช่น 2.6 ปี) สำหรับตัวแปรสุขภาพที่ไม่เป็นลบต่อเนื่องและใน ช่วง 50-150 (มีเพียงไม่กี่ค่าที่อยู่นอกช่วงนี้) ฉันต้องสร้างกราฟไทล์เปอร์ไทล์ 90th, 95 และ 99 และสร้างตารางสำหรับเปอร์เซนต์เหล่านี้ ขนาดตัวอย่างประมาณ 8000 ฉันตรวจสอบและพบวิธีที่เป็นไปได้ดังต่อไปนี้: ค้นหา quantiles แล้วใช้วิธีเหลืองเพื่อให้ได้เส้นโค้งที่ราบรื่นจาก quantiles เหล่านี้ ระดับของความนุ่มนวลสามารถปรับได้โดยใช้พารามิเตอร์ 'span' ใช้วิธี LMS (Lambda-Mu-Sigma) (เช่นใช้ gamlss หรือแพ็คเกจ VGAM ใน R) ใช้การถดถอยเชิงปริมาณ ใช้ค่าเฉลี่ยและค่า SD ของแต่ละกลุ่มอายุในการประมาณเปอร์เซ็นต์ไทล์สำหรับอายุนั้นและสร้างกราฟไทล์ไทล์ไทล์ วิธีที่ดีที่สุดที่จะทำคืออะไร? โดย 'ดีที่สุด' …

2
ฉันจะสร้างแบบจำลองการโต้ตอบระหว่างตัวแปรอธิบายได้อย่างไรเมื่อหนึ่งในนั้นอาจมีสมการกำลังสองและลูกบาศก์?
ฉันหวังเป็นอย่างยิ่งว่าฉันจะได้ใช้คำถามนี้ในลักษณะที่สามารถตอบได้อย่างชัดเจน - หากไม่ได้โปรดแจ้งให้เราทราบและฉันจะลองอีกครั้ง! ฉันควรเดาด้วยว่าฉันจะใช้ R สำหรับการวิเคราะห์เหล่านี้ ฉันมีหลายมาตรการplant performance (Ys)ที่ฉันสงสัยว่าได้รับอิทธิพลจากสี่รักษาผม imposed-- และflower thinning (X1), fertilization (X2), leaf clipping (X3) biased flower thinning (X4)สำหรับ Ys ที่เป็นไปได้ทั้งหมด N มีอย่างน้อย 242 ดังนั้นขนาดตัวอย่างของฉันจึงใหญ่ แผนการทั้งหมดถูกทำให้ผอมบางหรือไม่ แต่แต่ละแปลงก็ต้องมีหนึ่ง (และเพียงหนึ่ง) ของการรักษาอีกสาม (หรือไม่ - มีแผนการควบคุมด้วย) แนวคิดของการออกแบบนี้คือการทดสอบว่าอีกสามวิธีการรักษามีความสามารถในการ "กำบัง" หรือ "การเสริมสร้าง" ผลของการทำให้ผอมบาง ดังนั้นด้วยการออกแบบการรักษาทั้งสามหลัง (X2-X4) จึงไม่สามารถโต้ตอบกันได้เพราะพวกเขาไม่ได้ถูกข้าม แต่พวกเขาแต่ละคนสามารถโต้ตอบกับการทำให้ผอมบางของดอกไม้ - และพวกเขาอาจทำ สมมติฐานที่ชัดเจนของฉันคือ 1) การทำให้ผอมบางดอกจะมีนัยสำคัญและ 2) …

3
วิธีลดตัวทำนายวิธีที่ถูกต้องสำหรับตัวแบบการถดถอยโลจิสติก
ดังนั้นฉันจึงได้อ่านหนังสือบางเล่ม (หรือบางส่วนของพวกเขา) เกี่ยวกับการสร้างแบบจำลอง (กลยุทธ์การสร้างแบบจำลองการถดถอยของเอฟแฮร์เรลล์ในกลุ่มอื่น ๆ ) เนื่องจากสถานการณ์ปัจจุบันของฉันตอนนี้คือฉันต้องทำแบบจำลองโลจิสติกส์ ฉันมีทั้งข้อมูลอย่างต่อเนื่องหมวดหมู่และไบนารี (ตัวทำนาย) ในชุดข้อมูลของฉัน โดยพื้นฐานแล้วฉันมีผู้ทำนายประมาณ 100 คนในตอนนี้ซึ่งเห็นได้ชัดว่ามากเกินไปสำหรับแบบจำลองที่ดี นอกจากนี้ตัวทำนายหลายตัวเหล่านี้มีความสัมพันธ์กันเนื่องจากพวกเขามักจะอยู่บนพื้นฐานของตัวชี้วัดเดียวกันแม้ว่าจะแตกต่างกันเล็กน้อย อย่างไรก็ตามสิ่งที่ฉันได้อ่านโดยใช้เทคนิคการถดถอยแบบไม่รวมตัวแปรและขั้นตอนที่ชาญฉลาดเป็นสิ่งที่แย่ที่สุดที่คุณสามารถทำได้เพื่อลดจำนวนผู้ทำนาย ฉันคิดว่าเทคนิค LASSO นั้นค่อนข้างโอเค (ถ้าฉันเข้าใจถูกต้อง) แต่เห็นได้ชัดว่าคุณไม่สามารถใช้สิ่งนี้กับผู้ทำนาย 100 คนและคิดว่าจะมีประโยชน์อะไรเกิดขึ้น ดังนั้นสิ่งที่ตัวเลือกของฉันอยู่ที่นี่? ฉันต้องนั่งคุยกับหัวหน้างานของฉันและคนฉลาดในที่ทำงานจริง ๆ หรือไม่และคิดว่าตัวพยากรณ์ที่ดีที่สุด 5 อันดับแรกควรเป็น / หรือ (เราอาจจะผิด) หรือฉันควรจะใช้วิธีใด พิจารณาแทนไหม และใช่ฉันยังรู้ว่าหัวข้อนี้มีการกล่าวถึงอย่างมาก (ออนไลน์และในหนังสือ) แต่บางครั้งดูเหมือนว่าจะค่อนข้างล้นหลามเมื่อคุณเป็นคนใหม่ในสาขาการสร้างแบบจำลองนี้ แก้ไข: ก่อนอื่นขนาดตัวอย่างของฉันคือ +1000 ผู้ป่วย (ซึ่งมีจำนวนมากในสาขาของฉัน) และจากจำนวนที่มีการตอบรับในเชิงบวกระหว่าง 70-170 (เช่น 170 ใช่การตอบสนองเทียบกับประมาณ 900 ไม่มีการตอบสนองในกรณีใดกรณีหนึ่ง) . โดยพื้นฐานแล้วแนวคิดคือการทำนายความเป็นพิษหลังการรักษาด้วยรังสี …

1
จะตีความตัวแปรที่ถูกแยกออกจากหรือรวมอยู่ในรูปแบบ lasso ได้อย่างไร?
ฉันได้รับจากการโพสต์อื่น ๆ ว่าไม่มีความสำคัญ 'ความสำคัญ' หรือ 'ความสำคัญ' เพื่อทำนายตัวแปรที่เข้าสู่แบบจำลองเชือกเนื่องจากการคำนวณค่า p หรือค่าเบี่ยงเบนมาตรฐานของตัวแปรเหล่านั้นยังคงทำงานอยู่ ภายใต้การใช้เหตุผลนั้นถูกต้องหรือไม่ที่จะยืนยันว่าไม่สามารถพูดได้ว่าตัวแปรที่ถูกแยกออกจากตัวแบบเชือกเป็น 'ไม่เกี่ยวข้อง' หรือ 'ไม่สำคัญ'? ถ้าเป็นเช่นนั้นฉันสามารถเรียกร้องอะไรได้บ้างเกี่ยวกับตัวแปรที่ถูกแยกออกหรือรวมไว้ในแบบจำลองเชือก ในกรณีเฉพาะของฉันฉันเลือกแลมบ์ดาพารามิเตอร์การปรับแต่งโดยทำซ้ำการตรวจสอบความถูกต้องข้าม 10 เท่า 100 ครั้งเพื่อลด randonmess และเฉลี่ยโค้งข้อผิดพลาด UPDATE1: ฉันได้ทำตามคำแนะนำด้านล่างและเรียกใช้ lasso อีกครั้งโดยใช้ตัวอย่าง bootstrap ฉันได้ไปกับตัวอย่าง 100 รายการ (จำนวนนั้นเป็นสิ่งที่พลังคอมพิวเตอร์ของฉันสามารถจัดการข้ามคืนได้) และรูปแบบบางอย่างก็ปรากฏ 2 ใน 41 ตัวแปรของฉันเข้าสู่โมเดลมากกว่า 95% ของเวลา, 3 ตัวแปรมากกว่า 90% และ 5 ตัวแปรมากกว่า 85% ตัวแปร 5 ตัวนั้นเป็นหนึ่งใน 9 ที่เข้าสู่แบบจำลองเมื่อฉันรันด้วยตัวอย่างดั้งเดิมและเป็นตัวแปรที่มีค่าสัมประสิทธิ์สูงสุดแล้ว หากฉันใช้บ่วงบาศพร้อมกับตัวอย่าง …

5
การถดถอยโลจิสติกในข้อมูลขนาดใหญ่
ฉันมีชุดข้อมูลประมาณ 5,000 ฟีเจอร์ สำหรับข้อมูลนั้นฉันใช้การทดสอบ Chi Square เป็นครั้งแรกเพื่อเลือกคุณสมบัติ หลังจากนั้นฉันได้ประมาณ 1,500 ตัวแปรซึ่งแสดงความสัมพันธ์อย่างมีนัยสำคัญกับตัวแปรตอบกลับ ตอนนี้ฉันต้องพอดีกับการถดถอยโลจิสติกในที่ ฉันใช้แพ็คเกจ glmulti สำหรับ R (แพ็คเกจ glmulti ให้การเลือกเซตย่อยที่มีประสิทธิภาพสำหรับ vlm) แต่สามารถใช้คุณสมบัติได้ครั้งละ 30 คุณสมบัติเท่านั้นประสิทธิภาพในการทำงานลดลงเนื่องจากจำนวนแถวในชุดข้อมูลของฉันอยู่ที่ประมาณ 20,000 มีวิธีการหรือเทคนิคอื่น ๆ ในการแก้ปัญหาข้างต้นหรือไม่? ถ้าฉันไปตามวิธีข้างต้นมันจะใช้เวลามากเกินไปในการปรับให้เข้ากับโมเดล

2
การเลือกจำนวนขององค์ประกอบหลักที่กระจัดกระจายเพื่อรวมไว้ในการถดถอย
ไม่มีใครมีประสบการณ์กับวิธีการเลือกจำนวนขององค์ประกอบหลักที่กระจัดกระจายเพื่อรวมไว้ในแบบจำลองการถดถอยหรือไม่?
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.