คำถามติดแท็ก regression-strategies

กลยุทธ์การสร้างแบบจำลองการถดถอย

3
การเลือกแบบจำลอง: การถดถอยโลจิสติก
สมมติว่าเรามีตัวแปรและผลไบนารีตัวแปรYโควาเรียเหล่านี้บางประเภทมีหลายระดับ อื่น ๆ อย่างต่อเนื่อง คุณจะเลือกรุ่นที่ดีที่สุดได้อย่างไร กล่าวอีกนัยหนึ่งคุณจะเลือกเพื่อนร่วมรัฐใดที่จะรวมอยู่ในแบบจำลองได้อย่างไรx 1 , … , x n ynnnx1, … , xnx1,…,xnx_1, \dots, x_nYyy คุณจะสร้างแบบจำลองกับ covariates แต่ละรายการโดยใช้การถดถอยโลจิสติกอย่างง่ายและเลือกอันที่มีความสัมพันธ์สำคัญหรือไม่?Yyy

3
ทดสอบความไม่เชิงเส้นในการถดถอยโลจิสติกส์ (หรือการถดถอยแบบอื่น ๆ )
หนึ่งในข้อสันนิษฐานของการถดถอยโลจิสติกคือความเป็นเส้นตรงใน logit ดังนั้นเมื่อฉันสร้างแบบจำลองและเรียกใช้แล้วฉันจะทดสอบความไม่เชิงเส้นโดยใช้การทดสอบ Box-Tidwell หนึ่งในเครื่องมือทำนายต่อเนื่อง (X) ของฉันได้ทดสอบค่าบวกสำหรับความไม่เชิงเส้น ฉันควรทำอย่างไรต่อไป เนื่องจากนี่เป็นการละเมิดสมมติฐานที่ฉันจะกำจัดตัวทำนาย (X) หรือรวมถึงการแปลงแบบไม่เชิงเส้น (X * X) หรือแปลงตัวแปรเป็นหมวดหมู่? หากคุณมีการอ้างอิงคุณช่วยชี้ให้ฉันเห็นด้วยได้ไหม?

4
ทำไมการจับคู่คะแนนความชอบมีเหตุผลสำหรับการอนุมานสาเหตุ
การจับคู่คะแนนความชอบใช้สำหรับการหาสาเหตุในการศึกษาเชิงสังเกตการณ์ (ดูที่กระดาษ Rosenbaum / Rubin ) สัญชาตญาณง่าย ๆ ของเบื้องหลังทำไมมันทำงาน อีกนัยหนึ่งทำไมถ้าเราแน่ใจว่าความน่าจะเป็นของการมีส่วนร่วมในการรักษานั้นเท่ากันทั้งสองกลุ่มผลข้างเคียงที่หายไปและเราสามารถใช้ผลลัพธ์เพื่อสรุปข้อสรุปเกี่ยวกับการรักษาได้?

4
ฉันควรตรวจสอบสมมติฐานของ linearity กับ logit สำหรับตัวแปรอิสระอย่างต่อเนื่องในการวิเคราะห์การถดถอยโลจิสติกอย่างไร
ฉันสับสนกับข้อสมมติของความเป็นเชิงเส้นต่อ logit สำหรับตัวแปรทำนายอย่างต่อเนื่องในการวิเคราะห์การถดถอยโลจิสติก เราจำเป็นต้องตรวจสอบความสัมพันธ์เชิงเส้นในขณะที่คัดกรองผู้ทำนายที่มีศักยภาพโดยใช้การวิเคราะห์การถดถอยโลจิสติกที่ไม่เปลี่ยนแปลงหรือไม่? ในกรณีของฉันฉันใช้การวิเคราะห์การถดถอยโลจิสติกหลายครั้งเพื่อระบุปัจจัยที่เกี่ยวข้องกับภาวะโภชนาการ (ผลแบบคู่) ของผู้เข้าร่วม ตัวแปรอย่างต่อเนื่องรวมถึงอายุ, คะแนนการดูดซับของชาร์ลสัน, ดัชนีบาร์เทล, ความแข็งแรงของมือ, คะแนน GDS, ค่าดัชนีมวลกายเป็นต้นขั้นตอนแรกของฉันคือการคัดกรองตัวแปรที่สำคัญโดยใช้การถดถอยโลจิสติกอย่างง่าย ฉันต้องตรวจสอบสมมติฐานเชิงเส้นตรงในระหว่างการวิเคราะห์การถดถอยโลจิสติกอย่างง่ายสำหรับตัวแปรต่อเนื่องแต่ละตัวหรือไม่ หรือฉันควรตรวจสอบในรูปแบบการถดถอยโลจิสติกหลายขั้นสุดท้าย? นอกจากนี้เพื่อความเข้าใจของฉันเราต้องเปลี่ยนตัวแปรต่อเนื่องที่ไม่ใช่เชิงเส้นก่อนที่จะใส่ลงในโมเดล ฉันสามารถจัดหมวดหมู่ตัวแปรต่อเนื่องแบบไม่เชิงเส้นแทนการแปลงได้หรือไม่?

2
การถดถอยโลจิสติกส์เหมาะสมเมื่อใด
ขณะนี้ฉันกำลังสอนตัวเองเกี่ยวกับการจำแนกประเภทและโดยเฉพาะฉันกำลังดูวิธีการสามวิธี: การสนับสนุนเครื่องเวกเตอร์เครือข่ายประสาทและการถดถอยโลจิสติก สิ่งที่ฉันพยายามเข้าใจคือเหตุที่การถดถอยโลจิสติกจะทำงานได้ดีกว่าอีกสอง จากความเข้าใจของฉันในการถดถอยโลจิสติกความคิดคือการปรับฟังก์ชั่นโลจิสติกให้พอดีกับข้อมูลทั้งหมด ดังนั้นถ้าข้อมูลของฉันเป็นเลขฐานสองข้อมูลทั้งหมดที่มีป้ายกำกับ 0 ควรถูกแมปกับค่า 0 (หรือใกล้เคียง) และข้อมูลทั้งหมดที่มีค่า 1 ควรถูกแมปกับค่า 1 (หรือใกล้เคียง) ตอนนี้เนื่องจากฟังก์ชันโลจิสติกส์นั้นต่อเนื่องและราบรื่นการดำเนินการถดถอยนี้จึงต้องการข้อมูลทั้งหมดของฉันเพื่อให้พอดีกับเส้นโค้ง ไม่มีความสำคัญมากขึ้นนำไปใช้กับจุดข้อมูลที่อยู่ใกล้กับขอบเขตการตัดสินใจและจุดข้อมูลทั้งหมดมีส่วนทำให้เกิดการสูญเสียตามจำนวนที่แตกต่างกัน อย่างไรก็ตามด้วยการสนับสนุนเวกเตอร์แมชชีนและเครือข่ายนิวรัลเฉพาะจุดข้อมูลเหล่านั้นที่อยู่ใกล้กับขอบเขตการตัดสินใจมีความสำคัญ ตราบใดที่จุดข้อมูลยังคงอยู่ในขอบเขตเดียวกันของขอบเขตการตัดสินใจมันจะมีส่วนทำให้เกิดการสูญเสียเท่ากัน ดังนั้นเหตุใดการถดถอยของโลจิสติกจึงมีประสิทธิภาพสูงกว่าเครื่องเวกเตอร์หรือโครงข่ายประสาทเนื่องจากว่า "เสียทรัพยากร" ในการพยายามที่จะปรับเส้นโค้งให้เข้ากับข้อมูลที่ไม่สำคัญ (จำแนกได้ง่าย ๆ ) ขอบเขต?

4
เบาะแสว่าปัญหาเหมาะสมอย่างยิ่งสำหรับการถดถอยเชิงเส้น
ฉันเรียนรู้การถดถอยเชิงเส้นโดยใช้รู้เบื้องต้นเกี่ยวกับการวิเคราะห์การถดถอยเชิงเส้นโดยอจิกและ Vining ฉันต้องการเลือกโครงการวิเคราะห์ข้อมูล ฉันมีความคิดที่ไร้เดียงสาว่าการถดถอยเชิงเส้นนั้นเหมาะสมเมื่อผู้ต้องสงสัยคนหนึ่งเท่านั้นที่มีความสัมพันธ์เชิงเส้นตรงระหว่างตัวแปรอธิบายและตัวแปรตอบสนอง แต่มีแอพพลิเคชั่นในโลกแห่งความจริงไม่มากนักที่ดูเหมือนจะตรงตามเกณฑ์นี้ แต่การถดถอยเชิงเส้นค่อนข้างแพร่หลาย แง่มุมของโครงการที่นักสถิติที่มีประสบการณ์กำลังคิดอยู่ว่าพวกเขาอยู่ในรองเท้าของฉันหรือไม่โดยมองหาคำถาม + ข้อมูลที่เหมาะสมกับการถดถอยเชิงเส้น

1
การทดสอบความเหมาะสมในการถดถอยโลจิสติก เราต้องการทดสอบแบบใด
ฉันหมายถึงคำถามและคำตอบ: วิธีการเปรียบเทียบ (ความน่าจะเป็น) ความสามารถในการทำนายของแบบจำลองที่พัฒนาจากการถดถอยโลจิสติก? โดย @Clark Chong และคำตอบ / ความคิดเห็นโดย @Frank Harrell และคำถามองศาความเป็นอิสระของในการทดสอบ Hosmer-Lemeshowχ2χ2\chi^2และความคิดเห็น ฉันได้อ่านเอกสารDW Hosmer, T. Hosmer, S. Le Cessie, S. Lemeshow, "การเปรียบเทียบการทดสอบความดีพอดีสำหรับรูปแบบการถดถอยโลจิสติก", สถิติการแพทย์, ฉบับที่ 16, 965-980 (1997) หลังจากอ่านฉันสับสนเพราะคำถามที่ฉันอ้างถึงขอให้ชัดเจนสำหรับ "(ความน่าจะเป็น) ความสามารถในการทำนาย" ซึ่งในความคิดของฉันไม่เหมือนกับสิ่งที่ดี - ของ - พอดี - แบบทดสอบในกระดาษ supra มุ่ง: ดังที่พวกเราส่วนใหญ่ทราบกันว่าการถดถอยแบบลอจิสติกถือว่าการเชื่อมโยงรูปตัว S ระหว่างตัวแปรอธิบายและความน่าจะเป็นของความสำเร็จรูปแบบการทำงานของรูปตัว S คือ P(y=1|xi)=11+e−(β0+∑iβixi)P(y=1|xi)=11+e−(β0+∑iβixi)P(y=1|_{x_i})=\frac{1}{1+e^{-(\beta_0+\sum_i \beta_i x_i)}} โดยไม่ต้องแสร้งว่าไม่มีข้อบกพร่องในการทดสอบ …

1
'การทดสอบสมมติฐาน' และ 'การเลือกแบบจำลอง' แตกต่างกันอย่างไร
ในวรรณคดีคำทั้งสองมักจะใช้คำพ้องความหมายหรือ interwoven ตอนนี้ฉันกำลังพยายามหาความแตกต่างที่ชัดเจนระหว่างคำทั้งสอง จากมุมมองของฉันสมมติฐานมักจะแสดงออกผ่านแบบจำลอง ดังนั้นแม้ว่าเราจะทดสอบสมมติฐานว่างกับทางเลือกจากมุมมองของฉันเรากำลังทำการเลือกแบบจำลอง ใครสามารถให้คำอธิบายที่เข้าใจง่ายเกี่ยวกับความแตกต่างนี้ได้?

1
การถดถอยแบบลอจิสติกพร้อมเส้นโค้งการถดถอยใน R
ฉันพัฒนารูปแบบการถดถอยโลจิสติกส์โดยใช้ข้อมูลย้อนหลังจากฐานข้อมูลการบาดเจ็บระดับชาติของการบาดเจ็บที่ศีรษะในสหราชอาณาจักร ผลลัพธ์ที่สำคัญคืออัตราการเสียชีวิต 30 วัน (แสดงเป็นมาตรการ "เอาตัวรอด") มาตรการอื่น ๆ ที่มีหลักฐานที่ตีพิมพ์ว่ามีผลกระทบอย่างมีนัยสำคัญต่อผลลัพธ์ในการศึกษาก่อนหน้า ได้แก่ Year - Year of procedure = 1994-2013 Age - Age of patient = 16.0-101.5 ISS - Injury Severity Score = 0-75 Sex - Gender of patient = Male or Female inctoCran - Time from head injury to craniotomy in minutes …

2
วิธีเริ่มสร้างแบบจำลองการถดถอยเมื่อตัวทำนายที่เกี่ยวข้องมากที่สุดคือไบนารี
ฉันมีชุดข้อมูลที่มี 365 การสังเกตของสามตัวแปรคือpm, และtemp rainตอนนี้ฉันต้องการตรวจสอบพฤติกรรมของpmการตอบสนองต่อการเปลี่ยนแปลงในอีกสองตัวแปร ตัวแปรของฉันคือ: pm10 = การตอบสนอง (ขึ้นอยู่กับ) temp = ตัวทำนาย (อิสระ) rain = ตัวทำนาย (อิสระ) ต่อไปนี้เป็นเมทริกซ์สหสัมพันธ์สำหรับข้อมูลของฉัน: > cor(air.pollution) pm temp rainy pm 1.00000000 -0.03745229 -0.15264258 temp -0.03745229 1.00000000 0.04406743 rainy -0.15264258 0.04406743 1.00000000 ปัญหาคือเมื่อฉันกำลังศึกษาการสร้างตัวแบบการถดถอยมันเขียนว่าวิธีการเติมแต่งคือการเริ่มต้นด้วยตัวแปรที่เกี่ยวข้องกับตัวแปรตอบสนองมากที่สุด ในชุดข้อมูลของฉันrainมีความสัมพันธ์อย่างมากกับpm(เมื่อเทียบกับtemp) แต่ในเวลาเดียวกันมันเป็นตัวแปรจำลอง (ฝน = 1, ไม่มีฝน = 0) ดังนั้นตอนนี้ฉันจึงได้รู้ว่าควรเริ่มจากที่ใด ผมได้แนบภาพสองภาพที่มีคำถาม: ที่แรกก็คือ scatterplot ของข้อมูลและภาพที่สองเป็น …

1
เหตุใดการเลือกคุณสมบัติจึงสำคัญสำหรับงานจัดประเภท
ฉันเรียนรู้เกี่ยวกับการเลือกคุณสมบัติ ฉันเห็นได้ว่าทำไมมันถึงมีความสำคัญและมีประโยชน์สำหรับการสร้างแบบจำลอง แต่เรามาเน้นที่งานการเรียนรู้แบบแบ่งหมวดหมู่ เหตุใดการเลือกคุณสมบัติจึงสำคัญสำหรับงานจัดประเภท ฉันเห็นวรรณกรรมจำนวนมากที่เขียนเกี่ยวกับการเลือกคุณสมบัติและการใช้เพื่อการเรียนรู้แบบมีผู้ควบคุม แต่สิ่งนี้ทำให้ฉันสับสน การเลือกคุณสมบัติเป็นเรื่องเกี่ยวกับการระบุคุณสมบัติที่จะทิ้ง โดยสังเขปการทิ้งคุณสมบัติบางอย่างดูเหมือนว่าจะเอาชนะตนเองได้: กำลังทิ้งข้อมูล ดูเหมือนว่าการโยนข้อมูลไม่ควรช่วย และแม้ว่าการลบคุณลักษณะบางอย่างจะช่วยได้ถ้าเราทิ้งคุณสมบัติบางอย่างแล้วป้อนส่วนที่เหลือลงในอัลกอริทึมการเรียนรู้ภายใต้การดูแลทำไมเราต้องทำเช่นนั้นด้วยตัวเองแทนที่จะปล่อยให้อัลกอริทึมการเรียนรู้ภายใต้การดูแลจัดการ หากคุณลักษณะบางอย่างไม่เป็นประโยชน์ควรอัลกอริทึมการเรียนรู้แบบมีผู้สอนที่เหมาะสมไม่ควรค้นพบและเรียนรู้รูปแบบที่ไม่ใช้คุณลักษณะนั้น ดังนั้นโดยสังเขปฉันคาดหวังว่าการเลือกคุณสมบัติจะเป็นการออกกำลังกายที่ไม่มีจุดหมายที่ไม่เคยช่วยและบางครั้งก็เจ็บปวด แต่ความจริงที่ว่ามันถูกใช้อย่างกว้างขวางและเขียนเกี่ยวกับทำให้ฉันสงสัยว่าสัญชาตญาณของฉันเป็นความผิดพลาด ทุกคนสามารถให้สัญชาตญาณว่าทำไมการเลือกคุณสมบัตินั้นมีประโยชน์และสำคัญเมื่อทำการเรียนรู้แบบมีผู้สอน ทำไมมันถึงปรับปรุงประสิทธิภาพของการเรียนรู้ของเครื่อง? มันขึ้นอยู่กับลักษณนามที่ฉันใช้หรือไม่?

3
GLM ที่มีข้อมูลต่อเนื่องซ้อนกันเป็นศูนย์
ฉันพยายามใช้แบบจำลองเพื่อประเมินว่าโรคภัยพิบัติเช่นวัณโรคเอดส์ ฯลฯ ส่งผลกระทบต่อการใช้จ่ายในการเข้ารักษาตัวในโรงพยาบาล ฉันมี "ต้นทุนต่อการเข้ารักษาตัวในโรงพยาบาล" เป็นตัวแปรตามและเครื่องหมายของแต่ละบุคคลเป็นตัวแปรอิสระซึ่งเกือบทั้งหมดเป็นตัวอย่างเช่นเพศหัวหน้าครัวเรือนสถานะสถานะความยากจนและแน่นอนเป็นตัวแทนว่าคุณมีความเจ็บป่วยหรือไม่ และอายุกำลังสอง) และกลุ่มคำศัพท์โต้ตอบ ตามที่คาดไว้มีจำนวนมาก - และฉันหมายถึงข้อมูลจำนวนมากซ้อนกันที่ศูนย์ (กล่าวคือไม่มีค่าใช้จ่ายในการเข้ารักษาตัวในโรงพยาบาลในระยะเวลาอ้างอิง 12 เดือน) อะไรจะเป็นวิธีที่ดีที่สุดในการจัดการกับข้อมูลเช่นนี้ ณ ตอนนี้ฉันตัดสินใจที่จะแปลงค่าใช้จ่ายln(1+cost)เพื่อรวมการสังเกตทั้งหมดแล้วเรียกใช้โมเดลเชิงเส้น ฉันกำลังติดตามใช่ไหม?

2
ใช้ LASSO สำหรับการเลือกคุณสมบัติเท่านั้น
ในระดับการเรียนรู้เครื่องของเราได้เรียนรู้เกี่ยวกับวิธีการ Lasso ถดถอยเป็นอย่างดีในการดำเนินการเลือกคุณลักษณะเพราะมันทำให้การใช้ regularizationล.1ล.1l_1 คำถามของฉัน: โดยปกติแล้วคนใช้แบบจำลอง LASSO เพียงเพื่อทำการเลือกคุณลักษณะ (แล้วดำเนินการถ่ายโอนคุณลักษณะเหล่านั้นไปยังรูปแบบการเรียนรู้ของเครื่องอื่น) หรือพวกเขามักจะใช้ LASSO เพื่อทำการเลือกทั้งคุณสมบัติและการถดถอยจริง ตัวอย่างเช่นสมมติว่าคุณต้องการลดการถดถอยในแนวสัน แต่คุณเชื่อว่าคุณสมบัติหลายอย่างของคุณไม่ดีนัก จะเป็นการดีไหมถ้าจะเรียกใช้ LASSO ใช้เฉพาะฟีเจอร์ที่อัลกอริธึมไม่ใกล้ศูนย์และใช้เฉพาะในการทิ้งข้อมูลของคุณเป็นแบบจำลองการถดถอยของสันเขา? ด้วยวิธีนี้คุณจะได้รับประโยชน์จากการทำให้เป็นปกติสำหรับการเลือกคุณสมบัติ แต่ยังได้รับประโยชน์จากการทำให้เป็นเพื่อลดการ(ฉันรู้ว่าสิ่งนี้มีความสำคัญกับ Elastic Net Regression แต่ดูเหมือนว่าคุณไม่จำเป็นต้องมีทั้งคำและในฟังก์ชันวัตถุประสงค์การถดถอยขั้นสุดท้าย)ล.1ล.1l_1ล.2ล.2l_2ล.1ล.1l_1ล.2ล.2l_2 นอกเหนือจากการถดถอยแล้วนี่เป็นกลยุทธ์ที่ชาญฉลาดหรือไม่เมื่อทำการแบ่งประเภท (ใช้ SVMs, โครงข่ายประสาทเทียม, ฟอเรสต์แบบสุ่ม, ฯลฯ )?

3
คุณสมบัติการจัดอันดับในการถดถอยโลจิสติก
ฉันใช้การถดถอยโลจิสติก ฉันมีหกคุณสมบัติฉันต้องการทราบคุณสมบัติที่สำคัญในตัวจําแนกนี้ที่มีผลต่อผลลัพธ์มากกว่าคุณสมบัติอื่น ๆ ฉันใช้ Information Gain แต่ดูเหมือนว่ามันไม่ได้ขึ้นอยู่กับตัวจําแนกที่ใช้แล้ว มีวิธีการจัดอันดับคุณลักษณะตามความสำคัญของพวกเขาตามตัวจําแนกเฉพาะ (เช่น Logistic Regression) หรือไม่ ความช่วยเหลือใด ๆ จะได้รับการชื่นชมอย่างมาก

3
เหตุใดจึงควรทำการเปลี่ยนแปลง WOE ของตัวพยากรณ์เชิงหมวดหมู่ในการถดถอยโลจิสติก
การเปลี่ยนแปลงน้ำหนักของหลักฐาน (WOE) ของตัวแปรเด็ดขาดมีประโยชน์เมื่อใด ตัวอย่างสามารถเห็นได้ในการแปลง WOE (ดังนั้นสำหรับการตอบสนอง , & ตัวทำนายหมวดหมู่ที่มีหมวดหมู่ , & ประสบความสำเร็จจากการทดลองภายในหมวดหมู่ที่ของตัวทำนายนี้, WOE สำหรับหมวดหมู่ที่ถูกกำหนดให้เป็นk y j n j j jyyykkkyjyjy_jnjnjn_jjjjjjj เข้าสู่ระบบYJΣkJYJΣkJ( nJ- yJ)nJ- yJlog⁡yj∑jkyj∑jk(nj−yj)nj−yj\log \frac{y_j} {\sum_j^k {y_j}} \frac{\sum_j^k (n_j-y_j)}{n_j-y_j} & การเปลี่ยนแปลงประกอบด้วยการเข้ารหัสแต่ละหมวดหมู่ของตัวทำนายหมวดหมู่ด้วย WOE เพื่อสร้างตัวทำนายแบบต่อเนื่องใหม่) ฉันต้องการเรียนรู้สาเหตุที่การแปลง WOE ช่วยการถดถอยโลจิสติกส์ ทฤษฎีที่อยู่เบื้องหลังสิ่งนี้คืออะไร?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.