การสร้างแบบจำลองและการเลือกโดยใช้ Hosmer และคณะ 2013. การประยุกต์ใช้การถดถอยโลจิสติกใน R


17

นี่เป็นโพสต์แรกของฉันใน StackExchange แต่ฉันได้ใช้มันเป็นทรัพยากรมาระยะหนึ่งแล้วฉันจะพยายามอย่างดีที่สุดที่จะใช้รูปแบบที่เหมาะสมและทำการแก้ไขที่เหมาะสม นอกจากนี้ยังเป็นคำถามที่มีหลายส่วน ฉันไม่แน่ใจว่าฉันควรแยกคำถามออกเป็นหลายกระทู้หรือกระทู้เดียว เนื่องจากคำถามมาจากส่วนหนึ่งในข้อความเดียวกันฉันคิดว่ามันจะเกี่ยวข้องกับการโพสต์เป็นคำถามเดียว

ฉันกำลังค้นคว้าการใช้ถิ่นที่อยู่ของสัตว์เลี้ยงลูกด้วยนมขนาดใหญ่เพื่อทำวิทยานิพนธ์ปริญญาโท เป้าหมายของโครงการนี้คือเพื่อให้ผู้จัดการป่าไม้ (ซึ่งน่าจะไม่ใช่นักสถิติ) ที่มีกรอบการปฏิบัติเพื่อประเมินคุณภาพของที่อยู่อาศัยในดินแดนที่พวกเขาจัดการเกี่ยวกับสายพันธุ์นี้ สัตว์ตัวนี้ค่อนข้างเข้าใจยากผู้เชี่ยวชาญด้านที่อยู่อาศัยและมักจะอยู่ในพื้นที่ห่างไกล มีการศึกษาค่อนข้างน้อยเกี่ยวกับการกระจายของสายพันธุ์โดยเฉพาะฤดูกาล สัตว์หลายตัวติดตั้งปลอกคอ GPS เป็นระยะเวลาหนึ่งปี หนึ่งร้อยสถานที่ (50 ฤดูร้อนและ 50 ฤดูหนาว) ได้รับการสุ่มเลือกจากข้อมูลปลอกคอ GPS ของสัตว์แต่ละตัว นอกจากนี้ 50 คะแนนถูกสร้างแบบสุ่มภายในบ้านของสัตว์แต่ละตัวเพื่อทำหน้าที่เป็นตำแหน่ง "ว่าง" หรือ "หลอก"

สำหรับที่ตั้งแต่ละแห่งตัวแปรที่อยู่อาศัยหลายแห่งถูกสุ่มตัวอย่างในฟิลด์ (ขนาดเส้นผ่าศูนย์กลางต้นไม้, แนวนอน, เศษไม้หยาบ ฯลฯ ) และตัวอย่างจำนวนมากถูกสุ่มตัวอย่างจากระยะไกลผ่าน GIS (ระดับความสูง, ระยะห่างจากถนน, ความทนทาน ฯลฯ ) ตัวแปรส่วนใหญ่จะต่อเนื่องยกเว้นตัวแปรเด็ดขาด 1 อันที่มี 7 ระดับ

เป้าหมายของฉันคือใช้การสร้างแบบจำลองการถดถอยเพื่อสร้างฟังก์ชั่นการเลือกทรัพยากร (RSF) เพื่อสร้างแบบจำลองความน่าจะเป็นสัมพัทธ์ของการใช้หน่วยทรัพยากร ฉันต้องการสร้าง RSF (ฤดูหนาวและฤดูร้อน) ตามฤดูกาลสำหรับประชากรของสัตว์ (ประเภทการออกแบบ I) รวมถึงสัตว์แต่ละตัว (การออกแบบประเภท III)

ฉันใช้ R เพื่อทำการวิเคราะห์ทางสถิติ

ข้อความหลักของฉันได้ใช้เป็น ...

  • "Hosmer, DW, Lemeshow, S. , & Sturdivant, RX 2013. การถดถอยโลจิสติกประยุกต์, Wiley, Chicester"

ตัวอย่างส่วนใหญ่ใน Hosmer และคณะ ใช้เดินทางเข้ามายัง, ฉันได้รับยังใช้ต่อไปนี้ 2 ตำราสำหรับการอ้างอิงกับ R

  • "Crawley, MJ 2005. สถิติ: บทนำโดยใช้ RJ Wiley, Chichester, West Sussex, England"
  • "Plant, RE 2012 การวิเคราะห์ข้อมูลเชิงพื้นที่ในนิเวศวิทยาและการเกษตรโดยใช้ R. CRC Press, London, GBR"

ฉันกำลังทำตามขั้นตอนในบทที่ 4 ของ Hosmer และคณะ สำหรับ "การเลือกแบบมีจุดหมายอย่างมีจุดหมาย"และมีคำถามสองสามข้อเกี่ยวกับกระบวนการ ฉันได้อธิบายขั้นตอนแรกในข้อความด้านล่างเพื่อช่วยตอบคำถามของฉัน

  1. ขั้นตอนที่ 1: การวิเคราะห์ตัวแปรอิสระแต่ละตัวแปรที่ไม่สามารถเปลี่ยนแปลงได้ (ฉันใช้การถดถอยโลจิสติกที่ไม่สามารถเปลี่ยนแปลงได้) ตัวแปรใด ๆ ที่มีการทดสอบที่ไม่สามารถเปลี่ยนแปลงได้มีค่า p น้อยกว่า 0.25 ควรรวมไว้ในโมเดลหลายตัวแปรแรก
  2. ขั้นตอนที่ 2: ติดตั้งโมเดลหลายตัวแปรที่มี covariates ทั้งหมดที่ระบุไว้เพื่อรวมไว้ในขั้นตอนที่ 1 และเพื่อประเมินความสำคัญของ covariate แต่ละรายการโดยใช้ p-value ของสถิติ Wald ควรกำจัดตัวแปรที่ไม่ได้มีส่วนร่วมในระดับความสำคัญดั้งเดิมและแบบจำลองใหม่ให้พอดี รุ่นที่ใหม่กว่าและมีขนาดเล็กกว่าควรเปรียบเทียบกับรุ่นเก่าที่มีขนาดใหญ่กว่าโดยใช้การทดสอบอัตราส่วนความน่าจะเป็นบางส่วน
  3. ขั้นตอนที่ 3: เปรียบเทียบค่าของสัมประสิทธิ์โดยประมาณในโมเดลขนาดเล็กกับค่าที่เกี่ยวข้องจากโมเดลขนาดใหญ่ ตัวแปรใด ๆ ที่มีค่าสัมประสิทธิ์เปลี่ยนไปอย่างเด่นชัดในขนาดควรเพิ่มกลับเข้าไปในตัวแบบเนื่องจากมีความสำคัญในแง่ของการให้การปรับเปลี่ยนที่จำเป็นของผลกระทบของตัวแปรที่ยังคงอยู่ในตัวแบบ วนรอบในขั้นตอนที่ 2 และ 3 จนกระทั่งปรากฏว่าตัวแปรสำคัญทั้งหมดรวมอยู่ในโมเดลและสิ่งที่ยกเว้นนั้นเป็นข้อมูลทางการแพทย์และ / หรือไม่สำคัญทางสถิติ Hosmer และคณะ ใช้ " delta-beta-hat-percent " เป็นตัวชี้วัดการเปลี่ยนแปลงขนาดของสัมประสิทธิ์ พวกเขาแนะนำให้มีการเปลี่ยนแปลงที่สำคัญในฐานะเดลต้า - เบต้า - หมวก - เปอร์เซ็นต์ของ> 20% Hosmer และคณะ กำหนดdelta-beta-hat-percentเป็น 1 ที่ไหนθ1เป็นค่าสัมประสิทธิ์จากรูปแบบที่มีขนาดเล็กและβ1เป็นค่าสัมประสิทธิ์จากแบบจำลองขนาดใหญ่Δβ^%=100θ^1β^1β^1θ^1β^1
  4. ขั้นตอนที่ 4: เพิ่มตัวแปรแต่ละตัวที่ไม่ได้เลือกในขั้นตอนที่ 1 เข้ากับโมเดลที่ได้รับในตอนท้ายของขั้นตอนที่ 3 ครั้งละหนึ่งรายการและตรวจสอบความสำคัญของตัวแปรนั้นโดยค่าสถิติ Wald Wald p-value หรือการทดสอบอัตราส่วนความน่าจะเป็นบางส่วน ตัวแปรที่มีมากกว่า 2 ระดับ ขั้นตอนนี้มีความสำคัญสำหรับการระบุตัวแปรที่ตัวเองไม่ได้เกี่ยวข้องอย่างมีนัยสำคัญกับผล แต่ให้มีส่วนร่วมที่สำคัญในการปรากฏตัวของตัวแปรอื่น ๆ เราหมายถึงรูปแบบในตอนท้ายของขั้นตอนที่ 4 เป็นที่เบื้องต้นรูปแบบผลกระทบหลัก
  5. ขั้นตอนที่ 5-7: ฉันยังไม่ได้ไปถึงจุดนี้ดังนั้นฉันจะออกจากขั้นตอนเหล่านี้ตอนนี้หรือบันทึกไว้สำหรับคำถามอื่น

คำถามของฉัน:

  1. ในขั้นตอนที่ 2 สิ่งที่จะเหมาะสมในระดับนัยสำคัญแบบดั้งเดิมค่า p ของ <0.05 บางอย่างที่ใหญ่กว่าเช่น <.25
  2. ในขั้นตอนที่ 2 อีกครั้งฉันต้องการตรวจสอบให้แน่ใจว่ารหัส R ที่ฉันใช้สำหรับการทดสอบความน่าจะเป็นบางส่วนนั้นถูกต้องและฉันต้องการตรวจสอบให้แน่ใจว่าฉันกำลังตีความผลลัพธ์อย่างถูกต้อง นี่คือสิ่งที่ฉันได้ทำ ... anova(smallmodel,largemodel,test='Chisq')หาก p-value มีความสำคัญ (<0.05) ฉันเพิ่มตัวแปรกลับไปที่โมเดลถ้ามันไม่มีนัยสำคัญฉันดำเนินการลบต่อไปหรือไม่
  3. Δβ^%Δβ^%
  4. Δβ^%

    100*((smallmodel$coef[2]-largemodel$coef[2])/largemodel$coef[2])


จากสายพันธุ์ที่คุณศึกษาอยู่
พยากรณ์

คำตอบ:


23

Pβ


3
ใช่ความรู้เกี่ยวกับโดเมน + ความเชื่อในเรื่องความเรียบง่ายที่ดีต่อสุขภาพเช่นอย่าคิดว่าตัวแปรต่อเนื่องทำหน้าที่เป็นเส้นตรงเว้นแต่ว่าคุณมีข้อมูลก่อนหน้านี้ที่แสดงให้เห็นถึงความเป็นเส้นตรง
Frank Harrell

6
OP กำลังอ้างถึงข้อความหลักในรุ่นที่สามกับผู้เขียนที่มีส่วนร่วมอย่างมากในฟิลด์ ประเด็นอื่น ๆ ที่เกิดขึ้นในคำถามนี้ถูกกล่าวถึงในตำราที่มีอิทธิพลอื่น ๆ (Agresti, Gelman) ฉันนำสิ่งนี้มาใช้ไม่ใช่เพราะฉันเห็นด้วยกับกลยุทธ์นี้ แต่พึงระลึกไว้ว่ากลยุทธ์เหล่านี้ได้รับการแนะนำในข้อความล่าสุดโดยนักสถิติที่เคารพนับถือ กล่าวโดยสรุป: แม้ว่าจะมีวรรณกรรมจำนวนมากที่ให้คำแนะนำในเรื่องนี้ แต่ดูเหมือนว่าชุมชนสถิติจะไม่ถูกปฏิเสธ
julieth

2
นั่นค่อนข้างเข้าใจผิดในความเห็นที่ต่ำต้อยของฉัน กลวิธีผลักอย่างหนักในบางตำราไม่เคยผ่านการตรวจสอบ ผู้เขียนที่ไม่เชื่อในการจำลองทำให้เสี่ยงต่อการสนับสนุนการใช้วิธีการที่ไม่ทำงานตามที่โฆษณาไว้
Frank Harrell

2
ใช่ฉันรู้. ฉันอ้างถึงข้อความและเอกสารของคุณบ่อยครั้งและเป็นหนึ่งในแหล่งที่มาที่ฉันเคยได้ข้อสรุปที่ไม่เห็นด้วยกับกลยุทธ์ข้างต้น ฉันเพียงแค่ถ่ายทอดภาวะที่กลืนไม่เข้าคายไม่ออกของผู้ใช้ที่ใช้ เราไม่สามารถทดสอบทุกสิ่งได้ เราพึ่งพาผู้เชี่ยวชาญเช่นคุณ
julieth

3
@GNG: FH หมายถึงการจำลองเป็นวิธีการแสดงให้เห็นว่าวิธีการเลือกรูปแบบจริง ๆ แล้วทำในสิ่งที่ควรทำ (สมมุติว่าเพื่อปรับปรุงความแม่นยำของการทำนายแบบจำลองของคุณ) ในแอปพลิเคชันทั่วไป คำถามที่ชาญฉลาดของคุณจะเน้นไปที่ข้อ จำกัด เฉพาะเจาะจงการรวมตัวแปรตามจำนวนการทดสอบที่มีนัยสำคัญในระดับ "ดั้งเดิม" ที่ไม่สามารถพิสูจน์ได้โดยทฤษฎีเพื่อรับประกันการเพิ่มประสิทธิภาพของสิ่งต่าง ๆ
Scortchi - Reinstate Monica

5

วิธีการที่ระบุไว้สำหรับการเลือกตัวแปรโดยใช้สถิติเช่น P การถดถอยแบบขั้นตอนในข้อความคลาสสิก Hosmer et al ควรหลีกเลี่ยงค่าใช้จ่ายทั้งหมด

เร็ว ๆ นี้ผมเจอบทความที่ตีพิมพ์ในวารสารนานาชาติของการพยากรณ์มีสิทธิออกเสียง " ภาพลวงตาของการคาดการณ์ " และ commentory ในบทความนี้โดยคี ธ อ๊อด ฉันขอแนะนำทั้งสองบทความนี้เนื่องจากพวกเขาแสดงให้เห็นอย่างชัดเจนว่าการใช้สถิติการถดถอยมักทำให้เข้าใจผิด Follwoing เป็นสกรีนช็อตของบทความของ Keith Ord ที่แสดงโดยการจำลองว่าเหตุใดการถดถอยแบบชาญฉลาดขั้นตอน (ใช้สถิติ p) สำหรับการเลือกตัวแปรไม่ถูกต้อง

ป้อนคำอธิบายรูปภาพที่นี่

บทความที่ยอดเยี่ยมอีกชิ้นหนึ่งของScott Armstrongที่ปรากฏในวารสารฉบับเดียวกันแสดงให้เห็นว่าทำไมเราจึงต้องระมัดระวังในการใช้การวิเคราะห์การถดถอยกับข้อมูลที่ไม่ได้ทดลองกับกรณีศึกษา นับตั้งแต่ฉันอ่านบทความเหล่านี้ฉันหลีกเลี่ยงการใช้การวิเคราะห์การถดถอยเพื่อวาดการอนุมานเชิงสาเหตุของข้อมูลที่ไม่ใช่การทดลอง ในฐานะผู้ประกอบการฉันหวังว่าฉันจะได้อ่านบทความเช่นนี้มาหลายปีซึ่งจะช่วยให้ฉันตัดสินใจผิดพลาดและหลีกเลี่ยงข้อผิดพลาดที่มีราคาแพง

สำหรับปัญหาเฉพาะของคุณฉันไม่คิดว่าการทดลองแบบสุ่มเป็นไปได้ในกรณีของคุณดังนั้นฉันขอแนะนำให้คุณใช้การตรวจสอบความถูกต้องข้ามเพื่อเลือกตัวแปร ตัวอย่างผลงานที่ดีมีอยู่ในหนังสือออนไลน์ฟรีเล่มนี้ว่าคุณจะใช้ความแม่นยำในการทำนายเพื่อเลือกตัวแปรอย่างไร นอกจากนี้ยังมีวิธีการ selction อื่น ๆ อีกมากมาย แต่ฉันก็ จำกัด การตรวจสอบข้าม

โดยส่วนตัวแล้วฉันชอบคำพูดจากอาร์มสตรอง "ที่ไหนสักแห่งที่ฉันพบความคิดที่ว่าสถิติควรจะช่วยสื่อสารวิธีการถดถอยที่ซับซ้อนและฝูงของสถิติการวินิจฉัยได้พาเราไปในทิศทางอื่น"

ด้านล่างเป็นความคิดเห็นของฉันเอง ฉันไม่ใช่นักสถิติ

  • ในฐานะนักชีววิทยาฉันคิดว่าคุณคงพอใจในประเด็นนี้ ธรรมชาติมีความซับซ้อนมากสมมติว่าเป็นฟังก์ชันลอจิสติกและไม่มีปฏิสัมพันธ์ระหว่างตัวแปรในธรรมชาติ นอกจากนี้การถดถอยโลจิสติกมีสมมติฐานดังต่อไปนี้:

  • ความน่าจะเป็นตามเงื่อนไขที่แท้จริงคือฟังก์ชันลอจิสติกของตัวแปรอิสระ

  • ไม่มีการละเว้นตัวแปรสำคัญ ไม่มีตัวแปรภายนอก

  • ตัวแปรอิสระถูกวัดโดยไม่มีข้อผิดพลาด
  • การสังเกตมีความเป็นอิสระ
  • ตัวแปรอิสระไม่ใช่ชุดค่าผสมเชิงเส้นซึ่งกันและกัน

ฉันขอแนะนำการจำแนกและต้นไม้การถดถอย (CART (r)) เพื่อเป็นทางเลือกแทนการถดถอยแบบลอจิสติกสำหรับการวิเคราะห์ประเภทนี้เพราะมันไม่มีสมมติฐาน:

  1. Non-Parametric / Data Driven / ไม่มีข้อสันนิษฐานว่าผลลัพธ์ของคุณเป็นไปตามฟังก์ชันลอจิสติก
  2. ไม่ใช่เชิงเส้น
  3. ช่วยให้การโต้ตอบตัวแปรที่ซับซ้อน
  4. จัดทำแผนผังต้นไม้ที่สามารถตีความได้สูงซึ่งนักสถิติที่ไม่ใช่ผู้จัดการป่าชอบที่จะชื่นชม
  5. จัดการกับค่าที่หายไปได้อย่างง่ายดาย
  6. ไม่จำเป็นต้องเป็นนักสถิติเพื่อใช้รถเข็น !!
  7. เลือกตัวแปรโดยอัตโนมัติโดยใช้การตรวจสอบข้าม

CART เป็นเครื่องหมายการค้าของ Salford Systems ดูวิดีโอนี้สำหรับการแนะนำและประวัติของรถเข็น นอกจากนี้ยังมีวิดีโออื่น ๆ เช่นลูกผสม regrssion regrssion ในเว็บไซต์เดียวกัน ฉันจะตรวจสอบมันออกมา โอเพ่นซอร์สโอเพนซอร์สใน R เรียกว่าTreeและมีแพ็คเกจอื่น ๆ อีกมากมายเช่น rattle ที่มีใน R หากฉันหาเวลาฉันจะโพสต์ตัวอย่างแรกในข้อความของ Homser โดยใช้ CART หากคุณยืนยันในการใช้การถดถอยโลจิสติกอย่างน้อยฉันก็จะใช้วิธีการเช่น CART เพื่อเลือกตัวแปรแล้วใช้การถดถอยโลจิสติก

ฉันชอบรถเข็นมากกว่าการถดถอยโลจิสติกเนื่องจากข้อดีดังกล่าวข้างต้น แต่ถึงกระนั้นฉันจะลองใช้ทั้งการถดถอยโลจิสติกและ CART หรือ CART-Logistc Regression Hybrid และดูว่าการทำนายที่แม่นยำและที่ดีกว่าการแปลข้อมูลที่สำคัญและเลือกสิ่งที่คุณรู้สึกว่า "สื่อสาร" ข้อมูลได้ชัดเจนยิ่งขึ้น

นอกจากนี้รถเข็น FYI ก็ถูกปฏิเสธโดยวารสารทางสถิติที่สำคัญและในที่สุดนักประดิษฐ์ของ CART ก็มีเอกสาร รถเข็นปูทางไปสู่อัลกอริทึมการเรียนรู้ของเครื่องจักรที่ทันสมัยและประสบความสำเร็จอย่าง Random Forest (r), Gradient Boosting Machines (GBM), Multivariate Adaptive Regression Splines ทั้งหมดเกิดขึ้น ป่าสุ่มและ GBM นั้นแม่นยำกว่า CART แต่มีความหมายน้อยกว่า (เช่นกล่องดำ) มากกว่า CART

หวังว่านี่จะเป็นประโยชน์ แจ้งให้เราทราบหากคุณพบว่าโพสต์นี้มีประโยชน์หรือไม่


8
Y

3
คำตอบนี้เพิ่มขึ้นจากความเห็นทั่วไปซึ่งส่วนมากดูเหมือนว่าฉันจะไม่เห็นด้วยอย่างยิ่งต่อการรับรอง CART ที่เฉพาะเจาะจงและเป็นส่วนตัวมากกว่าซึ่งเป็นวิธีการเลือก คุณมีสิทธิ์รับฟังความคิดเห็นของคุณเนื่องจากผู้อื่นจะได้รับสิทธิ์คัดค้าน ข้อเสนอแนะของฉันคือการที่คุณตั้งค่าสถานะรสชาติสองเท่าของคำตอบของคุณค่อนข้างชัดเจนยิ่งขึ้น
Nick Cox

2
การถดถอยแบบลอจิสติกเป็นแบบจำลองเชิงเส้นตรงทั่วไป แต่ไม่เช่นนั้นมันสามารถป้องกันได้จริง ๆ แล้วมีแรงจูงใจที่ดีเป็นแบบไม่เชิงเส้นตามธรรมชาติ (ในแง่ที่ว่ามันเหมาะกับเส้นโค้งหรือเทียบเท่าไม่ใช่เส้นหรือเทียบเท่า การตอบสนองแบบไบนารี การอุทธรณ์ทางชีววิทยาที่นี่เป็นสองเท่า แบบจำลองทางลอจิสติกในอดีตสำหรับการตอบสนองแบบไบนารี่ได้รับแรงบันดาลใจจากแบบจำลองสำหรับการเติบโตแบบโลจิสติก (เช่นประชากร) ในชีววิทยา!
Nick Cox

The Soyer และคณะ กระดาษกระดาษอาร์มสตรองและข้อคิดเห็นล้วนดีมาก ฉันได้อ่านพวกเขาในสุดสัปดาห์นี้ ขอบคุณที่แนะนำพวกเขา ไม่ใช่นักสถิติฉันไม่สามารถแสดงความคิดเห็นกับการใช้รถเข็นมากกว่าการถดถอยโลจิสติก อย่างไรก็ตามคำตอบของคุณเขียนได้ดีมีประโยชน์และได้รับความคิดเห็นที่ลึกซึ้ง ฉันได้อ่านวิธีการเรียนรู้ของเครื่องจักรเช่น CART, MaxEnt และปรับปรุงต้นไม้การถดถอยและวางแผนที่จะพูดคุยกับคณะกรรมการเพื่อรับข้อมูลเชิงลึก เมื่อฉันมีเวลาว่างวิดีโอ CART ควรน่าสนใจเช่นกัน
GNG

3
ด้วยรอยยิ้มฉันคิดว่าเราสามารถย้อนกลับความคิดเห็นของคุณในแบบจำลองเชิงเส้นและยืนยันว่าห่างไกลจากการปราศจากสมมติฐานหรือแม้แต่แสงสมมุติ CART ถือว่าความจริงเป็นเหมือนต้นไม้ (มีอะไรอีกไหม) หากคุณคิดว่าธรรมชาติเป็นความต่อเนื่องที่เปลี่ยนแปลงอย่างราบรื่นคุณควรวิ่งไปในทิศทางตรงกันข้าม
Nick Cox

3

ฉันคิดว่าคุณกำลังพยายามทำนายการมีอยู่ของสปีชีส์ด้วยวิธีการแสดงตน / เบื้องหลังซึ่งมีการบันทึกไว้อย่างดีในวารสารเช่นวิธีการทางนิเวศวิทยาและวิวัฒนาการนิเวศวิทยา ฯลฯ บางทีแพ็คเกจ R อาจเป็นประโยชน์สำหรับปัญหาของคุณ มันรวมบทความสั้น ๆ การใช้ดิสโมหรือแพ็คเกจอื่น ๆ ที่คล้ายคลึงกันนั้นหมายถึงการเปลี่ยนวิธีการของคุณเป็นปัญหา แต่ฉันเชื่อว่ามันคุ้มค่าที่จะดู


2
อะไรทำให้คุณไม่สามารถระบุรุ่นได้ ทำไมความไม่แน่นอนที่ยิ่งใหญ่ในสิ่งที่ควรจะเป็นในรูปแบบ? ทำไมต้องเลือกรุ่นโดยใช้ GLM
Frank Harrell

1
ฉันกลัวว่าคุณจะผสมผสานแนวคิดบางอย่าง (1) ในความเป็นจริง maxent เป็นข้อมูลสถานะ / พื้นหลังหรือข้อมูลสถานะ / หลอกหลอก ดังนั้น maxent ใช้ข้อมูลการแสดงตนเท่านั้นและเพิ่มบางจุดจากแนวนอนนั่นคือพื้นหลัง / หลอกขาด ดังนั้นมันสามารถใช้ในกรณีของคุณ (2) GLM ถูกออกแบบมาเพื่อใช้กับ 'จริง' ขาด อย่างไรก็ตาม GLM ได้รับการปรับให้เหมาะกับข้อมูลการแสดงตน / การปลอมแปลง (3) แพคเกจ dismo เสนอต้นไม้ถดถอยเพิ่มขึ้น แต่ไม่เพียง คุณสามารถติดตั้ง GLM ได้เช่นกันเพียงทำตามบทความหนึ่งในแพคเกจ (มี 2)
Hugo

1
หากคำถามของคุณเกี่ยวกับตัวแปรใดที่คุณควรรวมไว้เป็นผู้ทำนายลองดูที่เอกสารเหล่านี้: Sheppard 2013 การเลือกตัวแปรสภาพภูมิอากาศมีผลต่อการทำนายการกระจายสายพันธุ์อย่างไร กรณีศึกษาวัชพืชใหม่สามชนิดในนิวซีแลนด์ การวิจัยเรื่องวัชพืช; แฮร์ริสและคณะ 2013. เป็นหรือไม่เป็น? การเลือกตัวแปรสามารถเปลี่ยนแปลงโชคชะตาที่คาดการณ์ไว้ของสิ่งมีชีวิตที่ถูกคุกคามภายใต้สภาพอากาศในอนาคต Ecol Manag restor
Hugo

2
ความคิดที่ว่าเทคนิคการเลือกตัวแปรลดลงอย่างใดเป็นเรื่องแปลก การประหยัดตัวแปรที่ชัดเจนจากการลดแบบจำลองนั้นเป็นภาพลวงตาอย่างสมบูรณ์เมื่อการลดลงมาจากข้อมูลของตัวเอง
Frank Harrell

1
@GNG: "ความไม่แน่นอนของฉันเกี่ยวกับการออกทั้งหมดของตัวแปรในรูปแบบที่มาจากทุกอย่างที่ฉันได้รับการสอนเกี่ยวกับ collinearity และมากกว่ากระชับ" - ไม่รูปแบบของคุณประกอบด้วยพยากรณ์ collinear สูงหรือไม่ เป็นรูปแบบของคุณมากกว่ากระชับ?
Scortchi - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.