นี่เป็นโพสต์แรกของฉันใน StackExchange แต่ฉันได้ใช้มันเป็นทรัพยากรมาระยะหนึ่งแล้วฉันจะพยายามอย่างดีที่สุดที่จะใช้รูปแบบที่เหมาะสมและทำการแก้ไขที่เหมาะสม นอกจากนี้ยังเป็นคำถามที่มีหลายส่วน ฉันไม่แน่ใจว่าฉันควรแยกคำถามออกเป็นหลายกระทู้หรือกระทู้เดียว เนื่องจากคำถามมาจากส่วนหนึ่งในข้อความเดียวกันฉันคิดว่ามันจะเกี่ยวข้องกับการโพสต์เป็นคำถามเดียว
ฉันกำลังค้นคว้าการใช้ถิ่นที่อยู่ของสัตว์เลี้ยงลูกด้วยนมขนาดใหญ่เพื่อทำวิทยานิพนธ์ปริญญาโท เป้าหมายของโครงการนี้คือเพื่อให้ผู้จัดการป่าไม้ (ซึ่งน่าจะไม่ใช่นักสถิติ) ที่มีกรอบการปฏิบัติเพื่อประเมินคุณภาพของที่อยู่อาศัยในดินแดนที่พวกเขาจัดการเกี่ยวกับสายพันธุ์นี้ สัตว์ตัวนี้ค่อนข้างเข้าใจยากผู้เชี่ยวชาญด้านที่อยู่อาศัยและมักจะอยู่ในพื้นที่ห่างไกล มีการศึกษาค่อนข้างน้อยเกี่ยวกับการกระจายของสายพันธุ์โดยเฉพาะฤดูกาล สัตว์หลายตัวติดตั้งปลอกคอ GPS เป็นระยะเวลาหนึ่งปี หนึ่งร้อยสถานที่ (50 ฤดูร้อนและ 50 ฤดูหนาว) ได้รับการสุ่มเลือกจากข้อมูลปลอกคอ GPS ของสัตว์แต่ละตัว นอกจากนี้ 50 คะแนนถูกสร้างแบบสุ่มภายในบ้านของสัตว์แต่ละตัวเพื่อทำหน้าที่เป็นตำแหน่ง "ว่าง" หรือ "หลอก"
สำหรับที่ตั้งแต่ละแห่งตัวแปรที่อยู่อาศัยหลายแห่งถูกสุ่มตัวอย่างในฟิลด์ (ขนาดเส้นผ่าศูนย์กลางต้นไม้, แนวนอน, เศษไม้หยาบ ฯลฯ ) และตัวอย่างจำนวนมากถูกสุ่มตัวอย่างจากระยะไกลผ่าน GIS (ระดับความสูง, ระยะห่างจากถนน, ความทนทาน ฯลฯ ) ตัวแปรส่วนใหญ่จะต่อเนื่องยกเว้นตัวแปรเด็ดขาด 1 อันที่มี 7 ระดับ
เป้าหมายของฉันคือใช้การสร้างแบบจำลองการถดถอยเพื่อสร้างฟังก์ชั่นการเลือกทรัพยากร (RSF) เพื่อสร้างแบบจำลองความน่าจะเป็นสัมพัทธ์ของการใช้หน่วยทรัพยากร ฉันต้องการสร้าง RSF (ฤดูหนาวและฤดูร้อน) ตามฤดูกาลสำหรับประชากรของสัตว์ (ประเภทการออกแบบ I) รวมถึงสัตว์แต่ละตัว (การออกแบบประเภท III)
ฉันใช้ R เพื่อทำการวิเคราะห์ทางสถิติ
ข้อความหลักของฉันได้ใช้เป็น ...
- "Hosmer, DW, Lemeshow, S. , & Sturdivant, RX 2013. การถดถอยโลจิสติกประยุกต์, Wiley, Chicester"
ตัวอย่างส่วนใหญ่ใน Hosmer และคณะ ใช้เดินทางเข้ามายัง, ฉันได้รับยังใช้ต่อไปนี้ 2 ตำราสำหรับการอ้างอิงกับ R
- "Crawley, MJ 2005. สถิติ: บทนำโดยใช้ RJ Wiley, Chichester, West Sussex, England"
- "Plant, RE 2012 การวิเคราะห์ข้อมูลเชิงพื้นที่ในนิเวศวิทยาและการเกษตรโดยใช้ R. CRC Press, London, GBR"
ฉันกำลังทำตามขั้นตอนในบทที่ 4 ของ Hosmer และคณะ สำหรับ "การเลือกแบบมีจุดหมายอย่างมีจุดหมาย"และมีคำถามสองสามข้อเกี่ยวกับกระบวนการ ฉันได้อธิบายขั้นตอนแรกในข้อความด้านล่างเพื่อช่วยตอบคำถามของฉัน
- ขั้นตอนที่ 1: การวิเคราะห์ตัวแปรอิสระแต่ละตัวแปรที่ไม่สามารถเปลี่ยนแปลงได้ (ฉันใช้การถดถอยโลจิสติกที่ไม่สามารถเปลี่ยนแปลงได้) ตัวแปรใด ๆ ที่มีการทดสอบที่ไม่สามารถเปลี่ยนแปลงได้มีค่า p น้อยกว่า 0.25 ควรรวมไว้ในโมเดลหลายตัวแปรแรก
- ขั้นตอนที่ 2: ติดตั้งโมเดลหลายตัวแปรที่มี covariates ทั้งหมดที่ระบุไว้เพื่อรวมไว้ในขั้นตอนที่ 1 และเพื่อประเมินความสำคัญของ covariate แต่ละรายการโดยใช้ p-value ของสถิติ Wald ควรกำจัดตัวแปรที่ไม่ได้มีส่วนร่วมในระดับความสำคัญดั้งเดิมและแบบจำลองใหม่ให้พอดี รุ่นที่ใหม่กว่าและมีขนาดเล็กกว่าควรเปรียบเทียบกับรุ่นเก่าที่มีขนาดใหญ่กว่าโดยใช้การทดสอบอัตราส่วนความน่าจะเป็นบางส่วน
- ขั้นตอนที่ 3: เปรียบเทียบค่าของสัมประสิทธิ์โดยประมาณในโมเดลขนาดเล็กกับค่าที่เกี่ยวข้องจากโมเดลขนาดใหญ่ ตัวแปรใด ๆ ที่มีค่าสัมประสิทธิ์เปลี่ยนไปอย่างเด่นชัดในขนาดควรเพิ่มกลับเข้าไปในตัวแบบเนื่องจากมีความสำคัญในแง่ของการให้การปรับเปลี่ยนที่จำเป็นของผลกระทบของตัวแปรที่ยังคงอยู่ในตัวแบบ วนรอบในขั้นตอนที่ 2 และ 3 จนกระทั่งปรากฏว่าตัวแปรสำคัญทั้งหมดรวมอยู่ในโมเดลและสิ่งที่ยกเว้นนั้นเป็นข้อมูลทางการแพทย์และ / หรือไม่สำคัญทางสถิติ Hosmer และคณะ ใช้ " delta-beta-hat-percent " เป็นตัวชี้วัดการเปลี่ยนแปลงขนาดของสัมประสิทธิ์ พวกเขาแนะนำให้มีการเปลี่ยนแปลงที่สำคัญในฐานะเดลต้า - เบต้า - หมวก - เปอร์เซ็นต์ของ> 20% Hosmer และคณะ กำหนดdelta-beta-hat-percentเป็น 1 ที่ไหนθ1เป็นค่าสัมประสิทธิ์จากรูปแบบที่มีขนาดเล็กและβ1เป็นค่าสัมประสิทธิ์จากแบบจำลองขนาดใหญ่
- ขั้นตอนที่ 4: เพิ่มตัวแปรแต่ละตัวที่ไม่ได้เลือกในขั้นตอนที่ 1 เข้ากับโมเดลที่ได้รับในตอนท้ายของขั้นตอนที่ 3 ครั้งละหนึ่งรายการและตรวจสอบความสำคัญของตัวแปรนั้นโดยค่าสถิติ Wald Wald p-value หรือการทดสอบอัตราส่วนความน่าจะเป็นบางส่วน ตัวแปรที่มีมากกว่า 2 ระดับ ขั้นตอนนี้มีความสำคัญสำหรับการระบุตัวแปรที่ตัวเองไม่ได้เกี่ยวข้องอย่างมีนัยสำคัญกับผล แต่ให้มีส่วนร่วมที่สำคัญในการปรากฏตัวของตัวแปรอื่น ๆ เราหมายถึงรูปแบบในตอนท้ายของขั้นตอนที่ 4 เป็นที่เบื้องต้นรูปแบบผลกระทบหลัก
- ขั้นตอนที่ 5-7: ฉันยังไม่ได้ไปถึงจุดนี้ดังนั้นฉันจะออกจากขั้นตอนเหล่านี้ตอนนี้หรือบันทึกไว้สำหรับคำถามอื่น
คำถามของฉัน:
- ในขั้นตอนที่ 2 สิ่งที่จะเหมาะสมในระดับนัยสำคัญแบบดั้งเดิมค่า p ของ <0.05 บางอย่างที่ใหญ่กว่าเช่น <.25
- ในขั้นตอนที่ 2 อีกครั้งฉันต้องการตรวจสอบให้แน่ใจว่ารหัส R ที่ฉันใช้สำหรับการทดสอบความน่าจะเป็นบางส่วนนั้นถูกต้องและฉันต้องการตรวจสอบให้แน่ใจว่าฉันกำลังตีความผลลัพธ์อย่างถูกต้อง นี่คือสิ่งที่ฉันได้ทำ ...
anova(smallmodel,largemodel,test='Chisq')
หาก p-value มีความสำคัญ (<0.05) ฉันเพิ่มตัวแปรกลับไปที่โมเดลถ้ามันไม่มีนัยสำคัญฉันดำเนินการลบต่อไปหรือไม่ 100*((smallmodel$coef[2]-largemodel$coef[2])/largemodel$coef[2])