วรรณกรรมแบบจำลองการกระจายพันธุ์ทุกชนิดชี้ให้เห็นว่าเมื่อทำนายการมีอยู่ของสายพันธุ์โดยใช้แบบจำลองที่มีความน่าจะเป็นผลลัพธ์ (เช่น RandomForests) การเลือกเกณฑ์ความน่าจะเป็นที่จะจำแนกประเภทของสิ่งมีชีวิตที่มีอยู่จริง ไม่พึ่งพาค่าเริ่มต้น 0.5 เสมอไป ฉันต้องการความช่วยเหลือในเรื่องนี้! นี่คือรหัสของฉัน:
library(randomForest)
library(PresenceAbsence)
#build model
RFfit <- randomForest(Y ~ x1 + x2 + x3 + x4 + x5, data=mydata, mytry = 2, ntrees=500)
#eventually I will apply this to (predict for) new data but for first I predict back to training data to compare observed vs. predicted
RFpred <- predict(RFfit, mydata, type = "prob")
#put the observed vs. predicted in the same dataframe
ObsPred <- data.frame(cbind(mydata), Predicted=RFpred)
#create auc.roc plot
auc.roc.plot(ObsPred, threshold = 10, xlab="1-Specificity (false positives)",
ylab="Sensitivity (true positives)", main="ROC plot", color=TRUE,
find.auc=TRUE, opt.thresholds=TRUE, opt.methods=9)
จากนี้ฉันได้พิจารณาแล้วว่าเกณฑ์ที่ฉันต้องการใช้สำหรับการจำแนกสถานะจากความน่าจะเป็นที่คาดการณ์คือ 0.7 ไม่ใช่ค่าเริ่มต้น 0.5 ฉันไม่เข้าใจว่าจะทำอย่างไรกับข้อมูลนี้ ฉันเพียงแค่ใช้ขีด จำกัด นี้เมื่อสร้างแผนที่ผลลัพธ์ของฉันหรือไม่? ฉันสามารถสร้างผลลัพธ์ที่แมปได้อย่างง่ายดายด้วยความน่าจะเป็นอย่างต่อเนื่องจากนั้นเพียงจัดประเภทใหม่ด้วยค่าที่มากกว่า 0.7 ในปัจจุบันและที่ <0.7 ไม่อยู่
หรือฉันต้องการใช้ข้อมูลนี้และเรียกใช้การสร้างแบบจำลองป่าสุ่มใหม่โดยใช้พารามิเตอร์การตัดออกหรือไม่ พารามิเตอร์ cut-off ทำอะไรกันแน่? มันเปลี่ยนการโหวตผลลัพธ์? (ปัจจุบันบอกว่ามันเป็น "ส่วนใหญ่") ฉันจะใช้พารามิเตอร์การตัดออกนี้ได้อย่างไร ฉันไม่เข้าใจเอกสาร! ขอบคุณ!