ใช้ตัวจําแนก ไม่พวกเขาไม่ถูกต้องทั้งคู่
ก่อนอื่นฉันขอแนะนำให้คุณอ่านตัวเองในหัวข้อของ Regression vs Classification เพราะการใช้ ML โดยไม่รู้ตัวจะทำให้คุณได้รับผลลัพธ์ที่ผิดซึ่งคุณจะไม่ได้รับรู้ และมันก็ค่อนข้างอันตราย ... ( มันเหมือนกับการถามทางคุณควรถือปืนของคุณหรือไม่สำคัญ )
ไม่ว่าคุณจะใช้ลักษณนามหรือ regressor เพียงขึ้นอยู่กับชนิดของปัญหาที่คุณมีการแก้ คุณมีปัญหาการจำแนกเลขฐานสองดังนั้นให้ใช้ตัวจําแนก
ฉันสามารถเรียกใช้ randomforestregressor ก่อนและกลับมาเป็นชุดของความน่าจะเป็นโดยประมาณ
NO คุณไม่ได้รับความน่าจะเป็นจากการถดถอย มันแค่พยายาม "คาดการณ์" ค่าที่คุณให้ (ในกรณีนี้มีเพียง 0 และ 1) ซึ่งหมายความว่าค่าที่สูงกว่า 1 หรือต่ำกว่า 0 นั้นถูกต้องสมบูรณ์ในฐานะเอาต์พุตการถดถอยเนื่องจากไม่ได้คาดหวังเพียงสองค่าที่ไม่ต่อเนื่องเป็นเอาต์พุต (ที่เรียกว่าการจำแนก !) แต่ค่าต่อเนื่อง
หากคุณต้องการให้มี "ความน่าจะเป็น" (โปรดทราบว่าสิ่งเหล่านี้ไม่จำเป็นต้องมีการปรับเทียบความน่าจะเป็น ) สำหรับจุดหนึ่งที่เป็นของคลาสที่แน่นอนให้ฝึกอบรมตัวแยกประเภท (เพื่อเรียนรู้การจำแนกข้อมูล) .predict_proba () ซึ่งจะทำนายความน่าจะเป็น
เพียงพูดถึงที่นี่: .predict vs .predict_proba (สำหรับลักษณนาม!)
.predict ใช้เอาต์พุต. predict_proba และเปลี่ยนทุกอย่างเป็น 0 ต่ำกว่าขีด จำกัด ที่แน่นอน (ปกติ 0.5) ตามลำดับเป็น 1 เหนือขีด จำกัด นั้น
หมายเหตุ: แน่นอนว่าภายในจะเหมือนกันยกเว้นจาก "เลเยอร์สุดท้าย" ฯลฯ ! ยังเห็นพวกเขา (หรือดีกว่าปัญหาที่พวกเขากำลังแก้ไข) แตกต่างอย่างสิ้นเชิง!