ในโครงการของฉันฉันต้องการสร้างแบบจำลองการถดถอยโลจิสติกสำหรับการทำนายการจำแนกเลขฐานสอง (1 หรือ 0)
ฉันมีตัวแปร 15 ตัวโดยแบ่งเป็น 2 ตัวแปรในขณะที่ส่วนที่เหลือเป็นส่วนผสมของตัวแปรต่อเนื่องและไม่ต่อเนื่อง
เพื่อให้เหมาะสมกับโมเดลการถดถอยโลจิสติกฉันได้รับคำแนะนำให้ตรวจสอบความสามารถในการแยกเชิงเส้นโดยใช้ SVM, perceptron หรือการเขียนโปรแกรมเชิงเส้น สิ่งนี้เชื่อมโยงกับคำแนะนำที่เกิดขึ้นที่นี่เกี่ยวกับการทดสอบความสามารถในการแยกเชิงเส้น
ในฐานะที่เป็นมือใหม่ในการเรียนรู้ของเครื่องจักรฉันเข้าใจแนวคิดพื้นฐานเกี่ยวกับอัลกอริทึมที่กล่าวถึงข้างต้น แต่แนวคิดฉันพยายามที่จะจินตนาการว่าเราสามารถแยกข้อมูลที่มีมิติมากมายเช่น 15 ในกรณีของฉันได้อย่างไร
ตัวอย่างทั้งหมดในวัสดุออนไลน์มักแสดงพล็อต 2 มิติของตัวแปรตัวเลขสองตัว (ความสูงน้ำหนัก) ซึ่งแสดงช่องว่างที่ชัดเจนระหว่างหมวดหมู่และทำให้เข้าใจง่ายขึ้น แต่ในโลกแห่งความเป็นจริงข้อมูลมักจะมีมิติที่สูงกว่ามาก ฉันยังคงถูกดึงกลับไปที่ชุดข้อมูลของ Iris และพยายามที่จะใส่ไฮเปอร์เพลนผ่านสามสายพันธุ์และมันเป็นเรื่องยากโดยเฉพาะอย่างยิ่งถ้าเป็นไปไม่ได้ที่จะทำเช่นนั้นระหว่างสองสปีชีส์
เราจะบรรลุสิ่งนี้ได้อย่างไรเมื่อเรามีคำสั่งเกี่ยวกับมิติที่สูงขึ้นมันสันนิษฐานว่าเมื่อเรามีคุณสมบัติเกินจำนวนที่เราใช้เมล็ดเพื่อแมปไปยังพื้นที่มิติที่สูงขึ้นเพื่อให้ได้การแยกนี้
นอกจากนี้เพื่อทดสอบการแยกเชิงเส้นตัวชี้วัดที่ใช้คืออะไร มันเป็นความถูกต้องของรุ่น SVM หรือไม่เช่นความถูกต้องตามเมทริกซ์ความสับสน?
ความช่วยเหลือใด ๆ ในการทำความเข้าใจหัวข้อนี้จะได้รับการชื่นชมอย่างมาก ด้านล่างเป็นตัวอย่างของพล็อตของตัวแปรสองตัวในชุดข้อมูลของฉันซึ่งแสดงให้เห็นว่าการซ้อนทับของตัวแปรทั้งสองนี้เพียงใด