ปรีชาสำหรับ Support Vector Machines และไฮเปอร์เพลน


15

ในโครงการของฉันฉันต้องการสร้างแบบจำลองการถดถอยโลจิสติกสำหรับการทำนายการจำแนกเลขฐานสอง (1 หรือ 0)

ฉันมีตัวแปร 15 ตัวโดยแบ่งเป็น 2 ตัวแปรในขณะที่ส่วนที่เหลือเป็นส่วนผสมของตัวแปรต่อเนื่องและไม่ต่อเนื่อง

เพื่อให้เหมาะสมกับโมเดลการถดถอยโลจิสติกฉันได้รับคำแนะนำให้ตรวจสอบความสามารถในการแยกเชิงเส้นโดยใช้ SVM, perceptron หรือการเขียนโปรแกรมเชิงเส้น สิ่งนี้เชื่อมโยงกับคำแนะนำที่เกิดขึ้นที่นี่เกี่ยวกับการทดสอบความสามารถในการแยกเชิงเส้น

ในฐานะที่เป็นมือใหม่ในการเรียนรู้ของเครื่องจักรฉันเข้าใจแนวคิดพื้นฐานเกี่ยวกับอัลกอริทึมที่กล่าวถึงข้างต้น แต่แนวคิดฉันพยายามที่จะจินตนาการว่าเราสามารถแยกข้อมูลที่มีมิติมากมายเช่น 15 ในกรณีของฉันได้อย่างไร

ตัวอย่างทั้งหมดในวัสดุออนไลน์มักแสดงพล็อต 2 มิติของตัวแปรตัวเลขสองตัว (ความสูงน้ำหนัก) ซึ่งแสดงช่องว่างที่ชัดเจนระหว่างหมวดหมู่และทำให้เข้าใจง่ายขึ้น แต่ในโลกแห่งความเป็นจริงข้อมูลมักจะมีมิติที่สูงกว่ามาก ฉันยังคงถูกดึงกลับไปที่ชุดข้อมูลของ Iris และพยายามที่จะใส่ไฮเปอร์เพลนผ่านสามสายพันธุ์และมันเป็นเรื่องยากโดยเฉพาะอย่างยิ่งถ้าเป็นไปไม่ได้ที่จะทำเช่นนั้นระหว่างสองสปีชีส์

เราจะบรรลุสิ่งนี้ได้อย่างไรเมื่อเรามีคำสั่งเกี่ยวกับมิติที่สูงขึ้นมันสันนิษฐานว่าเมื่อเรามีคุณสมบัติเกินจำนวนที่เราใช้เมล็ดเพื่อแมปไปยังพื้นที่มิติที่สูงขึ้นเพื่อให้ได้การแยกนี้

นอกจากนี้เพื่อทดสอบการแยกเชิงเส้นตัวชี้วัดที่ใช้คืออะไร มันเป็นความถูกต้องของรุ่น SVM หรือไม่เช่นความถูกต้องตามเมทริกซ์ความสับสน?

ความช่วยเหลือใด ๆ ในการทำความเข้าใจหัวข้อนี้จะได้รับการชื่นชมอย่างมาก ด้านล่างเป็นตัวอย่างของพล็อตของตัวแปรสองตัวในชุดข้อมูลของฉันซึ่งแสดงให้เห็นว่าการซ้อนทับของตัวแปรทั้งสองนี้เพียงใด

ป้อนคำอธิบายรูปภาพที่นี่


1
ดูเหมือนว่าคุณมีคำถามที่แตกต่างกันหลายข้อในโพสต์ของคุณ รวบรวมพวกเขาทั้งหมดไว้ในรายการหรือลบคำถามที่ไม่จำเป็นออก สิ่งนี้ดึงดูดผู้คนมากขึ้นที่จะตอบและคำตอบที่ดีกว่า
Aksakal

2
โดยทั่วไปแล้วสัญชาตญาณต้องการความช่วยเหลือจากจินตนาการเมื่อไปจากสถานการณ์ 2 มิติสู่มิติสูงบ่อยครั้งสัญชาตญาณจะพังทลายลงอย่างสมบูรณ์ มีปัญหามิติต่ำหลายมิติซึ่งดูเหมือนว่าเป็นของโลกที่แตกต่างกันโดยสิ้นเชิงซึ่งสิ่งต่าง ๆ ทำงานแตกต่างกันลองนึกถึงทฤษฎีบท
อัคคาคัล

คำตอบ:


14

ฉันจะพยายามช่วยให้คุณเข้าใจว่าทำไมการเพิ่มมิติช่วยให้ลักษณนามเชิงเส้นทำงานได้ดีขึ้นในการแยกสองคลาส

X1X2n=3

n = 3

ตอนนี้ลองนึกภาพการกำหนดคะแนนบางส่วนให้กับคลาส 1 และบางส่วนให้กับคลาส 2 โปรดทราบว่าไม่ว่าเราจะกำหนดคลาสให้กับคะแนนใดก็ตามเราสามารถวาดเส้นที่แยกสองชั้นได้อย่างสมบูรณ์แบบ

แต่ตอนนี้สมมติว่าเราเพิ่มจุดใหม่:

n = 4

พี=2ตัวแปรเราสามารถใช้ลักษณนามเชิงเส้นเพื่อจำแนกจุดสามจุดใด ๆ (ไม่ใช่ collinear) ได้อย่างไร แต่โดยทั่วไปแล้วเราไม่สามารถจำแนกจุดที่ไม่ใช่ collinear 4 จุด

X3

p = 3, n = 4

พี=3n=4

พีพี+1

nพีเราเพิ่มจำนวนของรูปแบบที่เราสามารถแยกจากกันจนกว่าจะถึงจุดที่เราได้อย่างสมบูรณ์แบบสามารถแยกประเภทได้รับมอบหมายของป้ายใด ๆ ด้วยเคอร์เนล SVM เราจึงใส่ลักษณนามเชิงเส้นในพื้นที่มิติสูงโดยปริยายดังนั้นนี่คือเหตุผลที่เราไม่ค่อยกังวลเกี่ยวกับการแยก

FnFnFFพีFn=พี+1Fพีตัวแปรจึงสามารถแตกจำนวนคะแนนใด ๆ แนวคิดเกี่ยวกับการแตกละเอียดซึ่งบอกเราเกี่ยวกับความซับซ้อนของชุดลักษณนามที่เป็นไปได้มาจากทฤษฎีการเรียนรู้ทางสถิติและสามารถใช้ในการทำงบเกี่ยวกับปริมาณของการ overfitting ที่ชุดลักษณนามสามารถทำได้ หากคุณสนใจฉันขอแนะนำ Luxburg และSchölkopf "ทฤษฎีการเรียนรู้ทางสถิติ: แบบจำลองแนวคิดและผลลัพธ์" (2008)


ขอบคุณมากสำหรับคำตอบโดยละเอียดของคุณมันช่วยให้ฉันเข้าใจแนวคิดของคุณลักษณะหลายมิติได้ดียิ่งขึ้น
TheGoat

7

มันง่ายที่จะทำผิดพลาดเมื่อคุณใช้สัญชาตญาณของคุณเกี่ยวกับช่องว่างมิติต่ำและใช้กับช่องว่างมิติสูง สัญชาตญาณของคุณย้อนหลังอย่างแน่นอนในกรณีนี้ มันจะง่ายกว่าที่จะหาไฮเปอร์เพลนที่แยกออกจากกันในพื้นที่มิติที่สูงกว่าที่อยู่ในพื้นที่ด้านล่าง

แม้ว่าเมื่อดูตัวแปรสองคู่ใด ๆ การแจกแจงสีแดงและสีน้ำเงินจะทับซ้อนกันเมื่อดูตัวแปรทั้งหมด 15 ตัวในครั้งเดียวมันเป็นไปได้มากที่พวกมันจะไม่เหลื่อมซ้อนกันเลย


2

คุณมี 15 ตัวแปร แต่ไม่ใช่ทั้งหมดที่มีความสำคัญเท่ากันสำหรับการเลือกปฏิบัติของตัวแปรตาม (บางคนอาจไม่เกี่ยวข้องเลย)

การวิเคราะห์ส่วนประกอบหลัก (PCA) จะคำนวณพื้นฐานเชิงเส้นของตัวแปร 15 ตัวเหล่านั้นและสั่งให้พวกเขาในลักษณะที่ส่วนประกอบแรก ๆ มักอธิบายความแปรปรวนส่วนใหญ่ ดังนั้นสิ่งนี้จะช่วยให้คุณลดปัญหา 15 มิติเป็น (พูด) ปัญหา 2,3,4 หรือ 5 มิติ ดังนั้นจึงทำให้การวางแผนง่ายขึ้น โดยทั่วไปคุณสามารถใช้สองหรือสามแกนสำหรับตัวแปรที่เป็นตัวเลข (หรือลำดับเชิงคาร์ดินัลสูง) จากนั้นใช้สีเครื่องหมายรูปร่างและขนาดสำหรับสามมิติพิเศษ ดังนั้นการวางแผนด้วยพีซีที่สำคัญที่สุด 6 เครื่องควรให้ภาพที่ชัดเจนของพื้นผิวการตัดสินใจของคุณ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.