จะทราบได้อย่างไรว่าข้อมูลแยกกันเป็นเส้นตรง?


21

ข้อมูลมีคุณสมบัติมากมาย (เช่น 100) และจำนวนอินสแตนซ์เท่ากับ 100,000 ข้อมูลกระจัดกระจาย ฉันต้องการให้พอดีกับข้อมูลโดยใช้การถดถอยโลจิสติกหรือ svm ฉันจะรู้ได้อย่างไรว่าคุณลักษณะเป็นแบบเชิงเส้นหรือไม่เชิงเส้นเพื่อให้ฉันสามารถใช้เคล็ดลับเคอร์เนลได้หากไม่ใช่แบบเชิงเส้น

คำตอบ:


22

มีหลายวิธีในการค้นหาว่าข้อมูลแยกกันเป็นเส้นตรงหรือไม่ซึ่งบางส่วนก็ถูกเน้นไว้ในบทความนี้ (1) ด้วยการสันนิษฐานของสองคลาสในชุดข้อมูลต่อไปนี้เป็นวิธีการบางอย่างเพื่อค้นหาว่าพวกเขาจะแยกได้เป็นเชิงเส้น:

  1. การเขียนโปรแกรมเชิงเส้น: กำหนดฟังก์ชั่นวัตถุประสงค์ภายใต้ข้อ จำกัด ที่ตอบสนองการแยกเชิงเส้น คุณสามารถค้นหารายละเอียดเกี่ยวกับการดำเนินงานที่นี่
  2. วิธีการของ Perceptron: Perceptronรับประกันว่าจะมาบรรจบกันหากข้อมูลแยกออกจากกันเป็นเส้นตรง
  3. การเขียนโปรแกรมสมการกำลังสอง: ฟังก์ชันวัตถุประสงค์การเพิ่มประสิทธิภาพการเขียนโปรแกรมสมการกำลังสองสามารถกำหนดได้ด้วยข้อ จำกัด เช่นเดียวกับใน SVM
  4. Computational geometry: หากมีสองตัวแยกออกจากกันแล้วข้อมูลจะแยกเป็นเส้นตรง
  5. วิธีการจัดกลุ่ม: ถ้าใครสามารถค้นหาสองกลุ่มที่มีความบริสุทธิ์ของกลุ่ม 100% โดยใช้วิธีการจัดกลุ่มบางอย่างเช่นวิธี k- แล้วข้อมูลจะแยกเป็นเส้นตรง

    (1): Elizondo, D. , "ปัญหาการแยกเชิงเส้น: วิธีการทดสอบบางอย่าง" ใน Neural Networks, ธุรกรรม IEEE บน, vol.17, no.2, pp.330-344, มีนาคม 2549 Doi: 10.1109 / TNN 2005.860871


1
โปรดให้ข้อมูลอ้างอิง (ลิงก์อาจเน่า) และอย่างน้อยก็อธิบายเล็กน้อยว่าวิธีการใดครอบคลุม
Scortchi - Reinstate Monica

2
ขอบคุณ คำตอบที่ดี (+1) แพ็คเกจ R safeBinaryRegressionยังใช้วิธีการโปรแกรมเชิงเส้นอีกด้วย
Scortchi - Reinstate Monica

ซึ่ง (วิธี LP) พร้อมตีความทางเรขาคณิตอย่างมีประสิทธิภาพการคำนวณและพร้อมใช้งานทั่วไป (ตามปกติ LP เป็น)
user603

3

ฉันถือว่าคุณพูดคุยเกี่ยวกับปัญหาการจำแนกประเภท 2 ระดับ ในกรณีนี้มีเส้นที่แยกสองคลาสของคุณและอัลกอริทึมแบบคลาสสิกใด ๆ ควรจะสามารถค้นหาได้เมื่อมันมาบรรจบกัน

ในทางปฏิบัติคุณต้องฝึกอบรมและทดสอบข้อมูลเดียวกัน หากมีเส้นดังกล่าวคุณควรได้รับความแม่นยำ 100% หรือ 100% AUC หากไม่มีเส้นดังกล่าวการฝึกอบรมและทดสอบข้อมูลเดียวกันจะทำให้เกิดข้อผิดพลาดอย่างน้อย ขึ้นอยู่กับปริมาณของข้อผิดพลาดอาจหรือไม่คุ้มค่าที่จะลองใช้ตัวจําแนกแบบไม่เป็นเชิงเส้น


1

minw,b ||w||2
s.t i,(wxi+b)yi1

mins,b s
s.t i,(wxi+b)yi1s
s0

ssi


+1 นี่คือสัญชาตญาณทางเรขาคณิตที่อยู่เบื้องหลังวิธีการที่ใช้ในแพ็คเกจ RsafeBinaryRegression
603

-2

คุณลองการถดถอยโลจิสติกและดูว่ามันทำงานอย่างไร ถ้ามันไม่ได้ผลมีหลายเมล็ดที่คุณสามารถลองได้และมันก็ยังอาจไม่ได้ผล

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.