มีวิธีที่ตรงข้ามกับการลดขนาดหรือไม่?


9

ฉันยังใหม่กับการเรียนรู้ของเครื่องจักร แต่ได้ทำการแบ่งสัญญาณการประมวลผลแล้ว โปรดแจ้งให้เราทราบหากคำถามนี้ติดป้ายกำกับไม่ถูกต้อง

ฉันมีข้อมูลสองมิติซึ่งกำหนดโดยตัวแปรอย่างน้อยสามตัวด้วยวิธีการจำลองที่ไม่เป็นเชิงเส้นสูงเกินไปที่ซับซ้อนในการจำลอง

ฉันมีระดับความสำเร็จที่แตกต่างกันในการแยกสององค์ประกอบหลักจากข้อมูลโดยใช้วิธีการเช่น PCA และ ICA (จากห้องสมุดหลาม Scikit-Learn) แต่ดูเหมือนว่าวิธีการเหล่านี้ (หรืออย่างน้อยที่สุดการใช้งานวิธีการเหล่านี้) มี จำกัด เพื่อแยกส่วนประกอบได้มากเท่าที่มีมิติในข้อมูลตัวอย่างเช่น 2 ส่วนประกอบจากคลาวด์จุด 2D

เมื่อพล็อตข้อมูลเป็นที่ชัดเจนต่อสายตาที่ผ่านการฝึกอบรมว่ามีแนวโน้มเชิงเส้นที่แตกต่างกันสามเส้นเส้นสีสามเส้นแสดงทิศทาง

พล็อตข้อมูล

เมื่อใช้ PCA ส่วนประกอบหลักจะถูกจัดตำแหน่งให้เป็นหนึ่งในเส้นสีและส่วนอื่น ๆ จะอยู่ที่ 90 °ตามที่คาดไว้ เมื่อใช้ ICA ส่วนประกอบแรกจะถูกจัดแนวกับเส้นสีน้ำเงินและองค์ประกอบที่สองอยู่ระหว่างสีแดงกับสีเขียว ฉันกำลังมองหาเครื่องมือที่สามารถสร้างส่วนประกอบทั้งสามในสัญญาณของฉัน

แก้ไขข้อมูลเพิ่มเติม:ฉันอยู่ที่นี่ทำงานในเซตย่อยขนาดเล็กของระนาบเฟสที่ใหญ่กว่า ในชุดย่อยขนาดเล็กนี้ตัวแปรอินพุตแต่ละตัวสร้างการเปลี่ยนแปลงเชิงเส้นบนระนาบ แต่ทิศทางและความกว้างของการเปลี่ยนแปลงนี้ไม่ใช่แบบเส้นตรงและขึ้นอยู่กับตำแหน่งบนระนาบที่ใหญ่กว่าที่ฉันกำลังทำงานอยู่ ในบางสถานที่ตัวแปรสองตัวสามารถเสื่อมถอยลงได้พวกมันสร้างการเปลี่ยนแปลงในทิศทางเดียวกัน ตัวอย่างเช่นสมมติว่าโมเดลขึ้นกับ X, Y และ Z การเปลี่ยนแปลงในตัวแปร X จะทำให้เกิดการเปลี่ยนแปลงตามแนวเส้นสีฟ้า Y ทำให้เกิดการเปลี่ยนแปลงตามเส้นสีเขียว Z ตามแนวสีแดง


3
หากฉันเข้าใจอย่างถูกต้องแนวคิดที่คุณต้องการจะฝังอยู่ ค้นหาเมธอดเคอร์เนลและเคอร์เนล PCAโดยเฉพาะ
Emre

1
ฉันไม่แน่ใจเกี่ยวกับเรื่องนี้ดังนั้นฉันไม่ได้โพสต์เป็นคำตอบ ในรูปแบบชนิดโครงข่ายใยประสาทเทียมคุณสามารถรักษามิติของเลเยอร์ที่ซ่อนไว้> ขนาดข้อมูลชั้นของอินพุต จากนั้นคุณสามารถใช้เลเยอร์ที่ซ่อนไว้เป็นอินพุตไปยังเครือข่าย / รุ่นอื่น แต่การทำเช่นนั้นต้องการข้อมูลจำนวนมาก
Azrael

เมื่อคุณพูดข้อมูลสองมิติที่กำหนดโดยตัวแปรอย่างน้อยสามตัวคุณใช้คำว่า 'ตัวแปร' ในแง่ใด คลาสจะเป็นการทดแทนที่เหมาะสมหรือไม่ เป็นที่น่าสังเกตว่า PCA จะแยกมิติข้อมูลที่แตกต่างกันมากที่สุดซึ่งไม่จำเป็นต้องเป็นการแปลงแบบเลือกปฏิบัติมากที่สุด คุณดูที่การรวมกลุ่มหรือไม่
image_doctor

คุณรู้อะไรเกี่ยวกับความไม่เชิงเส้นของโมเดลหรือไม่? แม้ว่ามันอาจจะซับซ้อนเกินกว่าที่จะจำลองได้ แต่การรู้ว่ามันประกอบไปด้วยพหุนามระดับ 3 ส่วนใหญ่ จำกัด วิศวกรรมด้านคุณลักษณะอย่างมีนัยสำคัญเช่นคุณสามารถเพิ่ม polys ระดับ 3 ทั้งหมดแล้ว PCA กลับไปเป็น 3 มิติ
AN6U5

ฉันได้พูดคุยกับเพื่อนนักสถิติของฉันที่แนะนำให้ใช้ kernel PCA กับอนุพันธ์ของข้อมูลของฉันเนื่องจากฉันกำลังมองหาทางลาด การนับอนุพันธ์เป็น "ฟีเจอร์วิศวกรรม" หรือไม่?
PhilMacKay

คำตอบ:


8

คำตอบสั้น ๆ คือใช่

โดยพื้นฐานแล้วคุณจะต้องมีคุณสมบัติด้านวิศวกรรม นี่หมายถึงการสร้างชุดข้อมูลฟังก์ชันของคุณบ่อยครั้ง:

ϕj(x):RpR ,  j=1,...,K

ซึ่งเครียดกันกำหนดข้อมูลเปลี่ยนเวกเตอร์ของความยาวKϕ(x)K

มีหลายวิธีที่ดีกว่าและแย่ลงในการทำเช่นนี้ คุณอาจต้องการค้นหาคำเช่น:

  1. เส้นโค้งและสารเติมแต่งทั่วไป
  2. เคล็ดลับเคอร์เนล (วิธีการสร้างแบบจำลองที่ )K
  3. คุณสมบัติวิศวกรรม (ของคู่มือที่หลากหลายเช่นเพิ่มคอลัมน์ให้กับข้อมูลของคุณ)x2
  4. การเรียนรู้ลึกการเรียนรู้เชิงลึก

ในขณะที่คุณอาจเดาจากเทคนิคที่หลากหลายเช่นนี้เป็นพื้นที่ขนาดใหญ่ มันไปโดยไม่พูดจริงๆ แต่ต้องระมัดระวังเพื่อหลีกเลี่ยงการ overfitting

บทความนี้นำเสนอการเรียนรู้: การทบทวนและมุมมองใหม่เกี่ยวข้องกับปัญหาบางอย่างเกี่ยวกับสิ่งที่ทำให้ชุดคุณลักษณะ 'ดี' เป็นพิเศษจากมุมมองการเรียนรู้อย่างลึกซึ้ง


-2

ฉันเดาว่าคุณกำลังมองหาคุณสมบัติที่ดึงคุณสมบัติใหม่ออกมา คุณลักษณะที่แสดงถึงชุดข้อมูลได้ดีที่สุด หากเป็นเช่นนั้นเราเรียกวิธีการดังกล่าวว่า "คุณสมบัติการดึงข้อมูล"

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.