ข้อมูลมิติสูง: เทคนิคที่เป็นประโยชน์ที่จะรู้คืออะไร?


14

เนื่องจากคำสาปของขนาดต่าง ๆความแม่นยำและความเร็วของเทคนิคการทำนายทั่วไปจำนวนมากจะลดลงในข้อมูลมิติสูง เทคนิค / เทคนิค / การวิเคราะห์พฤติกรรมที่มีประโยชน์ที่สุดที่ช่วยจัดการกับข้อมูลมิติสูงอย่างมีประสิทธิภาพคืออะไร ตัวอย่างเช่น,

  • วิธีการทางสถิติ / แบบจำลองบางอย่างทำงานได้ดีกับชุดข้อมูลที่มีมิติสูงหรือไม่?
  • เราสามารถปรับปรุงประสิทธิภาพของแบบจำลองการทำนายของเราบนข้อมูลมิติสูงโดยใช้บางอย่าง (ที่กำหนดแนวคิดทางเลือกของระยะทาง) หรือเมล็ด (ที่กำหนดความคิดทางเลือกของผลิตภัณฑ์จุด)
  • อะไรคือเทคนิคที่มีประโยชน์ที่สุดในการลดมิติข้อมูลสำหรับข้อมูลมิติสูง?

คำตอบ:


10

นี่เป็นคำถามที่กว้างมากซึ่งฉันคิดว่ามันเป็นไปไม่ได้ที่จะครอบคลุมในคำตอบเดียว ดังนั้นฉันคิดว่ามันจะมีประโยชน์มากขึ้นในการให้คำแนะนำและ / หรือแหล่งข้อมูลที่เกี่ยวข้อง นี่คือสิ่งที่ฉันจะทำโดยการให้ข้อมูลและความคิดของฉันต่อไปนี้

ก่อนอื่นฉันควรพูดถึงการสอนที่ยอดเยี่ยมและครอบคลุมเกี่ยวกับการลดขนาดโดย Burges (2009) จาก Microsoft Research เขาสัมผัสกับมิติข้อมูลสูงบ่อยครั้งตลอดทั้งเอกสาร งานนี้อ้างถึงการลดขนาดเป็นมิติลดลงนำเสนอทฤษฎีในปัญหาแนะนำอนุกรมวิธานของวิธีการลดมิติซึ่งประกอบด้วยวิธีการฉายภาพและวิธีการสร้างแบบจำลองหลากหลายรวมทั้งให้ภาพรวมของวิธีการต่างๆในแต่ละหมวดหมู่

"การprojectiveแสวงหา" วิธีการตรวจสอบรวมถึงการวิเคราะห์อิสระส่วนประกอบ (ICA) , การวิเคราะห์องค์ประกอบหลัก (PCA)และรูปแบบเช่นเคอร์เนล PCAและPCA น่าจะเป็น , การวิเคราะห์ความสัมพันธ์ที่ยอมรับ (CCA)และเคอร์เนล CCAเปลี่ยนแปลงเชิงเส้นวิเคราะห์จำแนก (LDA ) , ลดเคอร์เนลมิติ (KDR)และบางคนอื่น ๆ นานาวิธีการตรวจสอบรวมถึงการปรับหลายมิติ (MDS)และสถานที่สำคัญ MDSเปลี่ยนแปลงIsomap , เฉพาะเชิงเส้นฝังและวิธีการแบบกราฟิกเช่นeigenmaps Laplacianและการจัดกลุ่มสเปกตรัม ฉันจะแสดงรายการวิธีการตรวจสอบส่วนใหญ่ที่นี่ในกรณีที่หากสิ่งพิมพ์ต้นฉบับไม่สามารถเข้าถึงได้สำหรับคุณไม่ว่าจะทางออนไลน์ (ลิงก์ด้านบน) หรือออฟไลน์ (การอ้างอิง)

มีข้อแม้สำหรับคำว่า "ครอบคลุม" ที่ฉันได้นำไปใช้กับงานที่กล่าวถึงข้างต้น ในขณะที่มันเป็นจริงค่อนข้างครอบคลุมนี้เป็นญาติเป็นบางส่วนของวิธีการลดมิติจะไม่กล่าวถึงในเอกสารโดยเฉพาะอย่างยิ่งคนที่มุ่งเน้นการสำรวจ (แฝง) ตัวแปร แม้ว่าบางคนจะกล่าวถึงโดยอ้างอิงถึงแหล่งอื่น - หนังสือเกี่ยวกับการลดขนาด

ตอนนี้ฉันจะกล่าวถึงหัวข้อที่เป็นปัญหาโดยย่อโดยอ้างอิงถึงคำตอบที่เกี่ยวข้องหรือคำตอบที่เกี่ยวข้องของฉัน ในเรื่องเพื่อนบ้านที่ใกล้ที่สุด (NN) - ประเภทของข้อมูลมิติสูงโปรดดูคำตอบของฉันที่นี่ (โดยเฉพาะฉันแนะนำให้ตรวจสอบกระดาษ # 4 ในรายการของฉัน) หนึ่งในผลกระทบของการสาปแช่งของมิติคือว่าข้อมูลมิติสูงอยู่บ่อยเบาบาง เมื่อพิจารณาถึงข้อเท็จจริงนี้ฉันเชื่อว่าคำตอบที่เกี่ยวข้องของฉันที่นี่และที่นี่เกี่ยวกับการถดถอยและPCAสำหรับข้อมูลที่กระจัดกระจายและมิติสูงอาจเป็นประโยชน์

อ้างอิง

Burges, CJC (2010) การลดขนาด: ไกด์นำเที่ยว พื้นฐานและแนวโน้ม®ในการเรียนรู้ของเครื่อง, 2 (4), 275-365 ดอย: 10.1561 / 2200000002


0

Aleksander ได้ให้คำตอบที่ครอบคลุมมาก แต่มีไม่กี่คนที่ถูกฟ้องอย่างกว้างขวาง:

สำหรับการลดขนาดระบบ PCA ถูกใช้อย่างไรก็ตามการแปลงเชิงเส้นและการลดมิติที่ไม่ใช่เชิงเส้นนั้นการเรียนรู้แบบ Manifold เป็นสิ่งที่คุณกำลังมองหา

การฉายข้อมูลมิติที่ต่ำกว่าไปยังมิติที่สูงขึ้นสามารถทำได้โดยใช้เมล็ด คุณมักจะทำสิ่งนี้เมื่อตัวจําแนกของคุณไม่สามารถหาระนาบเชิงเส้นของการแยกในมิติปัจจุบัน แต่จะสามารถหาไฮเปอร์ไลน์เชิงเส้นที่แยกชั้นในมิติที่สูงขึ้น เมล็ดถูกใช้อย่างกว้างขวางใน SVM

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.