จุดสลายตัวของค่าเอกฐานคืออะไร?


9

ฉันไม่เข้าใจว่าทำไมการลดขนาดจึงสำคัญ ประโยชน์ของการเก็บข้อมูลและลดขนาดของพวกเขาคืออะไร?


3
น้ำเสียงของคำถามไม่ได้เชิญคำตอบที่สร้างสรรค์ โปรดพิจารณาการเขียนคำถามของคุณใหม่
Sasha

2
จุดนี้อาจเพื่อลดปริมาณข้อมูลที่จำเป็นในการจัดเก็บข้อมูลบางอย่างซึ่งเป็นค่าใช้จ่ายของการสูญเสียความแม่นยำเล็กน้อย (เช่นการบีบอัดภาพ JPEG)
Sasha

2
ขอบคุณสำหรับความคิดเห็นของคุณ @Sasha มันเป็นคำถามที่สมเหตุสมผลดังนั้นฉันจึงทำการแก้ไขเล็กน้อยเพื่อหลีกเลี่ยงการแสดงความรู้สึกทื่อ (ไม่ได้ตั้งใจอย่างแน่นอน) โดยถ้อยคำต้นฉบับ
whuber

ดูstats.stackexchange.com/questions/177102/… สำหรับตัวอย่าง!
kjetil b halvorsen

คุณทำ SVD สำหรับการสร้างแบบจำลองหัวข้อที่ไม่น่าจะเป็น สำหรับการสร้างแบบจำลองหัวข้อที่น่าจะเป็นใช้ LDA หากคุณไม่ได้ใช้การสร้างแบบจำลองหัวข้อให้ใช้ PCA
แบรด

คำตอบ:


18

การสลายตัวของค่าเอกพจน์ (SVD) ไม่เหมือนกับการลดมิติข้อมูล มันเป็นวิธีการสลายเมทริกซ์ไปยังเมทริกซ์อื่น ๆ ที่มีคุณสมบัติที่ยอดเยี่ยมมากมายซึ่งฉันจะไม่เข้าไปที่นี่ สำหรับข้อมูลเพิ่มเติมเกี่ยว SVD ดูที่หน้าวิกิพีเดีย

การลดมิติข้อมูลของคุณบางครั้งก็มีประโยชน์มาก อาจเป็นได้ว่าคุณมีตัวแปรมากกว่าการสังเกต นี่ไม่ใช่เรื่องแปลกในการทำงานของจีโนม อาจเป็นได้ว่าเรามีตัวแปรหลายตัวที่มีความสัมพันธ์กันสูงมากเช่นเมื่อพวกเขาได้รับอิทธิพลอย่างมากจากปัจจัยพื้นฐานจำนวนเล็กน้อยและเราต้องการที่จะกู้คืนการประมาณปัจจัยบางประการ เทคนิคการลดมิติเช่นการวิเคราะห์องค์ประกอบหลักการปรับหลายมิติและการวิเคราะห์ความแปรปรวนแบบบัญญัติทำให้เราเข้าใจถึงความสัมพันธ์ระหว่างการสังเกตและ / หรือตัวแปรที่เราอาจไม่สามารถทำได้ด้วยวิธีอื่น

ตัวอย่างที่เป็นรูปธรรม: เมื่อหลายปีก่อนฉันวิเคราะห์การสำรวจความพึงพอใจของพนักงานที่มีคำถามมากกว่า 100 ข้อ ดีไม่มีผู้จัดการคนใดที่จะสามารถดูคำถามที่มีคำตอบมากกว่า 100 ข้อสรุปและทำมากกว่าเดาว่ามันหมายถึงอะไรเพราะใครสามารถบอกได้ว่าคำตอบนั้นเกี่ยวข้องกันอย่างไรและอะไรเป็นแรงผลักดันพวกเขาจริงๆ ? ฉันทำการวิเคราะห์ปัจจัยเกี่ยวกับข้อมูลซึ่งมีการสังเกตมากกว่า 10,000 ครั้งและเกิดขึ้นด้วยห้าปัจจัยที่ชัดเจนและเข้าใจได้ง่ายซึ่งสามารถใช้ในการพัฒนาคะแนนเฉพาะผู้จัดการ (หนึ่งสำหรับแต่ละปัจจัย) ที่จะสรุปความสมบูรณ์ของ แบบสำรวจคำถามมากกว่า 100 ข้อ ทางออกที่ดีกว่าการถ่ายโอนสเปรดชีต Excel ที่เคยเป็นวิธีการรายงานผลลัพธ์ก่อนหน้านี้!


วิธีการที่เรียกว่า "thin SVD" ใช้สำหรับการลดขนาด ดู Wikipedia บน SVD
หุ่นยนต์

5

เกี่ยวกับประเด็นที่สองของคุณ secont ประโยชน์ของการลดมิติข้อมูลสำหรับชุดข้อมูลอาจเป็น:

  • ลดพื้นที่จัดเก็บข้อมูลที่จำเป็น
  • เพิ่มความเร็วในการคำนวณ (เช่นในอัลกอริธึมการเรียนรู้ของเครื่องจักร) ขนาดที่น้อยกว่าหมายถึงการคำนวณและขนาดที่น้อยลงสามารถอนุญาตให้ใช้อัลกอริทึมที่ไม่เหมาะสำหรับมิติข้อมูลจำนวนมาก
  • ลบคุณลักษณะที่ซ้ำซ้อนเช่นไม่มีจุดในการจัดเก็บขนาดของภูมิประเทศทั้งในตารางเมตรและตารางไมล์ (การรวบรวมข้อมูลอาจมีข้อบกพร่อง)
  • การลดขนาดของข้อมูลเป็น 2D หรือ 3D อาจทำให้เราสามารถพล็อตและเห็นภาพข้อมูลอาจสังเกตรูปแบบและให้ข้อมูลเชิงลึกแก่เรา

นอกเหนือจากนั้น PCA SVD's มีแอปพลิเคชั่นมากมายในการประมวลผลสัญญาณ NLP และอื่น ๆ อีกมากมาย


2

ลองดูที่คำตอบของฉันนี้ การสลายตัวของค่าเอกฐานเป็นองค์ประกอบสำคัญของการวิเคราะห์องค์ประกอบหลักซึ่งเป็นเทคนิคการวิเคราะห์ข้อมูลที่มีประโยชน์และทรงพลังมาก

มันมักใช้ในอัลกอริธึมการจดจำใบหน้าและฉันใช้มันบ่อยๆในงานประจำวันของฉันในฐานะนักวิเคราะห์กองทุนป้องกันความเสี่ยง


1
ไม่ใช่ SVD และ PCA (ในขณะที่เกี่ยวข้อง) ขั้นตอนที่แตกต่างกันใช่ไหม
B_Miner

2
คุณพูดถูก SVD เป็นวิธีการขอรับการแก้ไขปัญหา PCA
bayerj

1
@B_Miner ใช่ - นั่นคือเหตุผลที่ฉันพูดว่า svd เป็นองค์ประกอบสำคัญของ pca ผมมุ่งเน้นไปที่ PCA เพราะการลดความกังวลคำถามมิติ (ซึ่ง PCA เป็นไปอย่างเหมาะสมและไม่ SVD)
คริสเทย์เลอร์

บางทีการเลือกคำขององค์ประกอบอาจเป็นสิ่งที่ขว้าง @B_Miner ชั่วคราว :)
สำคัญ
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.