คำถามติดแท็ก dimensionality-reduction

อ้างถึงเทคนิคในการลดจำนวนตัวแปรหรือขนาดข้อมูลที่ขยายออกไปเป็นจำนวนมิติที่น้อยลงในขณะที่รักษาข้อมูลเกี่ยวกับข้อมูลให้ได้มากที่สุด วิธีการที่โดดเด่นรวมถึง PCA, MDS, Isomap ฯลฯ สอง subclasses หลักของเทคนิค: การแยกคุณสมบัติและการเลือกคุณสมบัติ

5
องค์ประกอบหลักด้านบนจะรักษาพลังการคาดการณ์ของตัวแปรตาม (หรือนำไปสู่การทำนายที่ดีกว่า) ได้อย่างไร?
สมมติว่าผมทำงานถดถอย X ทำไมโดยการเลือกด้านบนkส่วนประกอบหลักการของXไม่รูปแบบการรักษาอำนาจของตนในการทำนายY ?Y∼XY∼XY \sim XkkkXXXYYY ผมเข้าใจว่าจากมิติการลดจุด / คุณลักษณะการเลือกมุมมองถ้าเป็น eigenvectors ของเมทริกซ์ความแปรปรวนของXกับด้านบนkค่าลักษณะเฉพาะแล้วX วี1 , X โวลต์ 2 . . X v kเป็นองค์ประกอบหลักkอันดับแรกที่มีความแปรปรวนสูงสุด เราสามารถลดจำนวนฟีเจอร์เป็นkและรักษาพลังการทำนายส่วนใหญ่ไว้ได้ตามที่ฉันเข้าใจv1,v2,...vkv1,v2,...vkv_1, v_2, ... v_kXXXkkkXv1,Xv2...XvkXv1,Xv2...XvkXv_1, Xv_2 ... Xv_kkkkkkk แต่ทำไมทำบนส่วนประกอบรักษาอำนาจการพยากรณ์ในY ?kkkYYY ถ้าเราพูดถึงทั่วไป OLS มีเหตุผลที่จะชี้ให้เห็นว่าถ้าไม่มีคุณลักษณะZ ฉันมีความแปรปรวนสูงสุดแล้วZ ฉันมีอำนาจมากที่สุดในการทำนายYY∼ZY∼ZY \sim ZZiZiZ_iZiZiZ_iYYY อัปเดตหลังจากเห็นความคิดเห็น:ฉันเดาว่าฉันเคยเห็นตัวอย่างของการใช้ PCA จำนวนมากเพื่อการลดขนาด ฉันได้รับการสันนิษฐานว่าหมายถึงมิติที่เราเหลืออยู่มีอำนาจการทำนายมากที่สุด มิฉะนั้นแล้วประเด็นของมิติลดลงคืออะไร?

2
จะเข้าใจ“ ไม่เชิงเส้น” เช่นเดียวกับ“ การลดขนาดแบบไม่เชิงเส้น” ได้อย่างไร?
ฉันพยายามเข้าใจความแตกต่างระหว่างวิธีการลดขนาดเชิงเส้น (เช่น PCA) และวิธีไม่เชิงเส้น (เช่น Isomap) ฉันไม่สามารถเข้าใจสิ่งที่เป็นเส้นตรง (ไม่ใช่) ความหมายในบริบทนี้ ฉันอ่านจากWikipediaว่า จากการเปรียบเทียบหาก PCA (อัลกอริทึมการลดขนาดเชิงเส้น) ใช้เพื่อลดชุดข้อมูลเดียวกันนี้เป็นสองมิติค่าผลลัพธ์จะไม่ได้รับการจัดระเบียบอย่างดี นี่แสดงให้เห็นว่าเวกเตอร์มิติสูง (แต่ละอันแสดงถึงตัวอักษร 'A') ที่ตัวอย่างหลากหลายนี้มีความหลากหลายในลักษณะที่ไม่เป็นเชิงเส้น อะไรนะ เวกเตอร์มิติสูง (แต่ละอันแทนตัวอักษร 'A') ที่ตัวอย่างนี้มีความหลากหลายในลักษณะที่ไม่เป็นเชิงเส้น หมายความว่าอย่างไร หรือกว้างกว่าฉันจะเข้าใจความเป็นเส้นตรง (ไม่) ในบริบทนี้ได้อย่างไร

3
การลดขนาดสำหรับการสร้างภาพควรได้รับการพิจารณาว่าเป็นปัญหา "ปิด" แก้ไขโดย t-SNE หรือไม่
ฉันอ่านเกี่ยวกับอัลกอริทึม -sne มากสำหรับการลดขนาด ฉันประทับใจมากกับประสิทธิภาพของชุดข้อมูล "คลาสสิค" เช่น MNIST ซึ่งทำให้สามารถแยกตัวเลขได้อย่างชัดเจน ( ดูบทความต้นฉบับ ):เสื้อเสื้อt ฉันยังใช้มันเพื่อแสดงคุณสมบัติที่เรียนรู้โดยเครือข่ายประสาทที่ฉันกำลังฝึกอบรมและฉันก็พอใจกับผลลัพธ์มาก ดังนั้นฉันเข้าใจ: เสื้อเสื้อt -sne มีผลลัพธ์ที่ดีในชุดข้อมูลส่วนใหญ่และมีการนำไปใช้อย่างมีประสิทธิภาพ - ด้วยวิธีการประมาณ Barnes-Hut จากนั้นเราอาจพูดได้ว่าปัญหา "การลดมิติ" อย่างน้อยก็เพื่อจุดประสงค์ในการสร้างการสร้างภาพข้อมูล 2D / 3D ที่ดีตอนนี้เป็นปัญหา "ปิด" หรือไม่O ( n บันทึกn )O(nเข้าสู่ระบบ⁡n)O(n \log n) ฉันรู้ว่านี่เป็นคำสั่งที่ค่อนข้างหนา ฉันสนใจที่จะเข้าใจว่า "หลุมพราง" ที่เป็นไปได้ของวิธีการนี้คืออะไร นั่นคือมีกรณีใดบ้างที่เรารู้ว่าไม่มีประโยชน์หรือไม่ นอกจากนี้ปัญหา "เปิด" ในฟิลด์นี้คืออะไร

1
ทำไมจึงมีเพียงองค์ประกอบหลักสำหรับข้อมูลหากจำนวนมิติคือ ?
ใน PCA เมื่อจำนวนมิติมากกว่า (หรือเท่ากับ) จำนวนตัวอย่างทำไมคุณถึงมีeigenvector ที่ไม่ใช่ศูนย์มากที่สุดในคำอื่น ๆ ยศแปรปรวนเมทริกซ์ในหมู่ที่มิติคือN-1N N - 1 d ≥ N N - 1dddยังไม่มีข้อความNNยังไม่มีข้อความ- 1N−1N-1d≥ Nd≥Nd\ge Nยังไม่มีข้อความ- 1N−1N-1 ตัวอย่าง: ตัวอย่างของคุณเป็นภาพเวกเตอร์ซึ่งมีขนาดแต่คุณมีเพียงภาพN = 10d= 640 × 480 = 307200d=640×480=307200d = 640\times480 = 307\,200ยังไม่มีข้อความ= 10N=10N=10

2
“ การถดถอยอันดับที่ลดลง” คืออะไรเกี่ยวกับ?
ฉันได้อ่านองค์ประกอบของการเรียนรู้ทางสถิติแล้วและฉันไม่สามารถเข้าใจได้ว่าส่วนที่ 3.7 "การหดตัวและการเลือกหลายผลลัพธ์" นั้นเกี่ยวกับอะไร มันพูดเกี่ยวกับ RRR (การถดถอยลดอันดับ) และฉันสามารถเข้าใจได้ว่าหลักฐานเป็นเรื่องเกี่ยวกับโมเดลเชิงเส้นหลายตัวแปรแบบทั่วไปที่ไม่ทราบค่าสัมประสิทธิ์ นั่นเป็นสิ่งเดียวที่ฉันเข้าใจ คณิตศาสตร์ที่เหลืออยู่นั้นเกินกว่าฉัน มันไม่ได้ช่วยให้ผู้เขียนพูดว่า 'ใคร ๆ ก็สามารถแสดง' และทิ้งสิ่งต่าง ๆ ไว้เป็นแบบฝึกหัดได้ ใครช่วยกรุณาอธิบายสิ่งที่เกิดขึ้นที่นี่อย่างสังหรณ์ใจ? บทนี้ควรพูดถึงวิธีการใหม่ ๆ หรือไม่? หรืออะไร?

1
t-SNE กับ MDS
เคยอ่านคำถามบางอย่างเกี่ยวกับt-SNE ( t-Distributed Stochastic Neighbor Embedding ) เมื่อเร็ว ๆ นี้และยังได้เยี่ยมชมบางคำถามเกี่ยวกับMDS (การวัดหลายมิติ ) พวกเขามักจะใช้แบบอะนาล็อกดังนั้นจึงเป็นความคิดที่ดีที่ทำให้คำถามนี้เมื่อเห็นว่ามีคำถามมากมายทั้งแยกต่างหาก (หรือเปรียบเทียบกับPCA ) ที่นี่ ในระยะสั้นสิ่งที่ทำให้ t-SNE และ MDS แตกต่างกันอย่างไร เช่น. ลำดับชั้นของข้อมูลที่พวกเขาสำรวจมีข้อสมมติฐานที่แตกต่างกัน ฯลฯ อัตราการลู่เข้า? สิ่งที่เกี่ยวกับการใช้เมล็ดทั้งสองทำตาม?

3
PCA เมื่อขนาดข้อมูลมากกว่าจำนวนตัวอย่าง
ฉันเจอสถานการณ์ที่ฉันมี 10 สัญญาณ / คนสำหรับ 10 คน (ตัวอย่าง 100 ตัวอย่าง) ที่มีจุดข้อมูล 14,000 (มิติ) ที่ฉันต้องผ่านไปยังตัวจําแนก ฉันต้องการลดขนาดของข้อมูลนี้และ PCA น่าจะเป็นวิธีที่ทำได้ อย่างไรก็ตามฉันสามารถค้นหาตัวอย่างของ PCA ที่มีจำนวนตัวอย่างมากกว่าจำนวนมิติเท่านั้น ฉันใช้แอปพลิเคชัน PCA ที่ค้นหาพีซีที่ใช้ SVD เมื่อฉันผ่านชุดข้อมูล 100x14000 ชุดของฉันมี 101 ชิ้นที่ส่งคืนดังนั้นขนาดส่วนใหญ่จะถูกมองข้ามอย่างชัดเจน โปรแกรมระบุว่าพีซี 6 เครื่องแรกมีความแปรปรวน 90% เป็นสมมติฐานที่สมเหตุสมผลหรือไม่ว่าพีซี 101 เครื่องเหล่านี้มีความแปรปรวนทั้งหมดและขนาดที่เหลืออยู่นั้นไม่สามารถละเลยได้? หนึ่งในเอกสารที่ฉันได้อ่านอ้างว่าด้วยชุดข้อมูลที่คล้ายกัน (แต่คุณภาพต่ำกว่าเล็กน้อย) กว่าของฉันพวกเขาสามารถลดขนาด 4500 มิติลงเหลือ 80 เก็บข้อมูล 96% ของข้อมูลต้นฉบับ คลื่นกระดาษผ่านรายละเอียดของเทคนิค PCA ที่ใช้มีเพียง 3100 ตัวอย่างเท่านั้นและฉันมีเหตุผลที่จะเชื่อว่าตัวอย่างน้อยกว่าที่ใช้ในการปฏิบัติ …

4
เหตุใดข้อมูลที่หลากหลายจึงเป็นปัญหาสำหรับอัลกอริธึมการจัดกลุ่มแบบอิงยูคลิด
อัลกอริธึมการจัดกลุ่มและการลดขนาดแบบคลาสสิกส่วนใหญ่ (การจัดกลุ่มแบบลำดับชั้นการวิเคราะห์องค์ประกอบหลัก, k-mean, การจัดระเบียบแผนที่เอง ... ) ได้รับการออกแบบมาโดยเฉพาะสำหรับข้อมูลตัวเลขและข้อมูลอินพุตของพวกเขาถูกมองว่าเป็นจุด นี่เป็นปัญหาแน่นอนเนื่องจากคำถามในโลกแห่งความเป็นจริงนั้นเกี่ยวข้องกับข้อมูลที่หลากหลาย: ตัวอย่างเช่นหากเราศึกษารถเมล์ความสูงและความยาวและขนาดมอเตอร์จะเป็นตัวเลข แต่เราอาจสนใจสีด้วย (ตัวแปรเด็ดขาด: สีน้ำเงิน / แดง / เขียว ... ) และคลาสความจุ (ตัวแปรที่สั่ง: ความจุขนาดเล็ก / กลาง / ใหญ่) โดยเฉพาะเราอาจต้องการศึกษาตัวแปรประเภทต่าง ๆ เหล่านี้พร้อมกัน มีวิธีการหลายวิธีในการขยาย algos การจัดกลุ่มแบบคลาสสิกเป็นข้อมูลแบบผสมเช่นการใช้ Gower dissimilarity เพื่อเชื่อมต่อเข้ากับการจัดกลุ่มแบบลำดับชั้นหรือการปรับขนาดแบบหลายมิติหรือวิธีการอื่นที่ใช้เมทริกซ์ระยะทางเป็นอินพุต หรือเช่นวิธีการนี้เป็นส่วนเสริมของ SOM เพื่อผสมข้อมูล คำถามของฉันคือทำไมเราไม่สามารถใช้ระยะทางแบบยุคลิดในตัวแปรผสมได้ หรือเพราะเหตุใดจึงไม่ดีที่จะทำเช่นนั้น? ทำไมเราไม่จำลองหุ่นตัวแปรที่เป็นหมวดหมู่ทำให้ตัวแปรทั้งหมดเป็นปกติเพื่อให้พวกมันมีน้ำหนักใกล้เคียงกันระหว่างการสังเกตและเรียกใช้ algos ปกติบนเมทริกซ์เหล่านี้ มันง่ายมากและไม่เคยทำเลยดังนั้นฉันคิดว่ามันผิดมาก แต่ทุกคนสามารถบอกฉันได้ว่าทำไม และ / หรือให้ฉันอ้างอิงบางอย่าง? ขอบคุณ

4
ฟังก์ชั่นการวิเคราะห์องค์ประกอบหลัก (FPCA): มันเกี่ยวกับอะไร?
ฟังก์ชั่นการวิเคราะห์องค์ประกอบหลัก (FPCA) เป็นสิ่งที่ฉันสะดุดและไม่เคยเข้าใจ มันเกี่ยวกับอะไร? ดูที่"การสำรวจการวิเคราะห์องค์ประกอบหลักของการทำงาน" โดย Shang, 2011และฉันอ้างถึง: PCA ประสบปัญหาร้ายแรงในการวิเคราะห์ข้อมูลการใช้งานเพราะ“ คำสาปของมิติ” (Bellman 1961) "การสาปแช่งของมิติ" มาจากข้อมูล sparsity ในพื้นที่มิติสูง แม้ว่าคุณสมบัติทางเรขาคณิตของ PCA จะยังคงใช้งานได้และแม้ว่าเทคนิคเชิงตัวเลขจะให้ผลลัพธ์ที่คงที่ แต่เมทริกซ์ความแปรปรวนร่วมตัวอย่างก็เป็นค่าประมาณที่ไม่ดีของเมทริกซ์ความแปรปรวนร่วมของประชากร เพื่อที่จะเอาชนะความยากลำบากนี้ FPCA ได้เตรียมวิธีที่ให้ข้อมูลในการตรวจสอบโครงสร้างความแปรปรวนร่วมตัวอย่างมากกว่า PCA [... ] ฉันแค่ไม่เข้าใจ บทความนี้อธิบายถึงข้อเสียเปรียบอะไร PCA ไม่ควรจะเป็นวิธีที่ดีที่สุดในการจัดการสถานการณ์เช่น "คำสาปแห่งมิติ"?

1
วิธีการ LDA ซึ่งเป็นเทคนิคการจำแนกประเภทยังทำหน้าที่เป็นเทคนิคการลดขนาดเช่น PCA
ในบทความนี้ ผู้เขียนเชื่อมโยงการวิเคราะห์จำแนกเชิงเส้น (LDA) กับการวิเคราะห์องค์ประกอบหลัก (PCA) ด้วยความรู้ที่ จำกัด ของฉันฉันไม่สามารถทำตามวิธี LDA ได้ค่อนข้างคล้ายกับ PCA ฉันคิดเสมอว่า LDA เป็นรูปแบบของอัลกอริทึมการจำแนกประเภทซึ่งคล้ายกับการถดถอยโลจิสติก ฉันจะซาบซึ้งในความช่วยเหลือในการทำความเข้าใจว่า LDA คล้ายกับ PCA อย่างไรเช่นเป็นเทคนิคการลดขนาด

5
มีรุ่นใดของ t-SNE สำหรับการสตรีมข้อมูลหรือไม่
ความเข้าใจของฉันเกี่ยวกับt-SNEและการประมาณ Barnes-Hut คือจุดข้อมูลทั้งหมดจำเป็นต้องใช้เพื่อให้การคำนวณการโต้ตอบกับแรงทั้งหมดในเวลาเดียวกันและแต่ละจุดสามารถปรับได้ในแผนที่ 2d (หรือมิติที่ต่ำกว่า) มีเวอร์ชั่นใดบ้างที่สามารถจัดการกับการสตรีมข้อมูลได้อย่างมีประสิทธิภาพหรือไม่ ดังนั้นหากการสำรวจของฉันมาถึงทีละครั้งมันจะหาตำแหน่งที่ดีที่สุดบนแผนที่ 2d เพื่อทำการสำรวจใหม่หรืออัปเดตทุกจุดบนแผนที่ 2d เป็นบัญชีสำหรับการสังเกตใหม่ ht สิ่งนี้จะสมเหตุสมผลหรือไม่หรือขัดกับการตั้งค่าของ t-sne

1
ข้อมูลควรอยู่กึ่งกลาง + สเกลก่อนใช้ t-SNE หรือไม่
คุณสมบัติของข้อมูลบางอย่างของฉันมีค่ามากในขณะที่คุณสมบัติอื่นมีค่าน้อยกว่ามาก จำเป็นหรือไม่ที่จะรวมศูนย์ + ข้อมูลสเกลก่อนใช้ t-SNE เพื่อป้องกันอคติต่อค่าที่มากขึ้น ฉันใช้การปฏิบัติ sklearn.manifold.TSNE ของ Python กับการวัดระยะทางแบบปริภูมิแบบปริยาย

4
"คำสาปของมิติ" มีอยู่จริงในข้อมูลจริงหรือไม่?
ฉันเข้าใจว่า "การสาปแช่งของมิติ" คืออะไรและฉันได้ทำปัญหาการหาค่าเหมาะที่สุดในระดับสูงแล้วและรู้ถึงความท้าทายของความเป็นไปได้แบบเอ็กซ์โปเนนเชียล อย่างไรก็ตามฉันสงสัยว่า "คำสาปของมิติ" มีอยู่ในข้อมูลโลกแห่งความเป็นจริงมากที่สุด ( ถ้างั้นลองวางรูปภาพหรือวิดีโอไว้ครู่หนึ่งฉันกำลังคิดถึงข้อมูลเช่นข้อมูลประชากรศาสตร์ของลูกค้าและข้อมูลพฤติกรรมการซื้อ) เราสามารถรวบรวมข้อมูลด้วยฟีเจอร์มากมาย แต่ก็มีความเป็นไปได้น้อยกว่าที่ฟีเจอร์นั้นจะสามารถขยายพื้นที่ได้อย่างเต็มที่ด้วยมิติข้อมูลนับพัน นี่คือเหตุผลว่าทำไมเทคนิคการลดขนาดจึงเป็นที่นิยม กล่าวอีกอย่างหนึ่งก็คือมีแนวโน้มว่าข้อมูลจะไม่มีข้อมูลระดับเอ็กซ์โปเนนเชียลเช่นคุณสมบัติหลายอย่างมีความสัมพันธ์สูงและคุณสมบัติหลายอย่างเป็นไปตามกฎ 80-20 (หลายกรณีมีค่าเท่ากัน) ในกรณีเช่นนี้ฉันคิดว่าวิธีการเช่น KNN จะยังคงทำงานได้ดีพอสมควร (ในหนังสือส่วนใหญ่ "คำสาปของมิติ" บอกว่ามิติ> 10 อาจเป็นปัญหาได้ในการสาธิตพวกเขาใช้การกระจายแบบสม่ำเสมอในทุกมิติที่เอนโทรปีสูงจริง ๆ ฉันสงสัยในโลกแห่งความจริงนี้จะเกิดขึ้น) ประสบการณ์ส่วนตัวของฉันกับข้อมูลจริงคือ "การสาปแช่งของมิติ" ไม่ได้ส่งผลกระทบต่อวิธีการเทมเพลต (เช่น KNN) มากเกินไปและในกรณีส่วนใหญ่ขนาด ~ 100 จะยังคงใช้งานได้ สิ่งนี้เป็นจริงสำหรับคนอื่นหรือไม่? (ฉันทำงานกับข้อมูลจริงในอุตสาหกรรมต่าง ๆ เป็นเวลา 5 ปีไม่เคยสังเกตว่า "คู่ระยะทางทั้งหมดมีค่าใกล้เคียงกัน" ตามที่อธิบายไว้ในหนังสือเล่มนี้)

4
ตัวแปร“ Normalizing” สำหรับ SVD / PCA
สมมติว่าเรามีตัวแปรNNNวัดได้(a1,a2,…,aN)(a1,a2,…,aN)(a_1, a_2, \ldots, a_N)เราทำการวัดจำนวนM>NM>NM > Nของการวัดแล้วต้องการทำการแยกสลายค่าเอกพจน์บนผลลัพธ์เพื่อค้นหาแกนของความแปรปรวนสูงสุดสำหรับMMM points ในช่องว่างมิติNNN( หมายเหตุ:คิดว่าวิธีการของฉันได้รับการหักออกเพื่อ⟨ ฉัน ⟩ = 0สำหรับทุกฉัน .)aiaia_i⟨ai⟩=0⟨ai⟩=0\langle a_i \rangle = 0iii ทีนี้สมมติว่าตัวแปรหนึ่งตัว (หรือมากกว่า) มีขนาดลักษณะแตกต่างกันอย่างมีนัยสำคัญมากกว่าส่วนที่เหลือ เช่น1อาจมีค่าอยู่ในช่วง10 - 100ในขณะที่ส่วนที่เหลืออาจจะอยู่ที่ประมาณ0.1 - 1 นี้จะเอียงแกนของความแปรปรวนสูงสุดต่อ1ของแกนมากa1a1a_110−10010−10010-1000.1−10.1−10.1-1a1a1a_1 ความแตกต่างของขนาดอาจเป็นเพราะตัวเลือกการวัดที่โชคร้าย (ถ้าเรากำลังพูดถึงข้อมูลทางกายภาพเช่นกิโลเมตรเทียบกับเมตร) แต่ที่จริงแล้วตัวแปรที่แตกต่างกันอาจมีมิติที่แตกต่างกันโดยสิ้นเชิง (เช่นน้ำหนักเทียบกับปริมาตร) อาจไม่มีวิธีที่ชัดเจนในการเลือกหน่วย "เปรียบได้" สำหรับพวกเขา คำถาม: ฉันต้องการทราบว่ามีวิธีการมาตรฐาน / ทั่วไปในการทำให้ข้อมูลเป็นมาตรฐานเพื่อหลีกเลี่ยงปัญหานี้หรือไม่ ผมสนใจในเทคนิคมาตรฐานที่ผลิตขนาดเทียบเคียง1 - Nเพื่อจุดประสงค์นี้มากกว่าขึ้นมาพร้อมกับสิ่งใหม่ ๆa1−aNa1−aNa_1 - a_N แก้ไข: ความเป็นไปได้อย่างหนึ่งคือทำให้ตัวแปรแต่ละตัวเป็นปกติโดยค่าเบี่ยงเบนมาตรฐานหรือสิ่งที่คล้ายกัน อย่างไรก็ตามปัญหาต่อไปนี้จะปรากฏขึ้น: ลองตีความข้อมูลเป็น cloud point …

2
เราจะรวมการลดขนาดเข้ากับการรวมกลุ่มเมื่อใด
ฉันพยายามทำการจัดกลุ่มระดับเอกสาร ฉันสร้างเมทริกซ์ความถี่เอกสารระยะและฉันพยายามจัดกลุ่มเวกเตอร์มิติสูงเหล่านี้โดยใช้ค่าเฉลี่ย k แทนที่จะทำการจัดกลุ่มโดยตรงสิ่งที่ฉันทำคือการใช้การสลายตัวเวกเตอร์เอกพจน์ (การวิเคราะห์ความหมายแฝง) ของ LSA ก่อนเพื่อให้ได้เมทริกซ์ U, S, Vt เลือกเกณฑ์ที่เหมาะสมโดยใช้พล็อตหินกรวดและใช้การจัดกลุ่มบนเมทริกซ์ที่ลดลง มันทำให้ฉันมีข้อมูลเอกสารแนวคิด) ซึ่งดูเหมือนจะให้ผลลัพธ์ที่ดีแก่ฉัน ฉันเคยได้ยินบางคนพูดว่า SVD (เอกพจน์การสลายตัวของเวกเตอร์) เป็นการจัดกลุ่ม (โดยใช้การวัดความคล้ายคลึงกันของโคไซน์ ฯลฯ ) และไม่แน่ใจว่าฉันสามารถใช้ k-mean กับผลลัพธ์ของ SVD ได้หรือไม่ ฉันคิดว่ามันถูกต้องตามหลักเหตุผลเพราะ SVD เป็นเทคนิคการลดขนาดให้ฉันเป็นเวกเตอร์ใหม่ ในทางกลับกันค่า k จะใช้จำนวนกลุ่มเป็นอินพุตและแบ่งเวกเตอร์เหล่านี้เป็นจำนวนกลุ่มที่ระบุ ขั้นตอนนี้มีข้อบกพร่องหรือมีวิธีที่สามารถปรับปรุงได้หรือไม่ ข้อเสนอแนะใด ๆ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.