คำถามติดแท็ก dimensionality-reduction

อ้างถึงเทคนิคในการลดจำนวนตัวแปรหรือขนาดข้อมูลที่ขยายออกไปเป็นจำนวนมิติที่น้อยลงในขณะที่รักษาข้อมูลเกี่ยวกับข้อมูลให้ได้มากที่สุด วิธีการที่โดดเด่นรวมถึง PCA, MDS, Isomap ฯลฯ สอง subclasses หลักของเทคนิค: การแยกคุณสมบัติและการเลือกคุณสมบัติ

3
ความสัมพันธ์ระหว่าง SVD และ PCA วิธีการใช้ SVD เพื่อทำ PCA
การวิเคราะห์องค์ประกอบหลัก (PCA) มักจะอธิบายผ่านการสลายตัวไอเก็นของเมทริกซ์ความแปรปรวนร่วม แต่ก็ยังสามารถดำเนินการผ่านการย่อยสลายมูลค่าเอกพจน์ (SVD) ของเมทริกซ์ข้อมูลXมันทำงานยังไง? การเชื่อมต่อระหว่างสองแนวทางนี้คืออะไร? ความสัมพันธ์ระหว่าง SVD และ PCA คืออะไร?XX\mathbf X หรือกล่าวอีกนัยหนึ่งว่าจะใช้ SVD ของ data matrix เพื่อลดมิติข้อมูลได้อย่างไร?

1
วิธีการย้อนกลับ PCA และสร้างตัวแปรดั้งเดิมจากองค์ประกอบหลักหลาย ๆ
การวิเคราะห์องค์ประกอบหลัก (PCA) สามารถใช้สำหรับการลดขนาด หลังจากดำเนินการลดขนาดเช่นนั้นหนึ่งจะประมาณสร้างตัวแปร / คุณสมบัติเดิมจากส่วนประกอบหลักจำนวนน้อยได้อย่างไร อีกวิธีหนึ่งสามารถลบหรือทิ้งองค์ประกอบหลักหลายอย่างจากข้อมูลได้อย่างไร ในคำอื่น ๆ วิธีการย้อนกลับ PCA เนื่องจาก PCA นั้นมีความสัมพันธ์อย่างใกล้ชิดกับการสลายตัวของค่าเอกพจน์ (SVD) คำถามเดียวกันสามารถถามได้ดังนี้: วิธีการกลับ SVD?

11
อธิบาย“ คำสาปของมิติ” กับเด็ก
ฉันได้ยินหลายครั้งเกี่ยวกับคำสาปของมิติ แต่อย่างใดฉันก็ยังไม่สามารถเข้าใจความคิดมันมีหมอก ทุกคนสามารถอธิบายสิ่งนี้ด้วยวิธีที่ง่ายที่สุดอย่างที่คุณจะอธิบายให้เด็กฟังเพื่อที่ฉัน (และคนอื่น ๆ จะสับสนเหมือนฉัน) สามารถเข้าใจสิ่งนี้ได้ดี แก้ไข: ตอนนี้สมมติว่าเด็ก ๆ ได้ยินเกี่ยวกับการรวมกลุ่ม (ตัวอย่างเช่นพวกเขารู้วิธีจัดกลุ่มของเล่นของพวกเขา :)) การเพิ่มขนาดมิติจะทำให้งานของกลุ่มของเล่นของพวกเขายากขึ้นได้อย่างไร ตัวอย่างเช่นพวกเขาเคยพิจารณาเฉพาะรูปร่างของของเล่นและสีของของเล่น (ของเล่นสีเดียว) แต่ตอนนี้ต้องพิจารณาขนาดและน้ำหนักของของเล่นด้วย ทำไมเด็กจึงหาของเล่นที่คล้ายกันได้ยากกว่า แก้ไข 2 เพื่อการอภิปรายฉันต้องอธิบายให้ชัดเจนโดย - "ทำไมมันยากกว่าสำหรับเด็กที่จะหาของเล่นที่คล้ายกัน" - ฉันยังหมายถึงว่าทำไมความคิดของระยะทางที่หายไปในพื้นที่มิติสูง?

4
PCA และสัดส่วนของความแปรปรวนอธิบาย
โดยทั่วไปสิ่งที่มีความหมายโดยบอกว่าเศษส่วนของความแปรปรวนในการวิเคราะห์เช่น PCA อธิบายโดยองค์ประกอบหลักแรก ใครสามารถอธิบายสิ่งนี้อย่างสังหรณ์ใจ แต่ยังให้คำจำกัดความทางคณิตศาสตร์ที่แม่นยำของสิ่งที่ "แปรปรวนอธิบาย" หมายถึงในแง่ของการวิเคราะห์องค์ประกอบหลัก (PCA)?xxx สำหรับการถดถอยเชิงเส้นอย่างง่าย r-squared ของเส้นพอดีที่ดีที่สุดจะถูกอธิบายเสมอตามสัดส่วนของความแปรปรวนที่อธิบาย แต่ฉันไม่แน่ใจว่าจะต้องทำอะไร สัดส่วนความแปรปรวนตรงนี้เป็นเพียงการขยายส่วนเบี่ยงเบนของคะแนนจากเส้นที่พอดีที่สุดหรือไม่?

2
อะไรคือความแตกต่างระหว่าง ZCA กับไวท์เทนนิ่ง PCA?
ฉันสับสนเกี่ยวกับการฟอกสีฟันแบบ ZCA และการฟอกสีฟันปกติ (ซึ่งได้มาจากการหารส่วนประกอบหลักด้วยค่ารากที่สองของค่าลักษณะ PCA) เท่าที่ฉันรู้, xZCAwhite=UxPCAwhite,xZCAwhite=UxPCAwhite,\mathbf x_\mathrm{ZCAwhite} = \mathbf U \mathbf x_\mathrm{PCAwhite},ที่เป็น PCA eigenvectorsUU\mathbf U ZCA Whitening มีประโยชน์อะไรบ้าง? อะไรคือความแตกต่างระหว่างการฟอกสีฟันปกติและการฟอกสีฟันแบบ ZCA?

6
วิธีหลักในการยุบตัวแปรเด็ดขาดที่มีหลายระดับ?
เทคนิคใดบ้างที่มีให้สำหรับการยุบ (หรือรวมกำไร) หลายหมวดหมู่ถึงสองสามเพื่อจุดประสงค์ในการใช้พวกมันเป็นอินพุท (ตัวทำนาย) ในแบบจำลองทางสถิติ พิจารณาตัวแปรเช่นนักศึกษาวิทยาลัยที่สำคัญ (วินัยที่เลือกโดยนักศึกษาระดับปริญญาตรี) มันไม่มีการเรียงลำดับและจัดหมวดหมู่ แต่อาจมีหลายระดับที่แตกต่างกัน สมมติว่าฉันต้องการใช้วิชาเอกเป็นตัวทำนายในตัวแบบการถดถอย การใช้ระดับเหล่านี้ตามที่เป็นอยู่สำหรับการสร้างแบบจำลองจะนำไปสู่ปัญหาทุกประเภทเพราะมีจำนวนมาก ความแม่นยำทางสถิติจำนวนมากจะถูกนำไปใช้และผลลัพธ์นั้นยากต่อการตีความ เราไม่ค่อยสนใจวิชาเอกที่เฉพาะเจาะจง - เรามีแนวโน้มที่จะสนใจในหมวดหมู่กว้าง ๆ (กลุ่มย่อย) ของวิชาเอก แต่มันก็ไม่ชัดเจนเสมอไปว่าจะแบ่งระดับออกเป็นหมวดหมู่ระดับสูงกว่านี้ได้อย่างไรหรือแม้กระทั่งจำนวนหมวดหมู่ระดับสูงที่จะใช้ สำหรับข้อมูลทั่วไปฉันยินดีที่จะใช้การวิเคราะห์ปัจจัยเมทริกซ์ตัวประกอบหรือเทคนิคการสร้างแบบจำลองที่ไม่ต่อเนื่องแฝง แต่วิชาเอกเป็นหมวดหมู่พิเศษร่วมกันดังนั้นฉันลังเลที่จะใช้ประโยชน์จากความแปรปรวนร่วมของพวกเขาเพื่ออะไร นอกจากนี้ฉันไม่สนใจหมวดหมู่ที่สำคัญด้วยตัวเอง ฉันดูแลเกี่ยวกับการผลิตประเภทระดับสูงที่มีความเชื่อมโยงกันด้วยความเคารพต่อผลการถดถอยของฉัน ในกรณีผลไบนารีที่แนะนำให้ฉันบางสิ่งบางอย่างเช่นการวิเคราะห์ discriminant เชิงเส้น (LDA) เพื่อสร้างหมวดหมู่ระดับที่สูงขึ้นที่เพิ่มประสิทธิภาพการเลือกปฏิบัติสูงสุด แต่ LDA เป็นเทคนิคที่ จำกัด และรู้สึกเหมือนถูกขุดลอกข้อมูลสกปรกให้ฉัน ยิ่งกว่านั้นการแก้ปัญหาแบบต่อเนื่องใด ๆ ก็ยากที่จะตีความ ในขณะเดียวกันบางสิ่งที่อยู่บนพื้นฐานของความแปรปรวนร่วมเช่นการวิเคราะห์การติดต่อหลายทาง (MCA) ดูเหมือนว่าฉันสงสัยในกรณีนี้เพราะการพึ่งพาอาศัยกันของตัวแปรหุ่นที่ไม่เหมือนใคร ตัวแปรเดียวกัน แก้ไข : เพื่อให้ชัดเจนนี่คือการยุบหมวดหมู่ (ไม่ได้เลือกหมวดหมู่) และหมวดหมู่เป็นตัวทำนายหรือตัวแปรอิสระ ในการเข้าใจถึงปัญหาย้อนหลังปัญหานี้ดูเหมือนจะเป็นเวลาที่เหมาะสมในการ "ทำให้เป็นปกติ" ทั้งหมดและปล่อยให้พระเจ้าจัดเรียง 'em out …

3
PCA จะทำงานกับชนิดข้อมูลบูลีน (ไบนารี) หรือไม่
ฉันต้องการลดมิติของระบบการสั่งซื้อที่สูงขึ้นและจับความแปรปรวนส่วนใหญ่ในฟิลด์ 2 มิติหรือ 1 มิติ ฉันเข้าใจว่าสามารถทำได้ผ่านการวิเคราะห์องค์ประกอบหลักและฉันใช้ PCA ในหลาย ๆ สถานการณ์ อย่างไรก็ตามฉันไม่เคยใช้กับชนิดข้อมูลบูลีนและฉันสงสัยว่ามันมีความหมายที่จะทำ PCA กับชุดนี้หรือไม่ ตัวอย่างเช่นสมมติว่าฉันมีตัวชี้วัดเชิงคุณภาพหรือเชิงพรรณนาและฉันกำหนด "1" หากการวัดนั้นใช้ได้สำหรับมิตินั้นและ "0" หากไม่ใช่ (ข้อมูลไบนารี) ตัวอย่างเช่นสมมติว่าคุณกำลังพยายามเปรียบเทียบคนแคระทั้งเจ็ดในสโนว์ไวท์ เรามี: Doc, Dopey, Bashful, Grumpy, Sneezy, Sleepy และ Happy และคุณต้องการจัดเรียงตามคุณสมบัติและทำตามที่: ⎛⎝⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜DocDopeyBashfulGrumpySneezySleepyHappyLactose Intolerant1011011A Honor Roll0001101Athletic1011100Wealthy1011000⎞⎠⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟(Lactose IntolerantA Honor RollAthleticWealthyDoc1011Dopey0000Bashful1011Grumpy1111Sneezy0110Sleepy1000Happy1100)\begin{pmatrix} & Lactose\ Intolerant & A \ Honor\ Roll & Athletic & Wealthy \\ …

2
T-SNE จะทำให้เข้าใจผิดเมื่อใด
การอ้างอิงจากผู้เขียนคนหนึ่ง: t-Distributed Stochastic Neighbor Embedding (t-SNE) เป็นเทคนิค(ที่ได้รับรางวัล ) สำหรับการลดมิติที่เหมาะอย่างยิ่งสำหรับการสร้างภาพชุดข้อมูลมิติสูง ดังนั้นมันฟังดูดีมาก แต่นั่นคือผู้เขียนพูดคุย ข้อความอ้างอิงอื่นจากผู้เขียน (อีกครั้ง: การแข่งขันดังกล่าว): คุณนำอะไรไปจากการแข่งขันครั้งนี้? ให้มองเห็นข้อมูลของคุณก่อนเสมอก่อนที่คุณจะเริ่มฝึกการทำนายข้อมูล! บ่อยครั้งที่การสร้างภาพข้อมูลเช่นที่ฉันทำนั้นให้ข้อมูลเชิงลึกเกี่ยวกับการกระจายข้อมูลที่อาจช่วยคุณในการกำหนดรูปแบบการทำนายที่ควรลอง ข้อมูลจะต้อง หายไป1 - มันเป็นเทคนิคการลดขนาด อย่างไรก็ตามเนื่องจากเป็นเทคนิคที่ดีที่จะใช้เมื่อสร้างภาพข้อมูลที่สูญหายจึงมีค่าน้อยกว่าข้อมูลที่ถูกเน้น (/ ทำให้มองเห็น / เข้าใจได้ผ่านการลดขนาดเป็น 2 หรือ 3 มิติ) ดังนั้นคำถามของฉันคือ: tSNE เป็นเครื่องมือที่ผิดสำหรับงานเมื่อใด ชุดข้อมูลประเภทใดที่ทำให้ไม่สามารถใช้งานได้ คำถามประเภทใดที่ดูเหมือนว่าจะสามารถตอบได้ แต่จริง ๆ แล้วไม่สามารถทำได้ ในการอ้างอิงที่สองข้างต้นขอแนะนำให้มองเห็นชุดข้อมูลของคุณเสมอการสร้างภาพข้อมูลนี้ควรทำด้วย tSNE เสมอหรือไม่ ฉันคาดหวังว่าคำถามนี้อาจตอบได้ดีที่สุดในการสนทนาคือการตอบ: tSNE เป็นเครื่องมือที่เหมาะสมสำหรับงานเมื่อใด ฉันได้รับการเตือนว่าไม่ต้องพึ่งพา tSNE เพื่อบอกฉันว่าข้อมูลง่าย ๆ จะจำแนกได้อย่างไร (แยกเป็นคลาส …

3
ทำไม t-SNE ไม่ถูกใช้เป็นเทคนิคการลดขนาดสำหรับการจัดกลุ่มหรือการจำแนก?
ในการมอบหมายเมื่อเร็ว ๆ นี้เราได้รับคำสั่งให้ใช้ PCA บนตัวเลข MNIST เพื่อลดขนาดจาก 64 (8 x 8 ภาพ) เป็น 2 จากนั้นเราต้องจัดกลุ่มตัวเลขโดยใช้แบบจำลองส่วนผสมของเกาส์เซียน PCA ที่ใช้ 2 องค์ประกอบหลักเท่านั้นไม่ได้ให้ผลที่แตกต่างกันของคลัสเตอร์และเป็นผลให้แบบจำลองไม่สามารถสร้างการจัดกลุ่มที่มีประโยชน์ได้ อย่างไรก็ตามการใช้ t-SNE พร้อมด้วย 2 องค์ประกอบกลุ่มจะถูกแยกออกจากกันได้ดีกว่ามาก แบบจำลองการผสมแบบเกาส์ผลิตกลุ่มที่แตกต่างกันมากขึ้นเมื่อนำไปใช้กับส่วนประกอบ t-SNE ความแตกต่างใน PCA ที่มี 2 องค์ประกอบและ t-SNE ที่มี 2 ส่วนประกอบสามารถมองเห็นได้ในภาพคู่ต่อไปนี้ที่มีการใช้การแปลงกับชุดข้อมูล MNIST ฉันได้อ่านแล้วว่า t-SNE ใช้สำหรับการสร้างภาพข้อมูลมิติสูงเท่านั้นเช่นในคำตอบนี้แต่ได้รับกลุ่มที่แตกต่างกันแล้วทำไมมันไม่ใช้เป็นเทคนิคการลดขนาดที่ใช้สำหรับแบบจำลองการจำแนกหรือ วิธีการทำคลัสเตอร์แบบสแตนด์อโลน

1
เหตุผลที่ใช้งานง่ายที่อยู่เบื้องหลังการหมุนเวียนในการวิเคราะห์ปัจจัย / PCA คืออะไรและจะเลือกการหมุนที่เหมาะสมได้อย่างไร
คำถามของฉัน อะไรคือเหตุผลที่เข้าใจง่ายที่อยู่เบื้องหลังการหมุนของปัจจัยในการวิเคราะห์ปัจจัย (หรือส่วนประกอบใน PCA) ความเข้าใจของฉันคือถ้าตัวแปรถูกโหลดอย่างเท่าเทียมกันในองค์ประกอบด้านบน (หรือปัจจัย) แล้วแน่นอนว่ามันยากที่จะแยกความแตกต่างขององค์ประกอบ ดังนั้นในกรณีนี้เราสามารถใช้การหมุนเพื่อให้ได้ความแตกต่างของส่วนประกอบที่ดีขึ้น ถูกต้องหรือไม่ ผลที่ตามมาจากการหมุนคืออะไร สิ่งนี้มีผลกระทบอะไรบ้าง วิธีการเลือกการหมุนที่เหมาะสม? มีการหมุนมุมฉากและการหมุนเอียง วิธีเลือกระหว่างสิ่งเหล่านี้กับความหมายของตัวเลือกนี้คืออะไร กรุณาอธิบายโดยใช้สมการทางคณิตศาสตร์อย่างน้อยที่สุด คำตอบที่แพร่กระจายเพียงไม่กี่คำคือคณิตศาสตร์อย่างหนัก แต่ฉันกำลังมองหาเหตุผลและกฎง่ายๆ

1
PCA จะช่วยในการวิเคราะห์การจัดกลุ่ม k-mean อย่างไร
ความเป็นมา : ฉันต้องการแบ่งเขตที่อยู่อาศัยของเมืองออกเป็นกลุ่มตามลักษณะทางเศรษฐกิจสังคมรวมถึงความหนาแน่นของที่อยู่อาศัยความหนาแน่นของประชากรพื้นที่สีเขียวราคาที่อยู่อาศัยจำนวนโรงเรียน / ศูนย์สุขภาพ / ศูนย์ดูแลเด็กเล็ก ฯลฯ ฉันต้องการที่จะเข้าใจว่ากลุ่มที่แตกต่างกันสามารถแบ่งออกเป็นพื้นที่ที่อยู่อาศัยและสิ่งที่เป็นเอกลักษณ์ของพวกเขา ข้อมูลนี้สามารถอำนวยความสะดวกในการวางแผนเมือง จากตัวอย่างบางส่วน (เปรียบเทียบบล็อกโพสต์นี้: PCA และ K-mean Clustering ของ Delta Aircraft ) ฉันคิดวิธีการวิเคราะห์: ก่อนทำการวิเคราะห์ PCA กำหนดจำนวนของกลุ่มที่ไม่ซ้ำกัน (กลุ่ม) ขึ้นอยู่กับผล PCA (เช่นใช้วิธี "ข้อศอก" หรืออีกทางหนึ่งจำนวนขององค์ประกอบที่อธิบายถึง 80 ถึง 90% ของความแปรปรวนทั้งหมด) หลังจากพิจารณาจำนวนของคลัสเตอร์ให้ใช้การจัดกลุ่ม k-mean เพื่อทำการจำแนก คำถามของฉัน:ดูเหมือนว่าจำนวนขององค์ประกอบ PCA เกี่ยวข้องกับการวิเคราะห์กลุ่ม นั่นคือความจริงถ้าเราพบ 5 ส่วนประกอบ PCA อธิบายมากกว่า 90% ของการเปลี่ยนแปลงของคุณสมบัติทั้งหมดจากนั้นเราจะใช้การจัดกลุ่ม k-mean และรับ 5 …

1
การลดขนาด (SVD หรือ PCA) บนเมทริกซ์ขนาดใหญ่ที่กระจัดกระจาย
/ แก้ไข: ติดตามเพิ่มเติมตอนนี้คุณสามารถใช้irlba :: prcomp_irlba / แก้ไข: ติดตามโพสต์ของฉันเอง irlbaขณะนี้มีอาร์กิวเมนต์ "กลาง" และ "สเกล" ซึ่งให้คุณใช้ในการคำนวณส่วนประกอบหลักเช่น: pc <- M %*% irlba(M, nv=5, nu=0, center=colMeans(M), right_only=TRUE)$v ฉันมีMatrixคุณสมบัติเบาบางขนาดใหญ่ที่ฉันต้องการใช้ในอัลกอริทึมการเรียนรู้ของเครื่อง: library(Matrix) set.seed(42) rows <- 500000 cols <- 10000 i <- unlist(lapply(1:rows, function(i) rep(i, sample(1:5,1)))) j <- sample(1:cols, length(i), replace=TRUE) M <- sparseMatrix(i, j) เนื่องจากเมทริกซ์นี้มีหลายคอลัมน์ฉันต้องการลดขนาดของมันเป็นสิ่งที่จัดการได้มากกว่า ฉันสามารถใช้แพ็คเกจ irlba ที่ยอดเยี่ยมเพื่อทำ …

5
วิธีจัดการกับข้อมูลแบบลำดับชั้น / ซ้อนในการเรียนรู้ของเครื่อง
ฉันจะอธิบายปัญหาด้วยตัวอย่าง สมมติว่าคุณต้องการที่จะทำนายรายได้ของแต่ละบุคคลที่มีคุณลักษณะบางอย่าง: {อายุ, เพศ, ประเทศ, ภูมิภาค, เมือง} คุณมีชุดข้อมูลการฝึกอบรมเช่นนั้น train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

4
วิธีลดขนาดใน R
ฉันมีเมทริกซ์โดยที่ (i, j) บอกฉันกี่ครั้งที่ฉันดูเพจ j มีบุคคล 27K และหน้า 95K ฉันต้องการ "มิติ" หรือ "แง่มุม" จำนวนหนึ่งในพื้นที่ของหน้าเว็บซึ่งจะสอดคล้องกับชุดของหน้าเว็บที่มักจะดูด้วยกัน เป้าหมายสูงสุดของฉันคือเพื่อให้สามารถคำนวณความถี่ที่แต่ละบุคคลที่ฉันได้ดูหน้าเว็บที่อยู่ในส่วนข้อมูล 1 ส่วนข้อมูล 2 และอื่น ๆ ฉันได้อ่านเอกสาร R เกี่ยวกับการวิเคราะห์องค์ประกอบหลักและการสลายตัวของค่าเดียวและดำเนินการคำสั่งเหล่านี้แล้ว แต่ฉันไม่แน่ใจว่าจะดำเนินการอย่างไร ฉันจะใช้การลดขนาดเพื่อทำสิ่งนี้ได้อย่างไร หรือนี่เป็นปัญหาการจัดกลุ่มจริง ๆ และฉันควรมองเข้าไปในอัลกอริทึมการจัดกลุ่มแทนหรือไม่ ขอบคุณมากสำหรับความเข้าใจใด ๆ ~ l

2
ทำไม LIK ของ Scikit-Learn LDA จึงทำงานไม่ถูกต้องและมันคำนวณ LDA ผ่าน SVD ได้อย่างไร
ฉันใช้การวิเคราะห์เชิงเส้นตรง (LDA) จากไลบรารี่การscikit-learnเรียนรู้ของเครื่องจักร (Python) สำหรับการลดมิติข้อมูลและอยากรู้เกี่ยวกับผลลัพธ์เล็กน้อย ฉันสงสัยว่าตอนนี้สิ่งที่ LDA scikit-learnกำลังทำอยู่เพื่อให้ผลลัพธ์ดูแตกต่างจากเช่นวิธีการด้วยตนเองหรือ LDA ที่ทำใน R มันจะดีถ้ามีใครให้ข้อมูลเชิงลึกที่นี่ สิ่งที่สำคัญที่สุดคือการscikit-plotแสดงให้เห็นถึงความสัมพันธ์ระหว่างตัวแปรสองตัวที่ควรมีความสัมพันธ์ 0 สำหรับการทดสอบฉันใช้ชุดข้อมูลของ Iris และตัวจำแนกเชิงเส้น 2 ตัวแรกมีลักษณะดังนี้: IMG-1 LDA ผ่าน scikit เรียนรู้ สิ่งนี้สอดคล้องกับผลลัพธ์ที่พบในเอกสาร scikit-Learn ที่นี่ ตอนนี้ฉันผ่าน LDA ทีละขั้นตอนและได้ประมาณการที่แตกต่างกัน ฉันลองวิธีที่แตกต่างกันเพื่อค้นหาว่าเกิดอะไรขึ้น: IMG-2 LDA บนข้อมูลดิบ (ไม่มีการจัดกึ่งกลางไม่มีมาตรฐาน) และนี่คือแนวทางทีละขั้นตอนถ้าฉันสร้างมาตรฐาน (การทำให้เป็นมาตรฐาน z-score; ความแปรปรวนของหน่วย) ข้อมูลก่อน ฉันทำสิ่งเดียวกันโดยมีค่าเฉลี่ยอยู่กึ่งกลางเท่านั้นซึ่งควรนำไปสู่ภาพการฉายภาพแบบเดียวกัน (และสิ่งที่มันทำ) IMG-3 LDA ทีละขั้นตอนหลังจากการกำหนดค่าเฉลี่ยกึ่งกลางหรือกำหนดมาตรฐาน IMG-4 LDA ใน R (การตั้งค่าเริ่มต้น) …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.