คำถามติดแท็ก dimensionality-reduction

อ้างถึงเทคนิคในการลดจำนวนตัวแปรหรือขนาดข้อมูลที่ขยายออกไปเป็นจำนวนมิติที่น้อยลงในขณะที่รักษาข้อมูลเกี่ยวกับข้อมูลให้ได้มากที่สุด วิธีการที่โดดเด่นรวมถึง PCA, MDS, Isomap ฯลฯ สอง subclasses หลักของเทคนิค: การแยกคุณสมบัติและการเลือกคุณสมบัติ

1
วิธี Nystroem สำหรับการประมาณเคอร์เนล
ฉันได้อ่านเกี่ยวกับวิธีNyströmสำหรับการประมาณเคอร์เนลระดับต่ำ วิธีนี้ถูกนำมาใช้ในการเรียนรู้ scikit [1] เป็นวิธีการฉายตัวอย่างข้อมูลไปยังการประมาณระดับต่ำของการแมปฟีเจอร์เคอร์เนล ตามความรู้ของฉันที่สุดให้ชุดฝึกอบรมและฟังก์ชันเคอร์เนลมันสร้างการประมาณอันดับต่ำของเคอร์เนลเมทริกซ์โดยใช้ SVD กับและC{xi}ni=1{xi}i=1n\{x_i\}_{i=1}^nn×nn×nn \times nKKKWWWCCC K=[WK21KT21K22]K=[WK21TK21K22]K = \left [ \begin{array}{cc} W & K_{21}^T \\ K_{21} & K_{22} \end{array} \right ] C=[WK21]C=[WK21]C = \left [\begin{array}{cc} W \\ K_{21} \end{array}\right ] ,W∈Rl×lW∈Rl×lW \in \mathbb{R}^{l\times l} อย่างไรก็ตามฉันไม่เข้าใจว่าการประมาณระดับต่ำของเมทริกซ์เคอร์เนลสามารถใช้เพื่อฉายตัวอย่างใหม่ไปยังพื้นที่คุณลักษณะเคอร์เนลโดยประมาณได้อย่างไร เอกสารที่ฉันได้พบ (เช่น [2]) ไม่ได้ช่วยอะไรมากเพราะมันเป็นการสอนน้อย นอกจากนี้ฉันยังสงสัยเกี่ยวกับความซับซ้อนในการคำนวณของวิธีนี้ทั้งในขั้นตอนการฝึกอบรมและการทดสอบ [1] http://scikit-learn.org/stable/modules/kernel_approximation.html#nystroem-kernel-approx [2] http://www.jmlr.org/papers/volume13/kumar12a/kumar12a.pdf

4
อะไรคือความแตกต่างระหว่าง autoencoders และ t-SNE
เท่าที่ฉันรู้ทั้งตัวเข้ารหัสอัตโนมัติและ t-SNE นั้นใช้สำหรับการลดขนาดแบบไม่เชิงเส้น อะไรคือความแตกต่างระหว่างพวกเขาและทำไมฉันถึงควรใช้อันหนึ่งกับอีกอัน?

3
มีค่าใดในการลดมิติข้อมูลของชุดข้อมูลที่ตัวแปรทั้งหมดมีค่าประมาณมุมฉากหรือไม่?
สมมติว่าฉันมีชุดข้อมูล -dimensional ซึ่งมีมิติอยู่มุมฉาก (มีความสัมพันธ์เป็นศูนย์)Nยังไม่มีข้อความNNยังไม่มีข้อความNN มีประโยชน์ใด ๆ ในแง่ของ: การแสดง การแสดง (เพื่อประสิทธิภาพลักษณนาม) หรือเกณฑ์อื่น ๆ ทำการลดขนาดข้อมูลได้อย่างไร?

8
การแสดงข้อมูลมิติสูง
ฉันมีตัวอย่างของสองคลาสซึ่งเป็นเวกเตอร์ในพื้นที่มิติสูงและฉันต้องการพล็อตพวกมันใน 2D หรือ 3D ฉันรู้เกี่ยวกับเทคนิคการลดขนาด แต่ฉันต้องการเครื่องมือที่ง่ายและใช้งานง่าย (ใน matlab, python หรือ. exe ที่สร้างไว้ล่วงหน้า) นอกจากนี้ฉันสงสัยว่าการเป็นตัวแทนใน 2D จะเป็น "ความหมาย" หรือไม่? (ตัวอย่างเช่นวิธีที่สองคลาสตัดกันหรือสามารถแยกได้)

3
อะไรคือสมมติฐานของการวิเคราะห์ปัจจัย?
ฉันต้องการตรวจสอบว่าฉันเข้าใจการวิเคราะห์ตัวประกอบ [คลาสสิคเชิงเส้น] (FA) โดยเฉพาะอย่างยิ่งสมมติฐานที่สร้างขึ้นก่อนหน้านี้ (และหลังจากนั้น) FA ข้อมูลบางส่วนควรมีความสัมพันธ์เริ่มแรกและมีความสัมพันธ์เชิงเส้นที่เป็นไปได้ระหว่างกัน หลังจากทำการวิเคราะห์ปัจจัยข้อมูลจะถูกกระจายตามปกติ (การกระจายตัวแบบ bivariate สำหรับแต่ละคู่) และไม่มีความสัมพันธ์ระหว่างปัจจัย (ทั่วไปและจำเพาะ) และไม่มีความสัมพันธ์ระหว่างตัวแปรจากปัจจัยหนึ่งและตัวแปรจากปัจจัยอื่น ๆ ถูกต้องหรือไม่

2
อะไรคือข้อดีของการลดขนาดของตัวทำนายสำหรับวัตถุประสงค์ของการถดถอย
แอปพลิเคชันหรือข้อดีของการลดขนาดแบบถดถอย (DRR) หรือเทคนิคการลดขนาดแบบมิติ (SDR) ภายใต้เทคนิคแบบการถดถอยแบบดั้งเดิม (ไม่มีการลดขนาดแบบมิติ) คืออะไร? ระดับเทคนิคเหล่านี้ค้นหาการแทนค่ามิติต่ำของชุดคุณลักษณะสำหรับปัญหาการถดถอย ตัวอย่างของเทคนิคดังกล่าว ได้แก่ การถดถอยแบบผกผันแบบแบ่งส่วน, วิธีการหลักของ Hessian, การประมาณค่าความแปรปรวนเฉลี่ยแบบแบ่งส่วน, การถดถอยแบบผกผันเคอร์เนลแบบเคอร์เนล, การถดถอยส่วนประกอบหลักเป็นต้น ในแง่ของ RMSE ที่ผ่านการตรวจสอบความถูกต้องแล้วหากอัลกอริทึมทำงานได้ดีขึ้นในงานการถดถอยโดยไม่ลดมิติใด ๆ แล้วการใช้มิติลดจริงสำหรับการถดถอยคืออะไร? ฉันไม่เข้าใจเทคนิคเหล่านี้ เทคนิคเหล่านี้มีโอกาสใช้เพื่อลดความซับซ้อนของพื้นที่และเวลาสำหรับการถดถอยหรือไม่? หากเป็นข้อได้เปรียบหลักทรัพยากรบางอย่างเกี่ยวกับการลดความซับซ้อนสำหรับชุดข้อมูลมิติสูงเมื่อใช้เทคนิคนี้จะมีประโยชน์ ฉันถกเถียงเรื่องนี้กับข้อเท็จจริงที่ว่าการใช้เทคนิค DRR หรือ SDR นั้นต้องใช้เวลาและพื้นที่ SDR / DRR + Regression นี้บนชุดข้อมูลที่มีความสลัวต่ำกว่าเร็วกว่าเฉพาะชุดข้อมูลที่มีความสลัวสูงหรือไม่ การตั้งค่านี้ได้รับการพิจารณาจากความสนใจเชิงนามธรรมเท่านั้นและไม่มีแอปพลิเคชันที่ใช้งานได้จริงหรือไม่? ตามความคิดด้านข้าง: บางครั้งมีข้อสันนิษฐานว่าการกระจายตัวของคุณสมบัติและการตอบสนองอยู่บนความหลากหลาย มันทำให้รู้สึกถึงการเรียนรู้หลากหลายจากตัวอย่างที่สังเกตในบริบทนี้สำหรับการแก้ปัญหาการถดถอยYXXXYYY

7
เทคนิคการลดข้อมูลเพื่อระบุประเภทของประเทศ
ฉันสอนวิชาภูมิศาสตร์เศรษฐศาสตร์เบื้องต้น เพื่อช่วยให้นักเรียนของฉันพัฒนาความเข้าใจที่ดีขึ้นเกี่ยวกับประเภทของประเทศที่พบในเศรษฐกิจโลกร่วมสมัยและการชื่นชมเทคนิคการลดข้อมูลฉันต้องการสร้างงานที่ทำให้เกิดความแตกต่างของประเทศต่างๆ (เช่นรายได้สูง - มูลค่าเพิ่ม mfg อายุการใช้งานยาวนานรายได้สูงผู้ส่งออกทรัพยากรธรรมชาติอายุขัยกลางถึงสูงโดยเยอรมนีเป็นองค์ประกอบของประเภทแรกและเยเมนเป็นตัวอย่างของประเภทที่สอง) สิ่งนี้จะใช้ข้อมูล UNDP ที่เปิดเผยต่อสาธารณชน (ซึ่งหากฉันจำได้อย่างถูกต้องว่ามีข้อมูลทางสังคมและเศรษฐกิจในน้อยกว่า 200 ประเทศขออภัยด้วยไม่มีข้อมูลภูมิภาค) ก่อนที่จะมีการมอบหมายนี้จะเป็นอีกสิ่งหนึ่งที่ขอให้พวกเขา (ใช้ --- ส่วนใหญ่ช่วงเวลาหรือระดับอัตราส่วน --- ข้อมูล) เพื่อตรวจสอบความสัมพันธ์ระหว่างตัวแปรเดียวกันเหล่านี้ ความหวังของฉันคือพวกเขาจะพัฒนาสัญชาตญาณสำหรับชนิดของความสัมพันธ์ระหว่างตัวแปรต่าง ๆ (เช่นความสัมพันธ์เชิงบวกระหว่างอายุขัยและ [ตัวบ่งชี้ต่าง ๆ ของความมั่งคั่ง] ความสัมพันธ์เชิงบวกระหว่างความมั่งคั่งและความหลากหลายในการส่งออก) จากนั้นเมื่อใช้เทคนิคการลดข้อมูลส่วนประกอบหรือปัจจัยจะทำให้เกิดความรู้สึกหยั่งรู้ (เช่นปัจจัย / องค์ประกอบที่ 1 ให้ความสำคัญกับความมั่งคั่ง; ปัจจัย / องค์ประกอบที่ 2 ให้ความสำคัญกับการศึกษา) ระบุว่าสิ่งเหล่านี้เป็นนักเรียนปีที่สองถึงสี่ซึ่งบ่อยครั้งที่มีการเปิดรับความคิดในการวิเคราะห์มากกว่าปกติคุณจะแนะนำเทคนิคการลดข้อมูลใดที่เหมาะสมที่สุดสำหรับการมอบหมายครั้งที่สอง นี่คือข้อมูลประชากรสถิติเชิงอนุมาน (p-vlaues ฯลฯ ) จึงไม่จำเป็นจริงๆ

2
วิธีการกำหนดพารามิเตอร์สำหรับ t-SNE สำหรับการลดขนาด?
ฉันใหม่มากที่จะแต่งงานคำ ฉันต้องการเห็นภาพว่าเอกสารกำลังเรียนรู้อย่างไร ฉันอ่านว่า t-SNE เป็นวิธีการที่จะทำ ฉันมีเอกสาร 100K ขนาด 250 เท่าของการฝัง มีหลายแพ็คเกจเช่นกัน อย่างไรก็ตามสำหรับ t-SNE ฉันไม่ทราบว่าการวนซ้ำหรือค่าของ alpha หรือค่า perpexility ที่ฉันควรเรียนรู้มากขึ้นเท่าไร พารามิเตอร์ไฮเปอร์เหล่านี้หรืออาจถูกกำหนดโดยคุณลักษณะบางอย่าง?

3
องค์ประกอบหลักแรกไม่ได้แยกคลาส แต่พีซีเครื่องอื่นทำ เป็นไปได้อย่างไร?
ฉันใช้ PCA ใน 17 ตัวแปรเชิงปริมาณเพื่อให้ได้ชุดของตัวแปรที่มีขนาดเล็กลงซึ่งเป็นองค์ประกอบหลักที่จะใช้ในการเรียนรู้ของเครื่องภายใต้การดูแลเพื่อแบ่งอินสแตนซ์ออกเป็นสองชั้น หลังจาก PCA บัญชี PC1 คิดเป็น 31% ของความแปรปรวนของข้อมูล PC2 คิดเป็น 17%, PC3 คิดเป็น 10%, PC4 คิดเป็น 8%, PC5 คิดเป็น 7% และ PC6 คิดเป็น 6% อย่างไรก็ตามเมื่อฉันดูความแตกต่างของพีซีระหว่างสองคลาสน่าประหลาดใจที่ PC1 ไม่ได้แยกแยะระหว่างสองคลาสได้ดี พีซีที่เหลืออยู่เป็นตัวเลือกที่ดี นอกจากนี้ PC1 จะไม่เกี่ยวข้องเมื่อใช้ในต้นไม้ตัดสินใจซึ่งหมายความว่าหลังจากตัดแต่งกิ่งต้นไม้มันจะไม่ปรากฏแม้แต่ในต้นไม้ แผนผังประกอบด้วย PC2-PC6 มีคำอธิบายใด ๆ สำหรับปรากฏการณ์นี้หรือไม่? มันเป็นสิ่งที่ผิดปกติกับตัวแปรที่ได้รับหรือไม่?

2
เหตุใด PCA จึงเพิ่มความแปรปรวนโดยรวมของการฉายภาพให้สูงสุด
Christopher Bishop เขียนในการจดจำรูปแบบในหนังสือของเขาและการเรียนรู้ของเครื่องเพื่อพิสูจน์ว่าแต่ละองค์ประกอบหลักติดต่อกันช่วยเพิ่มความแปรปรวนของการฉายภาพให้เป็นมิติหนึ่งหลังจากข้อมูลถูกฉายไปยังพื้นที่มุมฉากกับองค์ประกอบที่เลือกไว้ก่อนหน้านี้ คนอื่น ๆ แสดงหลักฐานที่คล้ายกัน อย่างไรก็ตามสิ่งนี้พิสูจน์ให้เห็นว่าแต่ละองค์ประกอบที่ต่อเนื่องกันเป็นโครงที่ดีที่สุดสำหรับหนึ่งมิติในแง่ของการเพิ่มความแปรปรวนให้สูงสุด เหตุใดสิ่งนี้จึงบอกเป็นนัยถึงความแปรปรวนของการฉายภาพที่จะบอกว่า 5 มิตินั้นถูกเลือกให้มากที่สุดสำหรับส่วนประกอบแรก

4
“ การฉายแบบสุ่ม” ไม่ใช่การฉายอย่างเคร่งครัดหรือไม่?
การใช้งานปัจจุบันของอัลกอริธึมการฉายแบบสุ่มลดมิติข้อมูลตัวอย่างโดยการแมปจากถึงโดยใช้เมทริกซ์การฉายซึ่งรายการนั้นมีการกระจายที่เหมาะสม (เช่นจาก ):RdRd\mathbb R^dRkRk\mathbb R^kd× kd×kd\times kRRRยังไม่มีข้อความ( 0 , 1 )N(0,1)\mathcal N(0,1) x′=1k√xRx′=1kxRx^\prime = \frac{1}{\sqrt k}xR สะดวกพิสูจน์หลักฐานทางทฤษฎีที่มีอยู่แสดงให้เห็นว่าการทำแผนที่นี้ประมาณรักษาระยะทางคู่ อย่างไรก็ตามเมื่อเร็ว ๆ นี้ฉันพบบันทึกเหล่านี้ที่ผู้เขียนอ้างว่าการแมปนี้ด้วยเมทริกซ์แบบสุ่มไม่ใช่การฉายภาพในความหมายเชิงพีชคณิตเชิงเส้นที่เข้มงวดของคำ (หน้า 6) จากคำอธิบายที่ให้มีนี้เป็นเพราะคอลัมน์ของไม่ได้ฉากอย่างเคร่งครัดเมื่อรายการของตนได้รับการแต่งตั้งเป็นอิสระจาก(0,1) ดังนั้นรุ่นก่อนหน้าของ RP ที่มีการบังคับใช้มุมฉากของคอลัมน์ถูกบังคับให้ถือเป็นเส้นโครงRRRN(0,1)N(0,1)\mathcal N(0,1)RRR คุณสามารถให้คำอธิบายโดยละเอียดเพิ่มเติมเกี่ยวกับ (1) คำจำกัดความของการฉายภาพในแง่ที่เข้มงวดนี้คืออะไรและ (2) เหตุใด RP จึงไม่ฉายภายใต้คำจำกัดความนี้

3
เมื่อใดที่คุณจะใช้ PCA แทน LDA ในการจำแนกประเภท
ฉันกำลังอ่านบทความนี้เกี่ยวกับความแตกต่างระหว่างการวิเคราะห์องค์ประกอบหลักและการวิเคราะห์จำแนกหลายอย่าง (การวิเคราะห์จำแนกเชิงเส้น) และฉันพยายามเข้าใจว่าทำไมคุณถึงใช้ PCA แทน MDA / LDA คำอธิบายสรุปได้ดังนี้ การพูดอย่างคร่าวๆใน PCA เรากำลังพยายามหาแกนที่มีความแปรปรวนสูงสุดซึ่งเป็นข้อมูลที่แพร่กระจายมากที่สุด (ภายในคลาสเนื่องจาก PCA ปฏิบัติต่อชุดข้อมูลทั้งหมดเป็นหนึ่งคลาส) และใน MDA เรายังเพิ่มการแพร่กระจายระหว่างชั้นเรียนเพิ่มเติม คุณไม่ต้องการที่จะเพิ่มความแปรปรวนสูงสุดและเพิ่มการแพร่กระจายระหว่างคลาสให้สูงสุดหรือไม่?

1
PCA ขนาดใหญ่เป็นไปได้หรือไม่
การวิเคราะห์องค์ประกอบหลัก (PCA) แบบคลาสสิกคือการทำบนเมทริกซ์ข้อมูลอินพุตซึ่งคอลัมน์มีค่าเฉลี่ยเป็นศูนย์ (จากนั้น PCA สามารถ "เพิ่มความแปรปรวนสูงสุด") สามารถทำได้อย่างง่ายดายโดยการจัดคอลัมน์ให้อยู่ตรงกลาง Howenver เมื่อเมทริกซ์การป้อนข้อมูลเบาบางเมทริกซ์กึ่งกลางตอนนี้จะเบาบางอีกต่อไปและ - ถ้าเมทริกซ์มีขนาดใหญ่มาก - ดังนั้นจะไม่พอดีกับหน่วยความจำอีกต่อไป มีวิธีแก้ปัญหาอัลกอริทึมสำหรับปัญหาการจัดเก็บหรือไม่?

1
t-SNE พร้อมตัวแปรแบบต่อเนื่องและไบนารีแบบผสม
ฉันกำลังตรวจสอบการสร้างภาพข้อมูลมิติสูงโดยใช้ t-SNE ฉันมีข้อมูลบางส่วนที่มีไบนารีผสมและตัวแปรต่อเนื่องและข้อมูลดูเหมือนว่าจะจัดกลุ่มข้อมูลไบนารีได้อย่างง่ายดายเกินไป แน่นอนว่าสิ่งนี้คาดว่าจะเป็นข้อมูลสเกล (ระหว่าง 0 ถึง 1): ระยะ Euclidian จะยิ่งใหญ่ที่สุด / เล็กที่สุดระหว่างตัวแปรไบนารี เราควรจัดการกับชุดข้อมูลไบนารี / ต่อเนื่องผสมโดยใช้ t-SNE อย่างไร เราควรดร็อปคอลัมน์ไบนารีหรือไม่ มันมีความแตกต่างที่metricเราสามารถใช้? เป็นตัวอย่างให้พิจารณารหัสหลามนี้: x1 = np.random.rand(200) x2 = np.random.rand(200) x3 = np.r_[np.ones(100), np.zeros(100)] X = np.c_[x1, x2, x3] # plot of the original data plt.scatter(x1, x2, c=x3) # … format graph ดังนั้นข้อมูลดิบของฉันคือ: …

1
R ตัวแปรเชิงเส้นถดถอยหมวดหมู่ "ซ่อน" ค่า
นี่เป็นเพียงตัวอย่างที่ฉันเจอหลายครั้งดังนั้นฉันจึงไม่มีข้อมูลตัวอย่าง ใช้แบบจำลองการถดถอยเชิงเส้นใน R: a.lm = lm(Y ~ x1 + x2) x1เป็นตัวแปรต่อเนื่อง x2เป็นหมวดหมู่และมีสามค่าเช่น "ต่ำ", "ปานกลาง" และ "สูง" อย่างไรก็ตามเอาต์พุตที่กำหนดโดย R จะเป็นดังนี้: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 ฉันเข้าใจว่า R แนะนำการเข้ารหัสแบบหลอกบางอย่างเกี่ยวกับปัจจัยดังกล่าว ( …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.