คำถามติดแท็ก pca

การวิเคราะห์องค์ประกอบหลัก (PCA) เป็นเทคนิคการลดขนาดเชิงเส้น จะช่วยลดชุดข้อมูลหลายตัวแปรให้เป็นชุดเล็ก ๆ ของตัวแปรที่สร้างขึ้นรักษาข้อมูลให้มากที่สุดเท่าที่จะเป็นไปได้ ตัวแปรเหล่านี้เรียกว่าองค์ประกอบหลักคือการรวมกันเชิงเส้นของตัวแปรอินพุต

3
Kernel PCA ที่มีเคอร์เนลเชิงเส้นเทียบเท่ากับ PCA มาตรฐานหรือไม่
ถ้าในเคอร์เนล PCAฉันเลือกเคอร์เนลเชิงเส้นK(x,y)=x⊤yK(x,y)=x⊤yK(\mathbf{x},\mathbf{y}) = \mathbf x^\top \mathbf yผลลัพธ์จะแตกต่างจากlinear PCA ปกติหรือไม่ วิธีการแก้ปัญหานั้นแตกต่างกันโดยพื้นฐานหรือมีความสัมพันธ์ที่ชัดเจนบางอย่างอยู่หรือไม่?
17 pca  kernel-trick 

1
อัลกอริธึมที่มีประสิทธิภาพในการคำนวณการแยกค่าเอกเทศ (SVD) คืออะไร
บทความ Wikipedia เกี่ยวกับการวิเคราะห์องค์ประกอบหลักระบุว่า อัลกอริธึมที่มีประสิทธิภาพมีอยู่ในการคำนวณ SVD ของโดยไม่ต้องสร้างเมทริกซ์ดังนั้นการคำนวณ SVD จึงเป็นวิธีมาตรฐานในการคำนวณการวิเคราะห์องค์ประกอบหลักจากเมทริกซ์ข้อมูลXXXXTXXTXX^TX มีคนบอกฉันว่าอัลกอริทึมที่มีประสิทธิภาพซึ่งบทความกำลังพูดถึงคืออะไร ไม่มีการอ้างอิงที่ได้รับ (URL หรือการอ้างอิงถึงบทความที่เสนอวิธีการคำนวณแบบนี้น่าจะดี)
17 pca  algorithms  svd  numerics 

1
มีวิธีการที่แข็งแกร่งจริง ๆ ดีกว่า?
ฉันมีสองกลุ่มวิชา A และ B แต่ละกลุ่มมีขนาดประมาณ 400 และประมาณ 300 ตัวทำนาย เป้าหมายของฉันคือการสร้างแบบจำลองการทำนายสำหรับตัวแปรการตอบสนองแบบไบนารี ลูกค้าของฉันต้องการเห็นผลของการใช้แบบจำลองที่สร้างขึ้นจาก A บน B (ในหนังสือของเขาที่ชื่อว่า "กลยุทธ์การสร้างแบบจำลองการถดถอย" @ Frankankarrell กล่าวว่าดีกว่าที่จะรวมชุดข้อมูลสองชุดและสร้างแบบจำลองบนนั้น พลังและความแม่นยำ --- ดูหน้า 90, การตรวจสอบความถูกต้องภายนอกฉันมักจะเห็นด้วยกับเขาโดยพิจารณาว่าการรวบรวมประเภทข้อมูลที่ฉันมีมีราคาแพงมากและใช้เวลานาน แต่ฉันไม่มีทางเลือกเกี่ยวกับสิ่งที่ลูกค้าต้องการ .) ตัวทำนายของฉันหลายคนมีความสัมพันธ์สูงและเบ้มาก ฉันใช้การถดถอยโลจิสติกเพื่อสร้างแบบจำลองการทำนายของฉัน นักทำนายของฉันส่วนใหญ่มาจากกลศาสตร์ ยกตัวอย่างเช่นเวลารวมเรื่องที่อยู่ภายใต้ความเครียดสูงกว่าเกณฑ์สำหรับช่วงเวลาสำหรับค่าต่างๆของและ&lt;t_2 เป็นที่ชัดเจนว่าจากคำจำกัดความของพวกเขาหลายครั้งรวมกันเกี่ยวกับพีชคณิตซึ่งกันและกัน ผู้ทำนายหลายคนที่ไม่เกี่ยวข้องกับพีชคณิตมีความเกี่ยวข้องเนื่องจากลักษณะของพวกเขา: วัตถุที่อยู่ภายใต้ความเครียดสูงในช่วงเวลามักจะอยู่ภายใต้ความเครียดสูงในช่วงเวลาแม้ว่าαα\alpha[ t1, t2][เสื้อ1,เสื้อ2][t_1, t_2]α &gt; 0α&gt;0\alpha > 00 ≤ t1&lt; t20≤เสื้อ1&lt;เสื้อ20 \leq t_1 < t_2[ t1, t2][เสื้อ1,เสื้อ2][t_1, t_2][ …

4
ตัวแปร“ Normalizing” สำหรับ SVD / PCA
สมมติว่าเรามีตัวแปรNNNวัดได้(a1,a2,…,aN)(a1,a2,…,aN)(a_1, a_2, \ldots, a_N)เราทำการวัดจำนวนM&gt;NM&gt;NM > Nของการวัดแล้วต้องการทำการแยกสลายค่าเอกพจน์บนผลลัพธ์เพื่อค้นหาแกนของความแปรปรวนสูงสุดสำหรับMMM points ในช่องว่างมิติNNN( หมายเหตุ:คิดว่าวิธีการของฉันได้รับการหักออกเพื่อ⟨ ฉัน ⟩ = 0สำหรับทุกฉัน .)aiaia_i⟨ai⟩=0⟨ai⟩=0\langle a_i \rangle = 0iii ทีนี้สมมติว่าตัวแปรหนึ่งตัว (หรือมากกว่า) มีขนาดลักษณะแตกต่างกันอย่างมีนัยสำคัญมากกว่าส่วนที่เหลือ เช่น1อาจมีค่าอยู่ในช่วง10 - 100ในขณะที่ส่วนที่เหลืออาจจะอยู่ที่ประมาณ0.1 - 1 นี้จะเอียงแกนของความแปรปรวนสูงสุดต่อ1ของแกนมากa1a1a_110−10010−10010-1000.1−10.1−10.1-1a1a1a_1 ความแตกต่างของขนาดอาจเป็นเพราะตัวเลือกการวัดที่โชคร้าย (ถ้าเรากำลังพูดถึงข้อมูลทางกายภาพเช่นกิโลเมตรเทียบกับเมตร) แต่ที่จริงแล้วตัวแปรที่แตกต่างกันอาจมีมิติที่แตกต่างกันโดยสิ้นเชิง (เช่นน้ำหนักเทียบกับปริมาตร) อาจไม่มีวิธีที่ชัดเจนในการเลือกหน่วย "เปรียบได้" สำหรับพวกเขา คำถาม: ฉันต้องการทราบว่ามีวิธีการมาตรฐาน / ทั่วไปในการทำให้ข้อมูลเป็นมาตรฐานเพื่อหลีกเลี่ยงปัญหานี้หรือไม่ ผมสนใจในเทคนิคมาตรฐานที่ผลิตขนาดเทียบเคียง1 - Nเพื่อจุดประสงค์นี้มากกว่าขึ้นมาพร้อมกับสิ่งใหม่ ๆa1−aNa1−aNa_1 - a_N แก้ไข: ความเป็นไปได้อย่างหนึ่งคือทำให้ตัวแปรแต่ละตัวเป็นปกติโดยค่าเบี่ยงเบนมาตรฐานหรือสิ่งที่คล้ายกัน อย่างไรก็ตามปัญหาต่อไปนี้จะปรากฏขึ้น: ลองตีความข้อมูลเป็น cloud point …

3
การวิเคราะห์องค์ประกอบหลัก“ ย้อนหลัง”: อธิบายความแปรปรวนของข้อมูลโดยชุดค่าผสมเชิงเส้นที่กำหนดของตัวแปรอย่างไร
ผมได้ดำเนินการวิเคราะห์องค์ประกอบหลักหกตัวแปร, B , C , D , EและF ถ้าฉันเข้าใจอย่างถูกต้อง PC1 ที่ไม่ได้ทำการบอกจะบอกสิ่งที่การรวมกันเชิงเส้นของตัวแปรเหล่านี้อธิบาย / อธิบายความแปรปรวนมากที่สุดในข้อมูลและ PC2 บอกฉันว่าการรวมกันเชิงเส้นของตัวแปรเหล่านี้จะอธิบายความแปรปรวนมากที่สุดต่อไปของข้อมูลAABBCCDDEEFF ฉันแค่อยากรู้อยากเห็น - มีวิธีการทำ "ย้อนกลับ" นี้หรือไม่? สมมติว่าฉันเลือกชุดค่าผสมเชิงเส้นของตัวแปรเหล่านี้เช่นA + 2 B + 5 CA+2B+5CA+2B+5Cฉันจะคำนวณความแปรปรวนของข้อมูลที่อธิบายได้หรือไม่

1
PCA ที่แข็งแกร่งเทียบกับระยะทาง Mahalanobis ที่แข็งแกร่งสำหรับการตรวจจับค่าผิดปกติ
PCA แข็งแกร่ง (ตามที่พัฒนาโดยCandes et al, 2009หรือดีกว่ายังNetrepalli et al, 2014 ) เป็นวิธีที่นิยมใช้สำหรับการตรวจสอบค่าผิดปกติหลายตัวแปรแต่ Mahalanobis ระยะนอกจากนี้ยังสามารถนำมาใช้สำหรับการตรวจสอบขอบเขตที่กำหนดแข็งแกร่งประมาณการ regularized ของเมทริกซ์ความแปรปรวนร่วม ฉันอยากรู้เกี่ยวกับข้อดี (dis) ของการใช้วิธีหนึ่งกับอีกวิธีหนึ่ง สัญชาตญาณของฉันบอกฉันว่าความแตกต่างที่ยิ่งใหญ่ที่สุดระหว่างสองคือเมื่อข้อมูลชุด "เล็ก" (ในความหมายทางสถิติ), PCA ที่แข็งแกร่งจะให้ความแปรปรวนร่วมอันดับที่ต่ำกว่าในขณะที่การประมาณค่าความแปรปรวนร่วมที่แข็งแกร่งจะแทน อันดับความแปรปรวนเนื่องจากการทำให้เป็นปกติ Ledoit-Wolf สิ่งนี้จะส่งผลกระทบต่อการตรวจหาค่าผิดปกติอย่างไร

1
การวัดความสัมพันธ์ที่เหมาะสมของตัวแปรด้วยองค์ประกอบ PCA คืออะไร (บน biplot / plot plot)
ฉันกำลังใช้FactoMineRเพื่อลดชุดข้อมูลการวัดของฉันเป็นตัวแปรแฝง แผนที่ตัวแปรด้านบนมีความชัดเจนสำหรับฉันในการตีความ แต่ฉันสับสนเมื่อมันมาถึงความสัมพันธ์ระหว่างตัวแปรและองค์ประกอบ 1 มองที่แผนที่ตัวแปรddpและcovอยู่ใกล้กับส่วนประกอบในแผนที่ddpAbsมากขึ้นอีกเล็กน้อย ไป แต่นี่ไม่ใช่สิ่งที่สหสัมพันธ์แสดง: $Dim.1 $Dim.1$quanti correlation p.value jittAbs 0.9388158 1.166116e-11 rpvi 0.9388158 1.166116e-11 sd 0.9359214 1.912641e-11 ddpAbs 0.9327135 3.224252e-11 rapAbs 0.9327135 3.224252e-11 ppq5 0.9319101 3.660014e-11 ppq5Abs 0.9247266 1.066303e-10 cov 0.9150209 3.865897e-10 npvi 0.8853941 9.005243e-09 ddp 0.8554260 1.002460e-07 rap 0.8554260 1.002460e-07 jitt 0.8181207 1.042053e-06 cov5_x 0.6596751 4.533596e-04 …

2
เหตุใดจึงต้องแปลงข้อมูลก่อนที่จะทำการวิเคราะห์ส่วนประกอบหลัก
ฉันกำลังติดตามการสอนที่นี่: http://www.r-bloggers.com/computing-and-visualizing-pca-in-r/เพื่อให้เข้าใจ PCA ได้ดียิ่งขึ้น บทช่วยสอนใช้ชุดข้อมูล Iris และใช้การแปลงบันทึกก่อน PCA: โปรดสังเกตว่าในรหัสต่อไปนี้เราใช้การแปลงบันทึกกับตัวแปรต่อเนื่องตามที่แนะนำโดย [1] และตั้งค่าcenterและscaleเท่ากับTRUEในการเรียกเพื่อprcompสร้างมาตรฐานของตัวแปรก่อนการประยุกต์ใช้ PCA มีใครบางคนสามารถอธิบายให้ฉันเป็นภาษาอังกฤษแบบธรรมดาทำไมคุณถึงใช้ฟังก์ชั่นบันทึกในสี่คอลัมน์แรกของชุดข้อมูล Iris ฉันเข้าใจว่ามันมีส่วนเกี่ยวข้องกับการทำข้อมูลให้สัมพันธ์ แต่ฉันสับสนว่าอะไรคือหน้าที่ของ log, center และ scale การอ้างอิง [1] ด้านบนคือVenables and Ripley, สถิติประยุกต์สมัยใหม่กับ S-PLUS , หัวข้อ 11.1 ที่กล่าวสั้น ๆ ว่า: ข้อมูลคือการวัดทางกายภาพดังนั้นกลยุทธ์การเริ่มต้นที่ดีคือการทำงานกับขนาดของบันทึก สิ่งนี้ได้ทำมาตลอด

1
ส่วนประกอบ PCA ของข้อมูลแบบหลายตัวแปร Gaussian เป็นอิสระทางสถิติหรือไม่?
ส่วนประกอบ PCA (ในการวิเคราะห์องค์ประกอบหลัก) มีความเป็นอิสระทางสถิติหรือไม่หากข้อมูลของเรามีการกระจายหลายตัวแปรตามปกติ ถ้าเป็นเช่นนั้นสิ่งนี้สามารถแสดง / พิสูจน์ได้อย่างไร? ฉันถามเพราะฉันเห็นโพสต์นี้ซึ่งคำตอบยอดนิยมระบุไว้: PCA ไม่ได้ทำการตั้งสมมติฐาน Gaussianity ที่ชัดเจน พบว่าค่าไอเกนที่ผู้ใช้อธิบายความแปรปรวนสูงสุดในข้อมูล orthogonality ขององค์ประกอบหลักหมายความว่าจะพบส่วนประกอบที่ไม่เกี่ยวข้องมากที่สุดเพื่ออธิบายความแปรปรวนของข้อมูลให้มากที่สุด สำหรับการแจกแจงแบบเกาส์หลายตัวแปรความสัมพันธ์แบบไม่มีศูนย์ระหว่างส่วนประกอบหมายถึงความเป็นอิสระซึ่งไม่เป็นความจริงสำหรับการแจกแจงส่วนใหญ่ คำตอบจะถูกระบุโดยไม่มีการพิสูจน์และดูเหมือนจะบอกเป็นนัยว่า PCA ผลิตชิ้นส่วนที่เป็นอิสระหากข้อมูลเป็นตัวแปรปกติ โดยเฉพาะกล่าวว่าข้อมูลของเราเป็นตัวอย่างจาก: x∼N(μ,Σ)x∼N(μ,Σ)\mathbf{x} \sim \mathcal N(\mathbf{\mu}, \mathbf{\Sigma}) เราใส่nnnตัวอย่างxx\mathbf{x}เป็นแถวของเมทริกซ์ของตัวอย่างของเราXX\mathbf{X}เพื่อให้XX\mathbf{X}เป็นn×mn×mn \times mเมตร การคำนวณ SVD ของXX\mathbf{X} (หลังจากศูนย์กลาง) ให้ผลตอบแทน X=USVTX=USVT\mathbf{X} = \mathbf{USV}^{T} เราบอกได้ไหมว่าคอลัมน์ของUU\mathbf{U}นั้นมีความเป็นอิสระทางสถิติแล้วก็แถวของVTVT\mathbf{V}^Tโดยทั่วไปแล้วนี่เป็นเพียงแค่สำหรับx∼N(μ,Σ)x∼N(μ,Σ)\mathbf{x} \sim \mathcal N(\mathbf{\mu}, \mathbf{\Sigma})หรือไม่เป็นความจริงเลย?
16 pca  independence  svd 

2
แสดงความสัมพันธ์เชิงพื้นที่และเชิงเวลาบนแผนที่
ฉันมีข้อมูลสำหรับเครือข่ายสถานีตรวจอากาศทั่วสหรัฐอเมริกา สิ่งนี้ทำให้ฉันมีกรอบข้อมูลที่ประกอบด้วยวันที่ละติจูดลองจิจูดและค่าที่วัดได้บางส่วน สมมติว่ามีการรวบรวมข้อมูลวันละครั้งและขับเคลื่อนด้วยสภาพอากาศระดับภูมิภาค (ไม่เราจะไม่เข้าร่วมการสนทนานั้น) ฉันต้องการแสดงให้เห็นชัดเจนว่าค่าที่วัดได้พร้อมกันนั้นมีความสัมพันธ์กันตลอดเวลาและพื้นที่อย่างไร เป้าหมายของฉันคือการแสดงให้เห็นถึงความเป็นเนื้อเดียวกันในภูมิภาค (หรือไม่มีในนั้น) ของค่าที่จะถูกตรวจสอบ ชุดข้อมูล เริ่มต้นด้วยฉันเอากลุ่มของสถานีในแมสซาชูเซตส์และเมน ฉันเลือกไซต์ตามละติจูดและลองจิจูดจากไฟล์ดัชนีที่มีอยู่ในไซต์ FTP ของ NOAA ทันทีที่คุณเห็นปัญหาหนึ่ง: มีเว็บไซต์จำนวนมากที่มีตัวระบุที่คล้ายกันหรือใกล้เคียงกันมาก FWIW ฉันระบุว่าพวกเขาใช้ทั้งรหัส USAF และ WBAN เมื่อมองลึกลงไปที่เมทาดาทาฉันเห็นว่าพวกเขามีพิกัดและระดับความสูงต่างกันและข้อมูลหยุดที่ไซต์หนึ่งจากนั้นเริ่มที่อีกไซต์หนึ่ง ดังนั้นเนื่องจากฉันไม่รู้อะไรเลยฉันจึงต้องปฏิบัติต่อพวกเขาเป็นสถานีแยก ซึ่งหมายความว่าข้อมูลมีคู่สถานีที่ใกล้กันมาก การวิเคราะห์เบื้องต้น ฉันพยายามจัดกลุ่มข้อมูลตามเดือนปฏิทินจากนั้นคำนวณการถดถอยกำลังสองน้อยสุดธรรมดาระหว่างข้อมูลที่แตกต่างกัน จากนั้นฉันวางแผนความสัมพันธ์ระหว่างคู่ทั้งหมดเป็นเส้นเชื่อมต่อสถานี (ด้านล่าง) สีเส้นแสดงค่า R2 จาก OLS พอดี จากนั้นตัวเลขแสดงให้เห็นว่าจุดข้อมูล 30+ จุดตั้งแต่เดือนมกราคมกุมภาพันธ์เป็นต้นไปมีความสัมพันธ์กันอย่างไรระหว่างสถานีต่างๆในพื้นที่ที่น่าสนใจ ฉันได้เขียนโค้ดที่สำคัญเพื่อที่ค่าเฉลี่ยรายวันจะถูกคำนวณเฉพาะในกรณีที่มีจุดข้อมูลทุก 6 ชั่วโมงดังนั้นข้อมูลควรเปรียบเทียบได้ในทุกไซต์ ปัญหาที่เกิดขึ้น น่าเสียดายที่มีข้อมูลมากเกินไปที่จะเข้าใจในหนึ่งพล็อต ไม่สามารถแก้ไขได้ด้วยการลดขนาดของเส้น kkk เครือข่ายดูเหมือนจะซับซ้อนเกินไปดังนั้นฉันคิดว่าฉันต้องหาวิธีที่จะลดความซับซ้อนหรือใช้เคอร์เนลเชิงพื้นที่บางประเภท ฉันไม่แน่ใจว่าสิ่งที่เป็นตัวชี้วัดที่เหมาะสมที่สุดในการแสดงความสัมพันธ์ แต่สำหรับผู้ชมที่ตั้งใจ (ไม่ใช่ด้านเทคนิค) สัมประสิทธิ์สหสัมพันธ์จาก OLS อาจเป็นวิธีที่ง่ายที่สุดในการอธิบาย …

2
เราจะรวมการลดขนาดเข้ากับการรวมกลุ่มเมื่อใด
ฉันพยายามทำการจัดกลุ่มระดับเอกสาร ฉันสร้างเมทริกซ์ความถี่เอกสารระยะและฉันพยายามจัดกลุ่มเวกเตอร์มิติสูงเหล่านี้โดยใช้ค่าเฉลี่ย k แทนที่จะทำการจัดกลุ่มโดยตรงสิ่งที่ฉันทำคือการใช้การสลายตัวเวกเตอร์เอกพจน์ (การวิเคราะห์ความหมายแฝง) ของ LSA ก่อนเพื่อให้ได้เมทริกซ์ U, S, Vt เลือกเกณฑ์ที่เหมาะสมโดยใช้พล็อตหินกรวดและใช้การจัดกลุ่มบนเมทริกซ์ที่ลดลง มันทำให้ฉันมีข้อมูลเอกสารแนวคิด) ซึ่งดูเหมือนจะให้ผลลัพธ์ที่ดีแก่ฉัน ฉันเคยได้ยินบางคนพูดว่า SVD (เอกพจน์การสลายตัวของเวกเตอร์) เป็นการจัดกลุ่ม (โดยใช้การวัดความคล้ายคลึงกันของโคไซน์ ฯลฯ ) และไม่แน่ใจว่าฉันสามารถใช้ k-mean กับผลลัพธ์ของ SVD ได้หรือไม่ ฉันคิดว่ามันถูกต้องตามหลักเหตุผลเพราะ SVD เป็นเทคนิคการลดขนาดให้ฉันเป็นเวกเตอร์ใหม่ ในทางกลับกันค่า k จะใช้จำนวนกลุ่มเป็นอินพุตและแบ่งเวกเตอร์เหล่านี้เป็นจำนวนกลุ่มที่ระบุ ขั้นตอนนี้มีข้อบกพร่องหรือมีวิธีที่สามารถปรับปรุงได้หรือไม่ ข้อเสนอแนะใด ๆ

2
การประเมินความน่าเชื่อถือของแบบสอบถาม: มิติรายการที่มีปัญหาและควรใช้อัลฟ่าแลมบ์ดา 6 หรือดัชนีอื่น ๆ หรือไม่?
ฉันกำลังวิเคราะห์คะแนนที่ได้รับจากผู้เข้าร่วมการทดลอง ฉันต้องการประเมินความน่าเชื่อถือของแบบสอบถามซึ่งประกอบด้วย 6 รายการที่มีวัตถุประสงค์เพื่อประเมินทัศนคติของผู้เข้าร่วมที่มีต่อผลิตภัณฑ์ ฉันคำนวณอัลฟ่าของครอนบาครักษาสิ่งของทั้งหมดในระดับเดียว (อัลฟาประมาณ 0.6) และลบทีละรายการ (ครั้งอัลฟาสูงสุดมีค่าประมาณ 0.72) ฉันรู้ว่าอัลฟาสามารถประเมินและประเมินค่าสูงไปน้อยได้ขึ้นอยู่กับจำนวนรายการและมิติข้อมูลของโครงสร้างพื้นฐาน ดังนั้นฉันจึงแสดง PCA การวิเคราะห์นี้พบว่ามีองค์ประกอบหลักสามประการที่อธิบายความแปรปรวนได้ประมาณ 80% ดังนั้นคำถามของฉันเกี่ยวกับฉันจะดำเนินการต่อไปได้อย่างไร ฉันต้องทำการคำนวณอัลฟ่าในแต่ละส่วนข้อมูลเหล่านี้หรือไม่ ฉันได้ลบรายการที่มีผลต่อความน่าเชื่อถือหรือไม่ นอกจากนี้การค้นหาบนเว็บฉันพบว่ามีการวัดความน่าเชื่อถืออีกอย่างหนึ่งคือ lambda6 ของ guttman ความแตกต่างที่สำคัญระหว่างการวัดนี้กับอัลฟ่าคืออะไร? แลมบ์ดามีคุณค่าที่ดีอย่างไร

3
การตีความคะแนน PCA
มีใครช่วยฉันในการตีความคะแนน PCA หรือไม่ ข้อมูลของฉันมาจากแบบสอบถามเกี่ยวกับทัศนคติที่มีต่อหมี จากการโหลดฉันได้ตีความองค์ประกอบหลักอย่างหนึ่งของฉันว่า "กลัวหมี" คะแนนขององค์ประกอบหลักนั้นจะเกี่ยวข้องกับวิธีการที่ผู้ตอบแต่ละคนประเมินถึงองค์ประกอบหลักนั้นหรือไม่
16 pca 

1
การเชื่อมต่อระหว่างกำลังสองน้อยที่สุดบางส่วนการถดถอยอันดับลดลงและการถดถอยองค์ประกอบหลักคืออะไร
การถดถอยอันดับที่ลดลงและการถดถอยส่วนประกอบหลักเป็นเพียงกรณีพิเศษที่มีกำลังสองน้อยที่สุดหรือไม่? บทช่วยสอนนี้ (หน้า 6, "การเปรียบเทียบวัตถุประสงค์") ระบุว่าเมื่อเราทำบางส่วนกำลังสองน้อยที่สุดโดยไม่ต้องฉาย X หรือ Y (เช่น "ไม่ใช่บางส่วน") มันจะกลายเป็นการลดอันดับการถดถอยหรือการถดถอยองค์ประกอบหลักตามลำดับ ข้อความที่คล้ายกันนี้จัดทำขึ้นในหน้าเอกสารของ SAS นี้หัวข้อ "การลดอันดับการถดถอย" และ "ความสัมพันธ์ระหว่างวิธีการ" คำถามติดตามพื้นฐานที่สำคัญกว่าคือมีแบบจำลองความน่าจะเป็นพื้นฐานที่คล้ายคลึงกันหรือไม่

2
การตรวจสอบความถูกต้องข้าม PCA และ k-fold ในชุด Caret ใน R
ฉันเพิ่งดูการบรรยายอีกครั้งจากหลักสูตรการเรียนรู้ของเครื่องใน Coursera ในส่วนที่อาจารย์กล่าวถึง PCA สำหรับการประมวลผลข้อมูลล่วงหน้าในแอปพลิเคชันการเรียนรู้ภายใต้การดูแลเขาบอกว่า PCA ควรจะดำเนินการกับข้อมูลการฝึกอบรมเท่านั้นและจากนั้นการทำแผนที่จะใช้ในการแปลง ดูเพิ่มเติมPCA และรถไฟ / ทดสอบแยก อย่างไรก็ตามในcaretแพ็คเกจ R ข้อมูลการฝึกอบรมที่คุณส่งผ่านไปยังtrain()ฟังก์ชั่นนั้นได้รับการประมวลผลโดย PCA แล้ว ดังนั้นเมื่ออัลกอริทึมทำการตรวจสอบความถูกต้องของ k-fold cross ชุดการตรวจสอบความถูกต้องได้ถูกประมวลผลด้วย PCA ผ่านทางpreProcess()และpredict()ในความเป็นจริงแล้วใช้ใน PCA "fitting" ฉันเข้าใจสถานการณ์ถูกต้องหรือไม่? ขั้นตอนของ IET Caret สำหรับการตรวจสอบข้ามกับ PCA (หรือในความเป็นจริงด้วยวิธีการลดขนาด / การจัดตำแหน่งใด ๆ ) เป็น "ผิด" เนื่องจากการประมวลผลข้อมูลล่วงหน้าจะดำเนินการในชุดการตรวจสอบความถูกต้อง และถ้าเป็นเช่นนั้นผลกระทบนี้จะมีขนาดใหญ่เพียงใด?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.