คำถามติดแท็ก multivariate-analysis

วิเคราะห์ที่มีมากกว่าหนึ่งตัวแปรวิเคราะห์พร้อมกันและตัวแปรเหล่านี้อาจขึ้นอยู่กับ (ตอบสนอง) หรือคนเดียวในการวิเคราะห์ สิ่งนี้สามารถเปรียบเทียบกับการวิเคราะห์ "หลาย" หรือ "หลายตัวแปร" ซึ่งมีความหมายมากกว่าหนึ่งตัวแปร (อิสระ) ตัวแปร

3
เหมาะสมหลายตัวแปรลูกบาศก์ธรรมชาติ
หมายเหตุ: หากไม่มีคำตอบที่ถูกต้องหลังจากผ่านไปหนึ่งเดือนฉันได้โพสต์ข้อความใหม่เป็นSO พื้นหลัง ฉันมีแบบจำลองที่Y = f ( X )fffY=f(X)Y=f(X)Y=f(\textbf{X}) คือเมทริกซ์ n × mของตัวอย่างจากพารามิเตอร์ mและ Yคือ n × 1XX\textbf{X}n×mn×mn \times mmmmYYYn×1n×1n \times 1เวกเตอร์ของเอาต์พุตโมเดล มีการคำนวณอย่างเข้มข้นดังนั้นฉันจึงต้องการประมาณ fโดยใช้ลูกบาศก์หลายตัวแปรผ่านจุด ( X , Y )เพื่อให้ฉันสามารถประเมิน Yที่จุดจำนวนมากffffff(X,Y)(X,Y)(X,Y)YYY คำถาม มีฟังก์ชั่น R ที่จะคำนวณความสัมพันธ์โดยพลการระหว่าง X และ Y หรือไม่? โดยเฉพาะฉันกำลังมองหารุ่นหลายตัวแปรของsplinefunฟังก์ชั่นซึ่งสร้างฟังก์ชั่น spline สำหรับกรณี univariate เช่นนี้เป็นวิธีการsplinefunทำงานสำหรับกรณี univariate x <- 1:10 y <- runif(10) …

1
วิธีโง่อย่างน้อยที่สุดในการทำนายอนุกรมเวลาแบบหลายตัวแปรสั้น ๆ
ฉันจำเป็นต้องคาดการณ์ตัวแปร 4 ตัวต่อไปนี้สำหรับหน่วยเวลาที่ 29 ฉันมีข้อมูลประวัติศาสตร์ประมาณ 2 ปีโดยที่ 1 และ 14 และ 27 เป็นช่วงเวลาเดียวกันทั้งหมด (หรือช่วงเวลาของปี) ในท้ายที่สุดฉันทำสลายตัวสไตล์โออาซากา-Blinder ใน , W D , W คและพีWWWW dWdwdW คWคwcพีพีp time W wd wc p 1 4.920725 4.684342 4.065288 .5962985 2 4.956172 4.73998 4.092179 .6151785 3 4.85532 4.725982 4.002519 .6028712 4 4.754887 4.674568 3.988028 .5943888 5 …

3
การวิเคราะห์แยกแยะกับการถดถอยโลจิสติก
ฉันพบข้อดีของการวิเคราะห์ที่แยกแยะและฉันมีคำถามเกี่ยวกับพวกเขา ดังนั้น: เมื่อชั้นเรียนมีการแยกกันอย่างดีพารามิเตอร์ประมาณการสำหรับการถดถอยโลจิสติกจะไม่เสถียรอย่างน่าประหลาดใจ ค่าสัมประสิทธิ์อาจไปไม่มีที่สิ้นสุด LDA ไม่ประสบปัญหานี้ ถ้าจำนวนของคุณลักษณะมีขนาดเล็กและการแจกแจงของตัวทำนาย XXXเป็นปกติโดยประมาณในแต่ละคลาสโมเดล discriminant เชิงเส้นจะมีเสถียรภาพมากกว่าแบบจำลองการถดถอยโลจิสติกอีกครั้ง เสถียรภาพคืออะไรและทำไมจึงสำคัญ (ถ้าการถดถอยโลจิสติกส์ให้พอดีกับหน้าที่การใช้งานแล้วทำไมฉันถึงต้องสนใจเรื่องเสถียรภาพ) LDA เป็นที่นิยมเมื่อเรามีคลาสการตอบสนองมากกว่าสองคลาสเนื่องจากยังให้มุมมองข้อมูลในระดับต่ำ ฉันแค่ไม่เข้าใจสิ่งนั้น LDA ให้มุมมองแบบมิติต่ำได้อย่างไร หากคุณสามารถตั้งชื่อข้อดีหรือข้อเสียได้มากกว่านี้ก็คงจะดี

2
การวิเคราะห์ความสัมพันธ์ของ Canonical ที่มีสหสัมพันธ์อันดับ
การวิเคราะห์ความสัมพันธ์ของ Canonical (CCA) มีจุดมุ่งหมายเพื่อเพิ่มความสัมพันธ์ของเพียร์สันในช่วงเวลาปกติ (เช่นค่าสัมประสิทธิ์สหสัมพันธ์เชิงเส้น) ของการรวมกันเชิงเส้นของชุดข้อมูลทั้งสอง ตอนนี้ให้พิจารณาความจริงที่ว่าสัมประสิทธิ์สหสัมพันธ์นี้วัดได้เพียงการเชื่อมโยงเชิงเส้นเท่านั้น - นี่คือเหตุผลที่เราใช้เช่น Spearman-หรือ Kendall-ρρ\rhoττ\tau (อันดับ) สัมประสิทธิ์สหสัมพันธ์ การเชื่อมต่อระหว่างตัวแปร ดังนั้นฉันคิดต่อไปนี้: ข้อ จำกัด หนึ่งของ CCA คือพยายามจับความสัมพันธ์เชิงเส้นระหว่างชุดค่าผสมเชิงเส้นที่เกิดขึ้นเนื่องจากฟังก์ชันวัตถุประสงค์เท่านั้น เป็นไปได้ไหมที่จะขยาย CCA ในบางแง่มุมโดยการเพิ่มพูด Spearman- แทน Pearson-ρρ\rho ?rrr ขั้นตอนดังกล่าวจะนำไปสู่สิ่งที่ตีความและมีความหมายทางสถิติหรือไม่ (มันสมเหตุสมผลหรือไม่ - ตัวอย่างเช่น - เพื่อดำเนินการ CCA ในอันดับ ... ?) ฉันสงสัยว่ามันจะช่วยได้เมื่อเราจัดการกับข้อมูลที่ไม่ปกติหรือไม่ ...

1
ความหนาแน่นของการแจกแจงปกติตามขนาดที่เพิ่มขึ้น
คำถามที่ฉันต้องการถามคือ: สัดส่วนของตัวอย่างภายใน 1 SD ของค่าเฉลี่ยของการแจกแจงปกติแตกต่างกันอย่างไรเมื่อจำนวนของตัวแปรเพิ่มขึ้น (เกือบ) ทุกคนรู้ว่าในการแจกแจงปกติแบบ 1 มิตินั้น 68% ของตัวอย่างสามารถพบได้ในค่าเบี่ยงเบนมาตรฐาน 1 ค่าเฉลี่ย ในมิติที่ 2, 3, 4, ... ฉันรู้ว่ามันลดน้อยลง ... แต่เท่าไหร่ (แม่นยำ)? การมีตารางแสดงตัวเลขสำหรับ 1, 2, 3 ... 10 มิติเช่นเดียวกับ 1, 2, 3 ... 10 SDs ทุกคนสามารถชี้ไปที่ตารางดังกล่าวได้หรือไม่ บริบทเพิ่มเติมเล็กน้อย - ฉันมีเซ็นเซอร์ที่ให้ข้อมูลสูงสุด 128 ช่อง แต่ละช่องอาจมีสัญญาณรบกวนทางไฟฟ้า (เป็นอิสระ) เมื่อฉันรู้สึกถึงวัตถุการปรับเทียบฉันสามารถเฉลี่ยการวัดที่เพียงพอและได้รับค่าเฉลี่ยในช่องสัญญาณ 128 พร้อมกับค่าเบี่ยงเบนมาตรฐานส่วนบุคคล 128 แบบ แต่ ... …

1
GSVD ใช้เทคนิคหลายตัวแปรเชิงเส้นทั้งหมดหรือไม่
ฉันเจอบทความโดยHervé Abdiเกี่ยวกับ SVD ทั่วไป ผู้เขียนกล่าวถึง: SVD ทั่วไป (GSVD) จะสลายเมทริกซ์สี่เหลี่ยมและคำนึงถึงข้อ จำกัด ทางบัญชีที่กำหนดในแถวและคอลัมน์ของเมทริกซ์ GSVD ให้การประมาณค่าน้ำหนักน้อยที่สุดแบบทั่วไปของเมทริกซ์ที่กำหนดโดยเมทริกซ์อันดับที่ต่ำกว่าดังนั้นด้วยการเลือกข้อ จำกัด ที่เพียงพอ GSVD ใช้เทคนิคหลายตัวแปรเชิงเส้นทั้งหมด (เช่นความสัมพันธ์แบบแคนนอน, การวิเคราะห์เชิงเส้น -regression) ฉันสงสัยว่า GSVD เกี่ยวข้องกับเทคนิคหลายตัวแปรเชิงเส้นทั้งหมด (เช่นสหสัมพันธ์แบบแคนนอน, การวิเคราะห์จำแนกเชิงเส้น, การวิเคราะห์เชิงเส้น, การวิเคราะห์จดหมาย, PLS-regression)

2
วิธีการลงจุดวงรีจากค่าลักษณะเฉพาะและค่าลักษณะเฉพาะใน R [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน2 ปีที่ผ่านมา มีใครมากับรหัสRเพื่อพล็อตวงรีจากค่าลักษณะเฉพาะและ eigenvectors ของเมทริกซ์ต่อไปนี้ A = ( 2.20.40.42.8)A=(2.20.40.42.8) \mathbf{A} = \left( \begin{array} {cc} 2.2 & 0.4\\ 0.4 & 2.8 \end{array} \right)

2
การทดลอง Bernoulli ที่สัมพันธ์กันการกระจายแบบหลายตัวแปรของ Bernoulli?
ฉันลดความซับซ้อนของคำถามการวิจัยที่ฉันมีในที่ทำงาน ลองนึกภาพว่าฉันมี 5 เหรียญและขอเรียกให้ประสบความสำเร็จ เหล่านี้เป็นเหรียญที่มีอคติมากโดยมีโอกาสประสบความสำเร็จ p = 0.1 ตอนนี้ถ้าเหรียญเป็นอิสระแล้วได้รับความน่าจะเป็นของอย่างน้อย 1 หัวหรือมากกว่าง่ายมาก 5 ในสถานการณ์สมมติของฉันการทดลอง Bernoulli ของฉัน (การโยนเหรียญ) ไม่เป็นอิสระ ข้อมูลเดียวที่ฉันสามารถเข้าถึงได้คือความน่าจะเป็นของความสำเร็จ (แต่ละอันคือ p = .1) และความสัมพันธ์เชิงทฤษฎีของเพียร์สันในหมู่ตัวแปรไบนารี1−(1−1/10)51−(1−1/10)51-(1-1/10)^5 มีวิธีการคำนวณความน่าจะเป็นของความสำเร็จหนึ่งครั้งหรือมากกว่านั้นกับข้อมูลนี้หรือไม่? ฉันกำลังพยายามหลีกเลี่ยงวิธีการจำลองสถานการณ์เนื่องจากผลลัพธ์ทางทฤษฎีเหล่านี้จะถูกใช้เพื่อเป็นแนวทางในความแม่นยำของการศึกษาแบบจำลอง ฉันได้รับการพิจารณาในการกระจายตัวของ Bernoulli หลายตัวแปร แต่ฉันไม่คิดว่าฉันสามารถระบุได้อย่างเต็มที่กับความสัมพันธ์และโอกาสที่จะประสบความสำเร็จเพียงเล็กน้อยเท่านั้น เพื่อนคนหนึ่งของฉันแนะนำให้สร้างแบบเกาส์เกาส์ด้วยเบอเนลลีขอบ (ใช้แพ็คเกจ R copula) จากนั้นใช้pMvdc()ฟังก์ชั่นบนตัวอย่างขนาดใหญ่เพื่อให้ได้ความน่าจะเป็นที่ฉันต้องการ แต่ฉันไม่แน่ใจว่าจะทำอย่างไรกับมัน

5
วิธีการสร้างข้อมูลที่ไม่สัมพันธ์กัน
ฉันสนใจที่จะหาวิธีในการสร้างข้อมูลที่มีความสัมพันธ์และไม่ปกติ ดังนั้นการกระจายบางอย่างที่ใช้ในเมทริกซ์ความแปรปรวนร่วม (หรือสหสัมพันธ์) เป็นพารามิเตอร์และสร้างข้อมูลที่ใกล้เคียงกับมัน แต่นี่คือสิ่งที่จับได้: วิธีที่ฉันพยายามค้นหาควรมีความยืดหยุ่นในการควบคุมความเบ้และ / หรือ kurtosis หลายตัวแปรด้วย ฉันคุ้นเคยกับวิธีของเฟลชแมนและวิธีการใช้พลังงานของตัวแปรปกติ แต่ฉันเชื่อว่าส่วนขยายเหล่านั้นส่วนใหญ่อนุญาตให้ผู้ใช้ใช้การรวมกันของความเบ้เล็กน้อยและความโด่งเท่านั้นทำให้เหลือความเบ้ / ความหลายหลาก สิ่งที่ฉันสงสัยคือถ้ามีวิธีที่ช่วยระบุความเบ้หลายตัวแปรและ / หรือ kurtosis พร้อมกับโครงสร้างความสัมพันธ์ / ความแปรปรวนร่วมบางอย่าง ประมาณหนึ่งปีที่ผ่านมาฉันได้สัมมนาเกี่ยวกับการแจกแจงแบบโคคูล่าและฉันจำได้ว่าศาสตราจารย์กล่าวอย่างไม่ตั้งใจว่าผ่านการใช้เถาวัลย์โคโพลีสเราสามารถสร้างข้อมูลซึ่งกล่าวคือสมมาตรในระยะขอบ 1-D แต่ร่วมกันเบ้ -versa หรือยิ่งไปกว่านั้นอัตรากำไรขั้นต้นที่ต่ำกว่าอาจมีความเบ้หรือความโด่งในขณะที่ยังคงมีขนาดสมมาตรสูงสุด (หรือไม่) ฉันประหลาดใจกับความคิดที่ว่ามีความยืดหยุ่นเช่นนี้ฉันพยายามค้นหาบทความหรือเอกสารการประชุมที่อธิบายวิธีการดังกล่าว แต่ฉันไม่ประสบความสำเร็จ :( มันไม่จำเป็นต้องผ่านการใช้ copulas ฉันเปิดรับทุกอย่างที่ใช้ได้ แก้ไข: ฉันได้เพิ่มรหัส R เพื่อพยายามแสดงสิ่งที่ฉันหมายถึง จนถึงตอนนี้ฉันคุ้นเคยกับคำจำกัดความของความเบ้หลายตัวแปรและความโด่งของ Mardia เท่านั้น เมื่อฉันเข้าหาปัญหาของฉันครั้งแรกฉันคิดอย่างไร้เดียงสาว่าถ้าฉันใช้ copula symmetric (Gaussian ในกรณีนี้) กับ marginals ที่เบ้ (เบต้าในตัวอย่างนี้) การทดสอบ …

3
วิธีการตรวจสอบเมื่อแบบจำลองการถดถอยมีความเหมาะสมมากเกินไป?
เมื่อคุณเป็นคนหนึ่งในการทำงานตระหนักถึงสิ่งที่คุณกำลังทำอยู่คุณพัฒนาความรู้สึกเมื่อคุณมีแบบจำลองที่พอดี สิ่งหนึ่งที่คุณสามารถติดตามแนวโน้มหรือการเสื่อมสภาพได้ใน Adjusted R Square ของโมเดล คุณสามารถติดตามการเสื่อมสภาพที่คล้ายกันในค่า p ของสัมประสิทธิ์การถดถอยของตัวแปรหลัก แต่เมื่อคุณเพิ่งอ่านคนอื่นศึกษาและคุณไม่มีความเข้าใจในกระบวนการพัฒนาแบบจำลองภายในของพวกเขาเองคุณจะสามารถตรวจพบอย่างชัดเจนว่าแบบจำลองนั้นเหมาะสมหรือไม่อย่างไร

2
สืบทอดการกระจายปัวซอง
เมื่อไม่นานมานี้ฉันได้พบกับการแจกแจงปัวซองแบบกระจายตัว แต่ฉันสับสนเล็กน้อยว่ามันจะเกิดขึ้นได้อย่างไร การกระจายมอบให้โดย: P(X=x,Y=y)=e−(θ1+θ2+θ0)θx1x!θy2y!∑i=0min(x,y)(xi)(yi)i!(θ0θ1θ2)iP(X=x,Y=y)=e−(θ1+θ2+θ0)θ1xx!θ2yy!∑i=0min(x,y)(xi)(yi)i!(θ0θ1θ2)iP(X = x, Y = y) = e^{-(\theta_{1}+\theta_{2}+\theta_{0})} \displaystyle\frac{\theta_{1}^{x}}{x!}\frac{\theta_{2}^{y}}{y!} \sum_{i=0}^{min(x,y)}\binom{x}{i}\binom{y}{i}i!\left(\frac{\theta_{0}}{\theta_{1}\theta_{2}}\right)^{i} จากสิ่งที่ฉันสามารถรวบรวมได้θ0θ0\theta_{0}เทอมคือการวัดความสัมพันธ์ระหว่างXXXและYYY ; ดังนั้นเมื่อXXXและYYYเป็นอิสระθ0=0θ0=0\theta_{0} = 0และการกระจายจะกลายเป็นผลคูณของการแจกแจงแบบปัวซองแบบสองตัวแปร แบริ่งในใจ, สับสนของฉันคือการบอกกล่าวกับคำบวก - ฉันสมมติว่าในระยะนี้จะอธิบายถึงความสัมพันธ์ระหว่างXXXและYYYY ดูเหมือนว่าฉันว่า summand ถือเป็นผลคูณของฟังก์ชันการแจกแจงแบบทวินามที่น่าจะเป็นของ "ความสำเร็จ" โดย(θ0θ1θ2)(θ0θ1θ2)\left(\frac{\theta_{0}}{\theta_{1}\theta_{2}}\right)และความน่าจะเป็นของ "ความล้มเหลว" มอบให้โดยi!1min(x,y)−ii!1min(x,y)−ii!^{\frac{1}{min(x,y)-i}}เพราะ(i!1min(x,y)−i!)(min(x,y)−i)=i!(i!1min(x,y)−i!)(min(x,y)−i)=i!\left(i!^{\frac{1}{min(x,y)-i!}}\right)^{(min(x,y)-i)} = i!แต่ฉันสามารถออกไปได้ด้วยสิ่งนี้ ใครช่วยให้ความช่วยเหลือเกี่ยวกับวิธีการที่จะได้รับการกระจาย? นอกจากนี้ถ้ามันสามารถรวมอยู่ในคำตอบใด ๆ ว่ารูปแบบนี้อาจขยายไปยังสถานการณ์หลายตัวแปร (พูดว่าตัวแปรสุ่มสามตัวหรือมากกว่า) นั่นจะดีมาก! (ในที่สุดฉันได้ตั้งข้อสังเกตว่ามีคำถามที่คล้ายกันที่โพสต์ก่อนหน้านี้ ( ทำความเข้าใจเกี่ยวกับการแจกแจงปัวซอง bivariate ) แต่ที่มาไม่ได้สำรวจจริง ๆ )

3
การคำนวณที่มีประสิทธิภาพเชิงคำนวณของโหมดหลายตัวแปร
เวอร์ชั่นสั้น: อะไรคือวิธีที่มีประสิทธิภาพมากที่สุดในการคำนวณโหมดของชุดข้อมูลหลายมิติตัวอย่างจากการแจกแจงแบบต่อเนื่อง รุ่นยาว: ฉันมีชุดข้อมูลที่ฉันต้องการประเมินโหมดของ โหมดไม่ตรงกับค่าเฉลี่ยหรือค่ามัธยฐาน ตัวอย่างที่แสดงด้านล่างนี้เป็นตัวอย่าง 2D แต่โซลูชัน ND น่าจะดีกว่า: ปัจจุบันวิธีการของฉันคือ คำนวณการประมาณความหนาแน่นของเคอร์เนลบนกริดเท่ากับความละเอียดที่ต้องการของโหมด มองหาจุดที่คำนวณมากที่สุด เห็นได้ชัดว่านี่เป็นการคำนวณ KDE ในจุดที่ไม่น่าเชื่อถือซึ่งเป็นสิ่งที่ไม่ดีโดยเฉพาะอย่างยิ่งหากมีจุดข้อมูลจำนวนมากที่มีมิติสูงหรือฉันคาดหวังความละเอียดที่ดีในโหมด ทางเลือกอื่นคือใช้การจำลองการอบอ่อนอัลกอริธึมทางพันธุกรรม ฯลฯ เพื่อค้นหาจุดสูงสุดทั่วโลกใน KDE คำถามคือว่ามีวิธีการคำนวณที่ชาญฉลาดกว่านี้หรือไม่?

4
อะไรคือประเด็นของการถดถอยแบบ univariate ก่อนการถดถอยหลายตัวแปร?
ขณะนี้ฉันกำลังทำงานกับปัญหาที่เรามีชุดข้อมูลขนาดเล็กและมีความสนใจในลักษณะพิเศษเวรกรรมของการรักษาผล ที่ปรึกษาของฉันได้สั่งให้ฉันทำการถดถอยแบบไม่มีการเปลี่ยนแปลงบนตัวทำนายแต่ละตัวโดยให้ผลลัพธ์เป็นคำตอบจากนั้นให้การกำหนดการรักษาเป็นการตอบสนอง คือฉันกำลังถูกขอให้พอดีกับการถดถอยกับตัวแปรหนึ่งตัวในแต่ละครั้งและสร้างตารางผลลัพธ์ ฉันถามว่า "ทำไมเราต้องทำสิ่งนี้?" และคำตอบก็คือสิ่งที่เกิดขึ้นจาก "เราสนใจว่าตัวทำนายใดที่เกี่ยวข้องกับการกำหนดการรักษาและผลที่เกิดขึ้น ที่ปรึกษาของฉันเป็นนักสถิติที่ผ่านการฝึกอบรมไม่ใช่นักวิทยาศาสตร์ในสาขาอื่นดังนั้นฉันจึงเชื่อใจพวกเขา สิ่งนี้สมเหตุสมผล แต่ยังไม่ชัดเจนว่าจะใช้ผลลัพธ์ของการวิเคราะห์ที่ไม่แปรปรวนได้อย่างไร จะไม่เลือกตัวเลือกแบบจำลองจากผลลัพธ์นี้ในอคติที่สำคัญของการประมาณการและช่วงความเชื่อมั่นที่แคบลงหรือไม่ ทำไมทุกคนควรทำเช่นนี้? ฉันสับสนและที่ปรึกษาของฉันค่อนข้างทึบแสงในประเด็นเมื่อฉันนำมันมา ใครบ้างมีทรัพยากรเกี่ยวกับเทคนิคนี้ (NB: ที่ปรึกษาของฉันบอกว่าเราไม่ได้ใช้ค่า p เป็นค่าตัด แต่เราต้องการพิจารณา "ทุกอย่าง")

3
สูตรความน่าจะเป็นสำหรับการแจกแจงหลายตัวแปร - เบอโนลลี
ฉันต้องการสูตรสำหรับความน่าจะเป็นของเหตุการณ์ในการแจกแจงแบบ N-Variate Bernoulliได้รับความน่าจะเป็นสำหรับองค์ประกอบเดี่ยวและคู่ขององค์ประกอบ{IJ} ฉันสามารถให้ค่าเฉลี่ยและความแปรปรวนร่วมของกัน P ( X i = 1 ) = p i P ( X i = 1 ∧ X j = 1 ) = p i j XX∈ { 0 , 1 }nX∈{0,1}nX\in\{0,1\}^nP( Xผม= 1 ) = pผมP(Xi=1)=piP(X_i=1)=p_iP( Xผม= 1 ∧ XJ= 1 ) =pฉันเจP(Xi=1∧Xj=1)=pijP(X_i=1 \wedge X_j=1)=p_{ij}XXX …

5
การลดขนาด SVD สำหรับอนุกรมเวลาที่มีความยาวต่างกัน
ฉันกำลังใช้การลดค่าเอกพจน์เป็นเทคนิคการลดขนาด ให้Nเวกเตอร์ของมิติDความคิดคือการแสดงคุณสมบัติในพื้นที่แปลงของมิติ uncorrelated ซึ่งรวมส่วนใหญ่ของข้อมูลของข้อมูลใน eigenvector ของพื้นที่นี้ในลำดับความสำคัญลดลง ตอนนี้ฉันกำลังพยายามใช้ขั้นตอนนี้กับข้อมูลอนุกรมเวลา ปัญหาคือว่าบางส่วนไม่ได้มีความยาวเท่ากันดังนั้นฉันจึงไม่สามารถสร้างnum-by-dimเมทริกซ์และใช้ SVD ได้ ความคิดแรกของฉันคือการวางเมทริกซ์ด้วยเลขศูนย์ด้วยการสร้างnum-by-maxDimเมทริกซ์และเติมช่องว่างด้วยศูนย์ แต่ฉันไม่แน่ใจว่านั่นเป็นวิธีที่ถูกต้องหรือไม่ คำถามของฉันคือคุณจะใช้วิธี SVD ในการลดมิติข้อมูลเป็นอนุกรมเวลาที่มีความยาวต่างกันได้อย่างไร หรือมีวิธีการอื่นที่คล้ายคลึงกันของการเป็นตัวแทน eigenspace มักจะใช้กับอนุกรมเวลา? ด้านล่างเป็นส่วนหนึ่งของรหัส MATLAB เพื่อแสดงแนวคิด: X = randn(100,4); % data matrix of size N-by-dim X0 = bsxfun(@minus, X, mean(X)); % standarize [U S V] = svd(X0,0); % SVD variances = diag(S).^2 / (size(X,1)-1); % …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.