คำถามติดแท็ก multivariate-analysis

วิเคราะห์ที่มีมากกว่าหนึ่งตัวแปรวิเคราะห์พร้อมกันและตัวแปรเหล่านี้อาจขึ้นอยู่กับ (ตอบสนอง) หรือคนเดียวในการวิเคราะห์ สิ่งนี้สามารถเปรียบเทียบกับการวิเคราะห์ "หลาย" หรือ "หลายตัวแปร" ซึ่งมีความหมายมากกว่าหนึ่งตัวแปร (อิสระ) ตัวแปร

4
สิ่งที่ต้องทำในห้องอธิบายเวลา
หลังจากที่ได้ทำงานกับข้อมูลภาคตัดขวางมาจนถึงตอนนี้และเมื่อเร็ว ๆ นี้การสืบค้นดูสะดุดไปกับวรรณคดีอนุกรมเวลาเบื้องต้นฉันสงสัยว่าสิ่งใดที่ตัวแปรอธิบายบทบาทกำลังเล่นอยู่ในการวิเคราะห์อนุกรมเวลา ฉันต้องการอธิบายแนวโน้มแทนการยกเลิกแนวโน้ม ส่วนใหญ่ของสิ่งที่ฉันอ่านเป็นบทนำถือว่าซีรีส์เกิดจากกระบวนการสุ่ม ฉันอ่านเกี่ยวกับกระบวนการ AR (p) และ MA รวมถึงแบบจำลอง ARIMA ต้องการจัดการกับข้อมูลมากกว่ากระบวนการ autoregressive เท่านั้นที่ฉันพบ VAR / VECM และวิ่งตัวอย่างบางส่วน แต่ฉันก็ยังสงสัยว่ามีบางกรณีที่เกี่ยวข้องกับสิ่งที่ explanatories ทำในส่วนต่างๆ แรงจูงใจเบื้องหลังสิ่งนี้คือการสลายตัวของซีรี่ส์ของฉันแสดงให้เห็นว่าเทรนด์เป็นผู้สนับสนุนรายใหญ่ในขณะที่ส่วนที่เหลือและผลกระทบตามฤดูกาลแทบจะไม่มีบทบาท ฉันต้องการอธิบายแนวโน้มนี้ ฉันสามารถ / ควรถอยหลังซีรีส์ของฉันในซีรีย์ต่าง ๆ กันไหม? โดยสังหรณ์ใจฉันจะใช้ gls เนื่องจากความสัมพันธ์แบบอนุกรม (ฉันไม่แน่ใจเกี่ยวกับโครงสร้างคร) ฉันได้ยินเกี่ยวกับการถดถอยที่น่าเกรงขามและเข้าใจว่านี่เป็นข้อผิดพลาด แต่ฉันกำลังมองหาวิธีที่จะอธิบายแนวโน้ม สิ่งนี้ผิดปกติหรือผิดปกติหรือไม่? หรือฉันเพิ่งพลาดบทที่ถูกต้องจนถึงตอนนี้?

2
ตัวอย่างของตัวแปรปกติสองตัวที่มีความสัมพันธ์ * ซึ่งผลรวมไม่ปกติ
ฉันรับรู้ถึงตัวอย่างที่ดีของคู่ตัวแปรสุ่มที่มีความสัมพันธ์ซึ่งปกติเล็กน้อย แต่ไม่ได้ร่วมกัน ดูคำตอบนี้โดยDilip Sarwateและหนึ่งในนี้โดยพระคาร์ดินัล ฉันยังรับรู้ถึงตัวอย่างของตัวแปรสุ่มสองตัวที่มีผลรวมไม่ปกติ ดูคำตอบนี้โดยมาโคร แต่ในตัวอย่างนี้ตัวแปรสุ่มสองตัวไม่มีการเชื่อมโยงกัน มีตัวอย่างของตัวแปรสุ่มสองตัวที่มีความแปรปรวนร่วมที่ไม่ใช่ศูนย์และผลรวมที่ไม่ปกติหรือไม่? หรือเป็นไปได้ที่จะพิสูจน์ว่าผลรวมของตัวแปรสุ่มปกติสองตัวใด ๆ ที่มีความสัมพันธ์กันแม้ว่าพวกเขาจะไม่ได้เป็นตัวแปรตามปกติก็ตาม [บริบท: ฉันมีคำถามที่ถามทำการบ้านสำหรับการกระจายของX + ขYที่XและYเป็นปกติมาตรฐานที่มีความสัมพันธ์ρ ฉันคิดว่าคำถามหมายถึงการระบุว่าพวกเขาเป็นตัวแปรปกติ แต่ฉันสงสัยว่าจะสามารถพูดอะไรได้หรือไม่หากไม่มีข้อสมมุติพิเศษสำหรับρไม่ใช่ศูนย์]X+ b YaX+bYaX+bYXXXYYYρρ\rhoρρ\rho ขอบคุณ!

2
การตรวจจับความผิดปกติ: อัลกอริธึมที่ใช้?
บริบท: ฉันกำลังพัฒนาระบบที่วิเคราะห์ข้อมูลทางคลินิกเพื่อกรองข้อมูลที่ไม่น่าเชื่อที่อาจเป็นตัวพิมพ์ผิด สิ่งที่ฉันทำจนถึง: ในการหาปริมาณที่เป็นไปได้ความพยายามของฉันคือการทำให้ข้อมูลเป็นปกติแล้วคำนวณค่าความน่าเชื่อถือสำหรับจุด p ตามระยะทางไปยังจุดข้อมูลที่ทราบในชุด D (= ชุดฝึกอบรม): plausibility(p)=∑q∈DGauss(distance(p,q))plausibility(p)=∑q∈DGauss(distance(p,q))\text{plausibility}(p)=\sum_{q\in D}\text{Gauss}(\text{distance}(p,q)) ด้วยการหาปริมาณนั้นฉันสามารถเลือกเกณฑ์ที่แยกข้อมูลที่เป็นไปได้จากข้อมูลที่ไม่น่าเชื่อ ฉันใช้ python / numpy ปัญหาของฉัน: อัลกอริทึมนี้ไม่สามารถตรวจพบมิติอิสระ เป็นการดีที่ฉันสามารถใส่ทุกสิ่งที่ฉันรู้เกี่ยวกับบันทึกลงในอัลกอริทึมและปล่อยให้มันค้นพบด้วยตัวเองว่ามิติ X ไม่มีผลต่อความน่าเชื่อถือของบันทึก อัลกอริทึมไม่ทำงานสำหรับค่าที่ไม่ต่อเนื่องเช่นบูลีนหรืออินพุตที่เลือก พวกเขาสามารถแมปกับค่าต่อเนื่อง แต่มันเป็นเคาน์เตอร์ที่ใช้งานง่ายว่า Select 1 ใกล้กับ Select 2 มากกว่า to Select 3 คำถาม: ฉันควรมองหาอัลกอริธึมประเภทใดสำหรับงานนี้ ดูเหมือนว่าจะมีตัวเลือกมากมายรวมถึงวิธีที่อยู่ใกล้เคียงที่สุดการจัดกลุ่มตามแนวทางและสถิติ นอกจากนี้ฉันมีปัญหาในการค้นหาเอกสารที่เกี่ยวข้องกับการตรวจจับความผิดปกติของความซับซ้อนนี้ คำแนะนำใด ๆ ที่ชื่นชมอย่างมาก [แก้ไข] ตัวอย่าง: สมมติว่าข้อมูลประกอบด้วยความสูงของบุคคลน้ำหนักของบุคคลและการประทับเวลา - ดังนั้นจึงเป็นข้อมูล 3D น้ำหนักและส่วนสูงมีความสัมพันธ์กัน แต่การประทับเวลามีความเป็นอิสระอย่างสมบูรณ์ หากฉันพิจารณาระยะทางแบบยุคลิดฉันจะต้องเลือกขีด จำกัด …

1
การแสดงภาพการแจกแจงแบบเบ้ซ้ายจำนวนมาก
ฉันมีชุดของการแจกแจงแบบเบ้ซ้าย / หนักที่ฉันต้องการแสดง 42 มีการกระจายทั่วทั้งสามปัจจัยคือ (ระบุว่าเป็นA, BและCด้านล่าง) Bนอกจากนี้การเปลี่ยนแปลงจะหดตัวทั่วปัจจัย ปัญหาที่ฉันมีคือการกระจายยากที่จะแยกความแตกต่างในระดับของผลลัพธ์ (อัตราส่วนหรือพับเปลี่ยน): ดูเหมือนว่าการบันทึกข้อมูลจะเน้นไปที่ความเบ้ด้านซ้ายและย้ายตัวอย่างไปที่ก้อยมากขึ้น (สร้างจุดที่ผิดพลาด) ใครบ้างมีคำแนะนำเกี่ยวกับเทคนิคอื่น ๆ สำหรับการแสดงข้อมูลเหล่านี้?

2
สำรวจเมทริกซ์กระจาย - พล็อตสำหรับตัวแปรมากมาย
ฉันกำลังวิเคราะห์ชุดข้อมูลที่มีพารามิเตอร์หลายตัว (เช่น 50-200) และฉันสนใจที่จะดูความสัมพันธ์ระหว่างตัวแปร (เช่นในแง่ของแผนการกระจาย 2 ตัวแปรหรือ 2d ฮิสโทแกรม) อย่างไรก็ตามสำหรับพารามิเตอร์จำนวนนี้ดูเหมือนว่าเป็นไปไม่ได้ที่จะวาดพล็อตอาเรย์ 200x200 (เว้นแต่ฉันจะพิมพ์และแขวนบนผนัง) ในทางตรงกันข้ามการทำเพียงแค่เมทริกซ์สหสัมพันธ์นั้นไม่ได้ให้ข้อมูลทั้งหมดเกี่ยวกับความสัมพันธ์ 2 ตัวแปร มีวิธี (ไลบรารีหรือเวิร์กโฟลว์) ในการสำรวจความสัมพันธ์ 2 ตัวแปรสำหรับตัวแปรหลายตัวหรือไม่ ฉันสนใจที่จะแสดงผลลัพธ์ให้ผู้อื่นโดยเฉพาะอย่างยิ่ง (บางทีหลังจากการประมวลผลข้อมูลล่วงหน้า) เช่นสิ่งที่มีการโต้ตอบใน JavaScript ฉันสามารถเห็นเมทริกซ์กระจาย - พล็อตสำหรับเขตข้อมูลที่เลือกจากเมทริกซ์สหสัมพันธ์ โดยเมทริกซ์การกระจาย - พล็อตฉันหมายถึงสิ่งที่ต้องการ: (นำมาจากบล็อก pandasplotting ; สามารถใช้งานได้ในPython / Pandas , R , D3.jsฯลฯ )

2
Multivariate Central Limit Theorem (CLT) มีไว้เมื่อตัวแปรมีการพึ่งพาอาศัยกันอย่างสมบูรณ์แบบหรือไม่?
ชื่อสรุปคำถามของฉัน แต่เพื่อความชัดเจนลองพิจารณาตัวอย่างง่ายๆดังต่อไปนี้ ให้ , i = 1, ... , n กำหนด: \ start {สมการ} S_n = \ frac {1} {n} \ sum_ {i = 1} ^ n X_i \ end {สมการ} และ \ start {สมการ} T_n = \ frac {1} {n} \ sum_ {i = 1} ^ n (X_i ^ …

1
จะตีความค่าสัมประสิทธิ์ของตัวแบบผสมหลายตัวแปรใน lme4 โดยไม่มีการสกัดกั้นโดยรวมได้อย่างไร?
ฉันพยายามที่จะพอดีกับหลายตัวแปร (เช่นการตอบสนองหลาย) Rรูปแบบผสม นอกเหนือจากASReml-rและSabreRแพคเกจ (ซึ่งต้องใช้ซอฟต์แวร์ภายนอก) MCMCglmmดูเหมือนว่านี้เป็นเพียงที่เป็นไปได้ใน ในกระดาษที่มาพร้อมกับMCMCglmmแพคเกจ (pp.6) Jarrod Hadfield อธิบายกระบวนการของการปรับแบบจำลองให้เหมือนกับการปรับรูปแบบการตอบสนองของตัวแปรหลายตัวให้เป็นตัวแปรรูปแบบยาวหนึ่งตัวจากนั้นหยุดการสกัดกั้นโดยรวม ความเข้าใจของฉันคือการระงับการสกัดกั้นการเปลี่ยนแปลงการตีความค่าสัมประสิทธิ์สำหรับแต่ละระดับของตัวแปรตอบกลับให้เป็นค่าเฉลี่ยสำหรับระดับนั้น จากที่กล่าวมาจึงเป็นไปได้lme4หรือไม่ที่จะใช้โมเดลผสมหลายตัวแปรโดยใช้? ตัวอย่างเช่น: data(mtcars) library(reshape2) mtcars <- melt(mtcars, measure.vars = c("drat", "mpg", "hp")) library(lme4) m1 <- lmer(value ~ -1 + variable:gear + variable:carb + (1 | factor(carb)), data = mtcars) summary(m1) # Linear mixed model fit by REML # …

1
การทดสอบสมมติฐานเกี่ยวกับเมทริกซ์ความแปรปรวนร่วมแบบผกผัน
สมมติว่าฉันสังเกตIID และความปรารถนาในการทดสอบเอช0 :เวช( Σ - 1 ) =สำหรับเมทริกซ์คล้อยตามและเวกเตอร์ มีงานที่รู้จักกับปัญหานี้หรือไม่?xผม∼ N( μ , Σ )xi∼N(μ,Σ)x_i \sim \mathcal{N}\left(\mu,\Sigma\right)H0: A H0:A H_0: A\ ( Σ- 1) =a(Σ−1)=a\left(\Sigma^{-1}\right) = aAAAaaa ความพยายามที่ชัดเจน (กับฉัน) จะผ่านการทดสอบอัตราส่วนความน่าจะเป็น แต่ดูเหมือนว่าการเพิ่มความเป็นไปได้สูงสุดภายใต้ข้อ จำกัด ของจะต้องใช้ตัวแก้ SDPและอาจมีขนดกสวยH0H0H_0

1
การติดตามของ Pillai มีลักษณะทั่วไปและการติดตามของ Hotelling-Lawley หรือไม่
ในการตั้งค่าการถดถอยหลายตัวแปรหลายตัวแปร (vector regressor และ regressand) การทดสอบหลักสี่แบบสำหรับสมมติฐานทั่วไป (Wilk's Lambda, Pillai-Bartlett, Hotelling-Lawley และรูตที่ใหญ่ที่สุดของ Roy) ทั้งหมดขึ้นอยู่กับค่าลักษณะเฉพาะของเมทริกซ์ , โดยที่และคือเมทริกซ์รูปแบบ 'อธิบาย' และ 'รวม'HE−1HE−1H E^{-1}HHHEEE ฉันสังเกตเห็นว่าสถิติของ Pillai และ Hotelling-Lawley สามารถแสดงเป็น สำหรับตามลำดับ0 ฉันกำลังมองหาที่แอพลิเคชันที่กระจายของร่องรอยนี้, ที่กำหนดไว้สำหรับ analogues ประชากรของและเป็นที่น่าสนใจสำหรับกรณี (ข้อผิดพลาดแบบโมดูโลในการทำงานของฉัน) ฉันอยากรู้ว่ามีการรวมกันของสถิติตัวอย่างสำหรับทั่วไปหรือการวางนัยทั่วไปอื่น ๆ ที่รวบรวมการทดสอบแบบดั้งเดิมสองรายการหรือมากกว่านั้น ฉันรู้ว่าไม่เท่ากับหรือψκ=Tr(H[κH+E]−1),ψκ=Tr(H[κH+E]−1),\psi_{\kappa} = \mbox{Tr}\left(H\left[\kappa H + E\right]^{-1}\right),κ=1,0κ=1,0\kappa = 1, 0HHHEEEκ κ 0 1κ=2κ=2\kappa = 2κκ\kappaκκ\kappa000111ตัวเศษดูเหมือน Chi-square ภายใต้ null …

1
มีการทดสอบ Kolmogorov-Smirnov สองตัวแปรหลายตัวแปรหรือไม่
มีทางเลือกหลายตัวแปรในการทดสอบ Kolmogorov-Smirnov สองตัวอย่างหรือไม่ สิ่งที่ฉันหมายถึงคือการทดสอบที่สามารถใช้ตรวจสอบได้เมื่อใดก็ตามที่การกระจายหลายมิติสองมิติที่ต่างกัน

1
แหล่งที่มา 'ไม่เห็นด้วยกับการวิเคราะห์เชิงเส้นกำลังสองและฟิชเชอร์ของจำแนก
ฉันกำลังศึกษาวิเคราะห์พินิจพิเคราะห์ แต่ฉันมีช่วงเวลาที่ยากลำบากในการปรับคำอธิบายที่แตกต่างกันหลายอย่าง ฉันเชื่อว่าฉันต้องพลาดบางสิ่งบางอย่างเพราะฉันไม่เคยพบกับความแตกต่างในระดับนี้ (ดู) มาก่อน ดังที่กล่าวไปแล้วจำนวนคำถามเกี่ยวกับการวิเคราะห์การเลือกปฏิบัติบนเว็บไซต์นี้ดูเหมือนจะเป็นเครื่องยืนยันถึงความซับซ้อน LDA และ QDA สำหรับหลายคลาส หนังสือข้อความหลักของฉันคือ Johnson & Wichern ประยุกต์การวิเคราะห์เชิงสถิติหลายตัวแปร (AMSA) และบันทึกของครูตามสิ่งนี้ ฉันจะเพิกเฉยต่อการตั้งค่าทั้งสองกลุ่มเพราะฉันเชื่อว่าสูตรง่าย ๆ ของการตั้งค่านี้ทำให้เกิดความสับสนอย่างน้อย แหล่งอ้างอิง LDA และ QDA นี้ถูกกำหนดให้เป็นส่วนขยายแบบ Parametric (สมมติว่ามีภาวะปกติหลายตัวแปร) ของกฎการจำแนกประเภทตามค่าใช้จ่ายที่คาดหวังของการจำแนกประเภท (ECM) ECM จะรวมกับค่าใช้จ่ายที่คาดหวังตามเงื่อนไขสำหรับการจำแนกการสังเกตการณ์ x ใหม่ให้กับกลุ่มใด ๆ (รวมค่าการแบ่งประเภทและความน่าจะเป็นก่อนหน้านี้) และเราเลือกภูมิภาคการจำแนกที่ลดสิ่งนี้ลง ที่ไหนECM=∑i=1groupspi[∑k=1; i≠kgroupsP(k|i)c(k|i)]ECM=∑i=1groupspi[∑k=1; i≠kgroupsP(k|i)c(k|i)]ECM = \sum_{i=1}^{groups} p_i [\sum_{k=1;\space i \ne k}^{groups}P(k|i)c(k|i)]P(k|i)=P(classifying item as group k …


1
รูปแบบการเรียนรู้แบบลึกใดที่สามารถจำแนกหมวดหมู่ที่ไม่ได้เกิดร่วมกัน
ตัวอย่าง: ฉันมีประโยคในรายละเอียดงาน: "วิศวกรอาวุโสของ Java ในสหราชอาณาจักร" ฉันต้องการที่จะใช้รูปแบบการเรียนรู้ที่ลึกที่จะคาดการณ์ว่ามันเป็น 2 ประเภทและEnglish IT jobsถ้าฉันใช้รูปแบบการจำแนกแบบดั้งเดิมมันสามารถทำนายได้เพียง 1 ฉลากที่มีsoftmaxฟังก์ชั่นที่ชั้นสุดท้าย ดังนั้นฉันสามารถใช้โครงข่ายประสาทเทียม 2 แบบในการทำนาย "ใช่" / "ไม่" กับทั้งสองหมวดหมู่ แต่ถ้าเรามีหมวดหมู่มากขึ้นมันก็แพงเกินไป ดังนั้นเราจึงมีรูปแบบการเรียนรู้หรือการเรียนรู้ด้วยเครื่องเพื่อคาดการณ์ 2 หมวดหมู่ขึ้นไปพร้อมกันหรือไม่ "แก้ไข": ด้วย 3 ป้ายกำกับโดยวิธีดั้งเดิมมันจะถูกเข้ารหัสโดย [1,0,0] แต่ในกรณีของฉันมันจะถูกเข้ารหัสโดย [1,1,0] หรือ [1,1,1] ตัวอย่าง: หากเรามี 3 ป้ายกำกับและประโยคอาจเหมาะกับป้ายกำกับเหล่านี้ทั้งหมด ดังนั้นถ้าผลลัพธ์จากฟังก์ชัน softmax คือ [0.45, 0.35, 0.2] เราควรแบ่งมันออกเป็น 3 label หรือ 2 label หรืออาจเป็นหนึ่ง? ปัญหาหลักเมื่อเราทำคือ: …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
ปรับอัตราเดิมพันเทียบกับอัตราส่วนอัตราต่อรอง
ในการวิเคราะห์การถดถอยหลายตัวแปรดูเหมือนว่าผู้คนใช้คำจำกัดความที่แตกต่างกันของอัตราส่วนอัตราต่อรองที่ปรับ คุณช่วยอธิบายให้ฉันฟังได้ว่าอะไรคือOR ที่ปรับแล้วและมันแตกต่างจากOR ที่ไม่ได้ปรับหรือ ขอบคุณ!

1
เกณฑ์ใดที่ใช้สำหรับการแยกตัวแปรออกเป็นตัวแปรอธิบายและการตอบสนองสำหรับวิธีการบวชในระบบนิเวศ
ฉันมีตัวแปรต่าง ๆ ที่มีผลกระทบต่อประชากร โดยทั่วไปฉันได้ทำรายการสินค้าของกิ้งกือและวัดค่าอื่น ๆ ของภูมิประเทศเช่น: ชนิดและปริมาณตัวอย่างที่เก็บได้ สภาพแวดล้อมที่แตกต่างกันที่สัตว์เป็น ค่า pH เปอร์เซ็นต์ของสารอินทรีย์ ปริมาณของ P, K, Mg, Ca, Mn, Fe, Zn, Cu ความสัมพันธ์ของ Ca + Mg / K โดยทั่วไปฉันต้องการใช้ PCA เพื่อกำหนดว่าตัวแปรใดที่ขับเคลื่อนความแปรปรวนของตัวอย่างและทำให้ฟอเรสต์ (สภาพแวดล้อม) แตกต่างกัน ฉันควรใช้ตัวแปรใดสำหรับ "ตัวแปร" และตัวแปรใดสำหรับ "บุคคล"

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.