คำถามติดแท็ก variance

ความเบี่ยงเบนกำลังสองของตัวแปรสุ่มที่คาดหวังจากค่าเฉลี่ย หรือค่าเบี่ยงเบนยกกำลังสองเฉลี่ยของข้อมูลเกี่ยวกับค่าเฉลี่ย

1
เหตุใดจึงใช้ไคสแควร์เมื่อสร้างช่วงความมั่นใจสำหรับความแปรปรวน
นี่เป็นคำถามพื้นฐานมาก ทำไมเราถึงใช้การแจกแจงแบบไคสแควร์? ความหมายของการแจกแจงนี้คืออะไร? ทำไมการแจกแจงแบบนี้ใช้สำหรับสร้างช่วงความมั่นใจสำหรับความแปรปรวน? ทุกสถานที่ที่ฉัน google สำหรับคำอธิบายเพียงนำเสนอความจริงนี้อธิบายว่าเมื่อใดที่จะใช้ไค แต่ไม่ได้อธิบายว่าทำไมต้องใช้ไคและทำไมมันดูวิธีที่มันทำ ขอบคุณมากสำหรับใครก็ตามที่ชี้ให้ฉันไปในทิศทางที่ถูกต้องและนั่นคือ - เข้าใจจริงๆว่าทำไมฉันถึงใช้ไคเมื่อฉันสร้างช่วงความมั่นใจสำหรับความแปรปรวน

2
กฎของความแปรปรวนรวมเป็นทฤษฎีบทพีทาโกรัส
สมมติว่าXXXและYYYมีช่วงเวลาที่สองแน่นอน ในช่องว่างของฮิลแบร์ตของตัวแปรสุ่มด้วยช่วงเวลาที่ จำกัด (ด้วยผลิตภัณฑ์ภายในของT1, T2T1,T2T_1,T_2กำหนดโดยE( T1T2)E(T1T2)E(T_1T_2) , | | T| |2= E( T2)||T||2=E(T2)||T||^2=E(T^2) ) เราอาจตีความE( Y|X)E(Y|X)E(Y|X)เมื่อการฉายภาพของYYYบนพื้นที่ของฟังก์ชั่นของXXX X เรายังไม่ทราบว่ากฎหมายของรวมแปรปรวนอ่าน VR ( Y) = E( ฉบับที่R ( Y| X) ) + VR ( E( Y| X) )VaR(Y)=E(VaR(Y|X))+VaR(E(Y|X))Var(Y)=E(Var(Y|X)) + Var(E(Y|X)) มีวิธีตีความกฎหมายนี้ในรูปของรูปเรขาคณิตข้างต้นหรือไม่? ผมได้รับการบอกว่ากฎหมายเป็นเช่นเดียวกับพีทาโกรัสทฤษฎีบทเหลี่ยมมุมฉากกับด้านY, E( Y| X) , Y- E( Y| X)Y,E(Y|X),Y-E(Y|X)Y, E(Y|X), Y-E(Y|X) ) …

1
ทำไมเราถึงรักษาความแปรปรวนได้
ฉันมาข้ามความแปรปรวนเปลี่ยนแปลงการรักษาเสถียรภาพในขณะที่อ่านKaggle เรียงความวิธี พวกเขาใช้การแปลงความเสถียรของผลต่างเพื่อแปลงค่าคัปปาก่อนที่จะรับค่าเฉลี่ยแล้วเปลี่ยนกลับ แม้หลังจากอ่านวิกิเกี่ยวกับความแปรปรวนของการแปรปรวนที่ทำให้เกิดความแปรปรวนฉันไม่เข้าใจทำไมเราถึงทำให้ความแปรปรวนของความมั่นคงมีอยู่จริง? เราได้รับประโยชน์อะไรจากสิ่งนี้?

4
ทำไมต้นไม้การตัดสินใจมีอคติต่ำ & ความแปรปรวนสูง
คำถาม มันขึ้นอยู่กับว่าต้นไม้จะตื้นหรือลึก? หรือเราจะพูดสิ่งนี้โดยไม่คำนึงถึงความลึก / ระดับของต้นไม้? ทำไมอคติต่ำและความแปรปรวนสูง โปรดอธิบายโดยสังหรณ์ใจและเชิงคณิตศาสตร์

2
ความแปรปรวนสูงของการตรวจสอบความถูกต้องแบบลาข้ามครั้งเดียว
ฉันอ่านซ้ำแล้วซ้ำอีกว่าการตรวจสอบความถูกต้องแบบ "ปล่อยให้ออกมาหนึ่งครั้ง" นั้นมีความแปรปรวนสูงเนื่องจากการทับซ้อนขนาดใหญ่ของการฝึกอบรม อย่างไรก็ตามฉันไม่เข้าใจว่าทำไมจึงเป็นเช่นนั้น: ประสิทธิภาพการตรวจสอบข้ามไม่ควรมีเสถียรภาพมาก (ความแปรปรวนต่ำ) เพราะชุดการฝึกอบรมเกือบเหมือนกันหรือไม่ หรือฉันมีความเข้าใจผิดเกี่ยวกับแนวคิดเรื่อง "ความแปรปรวน" โดยสิ้นเชิง? ฉันยังไม่เข้าใจอย่างชัดเจนว่า LOO สามารถเป็นกลางได้อย่างไร แต่มีความแปรปรวนสูง หากการประมาณค่า LOO เท่ากับค่าตัวประมาณที่แท้จริงในความคาดหมาย - จะมีความแปรปรวนสูงได้อย่างไร หมายเหตุ: ฉันรู้ว่ามีคำถามที่คล้ายกันที่นี่: เหตุใดความแปรปรวนการตรวจสอบความถูกต้องแบบข้ามครั้งต่อวัน (LOOCV) เกี่ยวกับการประมาณค่าเฉลี่ยสำหรับข้อผิดพลาดสูง อย่างไรก็ตามคนที่ตอบว่าต่อมาในความเห็นว่าแม้ upvotes เขาได้ตระหนักว่าคำตอบของเขาผิด

1
PCA มีจำนวนความแปรปรวนที่ต้องจับเพื่อทำการวิเคราะห์ในภายหลังหรือไม่?
ฉันมีชุดข้อมูลที่มี 11 ตัวแปรและ PCA (orthogonal) ทำเพื่อลดข้อมูล การตัดสินใจเกี่ยวกับจำนวนส่วนประกอบเพื่อให้เห็นได้ชัดจากความรู้ของฉันเกี่ยวกับเรื่องและพล็อตหินกรวด (ดูด้านล่าง) ว่าสององค์ประกอบหลัก (พีซี) เพียงพอที่จะอธิบายข้อมูลและส่วนประกอบที่เหลือมีเพียงข้อมูลน้อย พล็อตหินกรวดที่มีการวิเคราะห์แบบขนาน: ค่าลักษณะเฉพาะ (สีเขียว) และค่าลักษณะเฉพาะที่จำลองตามการจำลอง 100 แบบ (สีแดง) พล็อต Scree แนะนำพีซี 3 เครื่องในขณะที่การทดสอบแบบขนานจะแนะนำพีซีสองเครื่องแรกเท่านั้น อย่างที่คุณเห็นเพียง48%ของความแปรปรวนที่สามารถจับได้โดยพีซีสองเครื่องแรก การพล็อตการสำรวจบนระนาบแรกที่ทำโดยพีซี 2 เครื่องแรกเปิดเผยกลุ่มที่แตกต่างกันสามกลุ่มโดยใช้การจัดกลุ่มแบบลำดับชั้น agglomerative (HAC) และการจัดกลุ่ม K-mean ทั้ง 3 กลุ่มนี้มีความเกี่ยวข้องกับปัญหาที่เกิดขึ้นและสอดคล้องกับข้อค้นพบอื่น ๆ เช่นกัน ดังนั้นยกเว้นความจริงที่ว่ามีเพียง 48% ของความแปรปรวนที่ถูกจับได้ทุกอย่างอื่นก็ดีมาก ผู้ตรวจสอบคนหนึ่งในสองคนของฉันพูดว่า: ไม่สามารถเชื่อถือได้มากจากการค้นพบนี้เนื่องจากสามารถอธิบายความแปรปรวนเพียง 48% และน้อยกว่าที่ต้องการ คำถาม มีค่าที่ต้องใช้ในการคำนวณความแปรปรวนของ PCA ที่จะใช้งานได้หรือไม่ มันไม่ได้ขึ้นอยู่กับความรู้และวิธีการใช้งานโดเมนหรือไม่? ใครสามารถตัดสินข้อดีของการวิเคราะห์ทั้งหมดเพียงแค่ขึ้นอยู่กับมูลค่าของความแปรปรวนที่อธิบายไว้เท่านั้น หมายเหตุ …
15 variance  pca 

1
ฉันจะตีความเมทริกซ์ความแปรปรวนร่วมได้อย่างไรจากเส้นโค้งที่พอดี
ฉันไม่ค่อยเก่งเรื่องสถิติดังนั้นขอโทษถ้านี่เป็นคำถามง่าย ๆ ฉันกำลังกระชับโค้งให้ข้อมูลบางส่วนและบางครั้งข้อมูลของฉันพอดีดีที่สุดชี้แจงเชิงลบในรูปแบบ* E ( - ข* x ) + Cและบางครั้งพอดีอยู่ใกล้กับ* E ( - ข* x 2 ) +ค อย่างไรก็ตามบางครั้งทั้งสองล้มเหลวและฉันต้องการที่จะถอยกลับไปเป็นแบบเชิงเส้น คำถามของฉันคือฉันจะทราบได้อย่างไรว่าแบบจำลองใดที่เหมาะกับข้อมูลชุดใดชุดหนึ่งที่ดีที่สุดจากเมทริกซ์ความแปรปรวนร่วม - ความแปรปรวนร่วมที่ส่งคืนจากa ∗ e( - b ∗ x )+ ca* * * *อี(-ข* * * *x)+คa * e^{(-b * x)} + ca ∗ e( - b ∗ x2)+ ca* …

2
ความแตกต่างระหว่างความแปรปรวนตัวอย่างและความแปรปรวนการสุ่มตัวอย่างคืออะไร
ความแตกต่างระหว่างความแปรปรวนตัวอย่างและความแปรปรวนการสุ่มตัวอย่างคืออะไร พวกเขาดูเหมือนกัน ไม่ใช่เหรอ

2
วิธีการคำนวณความแปรปรวนของพาร์ติชันของตัวแปร
ฉันกำลังทำการทดลองที่ฉันรวบรวมตัวอย่าง (อิสระ) แบบขนานฉันคำนวณความแปรปรวนของกลุ่มตัวอย่างแต่ละกลุ่มและตอนนี้ฉันต้องการรวมแล้วทั้งหมดเพื่อค้นหาความแปรปรวนรวมของตัวอย่างทั้งหมด ฉันมีเวลายากที่จะหาที่มาของเรื่องนี้เพราะฉันไม่แน่ใจว่าคำศัพท์ ฉันคิดว่ามันเป็นพาร์ติชันของ RV หนึ่งอัน ดังนั้นฉันต้องการหาVar(X)Var(X)Var(X)จากVar(X1)Var(X1)Var(X_1) , Var(X2)Var(X2)Var(X_2) , ... , และVar(Xn)Var(Xn)Var(X_n)โดยที่XXX = [X1,X2,…,Xn][X1,X2,…,Xn][X_1, X_2, \dots, X_n] ] แก้ไข: พาร์ทิชันไม่ได้มีขนาด / cardinality เดียวกัน แต่ผลรวมของขนาดพาร์ทิชันเท่ากับจำนวนตัวอย่างในชุดตัวอย่างโดยรวม แก้ไข 2: มีสูตรสำหรับการคำนวณแบบขนานที่นี่แต่ครอบคลุมเฉพาะกรณีของพาร์ติชันเป็นสองชุดไม่ใช่ชุดnnn
15 variance 

1
คำจำกัดความที่แม่นยำของ“ Heywood Case” คืออะไร?
ฉันใช้คำว่า "Heywood Case" ค่อนข้างไม่เป็นทางการเพื่ออ้างถึงสถานการณ์ที่ออนไลน์ 'การตอบสนองที่ จำกัด ' การประเมินความแปรปรวนซ้ำแล้วซ้ำเล่าได้กลายเป็นค่าลบเนื่องจากปัญหาความแม่นยำเชิงตัวเลข (ฉันใช้ตัวแปรของวิธีของ Welford เพื่อเพิ่มข้อมูลและลบข้อมูลเก่า) ฉันรู้สึกว่ามันใช้กับสถานการณ์ใด ๆ ที่การประมาณค่าความแปรปรวนกลายเป็นลบทั้งเนื่องจากข้อผิดพลาดเชิงตัวเลขหรือข้อผิดพลาดในการสร้างแบบจำลอง สับสนโดยการใช้คำของฉัน การค้นหา google ไม่ได้ผลมากนักนอกเหนือจากที่ใช้ในการวิเคราะห์ปัจจัยและดูเหมือนจะอ้างถึงผลที่ตามมาของการประเมินความแปรปรวนเชิงลบ คำจำกัดความที่แม่นยำคืออะไร แล้วเฮย์วู้ดดั้งเดิมคือใคร?

2
ความโน้มเอียงของ MLE ลดลงเร็วกว่าความแปรปรวนอย่างไร
ให้เป็นค่าประมาณโอกาสสูงสุดของพารามิเตอร์จริงของบางรุ่น ขณะที่จำนวนของจุดข้อมูลเพิ่มขึ้นข้อผิดพลาดมักจะลดลงเป็นO (1 / \ sqrt n) การใช้ความไม่เท่าเทียมกันของสามเหลี่ยมและคุณสมบัติของการคาดหวังเป็นไปได้ที่จะแสดงให้เห็นว่าอัตราความผิดพลาดนี้หมายความว่าทั้ง "อคติ" \ lVert \ mathbb E \ hat \ theta - \ theta ^ * \ rVertและ "เบี่ยงเบน" \ lVert \ mathbb E \ hat \ theta - \ hat \ theta \ rVertลดลงที่Oเดียวกัน(1 / \ sqrt {n})θ^θ^\hat\theta ‖ θ - θ …

5
มีการกระจายของ 'สมดุล' ของการวัดหรือไม่?
ฉันค้นหาบนเว็บ แต่ไม่พบสิ่งที่เป็นประโยชน์ โดยทั่วไปฉันกำลังมองหาวิธีการวัดว่ามีการกระจายมูลค่าอย่างเท่าเทียมกันอย่างไร ในขณะที่การกระจายกระจายอย่างเท่าเทียมกันเช่นX : และการแจกแจงการแจกแจงแบบ'ไม่สม่ำเสมอ' Yซึ่งมีค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานเท่ากัน: แต่มีการวัดค่าสมดุลใด ๆ m เช่นนั้น m (X)> m (Y)? หากไม่มีสิ่งใดจะเป็นวิธีที่ดีที่สุดในการสร้างการวัดเช่นนี้ (ภาพสกรีนช็อตจาก Khan Academy)

1
วิธีการประเมินองค์ประกอบความแปรปรวนกับ lmer สำหรับแบบจำลองที่มีเอฟเฟกต์แบบสุ่มและเปรียบเทียบกับผลการค้นหา lme
ฉันทำการทดลองที่ฉันเลี้ยงดูครอบครัวที่แตกต่างกันซึ่งมาจากประชากรสองแหล่งที่แตกต่างกัน แต่ละครอบครัวได้รับมอบหมายให้หนึ่งในสองของการรักษา หลังจากการทดลองฉันวัดคุณสมบัติหลายอย่างของแต่ละคน เพื่อทดสอบผลกระทบของการรักษาหรือแหล่งที่มารวมทั้งการมีปฏิสัมพันธ์ของพวกเขาฉันใช้แบบจำลองเชิงเส้นผลกระทบเชิงเส้นกับครอบครัวเป็นปัจจัยสุ่มเช่น lme(fixed=Trait~Treatment*Source,random=~1|Family,method="ML") ดีมากตอนนี้ฉันต้องคำนวณส่วนประกอบความแปรปรวนแบบสัมพัทธ์นั่นคือเปอร์เซ็นต์ของความแปรปรวนที่อธิบายโดยการรักษาหรือแหล่งที่มาเช่นเดียวกับการมีปฏิสัมพันธ์ หากไม่มีเอฟเฟกต์แบบสุ่มฉันสามารถใช้ผลรวมของกำลังสอง (SS) เพื่อคำนวณความแปรปรวนที่อธิบายโดยแต่ละปัจจัย แต่สำหรับโมเดลผสม (ที่มีการประมาณค่า ML) ไม่มี SS ดังนั้นฉันคิดว่าฉันสามารถใช้การรักษาและแหล่งที่มาเป็นเอฟเฟกต์แบบสุ่มเพื่อประเมินความแปรปรวนเช่น lme(fixed=Trait~1,random=~(Treatment*Source)|Family, method="REML") อย่างไรก็ตามในบางกรณี lme ไม่ได้รวมกันดังนั้นฉันใช้ lmer จากแพ็คเกจ lme4: lmer(Trait~1+(Treatment*Source|Family),data=DATA) ที่ฉันแยกความแตกต่างจากแบบจำลองโดยใช้ฟังก์ชันสรุป: model<-lmer(Trait~1+(Treatment*Source|Family),data=regrexpdat) results<-VarCorr(model) variances<-results[,3] ฉันได้รับค่าเช่นเดียวกับฟังก์ชั่น VarCorr ฉันใช้ค่าเหล่านี้แล้วในการคำนวณอัตราร้อยละของการเปลี่ยนแปลงที่เกิดขึ้นจริงโดยนำผลรวมเป็นรูปแบบทั้งหมด สิ่งที่ฉันกำลังดิ้นรนคือการตีความผลลัพธ์จากแบบจำลอง lme เริ่มต้น (ด้วยการรักษาและแหล่งที่มาเป็นผลกระทบคงที่) และแบบจำลองแบบสุ่มเพื่อประเมินองค์ประกอบความแปรปรวน (พร้อมการรักษาและแหล่งที่มาเป็นผลแบบสุ่ม) ฉันพบว่าส่วนใหญ่ร้อยละของความแปรปรวนที่อธิบายโดยแต่ละปัจจัยไม่สอดคล้องกับความสำคัญของผลกระทบคงที่ ตัวอย่างเช่นสำหรับลักษณะ HD, lme เริ่มต้นแสดงให้เห็นแนวโน้มสำหรับการมีปฏิสัมพันธ์เช่นเดียวกับความสำคัญสำหรับการรักษา เมื่อใช้วิธีการย้อนหลังฉันพบว่าการรักษามีแนวโน้มใกล้เคียงอย่างมีนัยสำคัญ อย่างไรก็ตามการประมาณส่วนประกอบความแปรปรวนฉันพบว่าแหล่งที่มานั้นมีความแปรปรวนสูงสุดคิดเป็น 26.7% ของความแปรปรวนทั้งหมด The lme: anova(lme(fixed=HD~as.factor(Treatment)*as.factor(Source),random=~1|as.factor(Family),method="ML",data=test),type="m") numDF …
14 r  anova  variance  lme4-nlme 

3
จะใช้ฟังก์ชันทดสอบ Levene ใน R ได้อย่างไร?
ฉันเป็นมือใหม่สำหรับสถิติและ R และฉันมีปัญหากับการใช้ฟังก์ชัน Levene (ฉันต้องการตรวจสอบความเท่าเทียมกันของความแปรปรวนของสองตัวอย่าง) เอกสารบอกว่าฉันควรจะทำงาน: levene.test (y, กลุ่ม) แต่ฉันไม่รู้ว่าควรใส่อะไรเป็นกลุ่ม y? ฉันมีสองตัวอย่างที่แตกต่างกันซึ่งฉันต้องการตรวจสอบความเท่าเทียมกันของความแปรปรวน ฉันควรใส่ค่าตัวอย่างหนึ่งค่าเป็น y และค่าที่สองเป็นพารามิเตอร์กลุ่มหรือไม่ คำใบ้ใด ๆ

1
Caret glmnet กับ cv.glmnet
ดูเหมือนจะมีความสับสนมากในการเปรียบเทียบการใช้glmnetภายในcaretเพื่อค้นหาแลมบ์ดาที่ดีที่สุดและใช้cv.glmnetในการทำงานเดียวกัน มีการตั้งคำถามมากมายเช่น: โมเดลการจำแนกประเภท train.glmnet vs. cv.glmnet วิธีที่เหมาะสมในการใช้ glmnet กับคาเร็ตคืออะไร? การตรวจสอบข้าม `glmnet 'โดยใช้` คาเร็ต' แต่ไม่ได้รับคำตอบซึ่งอาจเป็นเพราะความสามารถในการทำซ้ำของคำถาม ตามคำถามแรกฉันให้ตัวอย่างที่คล้ายกัน แต่มีคำถามเดียวกัน: ทำไม lambdas โดยประมาณแตกต่างกันอย่างไร library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.