คำถามติดแท็ก chi-squared

การทดสอบ (โดยทั่วไปคือการกระจายความเป็นอิสระหรือความเหมาะสม) หรือตระกูลของการแจกแจงที่เกี่ยวข้องกับการทดสอบดังกล่าว

1
ทำความเข้าใจกับการทดสอบแบบไคสแควร์และการแจกแจงแบบไคสแควร์
ฉันพยายามเข้าใจตรรกะหลังการทดสอบไคสแควร์ การทดสอบไคสแควร์เป็น{} จะถูกเปรียบเทียบกับการแจกแจงแบบ Chi-squared เพื่อค้นหา p.value เพื่อปฏิเสธหรือไม่สมมุติฐานว่าง : การสังเกตมาจากการแจกแจงที่เราเคยสร้างค่าที่เราคาดหวัง ตัวอย่างเช่นเราสามารถทดสอบความน่าจะเป็นที่จะได้รับจากตามที่เราคาดหวัง ดังนั้นเราจึงพลิก 100 ครั้งและหาและ1เราต้องการเปรียบเทียบการค้นพบของเรากับสิ่งที่คาดหวัง ( ) เราสามารถใช้การแจกแจงทวินามได้ด้วย แต่มันก็ไม่ใช่ประเด็นของคำถาม ... คำถามคือ: χ2H0pnH1-nH100⋅pχ2=∑(obs−exp)2expχ2=∑(obs−exp)2exp\chi ^2 = \sum \frac{(obs-exp)^2}{exp}χ2χ2\chi ^2H0H0H_0headpppnHnHn_H Heads1−nH1−nH1-n_H tails100⋅p100⋅p100 \cdot p คุณช่วยอธิบายได้ไหมว่าทำไมภายใต้สมมติฐานว่างตามหลังการแจกแจงแบบไคสแควร์?∑(obs−exp)2exp∑(obs−exp)2exp\sum \frac{(obs-exp)^2}{exp} สิ่งที่ฉันรู้เกี่ยวกับการกระจายตัวไคสแควร์คือการกระจายตัวไคสแควร์ของดีกรีคือผลรวมของการแจกแจงปกติกำลังสองมาตรฐานkkkkkkk

5
จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
ทำไมการทดสอบอิสระใช้การแจกแจงแบบไคสแควร์?
การความเหมาะสมของจะใช้สถิติต่อไปนี้: ในการทดสอบโดยอนุญาตให้ ตรงตามเงื่อนไขหนึ่งใช้ - การกระจายเพื่อคำนวณ p-value ที่กำหนดเป็นจริงหนึ่งจะสังเกตเห็นค่าดังกล่าวในตัวอย่างตัวแทนที่มีขนาดเดียวกันχ2χ2\chi^2χ20=∑i=1n(Oi−Ei)2Eiχ02=∑i=1n(Oi−Ei)2Ei \chi_0^2=\sum_{i=1}^n\frac{(O_i-E_i)^2}{E_i} χ2χ2\chi^2H0H0H_0 อย่างไรก็ตามเพื่อให้สถิติทำตามกระจาย (ที่มีองศาอิสระ ) จะต้องเป็นจริงที่: สำหรับอิสระมาตรฐานปกติ( Wikipedia ) เงื่อนไขสำหรับการทดสอบมีดังนี้ (อีกครั้งจากWikipedia ):χ20χ02\chi_0^2χ2χ2\chi^2n−1n−1n-1∑i=1n(Oi−Ei)2Ei=∑i=1n−1Z2i∑i=1n(Oi−Ei)2Ei=∑i=1n−1Zi2 \sum_{i=1}^n\frac{(O_i-E_i)^2}{E_i}=\sum_{i=1}^{n-1}Z_i^2 ZiZiZ_i ตัวแทนตัวอย่างประชากร ตัวอย่างขนาดใหญ่ จำนวนเซลล์ที่คาดไว้มีขนาดใหญ่เพียงพอ ความเป็นอิสระระหว่างแต่ละประเภท จากเงื่อนไข (1,2) เป็นที่ชัดเจนว่าเราตอบสนองเงื่อนไขสำหรับการอนุมานจากตัวอย่างไปยังประชากร (3) ดูเหมือนจะเป็นข้อสันนิษฐานที่ต้องการเนื่องจากแยกกันซึ่งอยู่ในตัวส่วนนั้นไม่ส่งผลให้มีการแจกแจงแบบใกล้ชิดต่อเนื่องสำหรับแต่ละและถ้ามันไม่ใหญ่พอมีข้อผิดพลาดที่สามารถแก้ไขได้ด้วยเยต 'การแก้ไข - นี่ดูเหมือนจะมาจากความจริงที่ว่าการกระจายแบบไม่ต่อเนื่องนั้นเป็นแบบ "ปูพื้น" อย่างต่อเนื่องดังนั้นการเปลี่ยนแปลงทีละสำหรับแต่ละอันจะแก้ไขสิ่งนี้EiEiE_iZiZiZ_i1/21/21/2 ความจำเป็นของ (4) ดูเหมือนว่าจะมีประโยชน์ในภายหลัง แต่ฉันไม่สามารถดูได้ว่า ตอนแรกฉันคิดว่าจำเป็นสำหรับสถิติเพื่อให้ตรงกับการแจกแจง สิ่งนี้นำฉันไปสู่ข้อสันนิษฐานที่น่าสงสัยว่าซึ่งผิดอย่างแน่นอน ในความเป็นจริงเป็นที่ชัดเจนจากการลดขนาดของทั้งสองด้านของความเสมอภาคจากเป็นซึ่งไม่สามารถเกิดขึ้นได้Zi=Oi−EiEi√Zi=Oi−EiEiZ_i=\frac{O_i-E_i}{\sqrt{E_i}}Oi−Ei∼N(0,Ei−−√)Oi−Ei∼N(0,Ei)O_i-E_i\sim \mathcal{N}(0, \sqrt{E_i})nnnn−1n−1n-1 มันได้กลายเป็นที่ชัดเจนขอบคุณคำอธิบายของ whuberไม่จำเป็นต้องเท่ากับแต่ละคำเพราะ (หมายเหตุการลดจำนวนของตัวแปรสรุปเงิน) สำหรับมาตรฐานตัวแปรสุ่มปกติซึ่งเป็นหน้าที่ที่เป็นอิสระZiZiZ_iOi−EiEi√Oi−EiEi\frac{O_i-E_i}{\sqrt{E_i}}χ20=∑n−1i=1Z2iχ02=∑i=1n−1Zi2\chi_0^2=\sum_{i=1}^{n-1}Z_i^2ZiZiZ_i ดังนั้นคำถามของฉันคือติดตามการอย่างไร สิ่งที่ชนิดของการรวมกันของแต่ละแง่ผลในภาวะปกติมาตรฐาน …

2
-test ครับ
ฉันเพิ่งอ่านในนิตยสารวิทยาศาสตร์ที่ได้รับความนิยม (PM) จากเยอรมัน, 02/2013, หน้า 38) เกี่ยวกับการทดลองที่น่าสนใจ (ไม่มีแหล่งที่มา, น่าเสียดาย) มันดึงดูดความสนใจของฉันเพราะฉันสงสัยในความสำคัญของผลลัพธ์ แต่ข้อมูลที่ให้นั้นเพียงพอสำหรับการทำซ้ำการทดสอบทางสถิติ นักวิจัยสงสัยว่าการได้รับความเย็นในสภาพอากาศหนาวเย็นช่วยเพิ่มโอกาสที่จะเป็นหวัดได้หรือไม่ ดังนั้นพวกเขาสุ่มแบ่งนักเรียน 180 คนออกเป็นสองกลุ่ม กลุ่มหนึ่งต้องแช่เท้าในน้ำเย็นเป็นเวลา 20 นาที อีกคนเก็บรองเท้าไว้ ฉันคิดว่าการจัดการที่ตลก แต่ในทางกลับกันฉันไม่ใช่หมอและหมออาจจะคิดว่าตลก ประเด็นด้านจริยธรรมกัน อย่างไรก็ตามหลังจาก 5 วันนักเรียน 13 คนในกลุ่มการรักษามีอาการหวัด แต่เพียง 5 คนในกลุ่มที่สวมรองเท้า อัตราส่วนอัตราต่อรองของการทดลองนี้คือ 2.87 ด้วยขนาดตัวอย่างที่ค่อนข้างเล็กฉันเริ่มสงสัยว่าความแตกต่างนี้อาจมีนัยสำคัญหรือไม่ ดังนั้นฉันจึงทำการทดสอบสองครั้ง การทดสอบอย่างง่ายครั้งแรกของความเท่าเทียมกันของสัดส่วนโดยใช้การประมาณปกติ การทดสอบนี้มีz=1.988z=1.988z=1.988กับp=0.0468p=0.0468p=0.0468 0.0468 ฉันเดาว่านี่คือสิ่งที่นักวิจัยทดสอบ นี่เป็นสิ่งสำคัญอย่างแท้จริง อย่างไรก็ตามการทดสอบ z นี้ใช้ได้เฉพาะในกลุ่มตัวอย่างขนาดใหญ่เท่านั้นหากฉันไม่ผิดเนื่องจากการประมาณปกติ นอกจากนี้อัตราความชุกค่อนข้างน้อยและฉันสงสัยว่าสิ่งนี้อาจไม่ส่งผลกระทบต่ออัตราความครอบคลุมของช่วงความเชื่อมั่นของผลกระทบ ดังนั้นความพยายามครั้งที่สองของฉันคือการทดสอบความเป็นอิสระของไคสแควร์ทั้งการจำลองด้วย Monte-Carlo และ Pearson Chi-square มาตรฐาน ที่นี่ผมพบว่าค่า …

2
การปรับค่า p สำหรับการวิเคราะห์ลำดับแบบปรับตัว (สำหรับการทดสอบไคสแควร์)?
ฉันต้องการทราบว่าวรรณกรรมทางสถิติใดที่เกี่ยวข้องกับปัญหาต่อไปนี้และอาจเป็นแนวคิดในการแก้ไข ลองนึกภาพปัญหาต่อไปนี้: เรามีวิธีการรักษา 4 ประการสำหรับโรคบางประเภท เพื่อตรวจสอบว่าการรักษาใดดีกว่าเราทำการทดลองพิเศษ ในการทดลองเราเริ่มโดยไม่มีวิชาจากนั้นหนึ่งต่อหนึ่งวิชาเพิ่มเติมเข้าสู่การทดลอง ผู้ป่วยแต่ละรายจะถูกสุ่มเลือกหนึ่งใน 4 การรักษาที่เป็นไปได้ ผลลัพธ์สุดท้ายของการรักษาคือ "สุขภาพดี" หรือ "ยังป่วย" และให้เราบอกว่าเราสามารถรู้ผลลัพธ์นี้ได้ทันที ซึ่งหมายความว่า ณ จุดใดก็ตามเราสามารถสร้างตารางฉุกเฉินได้สองถึงสี่ตารางโดยบอกว่าอาสาสมัครของเรามีจำนวนเท่าใดที่เข้ารับการรักษา / สิ้นสุดผล ณ จุดใดก็ตามเราสามารถตรวจสอบตารางฉุกเฉิน (ตัวอย่างเช่นใช้การทดสอบไคสแควร์) เพื่อดูว่ามีการรักษาที่แตกต่างกันทางสถิติระหว่าง 4 การรักษาที่เป็นไปได้หรือไม่ หากหนึ่งในนั้นดีกว่าส่วนที่เหลือทั้งหมด - เราจะหยุดการทดลองและเลือกเป็น "ผู้ชนะ" หากการทดลองบางอย่างแสดงว่าแย่กว่านั้นอีกสามเราจะปล่อยเขาจากการทดลองและหยุดให้มันแก่ผู้ป่วยในอนาคต อย่างไรก็ตามปัญหานี่คือฉันจะปรับ p-valueสำหรับข้อเท็จจริงได้อย่างไรว่าการทดสอบสามารถดำเนินการได้ทุกจุดว่ามีความสัมพันธ์ระหว่างการทดสอบและลักษณะการปรับตัวของกระบวนการจัดการกระบวนการ (สำหรับ เช่นหากการรักษาบางอย่างพบว่า "ไม่ดี")?

1
การทดสอบที่แน่นอนของฟิชเชอร์และการกระจาย hypergeometric
ฉันต้องการที่จะเข้าใจการทดสอบที่แม่นยำของฟิชเชอร์มากขึ้นดังนั้นฉันจึงคิดค้นตัวอย่างของเล่นต่อไปนี้โดยที่ f และ m สอดคล้องกับเพศชายและเพศหญิงและ n และ y สอดคล้องกับ "การบริโภคโซดา" เช่นนี้: > soda_gender f m n 0 5 y 5 0 เห็นได้ชัดว่านี่คือการทำให้เข้าใจง่ายมาก แต่ฉันไม่ต้องการให้บริบทเข้ามาขวางทาง ที่นี่ฉันเพิ่งสันนิษฐานว่าผู้ชายไม่ดื่มโซดาและหญิงดื่มโซดาและต้องการดูว่าวิธีการทางสถิติมาถึงข้อสรุปเดียวกัน เมื่อฉันทำการทดสอบฟิชเชอร์ที่แน่นอนใน R ฉันจะได้ผลลัพธ์ต่อไปนี้: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 …

1
คุณจะทำอย่างไรถ้าองศาอิสระของคุณผ่านจุดสิ้นสุดของตารางของคุณ?
องศาความเป็นอิสระในตาราง F ของฉันไม่สูงขึ้นมากพอสำหรับกลุ่มตัวอย่างขนาดใหญ่ของฉัน ตัวอย่างเช่นถ้าฉันมี F ที่มี 5 และ 6744 องศาอิสระฉันจะหาค่าวิกฤต 5% สำหรับ ANOVA ได้อย่างไร ถ้าฉันทำแบบทดสอบไคสแควร์ที่มีองศาอิสระขนาดใหญ่ล่ะ [คำถามเช่นนี้โพสต์เมื่อไม่นานมานี้ แต่ OP สร้างข้อผิดพลาดและจริง ๆ แล้วมีขนาดเล็ก df ลดลงเป็นซ้ำ - แต่คำถาม df ขนาดใหญ่ดั้งเดิมควรมีคำตอบในที่]

1
การเลือกคุณสมบัติแบบใดที่สามารถใช้ทดสอบไคสแควร์ได้
ที่นี่ฉันถามเกี่ยวกับสิ่งที่คนอื่นทำกันโดยทั่วไปเพื่อใช้การทดสอบไคสแควร์สำหรับการเลือกคุณสมบัติ WRT ในการเรียนรู้แบบมีผู้สอน หากฉันเข้าใจอย่างถูกต้องพวกเขาจะทดสอบความเป็นอิสระระหว่างแต่ละคุณลักษณะและผลลัพธ์และเปรียบเทียบค่า p ระหว่างการทดสอบสำหรับแต่ละคุณลักษณะหรือไม่ ในhttp://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test , การทดสอบไคสแควร์ของเพียร์สันเป็นการทดสอบทางสถิติที่ใช้กับชุดของข้อมูลที่เป็นหมวดหมู่เพื่อประเมินว่ามีความเป็นไปได้ที่ความแตกต่างที่สังเกตได้ระหว่างเซตเกิดขึ้นโดยบังเอิญ ... การทดสอบความเป็นอิสระประเมินว่าการสังเกตแบบจับคู่กับตัวแปรสองตัวที่แสดงในตารางฉุกเฉินหรือไม่นั้นเป็นอิสระจากกัน (เช่นการตอบแบบสำรวจจากคนต่างชาติเพื่อดูว่าสัญชาติของคนนั้นเกี่ยวข้องกับการตอบสนองหรือไม่) ดังนั้นตัวแปรทั้งสองที่ต้องทดสอบความเป็นอิสระโดยการทดสอบจะต้องจัดหมวดหมู่หรือไม่ต่อเนื่อง (อนุญาตให้สั่งนอกเหนือจากหมวดหมู่) แต่ไม่ต่อเนื่องกัน? จากhttp://scikit-learn.org/stable/modules/feature_selection.htmlพวกเขา ดำเนินการทดสอบχ2χ2\chi^2กับชุดข้อมูล irisเพื่อดึงเฉพาะคุณสมบัติที่ดีที่สุดสองอย่าง ในชุดข้อมูล irisคุณลักษณะทั้งหมดเป็นตัวเลขและต่อเนื่องมูลค่าและผลลัพธ์คือเลเบลคลาส (หมวดหมู่) การทดสอบความเป็นอิสระของไคสแควร์นำไปใช้กับคุณลักษณะต่อเนื่องได้อย่างไร ในการใช้การทดสอบความเป็นอิสระของไคสแควร์กับชุดข้อมูลเราต้องแปลงฟีเจอร์ต่อเนื่องเป็นฟีเจอร์ที่แยกออกจากกันโดยเริ่มจากการทำ binning (เช่นการแยกโดเมนแรกต่อเนื่องของฟีเจอร์ออกเป็นถังขยะแล้วเปลี่ยนฟีเจอร์นั้น ๆ )? เหตุการณ์ที่เกิดขึ้นในถังขยะหลายรูปแบบนั้นมีคุณลักษณะหลายอย่าง (เกิดขึ้นหรือไม่เกิดขึ้นในแต่ละถังขยะ) ดังนั้นการทดสอบความเป็นอิสระของไคสแควร์จึงสามารถใช้ได้กับพวกมันใช่ไหม? โดยวิธีการที่ฉันเดาเราสามารถใช้การทดสอบความเป็นอิสระของไคสแควร์กับคุณสมบัติและผลลัพธ์ของชนิดใด ๆถูกต้อง? สำหรับส่วนผลลัพธ์เราสามารถเลือกฟีเจอร์สำหรับการจัดหมวดหมู่ไม่เพียง แต่สำหรับการถดถอยโดยการทดสอบความเป็นอิสระของไคสแควร์โดยการสรุปผลลัพธ์อย่างต่อเนื่องใช่มั้ย เว็บไซต์เรียนรู้ scikitยังกล่าวว่า คำนวณสถิติไคสแควร์ระหว่างคุณลักษณะที่ไม่เป็นลบและคลาส คะแนนนี้สามารถใช้เพื่อเลือกคุณสมบัติ n_features ที่มีค่าสูงสุดสำหรับสถิติทดสอบไคสแควร์จาก X ซึ่งต้องมีเฉพาะคุณสมบัติที่ไม่เป็นลบเช่น booleans หรือความถี่ (เช่นจำนวนคำในการจำแนกเอกสาร) เทียบกับ ชั้นเรียน ทำไมการทดสอบจึงต้องการคุณสมบัติที่ไม่จำเป็น หากคุณสมบัติไม่มีสัญญาณ แต่มีการจัดหมวดหมู่หรือไม่ต่อเนื่องการทดสอบยังสามารถใช้กับมันได้หรือไม่? …

1
วิธีการตีความสีที่เหลือในพล็อตโมเสค?
นี่คือพล็อตโมเสคของชุดข้อมูลตารางฉุกเฉินHairEyeColorอธิบายไว้ที่นี่ ฉันจะตีความสีที่แสดงถึงสิ่งตกค้างได้อย่างไร อะไรคือความแตกต่างระหว่างของเพียร์สันที่มีค่าสูงและค่าบวก (แสดงเป็นสีน้ำเงิน) เมื่อเทียบกับค่าต่ำและค่าลบที่แสดงเป็นสีแดง

1
ทดสอบโมเดล GLM โดยใช้ค่าศูนย์และค่าเบี่ยงเบนของโมเดล
ฉันสร้างแบบจำลอง glm ใน R และได้ทำการทดสอบโดยใช้กลุ่มการทดสอบและการฝึกอบรมเพื่อให้มั่นใจว่ามันทำงานได้ดี ผลลัพธ์จาก R คือ: Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -2.781e+00 1.677e-02 -165.789 < 2e-16 *** Coeff_A 1.663e-05 5.438e-06 3.059 0.00222 ** log(Coeff_B) 8.925e-01 1.023e-02 87.245 < 2e-16 *** log(Coeff_C) -3.978e-01 7.695e-03 -51.689 < 2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 …

2
p-value subtlety: มากขึ้นเท่ากันและมากกว่า
ในขณะที่ฉันกำลังอ่านหนังสือสถิติทั้งหมดของ Wassermann ฉันสังเกตเห็นความละเอียดอ่อนในคำจำกัดความของค่า p ซึ่งฉันไม่สามารถเข้าใจได้ อย่างไม่เป็นทางการ Wassermann กำหนดค่า p เป็น [.. ] ความน่าจะเป็น (ต่ำกว่า ) ของการสังเกตค่าสถิติการทดสอบเหมือนกับหรือมากกว่าความเป็นจริงมากกว่าที่สังเกตH0H0H_0 เน้นการเพิ่ม เหมือนกันมากขึ้นอย่างเป็นทางการ (ทฤษฎีบท 10.12): สมมติว่าการทดสอบขนาดเป็นของแบบฟอร์มαα\alpha ปฏิเสธถ้าหากว่าc_H0H0H_0T(Xn)≥cαT(Xn)≥cαT(X^n) \ge c_\alpha จากนั้น p-value=supθ∈Θ0Pθ0[T(Xn)≥T(xn)]p-value=supθ∈Θ0Pθ0[T(Xn)≥T(xn)]\text{$p$-value} = \sup_{\theta\in\Theta_0} P_{\theta_0}[T(X^n) \ge T (x^n)] ที่xnxnx^nเป็นค่าสังเกตของXnXnX^n n ถ้าΘ0={θ0}Θ0={θ0}\Theta_0=\{\theta_0\}ดังนั้น p-value=Pθ0[T(Xn)≥T(xn)]p-value=Pθ0[T(Xn)≥T(xn)]\text{$p$-value} = P_{\theta_0}[T(X^n) \ge T (x^n)] นอกจากนี้ Wassermann ยังกำหนดค่า p-value ของการทดสอบ \ chi ^ 2ของ …

1
การกระจายตัวของอัตราส่วนของตัวแปรสุ่มไคสแควร์แบบพึ่งพา
สมมติว่าโดยที่เป็นอิสระX=X1+X2+⋯+XnX=X1+X2+⋯+Xn X = X_1 + X_2+\cdots+ X_n Xi∼N(0,σ2)Xi∼N(0,σ2)X_i \sim N(0,\sigma^2) คำถามของฉันคือการกระจายอะไรบ้าง Z=X2X21+X22+⋯+X2nZ=X2X12+X22+⋯+Xn2 Z = \frac{X^2}{X_1^2 + X_2^2 + \cdots + X_n^2} ทำตาม? ฉันรู้จากที่นี่ว่าอัตราส่วนของตัวแปรสุ่มไคสแควร์สองตัวแสดงเป็นตามการแจกแจงแบบเบต้า ผมคิดว่านี้จะถือว่าเป็นอิสระระหว่างและYในกรณีของฉันตัวส่วนของมีส่วนประกอบของกำลังสองWW+YWW+Y\frac{W}{W + Y}WWWYYYZZZXXX ฉันคิดว่าต้องติดตามความผันแปรของการกระจายเบต้า แต่ฉันไม่แน่ใจ และถ้าสมมติฐานนี้ถูกต้องฉันก็ไม่รู้จะพิสูจน์มันได้อย่างไรZZZ

2
สถิติการสั่งซื้อ (เช่นขั้นต่ำ) ของการรวบรวมตัวแปรไคสแควร์ไม่สิ้นสุด?
นี่เป็นครั้งแรกของฉันที่นี่ดังนั้นโปรดแจ้งให้เราทราบหากฉันสามารถชี้แจงคำถามของฉันไม่ว่าทางใดทางหนึ่ง (รวมถึงการจัดรูปแบบแท็ก ฯลฯ ) (และหวังว่าฉันจะสามารถแก้ไขได้ในภายหลัง!) ฉันพยายามค้นหาการอ้างอิงและพยายามแก้ไขตัวเองโดยใช้การเหนี่ยวนำ แต่ล้มเหลวทั้งสองอย่าง ฉันพยายามทำให้การกระจายง่ายขึ้นซึ่งดูเหมือนว่าจะลดลงเป็นสถิติการเรียงลำดับของตัวแปรสุ่มอิสระไม่มีที่สิ้นสุดพร้อมด้วยองศาอิสระที่แตกต่างกัน โดยเฉพาะการกระจายตัวของค่าที่เล็กที่สุดในคืออะไรระหว่าง\ chi ^ 2_2, \ chi ^ 2_4, \ chi ^ 2_6, \ chi ^ 2_8, \ ldots ?χ2χ2\chi^2mmmχ22,χ24,χ26,χ28,…χ22,χ42,χ62,χ82,…\chi^2_2,\chi^2_4,\chi^2_6,\chi^2_8,\ldots ฉันสนใจกรณีพิเศษm=1m=1m=1 : การกระจายขั้นต่ำของ (อิสระ) χ22,χ24,χ26,…χ22,χ42,χ62,…\chi^2_2,\chi^2_4,\chi^2_6,\ldotsคืออะไร? สำหรับกรณีที่น้อยที่สุดฉันสามารถเขียนฟังก์ชันการแจกแจงสะสม (CDF) เป็นผลิตภัณฑ์ที่ไม่มีที่สิ้นสุด แต่ไม่สามารถทำให้มันง่ายขึ้นอีก ฉันใช้ข้อเท็จจริงว่า CDF ของχ22mχ2m2\chi^2_{2m}คือF2m(x)=γ(m,x/2)/Γ(m)=γ(m,x/2)/(m−1)!=1−e−x/2∑k=0m−1xk/(2kk!).F2m(x)=γ(m,x/2)/Γ(m)=γ(m,x/2)/(m−1)!=1−e−x/2∑k=0m−1xk/(2kk!).F_{2m}(x)=\gamma(m,x/2)/\Gamma(m)=\gamma(m,x/2)/(m-1)!=1-e^{-x/2}\sum_{k=0}^{m-1}x^k/(2^k k!). (ด้วยm=1m=1m=1นี่เป็นการยืนยันความคิดเห็นที่สองด้านล่างเกี่ยวกับความเท่าเทียมกับการแจกแจงแบบเอ็กซ์โพเนนเชียลโดยมีความคาดหวัง 2) CDF ของขั้นต่ำสามารถเขียนเป็นFmin(x)=1−(1−F2(x))(1−F4(x))…=1−∏m=1∞(1−F2m(x))Fmin(x)=1−(1−F2(x))(1−F4(x))…=1−∏m=1∞(1−F2m(x))F_{min}(x) = 1-(1-F_2(x))(1-F_4(x))\ldots = 1-\prod_{m=1}^\infty (1-F_{2m}(x)) =1−∏m=1∞(e−x/2∑k=0m−1xk2kk!).=1−∏m=1∞(e−x/2∑k=0m−1xk2kk!).= …

2
ทำไมการทดสอบของ McNemar จึงใช้ไคสแควร์ไม่ใช่การแจกแจงแบบปกติ?
ฉันเพิ่งสังเกตเห็นว่าการทดสอบที่ไม่แม่นยำของ McNemar ใช้การแจกแจงแบบ asymptotic ของไคสแควร์อย่างไร แต่เนื่องจากการทดสอบที่แน่นอน (สำหรับตารางกรณีสองกรณี) นั้นขึ้นอยู่กับการแจกแจงทวินามทำไมจึงไม่เป็นเรื่องปกติที่จะแนะนำการประมาณแบบปกติในการแจกแจงทวินาม ขอบคุณ

4
การทดสอบ Chi-Squared หลายรายการ
ฉันมีข้อมูลข้ามประเภทในตาราง 2 x 2 x 6 ขอเรียกมิติresponse, และA ฉันพอดีกับการถดถอยโลจิสติกข้อมูลกับรูปแบบB response ~ A * Bการวิเคราะห์ความเบี่ยงเบนของโมเดลนั้นบอกว่าทั้งคำศัพท์และปฏิสัมพันธ์ของพวกมันมีความสำคัญ อย่างไรก็ตามเมื่อดูสัดส่วนของข้อมูลดูเหมือนว่ามีเพียง 2 หรือมากกว่านั้นBเท่านั้นที่รับผิดชอบต่อผลกระทบที่สำคัญเหล่านี้ ฉันต้องการทดสอบเพื่อดูว่าระดับใดเป็นต้นเหตุ ตอนนี้แนวทางของฉันคือทำการทดสอบแบบไคสแควร์จำนวน 6 ครั้งบนตารางขนาด 2x2 ตารางresponse ~ Aแล้วจึงปรับค่า p จากการทดสอบเหล่านั้นสำหรับการเปรียบเทียบหลาย ๆ แบบ (โดยใช้การปรับแบบโฮล์ม) คำถามของฉันคือว่ามีวิธีการที่ดีกว่าในการแก้ไขปัญหานี้หรือไม่ มีวิธีการสร้างแบบจำลองหลักการมากขึ้นหรือวิธีการเปรียบเทียบการทดสอบแบบไคสแควร์หลายวิธีหรือไม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.