สถิติและข้อมูลขนาดใหญ่ regression

2

วิธีการ: ทำนายช่วงเวลาสำหรับการถดถอยเชิงเส้นผ่าน bootstrapping

ฉันมีปัญหาในการทำความเข้าใจวิธีการใช้การบูตการคำนวณเพื่อคำนวณช่วงการทำนายสำหรับตัวแบบการถดถอยเชิงเส้น มีใครบางคนสามารถร่างกระบวนการทีละขั้นตอนได้หรือไม่? ฉันค้นหาผ่าน google แต่ไม่มีอะไรเหมาะสมกับฉัน ฉันเข้าใจวิธีใช้การบูตสแตรปปิ้งเพื่อคำนวณช่วงความมั่นใจสำหรับพารามิเตอร์โมเดล

14 regression bootstrap prediction-interval

2

ตรวจสอบจุดสูงสุดที่มีนัยสำคัญทางสถิติ

ฉันมีชุดของข้อมูลที่เป็นและxฉันต้องการทดสอบสมมติฐานต่อไปนี้: มีจุดสูงสุดใน ; นั่นคือเมื่อเพิ่มขึ้นเพิ่มขึ้นก่อนแล้วจึงลดลงYYyxxxYYyxxxYYy ความคิดแรกของฉันคือการติดตั้งและใน SLR นั่นคือถ้าฉันพบว่าสัมประสิทธิ์ก่อนเป็นบวกอย่างมีนัยสำคัญและสัมประสิทธิ์ก่อนเป็นลบอย่างมีนัยสำคัญฉันก็สนับสนุนสมมติฐาน อย่างไรก็ตามสิ่งนี้จะตรวจสอบความสัมพันธ์ประเภทเดียวเท่านั้น (สมการกำลังสอง) และอาจไม่จำเป็นต้องมีอยู่ของจุดสูงสุดxxxx2x2x^2xxxx2x2x^2 จากนั้นฉันก็คิดว่าจะหาเช่นภูมิภาค (ค่าเรียงลำดับ)นั่นคืออยู่ระหว่างและสองส่วนอื่น ๆ ของที่มีคะแนนอย่างน้อยที่สุดเท่ากับและ และอย่างมีนัยสำคัญ หากสมมติฐานที่เป็นความจริงที่เราควรคาดหวังว่าภูมิภาคดังกล่าวจำนวนมากขดังนั้นหากจำนวนมีขนาดใหญ่พอสมควรก็ควรมีการสนับสนุนสมมติฐานขขbxxxขขbaaaคคcxxxขขbYข¯> ya¯Yข¯>Ya¯\bar{y_b}>\bar{y_a}Yข¯> yค¯Yข¯>Yค¯\bar{y_b}>\bar{y_c}ขขbขขb คุณคิดว่าฉันอยู่ในเส้นทางที่ถูกต้องเพื่อหาแบบทดสอบที่เหมาะสมสำหรับสมมติฐานของฉันหรือไม่? หรือฉันจะประดิษฐ์วงล้อและมีวิธีการที่กำหนดไว้สำหรับปัญหานี้หรือไม่? ฉันจะซาบซึ้งในความคิดเห็นของคุณ UPDATE ขึ้นอยู่กับตัวแปรของฉันคือนับ (จำนวนเต็มไม่เป็นลบ)YYy

14 regression statistical-significance curves

2

Sparsity โดยยกเลิกค่าสัมประสิทธิ์กำลังสองน้อยสุด

สมมติว่าฉันต้องการถอยหลังเทียบกับมาตรฐานแต่ฉันต้องการสารละลายที่กระจัดกระจาย หลังจากการถดถอยทำไมไม่ทิ้งค่าสัมประสิทธิ์ที่มีขนาดน้อยที่สุด?YYYXXX สำหรับบันทึกฉันเคยได้ยินและมักจะใช้วิธีการ LARS และ LASSO ฉันแค่อยากรู้ว่าทำไมวิธีการด้านบนใช้ไม่ได้

14 regression regression-coefficients

2

คุณจะทำอย่างไรเมื่อคุณมีตัวแปรตัวทำนายที่ใช้ค่าเฉลี่ยของกลุ่มที่มีขนาดตัวอย่างต่างกัน

พิจารณาปัญหาคลาสสิกการวิเคราะห์ข้อมูลที่คุณมีผลYiYiY_{i}และวิธีการที่เกี่ยวข้องกับจำนวนของการทำนายXi1,...,XipXi1,...,XipX_{i1}, ..., X_{ip} . ประเภทพื้นฐานของแอปพลิเคชันในที่นี้คือ YiYiY_{i}บางผลระดับกลุ่มเช่นอัตราการเกิดอาชญากรรมในเมืองผมiii ทำนายลักษณะระดับกลุ่มเช่นคุณลักษณะทางประชากรของเมืองที่ฉันiii เป้าหมายพื้นฐานคือเพื่อให้เหมาะสมกับโมเดลการถดถอย (อาจมีเอฟเฟกต์แบบสุ่ม แต่ลืมไปแล้วว่าตอนนี้): E(Yi|Xi)=β0+β1Xi1+...+βpXipE(Yi|Xi)=β0+β1Xi1+...+βpXip E(Y_{i} | {\bf X}_{i} ) = \beta_0 + \beta_1 X_{i1} + ... + \beta_p X_{ip} ความยุ่งยากทางเทคนิคบางอย่างเกิดขึ้นหรือไม่เมื่อหนึ่ง (หรือมากกว่า) ของผู้ทำนายเป็นผลจากการสำรวจที่มีขนาดตัวอย่างแตกต่างกันสำหรับแต่ละหน่วย? ตัวอย่างเช่นสมมติว่าเป็นคะแนนสรุปสำหรับเมืองที่ฉันนั่นคือการตอบสนองโดยเฉลี่ยจากกลุ่มตัวอย่างประชาชนจากเมืองฉันแต่ตัวอย่างขนาดเฉลี่ยเหล่านี้อยู่บนพื้นฐานของความแตกต่างกันอย่างดุเดือด:Xi1Xi1X_{i1}iiiiii City12345⋮Sample size2010030053⋮CitySample size120210033004553⋮⋮\begin{array}{c|c} {\rm City} & {\rm Sample \ size} \\ \hline 1 & 20 \\ 2 & 100 \\ …

14 regression measurement-error errors-in-variables

1

อัลกอริธึมการถดถอยแบบไปข้างหน้าคืออะไร?

อาจเป็นเพียงว่าฉันเหนื่อย แต่ฉันมีปัญหาในการพยายามทำความเข้าใจอัลกอริทึมการถดถอยของ Stagewise Forward จาก"องค์ประกอบของการเรียนรู้ทางสถิติ"หน้า 60: Forward-stagewise regression (FS) ยิ่งมีข้อ จำกัด มากกว่าการถดถอยแบบขั้นตอนไปข้างหน้า มันเริ่มต้นจากการถดถอยแบบก้าวไปข้างหน้าโดยมีจุดตัดเท่ากับ [ค่าเฉลี่ยของ] y และตัวทำนายกึ่งกลางที่มี coe ﬃ cients ทั้งหมด 0 เริ่มแรก ในแต่ละขั้นตอนอัลกอริทึมระบุตัวแปรที่สัมพันธ์กับส่วนที่เหลือในปัจจุบันมากที่สุด จากนั้นคำนวณค่าสัมประสิทธิ์การถดถอยเชิงเส้นอย่างง่ายของส่วนที่เหลือของตัวแปรที่เลือกนี้แล้วเพิ่มลงในค่าปัจจุบันสำหรับตัวแปรนั้น สิ่งนี้จะดำเนินต่อไปจนกระทั่งไม่มีตัวแปรใดที่มีความสัมพันธ์กับส่วนที่เหลือ - นั่นคือสแควร์สน้อยที่สุดเมื่อ N> p นี่คืออัลกอริทึมหรือไม่: b[1]=mean(y) b[2..n]=0 r=(y-X*b) index, maxCorr = max(transpose(r)*X) while(abs(maxCorr) > someThreshold) b[index]=b[index]+regress(r,X[1..n][index]) r=(y-X*b) index, maxCorr = max(transpose(r)*X) โดยที่ b คือคอลัมน์เวกเตอร์ของสัมประสิทธิ์ X …

14 regression algorithms feature-selection

1

การคืนค่าสัมประสิทธิ์และความแปรปรวนจากการถดถอยพหุนามแบบฉากฉาก

ดูเหมือนว่าถ้าฉันมีโมเดลการถดถอยเช่นyi∼β0+β1xi+β2x2i+β3x3iyi∼β0+β1xi+β2xi2+β3xi3y_i \sim \beta_0 + \beta_1 x_i+\beta_2 x_i^2 +\beta_3 x_i^3ฉันสามารถใส่พหุนามดิบและได้ผลลัพธ์ที่ไม่น่าเชื่อถือหรือใส่พหุนาม orthogonal และรับสัมประสิทธิ์ที่ไม่มีการตีความทางกายภาพโดยตรง (เช่นฉันไม่สามารถใช้พวกมันเพื่อค้นหาตำแหน่งของ extrema ในระดับเดิม) ดูเหมือนว่าฉันควรจะมีสิ่งที่ดีที่สุดของทั้งสองโลกและสามารถแปลงค่าสัมประสิทธิ์มุมฉากที่เหมาะสมและความแปรปรวนของพวกมันกลับคืนสู่ระดับดิบ ฉันใช้หลักสูตรบัณฑิตศึกษาในการประยุกต์การถดถอยเชิงเส้น (โดยใช้ Kutner, 5ed) และฉันดูผ่านบทการถดถอยพหุนามในเดรเปอร์ (3ed ที่อ้างถึงโดย Kutner) แต่ไม่พบการสนทนาเกี่ยวกับวิธีการทำเช่นนี้ ข้อความช่วยเหลือสำหรับpoly()ฟังก์ชั่นใน R ไม่ได้ ฉันไม่พบสิ่งใดในการค้นหาเว็บของฉันรวมถึงที่นี่ด้วย กำลังสร้างค่าสัมประสิทธิ์ดิบ (และรับค่าความแปรปรวน) จากค่าสัมประสิทธิ์ที่พอดีกับพหุนาม orthogonal ... เป็นไปไม่ได้ที่จะทำและฉันเสียเวลา อาจเป็นไปได้ แต่ไม่ทราบว่าในกรณีทั่วไป เป็นไปได้ แต่ไม่ได้พูดถึงเพราะ "ใครจะไป?" เป็นไปได้ แต่ไม่ได้กล่าวถึงเพราะ "ชัดเจน" หากคำตอบคือ 3 หรือ 4 ฉันจะขอบคุณมากถ้ามีคนมีความอดทนที่จะอธิบายวิธีการทำเช่นนี้หรือชี้ไปที่แหล่งที่ทำเช่นนั้น ถ้าเป็น 1 หรือ …

14 regression linear-model regression-coefficients polynomial

1

การเขียนโค้ดประเภทใดบ้างที่มีให้สำหรับตัวแปรเด็ดขาด (ใน R) และคุณจะใช้เมื่อใด

หากคุณพอดีกับโมเดลเชิงเส้นหรือโมเดลผสมมีโค้ดหลายชนิดที่พร้อมใช้งานในการแปลง varibale หมวดหมู่หรือชื่อเป็นตัวแปรจำนวนหนึ่งที่มีการประมาณพารามิเตอร์เช่นพารามิเตอร์จำลอง (การกำหนดค่าเริ่มต้น R) และเอฟเฟกต์การเข้ารหัส ฉันได้ยินมาว่าเอฟเฟกต์การเขียนโค้ด (บางครั้งเรียกว่าการเบี่ยงเบนหรือการเข้ารหัสความคมชัด) เป็นที่ต้องการเมื่อคุณมีปฏิสัมพันธ์ แต่อะไรคือความแตกต่างที่เป็นไปได้และคุณจะใช้ความคมชัดประเภทใด บริบทเป็นแบบผสมในการใช้ R lme4แต่ฉันคิดว่าการตอบสนองในวงกว้างนั้นใช้ได้ ขออภัยถ้าฉันพลาดคำถามที่คล้ายกัน แก้ไข: ลิงก์ที่มีประโยชน์สองลิงก์คือ: เอฟเฟ็กต์การเข้ารหัสและการจำลองดัมมี่อธิบาย

14 regression mixed-model categorical-data contrasts categorical-encoding

2

คำถามเกี่ยวกับการถดถอยโลจิสติก

ฉันต้องการรันการถดถอยโลจิสติกแบบไบนารีเพื่อสร้างแบบจำลองการมีหรือไม่มีความขัดแย้ง (ตัวแปรตาม) จากชุดของตัวแปรอิสระในช่วง 10 ปี (1997-2006) โดยแต่ละปีมีการสังเกต 107 ครั้ง ที่ปรึกษาของฉันคือ: การเสื่อมสภาพของดิน (แบ่งเป็น 2 ประเภทคือการย่อยสลาย); จำนวนประชากรเพิ่มขึ้น (0- no; 1-yes); ประเภทการดำรงชีวิต (0 - ประเภทหนึ่ง; 1 - ประเภทสอง); ความหนาแน่นของประชากร (ความหนาแน่นสามระดับ); NDVIอย่างต่อเนื่อง (ผลผลิตสูงสุด veg); NDVI t - 1 (ลดลง veg จากปีก่อน - 0 - no; 1 -yes) และt - 1เสื้อ-1_{t-1} และ NDVI (การลดลงของ veg …

14 regression time-series logistic spatial ecology

4

“ การกลั่นกรอง” กับ“ การมีปฏิสัมพันธ์”?

ฉันเจอคำศัพท์สองคำนี้ที่ใช้แทนกันได้ในหลายบริบท โดยทั่วไป moderator (M) เป็นปัจจัยที่ส่งผลกระทบต่อความสัมพันธ์ระหว่าง X และ Y การวิเคราะห์การกลั่นกรองมักจะทำโดยใช้แบบจำลองการถดถอย ตัวอย่างเช่นเพศ (M) สามารถส่งผลกระทบต่อความสัมพันธ์ระหว่าง "การวิจัยผลิตภัณฑ์" (X) และ "การซื้อผลิตภัณฑ์" (Y) ในการโต้ตอบ X1 และ X2 จะมีอิทธิพลต่อ Y ตัวอย่างเช่นเดียวกันนี้คือ "การวิจัยผลิตภัณฑ์" (X1) ได้รับผลกระทบจาก "เพศ" (X2) และพวกเขามีผลต่อ "การซื้อผลิตภัณฑ์" (Y) ฉันจะเห็นว่าในการดูแล M มีผลต่อความสัมพันธ์ XY แต่ในการโต้ตอบ M (ซึ่งเป็นเพศในกรณีนี้) มีผลต่อ IV อื่น ๆ คำถาม : หากเป้าหมายของโครงการคือดูว่าเพศมีผลต่อความสัมพันธ์ระหว่าง X และ Y อย่างไรฉันควรใช้การควบคุมหรือการโต้ตอบ …

14 regression interaction interpretation regression-coefficients terminology

3

ผลกระทบของตัวแปรไดโคโตมิชอนคืออะไร?

เมื่อแบ่งขั้วตัวแปรข้อมูลใดที่หายไปในกระบวนการ การแบ่งขั้วได้ช่วยในการวิเคราะห์อย่างไร

14 regression data-transformation binary-data

2

การเลือกโมเดล Box-Jenkins

ขั้นตอนการคัดเลือกแบบจำลอง Box-Jenkins ในการวิเคราะห์อนุกรมเวลาเริ่มต้นขึ้นโดยดูที่ฟังก์ชันการหาค่าความสัมพันธ์และฟังก์ชั่นความสัมพันธ์แบบกึ่งอัตโนมัติบางส่วนของชุดข้อมูล พล็อตเหล่านี้สามารถแนะนำและqที่เหมาะสมในโมเดลARMA ( p , q ) ขั้นตอนดำเนินการต่อโดยขอให้ผู้ใช้ใช้เกณฑ์ AIC / BIC เพื่อเลือกแบบจำลองที่เป็นทางเลือกมากที่สุดในบรรดารุ่นที่สร้างแบบจำลองที่มีเงื่อนไขข้อผิดพลาดของสัญญาณรบกวนสีขาวพีพีpQQq( p , q)(พี,Q)(p,q) ฉันสงสัยว่าขั้นตอนเหล่านี้ของการตรวจสอบด้วยภาพและการเลือกแบบจำลองตามเกณฑ์นั้นมีผลต่อข้อผิดพลาดมาตรฐานโดยประมาณของรุ่นสุดท้ายอย่างไร ฉันรู้ว่าขั้นตอนการค้นหาจำนวนมากในโดเมนแบบตัดขวางอาจมีอคติข้อผิดพลาดมาตรฐานลดลงเช่น ในขั้นตอนแรกการเลือกจำนวนล่าช้าที่เหมาะสมโดยการดูข้อมูล (ACF / PACF) ส่งผลต่อข้อผิดพลาดมาตรฐานสำหรับรุ่นอนุกรมเวลาอย่างไร ฉันเดาว่าการเลือกรูปแบบตามคะแนน AIC / BIC จะมีผลกระทบคล้ายกับวิธีการแบบตัดขวาง จริง ๆ แล้วฉันไม่ทราบเกี่ยวกับพื้นที่นี้มากนักดังนั้นความคิดเห็นใด ๆ ก็จะได้รับการชื่นชมในจุดนี้เช่นกัน สุดท้ายหากคุณจดบันทึกเกณฑ์ที่แม่นยำซึ่งใช้สำหรับแต่ละขั้นตอนคุณสามารถบูตกระบวนการทั้งหมดเพื่อประเมินข้อผิดพลาดมาตรฐานและกำจัดข้อกังวลเหล่านี้ได้หรือไม่

14 regression time-series arima model-selection box-jenkins

4

การแจกแจงของข้อผิดพลาดมีผลต่อการกระจายของการตอบสนองอย่างไร

ดังนั้นเมื่อฉันคิดว่าปกติแล้วข้อผิดพลาดจะถูกกระจายในการถดถอยเชิงเส้นมันหมายความว่าอะไรสำหรับตัวแปรตอบสนอง ?yyy

14 regression distributions

7

อนุกรมเวลาสั้น ๆ มีค่าสำหรับการสร้างแบบจำลองหรือไม่?

นี่คือบริบทบางอย่าง ฉันสนใจที่จะพิจารณาว่าตัวแปรสภาพแวดล้อมสองตัว (อุณหภูมิระดับสารอาหาร) ส่งผลต่อค่าเฉลี่ยของตัวแปรตอบสนองในช่วง 11 ปีอย่างไร ภายในแต่ละปีมีข้อมูลจากที่ตั้งมากกว่า 100k แห่ง เป้าหมายคือเพื่อตรวจสอบว่าในช่วง 11 ปีที่ผ่านมาค่าเฉลี่ยของตัวแปรตอบสนองตอบสนองต่อการเปลี่ยนแปลงของตัวแปรสภาพแวดล้อม (เช่นอุณหภูมิที่อบอุ่น + สารอาหารมากกว่าจะ = การตอบสนองมากขึ้น) น่าเสียดายเนื่องจากการตอบสนองคือค่าเฉลี่ย (โดยไม่ได้ดูค่าเฉลี่ยการเปลี่ยนแปลงระหว่างปีปกติจะล้นสัญญาณ) การถดถอยจะเป็น 11 จุดข้อมูล (1 ค่าเฉลี่ยต่อปี) โดยมีตัวแปรอธิบาย 2 ตัว สำหรับฉันแม้แต่การถดถอยเชิงบวกเชิงเส้นก็ยากที่จะพิจารณาว่ามีความหมายเนื่องจากชุดข้อมูลนั้นมีขนาดเล็กมาก (ไม่ตรงกับคะแนน / ตัวแปร 40 คะแนนเว้นแต่ว่าความสัมพันธ์นั้นแข็งแกร่งมาก) ฉันถูกต้องที่จะทำให้สมมติฐานนี้หรือไม่? ใครช่วยเสนอความคิด / มุมมองอื่น ๆ ที่ฉันอาจหายไป? PS: บางประการ: ไม่มีวิธีรับข้อมูลเพิ่มเติมโดยไม่ต้องรอปีเพิ่มเติม ดังนั้นข้อมูลที่มีอยู่คือสิ่งที่เราต้องทำงานด้วย

14 time-series regression sample-size small-sample

4

การเปรียบเทียบค่าสัมประสิทธิ์โลจิสติกส์ในแบบจำลองที่มีตัวแปรตามต่างกันหรือไม่

นี่คือติดตามคำถามจากคนที่ผมถามสองสามวันที่ผ่านมา ฉันรู้สึกว่ามันทำให้เกิดความเอียงที่แตกต่างในเรื่องนี้ดังนั้นจึงมีรายการคำถามใหม่ คำถามคือ: ฉันสามารถเปรียบเทียบขนาดของสัมประสิทธิ์ในแบบจำลองที่มีตัวแปรตามที่แตกต่างกันได้หรือไม่? ตัวอย่างเช่นในตัวอย่างเดียวบอกว่าฉันต้องการที่จะรู้ว่าเศรษฐกิจเป็นตัวทำนายผลโหวตที่แข็งแกร่งในสภาผู้แทนราษฎรหรือประธานาธิบดี ในกรณีนี้ตัวแปรตามสองตัวของฉันคือคะแนนในสภา (รหัส 1 สำหรับพรรคประชาธิปัตย์และ 0 สำหรับพรรครีพับลิกัน) และลงคะแนนให้ประธานาธิบดี (1 สำหรับพรรคประชาธิปัตย์และ 0 สำหรับพรรครีพับลิกัน) และตัวแปรอิสระของฉันคือเศรษฐกิจ ฉันคาดว่าจะได้ผลลัพธ์ที่มีนัยสำคัญทางสถิติในสำนักงานทั้งสองแห่ง แต่ฉันจะประเมินได้อย่างไรว่าจะมีผลกระทบ 'ที่ใหญ่กว่า' ในอีกที่หนึ่งมากกว่าที่อื่น นี่อาจไม่ใช่ตัวอย่างที่น่าสนใจโดยเฉพาะ แต่ฉันอยากรู้ว่ามีวิธีเปรียบเทียบหรือไม่ ฉันรู้ว่าไม่มีใครสามารถดูขนาดของสัมประสิทธิ์ได้ ดังนั้น, การเปรียบเทียบสัมประสิทธิ์ของแบบจำลองที่มีตัวแปรตามต่างกันนั้นเป็นไปได้หรือไม่? และถ้าเป็นเช่นนั้นจะทำอย่างไร? หากสิ่งนี้ไม่สมเหตุสมผลโปรดแจ้งให้เราทราบ คำแนะนำและความคิดเห็นทั้งหมดได้รับการชื่นชม

14 regression logistic

2

มีสติถดถอยแบบขั้นตอน?

สมมติว่าฉันต้องการสร้างตัวจําแนกไบนารี ฉันมีคุณสมบัติหลายพันและตัวอย่างเพียงไม่กี่ 10s จากความรู้โดเมนผมมีเหตุผลที่ดีที่จะเชื่อว่าฉลากชั้นเรียนสามารถคาดการณ์ได้อย่างถูกต้องโดยใช้เพียงไม่กี่อย่าง แต่ผมไม่มีความคิดที่คน ฉันต้องการให้กฎการตัดสินใจขั้นสุดท้ายง่ายต่อการตีความ / อธิบายเพิ่มเติมโดยจำเป็นต้องมีคุณสมบัติจำนวนเล็กน้อย ชุดย่อยบางส่วนของคุณสมบัติของฉันมีความสัมพันธ์กันสูงดังนั้นการเลือกตัวเลือกทำนายที่น้อยที่สุดจะไม่ทำงาน ฉันยังต้องการที่จะสามารถทำการทดสอบสมมติฐานที่มีความหมายเกี่ยวกับคุณสมบัติของฉัน ขั้นตอนการถดถอยแบบขั้นตอนต่อไปนี้สมเหตุสมผลภายใต้เงื่อนไขเหล่านี้: เมื่อพิจารณาคุณลักษณะที่มีอยู่แล้วในโมเดล (หรือเพียงแค่การสกัดกั้นในการวนซ้ำครั้งแรก) ให้เลือกคุณลักษณะที่สร้างอัตราส่วนความน่าจะเป็นบันทึกที่ใหญ่ที่สุดเมื่อเพิ่มเข้ากับโมเดล ใช้อัตราส่วนการทดสอบไคสแควร์ในการคำนวณค่า P-value เล็กน้อยสำหรับการทดสอบสมมติฐานแต่ละครั้งที่ดำเนินการในการเลือกนี้ ค่า null ที่นี่คือการเพิ่มตัวแปรพิเศษเข้ากับโมเดลไม่มีความสามารถในการทำนายเพิ่มเติม ทางเลือกคือเพิ่มความสามารถในการทำนาย ปฏิบัติต่อสมมติฐานที่ทดสอบในขั้นตอนที่ 1 ของการวนซ้ำในแต่ละครอบครัวและคำนวณอัตราการค้นพบที่ผิดพลาดสำหรับค่า P-value ที่น้อยที่สุด (สำหรับสถานที่ที่เลือก) โดยใช้บางอย่างเช่น ไปที่ 1 เว้นแต่ว่าจะมีคุณสมบัติตรงตามเกณฑ์การหยุดบางอย่าง รายงานอัตราการค้นพบที่ผิดพลาดสำหรับฟีเจอร์แต่ละรายการ แต่ไม่ใช่ค่า P-value สำหรับโมเดลโดยรวม (เนื่องจากจะมีการขยายตัวอย่างมาก) การทดสอบค่า P ที่ถูกต้องแต่ละการทดสอบหลายรายการเหล่านี้แสดงถึงนัยสำคัญทางสถิติของคุณลักษณะนั้นซึ่งได้รับคุณสมบัติทั้งหมดที่เพิ่มไว้ก่อนหน้านี้ในโมเดล การทำสิ่งนี้ภายใต้สถานการณ์เหล่านี้ประสบความสำเร็จในการหลีกเลี่ยงการวิพากษ์วิจารณ์ทั่วไปของการถดถอยแบบขั้นตอนทั้งหมดหรือไม่? คำนวณอัตราการค้นพบที่ผิดด้วยวิธีนี้สมเหตุสมผลหรือไม่?

14 regression logistic multiple-comparisons stepwise-regression

คำถามติดแท็ก regression