คำถามติดแท็ก goodness-of-fit

ความเหมาะสมของการทดสอบแบบพอดีบ่งบอกว่ามีเหตุผลหรือไม่ที่จะสมมติว่าตัวอย่างแบบสุ่มมาจากการแจกแจงแบบเจาะจง

3
ฉันจะตรวจสอบได้อย่างไรว่าข้อมูลของฉันตรงกับการแจกแจงแบบเลขชี้กำลังหรือไม่
ฉันจะตรวจสอบได้อย่างไรว่าข้อมูลของฉันเช่นเงินเดือนมาจากการแจกแจงเลขชี้กำลังแบบต่อเนื่องใน R หรือไม่? นี่คือฮิสโตแกรมของตัวอย่างของฉัน: . ความช่วยเหลือใด ๆ จะได้รับการชื่นชมอย่างมาก!

6
การทดสอบภาวะปกติที่เหมาะสมสำหรับตัวอย่างขนาดเล็ก
จนถึงตอนนี้ฉันใช้สถิติของ Shapiro-Wilk เพื่อทดสอบสมมติฐานปกติในตัวอย่างเล็ก ๆ คุณช่วยแนะนำเทคนิคอื่นได้ไหม

5
มากเกินไป: ไม่มีกระสุนเงิน?
ความเข้าใจของฉันคือว่าแม้เมื่อไปข้ามการตรวจสอบและการเลือกรูปแบบวิธีการที่เหมาะสม, overfitting จะเกิดขึ้นถ้าค้นหาหนึ่งสำหรับรูปแบบที่ยากพอว่าถ้าผู้ใดมีข้อ จำกัด เรียกเก็บกับความซับซ้อนของโมเดลระยะเวลา นอกจากนี้บ่อยครั้งที่ผู้คนพยายามเรียนรู้บทลงโทษเกี่ยวกับความซับซ้อนของแบบจำลองจากข้อมูลที่ทำลายการป้องกันที่พวกเขาสามารถให้ได้ คำถามของฉันคือ: ความจริงเท่าไหร่ที่มีต่องบข้างต้น? ผมมักจะได้ยิน practicioners ML กล่าวว่า " ใน บริษัท ของฉัน / ห้องปฏิบัติการเราพยายามทุกรูปแบบที่มีอยู่ (เช่นจากห้องสมุดเช่นเครื่องหมายหรือscikit เรียนรู้ ) เพื่อดูที่หนึ่งงานที่ดีที่สุด " ฉันมักจะเถียงว่าวิธีการนี้สามารถทำให้ได้อย่างง่ายดายแม้ว่าพวกเขาจะจริงจังเกี่ยวกับการตรวจสอบข้ามและเก็บชุดที่ค้างไว้ในทางที่พวกเขาต้องการ ยิ่งพวกเขาค้นหายากเท่าไหร่ก็จะยิ่งมีโอกาสมากขึ้นเท่านั้น ในคำอื่น ๆมากกว่าการเพิ่มประสิทธิภาพเป็นปัญหาที่แท้จริงและมีการวิเคราะห์พฤติกรรมที่ไม่สามารถช่วยให้คุณต่อสู้กับมันอย่างเป็นระบบ ฉันผิดที่คิดแบบนี้?

2
ความยากลำบากในการทดสอบความเป็นเชิงเส้นในการถดถอย
ในการสร้างแบบจำลองทางสถิติ: สองวัฒนธรรม Leo Breiman เขียน แนวปฏิบัติที่ใช้ในปัจจุบันคือการตรวจสอบแบบจำลองข้อมูลโดยใช้การทดสอบแบบดีและการวิเคราะห์ส่วนที่เหลือ เมื่อถึงจุดหนึ่งหลายปีที่ผ่านมาฉันตั้งค่าปัญหาการถดถอยแบบจำลองในเจ็ดมิติด้วยจำนวนที่ไม่ควบคุมเชิงเส้น การทดสอบมาตรฐานของความดีพอดีไม่ได้ปฏิเสธความเป็นเชิงเส้นจนกว่าความไม่เชิงเส้นจะรุนแรงมาก Breiman ไม่ได้ให้รายละเอียดเกี่ยวกับการจำลองของเขา เขาอ้างอิงกระดาษที่เขาบอกว่าให้เหตุผลทางทฤษฎีสำหรับการสังเกตของเขา แต่กระดาษไม่ได้ตีพิมพ์ มีใครเคยเห็นผลการจำลองที่ตีพิมพ์หรือรายงานทางทฤษฎีเพื่อสนับสนุนข้อเรียกร้องของ Brieman บ้างไหม?

2
จะวัด / โต้แย้งข้อดีของเทรนด์ที่สอดคล้องกับกฎหมายพลังงานได้อย่างไร?
ฉันมีข้อมูลบางส่วนที่ฉันพยายามปรับให้เข้ากับเทรนด์ไลน์ ฉันเชื่อว่าข้อมูลเป็นไปตามกฎหมายพลังงานและได้วางแผนข้อมูลบนแกนล็อก - ล็อกเพื่อหาเส้นตรง สิ่งนี้ส่งผลให้เป็นเส้นตรง (เกือบ) และใน Excel ฉันได้เพิ่มเส้นแนวโน้มสำหรับกฎหมายพลังงาน เมื่อเป็นสถิติใหม่คำถามของฉันคืออะไรตอนนี้วิธีที่ดีที่สุดสำหรับฉันที่จะไปจาก "ดีสายดูเหมือนว่าเหมาะดี" กับ "คุณสมบัติตัวเลขพิสูจน์ให้เห็นว่ากราฟนี้ถูกติดตั้งโดยกฎหมายพลังงาน"? xxx ใน Excel ฉันสามารถรับค่า r-squared แม้ว่าจะได้รับความรู้เกี่ยวกับสถิติที่ จำกัด แต่ฉันก็ไม่รู้ด้วยซ้ำว่าสิ่งนี้เหมาะสมหรือไม่ภายใต้สถานการณ์เฉพาะของฉัน ฉันได้รวมภาพด้านล่างแสดงพล็อตของข้อมูลที่ฉันทำงานด้วยใน Excel ฉันมีประสบการณ์เล็กน้อยเกี่ยวกับ R ดังนั้นหากการวิเคราะห์ของฉันถูก จำกัด ด้วยเครื่องมือของฉันฉันเปิดให้คำแนะนำเกี่ยวกับวิธีการปรับปรุงโดยใช้ R

4
ค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนในกรณีขอบคืออะไร?
ความแม่นยำหมายถึง: p = true positives / (true positives + false positives) มันถูกต้องหรือไม่ที่ในฐานะtrue positivesและfalse positivesวิธีที่ 0 ความแม่นยำเข้าใกล้ 1? คำถามเดียวกันสำหรับการเรียกคืน: r = true positives / (true positives + false negatives) ขณะนี้ฉันกำลังใช้การทดสอบทางสถิติที่ฉันต้องการคำนวณค่าเหล่านี้และบางครั้งมันก็เกิดขึ้นที่ตัวส่วนเป็น 0 และฉันสงสัยว่าจะคืนค่าใดให้กับกรณีนี้ PS: ขอโทษแท็กที่ไม่เหมาะสมผมอยากจะใช้recall, precisionและlimitแต่ฉันไม่สามารถสร้างแท็กใหม่ ๆ
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

2
เป็นถ่วงน้ำหนัก
ฉันประเมินโมเดลเชิงเส้นที่ทนทานRด้วยน้ำหนัก MM โดยใช้rlm()แพคเกจ MASS `R`` ไม่ได้ให้ค่าสำหรับแบบจำลอง แต่ฉันต้องการให้มีค่าหากเป็นปริมาณที่มีความหมาย ฉันยังสนใจที่จะทราบว่ามีความหมายใด ๆ ในการมีค่าR 2ที่ชั่งน้ำหนักความแปรปรวนทั้งหมดและส่วนที่เหลือในลักษณะเดียวกับที่การสังเกตนั้นมีน้ำหนักในการถดถอยที่แข็งแกร่งหรือไม่ ความคิดทั่วไปของฉันคือถ้าสำหรับวัตถุประสงค์ของการถดถอยเรามีน้ำหนักที่ให้อิทธิพลน้อยกว่าเพราะพวกมันมีค่าผิดปกติในทางใดทางหนึ่งบางทีอาจจะเพื่อการคำนวณr 2เราควรให้ค่าเหล่านั้นด้วย ประมาณการเดียวกันมีอิทธิพลน้อยลงหรือไม่R2R2R^2R2R2R^2r2r2r^2 ฉันเขียนฟังก์ชันง่าย ๆ สองอย่างสำหรับและR 2ถ่วงน้ำหนักพวกมันอยู่ด้านล่าง ฉันยังรวมผลลัพธ์ของการเรียกใช้ฟังก์ชันเหล่านี้สำหรับแบบจำลองของฉันซึ่งเรียกว่า HI9 แก้ไข: ฉันพบหน้าเว็บของ Adelle Coster ของ UNSW ที่ให้สูตรสำหรับการรวมเวกเตอร์ตุ้มน้ำหนักในการคำนวณการคำนวณของทั้งสองและอย่างที่ฉันทำและขอให้เธออ้างอิงอย่างเป็นทางการเพิ่มเติม: http: //web.maths unsw.edu.au/~adelle/Garvan/Assays/GoodnessOfFit.html (ยังคงต้องการความช่วยเหลือจาก Cross Validated เกี่ยวกับวิธีการตีความน้ำหนักr 2นี้)R2R2R^2R2R2R^2R2SSeSStr2r2r^2 #I used this function to calculate a basic r-squared from the robust linear model r2 …

1
ความดีของความพอดีและแบบจำลองที่เลือกการถดถอยเชิงเส้นหรือปัวซอง
ฉันต้องการคำแนะนำเกี่ยวกับประเด็นขัดแย้งหลักสองประการในการวิจัยของฉันซึ่งเป็นกรณีศึกษาของ 3 ยาและนวัตกรรมขนาดใหญ่ จำนวนสิทธิบัตรต่อปีเป็นตัวแปรตาม คำถามของฉันคือ เกณฑ์ที่สำคัญที่สุดสำหรับแบบจำลองที่ดีคืออะไร มีความสำคัญอะไรมาก / น้อย? มันคือตัวแปรส่วนใหญ่หรือทั้งหมดจะมีความหมาย? มันเป็นปัญหาของ "สถิติ F" หรือไม่? มันคือค่าของ "Adjusted R squared" หรือไม่? ประการที่สองฉันจะตัดสินใจรูปแบบที่เหมาะสมที่สุดสำหรับการวิจัยได้อย่างไร นอกจากสิทธิบัตรซึ่งเป็นตัวแปรนับ (ดังนั้นอาจเป็นจำนวนปัวซง) ฉันมีตัวแปรอธิบายเช่นผลตอบแทนจากสินทรัพย์งบประมาณการวิจัยและพัฒนาพันธมิตรซ้ำ (% ไม่ใช่ตัวแปรไบนารี) ขนาด บริษัท (พนักงาน) และอีกสองคน ฉันควรทำการถดถอยเชิงเส้นหรือปัวซอง

1
ความพอดีของฮีสโตแกรม 2D
ฉันมีข้อมูลสองชุดที่แสดงถึงพารามิเตอร์ของดาว: อันที่สังเกตและแบบจำลอง ด้วยชุดเหล่านี้ฉันสร้างสิ่งที่เรียกว่าสองสีแผนภาพ (TCD) ตัวอย่างสามารถดูได้ที่นี่: การเป็นข้อมูลที่สังเกตและBข้อมูลที่ดึงมาจากแบบจำลอง (ไม่ต้องสนใจเส้นสีดำจุดแสดงข้อมูล) ฉันมีไดอะแกรมAเพียงอันเดียวแต่สามารถสร้างไดอะแกรมB ที่แตกต่างกันได้มากเท่าที่ฉันต้องการและสิ่งที่ฉันต้องการคือ เพื่อให้เหมาะกับก . ดังนั้นสิ่งที่ฉันต้องการคือวิธีที่เชื่อถือได้ในการตรวจสอบความดีของไดอะแกรมแบบB (โมเดล) กับไดอะแกรมA (สังเกต) ตอนนี้สิ่งที่ฉันทำคือฉันสร้างฮิสโตแกรม 2D หรือตาราง (นั่นคือสิ่งที่ฉันเรียกมันอาจจะมีชื่อที่เหมาะสมกว่า) สำหรับแต่ละแผนภาพโดยการผูกทั้งสองแกน (แต่ละ 100 ถังสำหรับแต่ละ) จากนั้นฉันก็ผ่านแต่ละเซลล์ของตาราง และฉันพบความแตกต่างที่แน่นอนในการนับระหว่างAและBสำหรับเซลล์นั้น หลังจากผ่านไปแล้วเซลล์ทั้งหมดที่ผมสรุปค่าสำหรับแต่ละเซลล์และดังนั้นผมจึงจบลงด้วยพารามิเตอร์บวกเดียวที่เป็นตัวแทนของความดีของพอดี (คน ) ระหว่างและB ยิ่งใกล้ศูนย์มากเท่าไหร่ก็ยิ่งพอดี โดยทั่วไปนี่คือพารามิเตอร์ที่มีลักษณะดังนี้:gfgfgf gf=∑ij|aij−bij|gf=∑ij|aij−bij|gf = \sum_{ij} |a_{ij}-b_{ij}|; ที่คือจำนวนของดาวในแผนภาพสำหรับเซลล์เฉพาะที่ (กำหนดโดย ) และคือหมายเลขสำหรับBaijaija_{ij}ijijijbijbijb_{ij} นี่คือสิ่งที่ความแตกต่างในแต่ละเซลล์ดูเหมือนในตารางที่ฉันสร้าง (โปรดสังเกตว่าฉันไม่ได้ใช้ค่าสัมบูรณ์ของในภาพนี้ แต่ฉันจะใช้พวกเขาเมื่อคำนวณพารามิเตอร์ ):(aij−bij)(aij−bij)(a_{ij}-b{ij})(aij−bij)(aij−bij)(a_{ij}-b{ij})gfgfgf ปัญหาคือฉันได้รับการแนะนำว่านี่อาจไม่ใช่ตัวประมาณที่ดีเพราะส่วนใหญ่นอกจากการบอกว่าแบบนี้ดีกว่าตัวอื่นเพราะพารามิเตอร์ต่ำกว่าฉันไม่สามารถพูดอะไรได้มากกว่านี้ สำคัญ : (ขอบคุณ @PeterEllis ที่นำเรื่องนี้ขึ้นมา) 1- …

2
ผลกระทบของขอบเขตของถังขยะที่อิงกับข้อมูลต่อความดีของไคสแควร์พอดีหรือไม่
ออกจากประเด็นที่ชัดเจนของพลังงานต่ำของไคสแควร์ในสถานการณ์แบบนี้ลองจินตนาการถึงการทดสอบความดีของไคสแควร์สำหรับความหนาแน่นบางส่วนด้วยพารามิเตอร์ที่ไม่ระบุโดยการทำข้อมูล สำหรับ concreteness สมมุติว่าการแจกแจงเลขชี้กำลังมีค่าเฉลี่ยไม่ทราบและขนาดตัวอย่างเท่ากับ 100 เพื่อให้ได้จำนวนการสังเกตที่คาดหวังต่อ bin จำนวนบัญชีที่เหมาะสมจะต้องมีการบันทึกข้อมูล (เช่นถ้าเราเลือกที่จะวาง 6 bins ต่ำกว่าค่าเฉลี่ยและ 4 ด้านบนนั้นจะยังคงใช้ขอบเขตของฐานข้อมูล) . แต่การใช้ถังขยะโดยดูจากข้อมูลนี้น่าจะส่งผลต่อการแจกแจงสถิติการทดสอบภายใต้ค่า Null ฉันได้เห็นการสนทนามากมายเกี่ยวกับความจริงที่ว่า - หากพารามิเตอร์ถูกประเมินโดยความน่าจะเป็นสูงสุดจากข้อมูลที่ถูกทำให้เป็นบ้าเป็นหลัง - คุณเสีย 1 df ต่อพารามิเตอร์โดยประมาณ (ปัญหาย้อนหลังไปถึง Fisher vs Karl Pearson) - แต่ฉันจำไม่ได้ อ่านอะไรก็ได้เกี่ยวกับการค้นหาขอบเขตของตัวถังขยะเองตามข้อมูล (หากคุณประเมินจากข้อมูลที่ไม่ได้รวมดังนั้นด้วยkkk bins การกระจายของสถิติการทดสอบจะอยู่ที่ไหนสักแห่งระหว่างและ a )χ2kχk2\chi^2_{k}χ2k−pχk−p2\chi^2_{k-p} การเลือกใช้ถังขยะแบบอิงข้อมูลนี้ส่งผลต่อระดับหรือกำลังสำคัญอย่างมีนัยสำคัญหรือไม่? มีวิธีการบางอย่างที่สำคัญกว่าวิธีอื่น ๆ หรือไม่? หากมีผลมากมันเป็นสิ่งที่หายไปในกลุ่มตัวอย่างขนาดใหญ่หรือไม่? ถ้ามันมีผลกระทบที่สำคัญนี่จะทำให้การทดสอบแบบไคสแควร์เกิดขึ้นเมื่อพารามิเตอร์ไม่เป็นที่รู้จักเกือบไร้ประโยชน์ในหลาย ๆ กรณี (แม้ว่าจะยังคงได้รับการสนับสนุนในตำราค่อนข้างน้อย) เว้นแต่คุณจะมี -priori ของพารามิเตอร์ …

4
ความสัมพันธ์ระหว่าง
ฉันสงสัยว่ามีความสัมพันธ์ระหว่างR2R2R^2กับการทดสอบ F หรือไม่ โดยปกติR2=∑(Y^t−Y¯)2/T−1∑(Yt−Y¯)2/T−1R2=∑(Y^t−Y¯)2/T−1∑(Yt−Y¯)2/T−1R^2=\frac {\sum (\hat Y_t - \bar Y)^2 / T-1} {\sum( Y_t - \bar Y)^2 / T-1}และจะวัดความแข็งแรงของความสัมพันธ์เชิงเส้นในการถดถอย การทดสอบ F-Test เป็นการพิสูจน์สมมติฐาน มีความสัมพันธ์ระหว่างR2R2R^2กับการทดสอบ F หรือไม่?

3
R-squared เชิงลบหมายถึงอะไร
สมมติว่าฉันมีข้อมูลบางส่วนแล้วฉันก็พอดีกับข้อมูลด้วยแบบจำลอง (การถดถอยเชิงเส้น) จากนั้นฉันคำนวณ R-squared ( )R2R2R^2 เมื่อ R-squared เป็นลบนั่นหมายความว่าอย่างไร นั่นหมายความว่าแบบจำลองของฉันไม่ดีหรือไม่? ฉันรู้ว่าช่วงสามารถเป็น [-1,1] เมื่อเป็น 0 นั่นหมายความว่าอย่างไรR2R2R^2R2R2R^2

2
เพียร์สันที่เหลือ
คำถามเริ่มต้นเกี่ยวกับส่วนที่เหลือของเพียร์สันในบริบทของการทดสอบไคสแควร์เพื่อความเหมาะสม: เช่นเดียวกับสถิติการทดสอบchisq.testฟังก์ชั่นของ R รายงานส่วนที่เหลือของเพียร์สัน: (obs - exp) / sqrt(exp) ฉันเข้าใจว่าทำไมการดูความแตกต่างที่แท้จริงระหว่างค่าที่สังเกตและค่าที่คาดหวังไม่ใช่ข้อมูลนั้นเนื่องจากตัวอย่างขนาดเล็กจะส่งผลให้เกิดความแตกต่างเล็กน้อย อย่างไรก็ตามฉันต้องการทราบเพิ่มเติมเกี่ยวกับผลกระทบของตัวหาร: ทำไมหารด้วยรากของค่าที่คาดไว้ นี่คือส่วนที่เหลือ 'มาตรฐาน' หรือไม่?

5
การตรวจสอบสมมติฐานของโนวา
ไม่กี่เดือนที่ผ่านมาฉันโพสต์คำถามเกี่ยวกับการทดสอบความเป็นเนื้อเดียวกันใน R บน SO และ Ian Fellows ตอบว่า (ฉันจะถอดความคำตอบของเขาอย่างหลวม ๆ ): การทดสอบความเป็นเนื้อเดียวกันนั้นไม่ใช่เครื่องมือที่ดีเมื่อทำการทดสอบความดีของแบบจำลองของคุณ ด้วยตัวอย่างขนาดเล็กคุณไม่มีพลังมากพอที่จะตรวจจับขาออกจากกระเทยขณะที่กลุ่มตัวอย่างขนาดใหญ่คุณมี "พลังมากมาย" ดังนั้นคุณจึงมีแนวโน้มที่จะคัดกรองแม้กระทั่งการออกเดินทางเล็กน้อยจากความเท่าเทียมกัน คำตอบที่ยอดเยี่ยมของเขามาเป็นตบหน้าฉัน ฉันเคยตรวจสอบความเป็นมาตรฐานและข้อสมมุติฐานเรื่องความเป็นเนื้อเดียวกันทุกครั้งที่ฉันใช้ ANOVA ในความเห็นของคุณคือวิธีปฏิบัติที่ดีที่สุดเมื่อตรวจสอบสมมติฐานของ ANOVA

2
การทดสอบหลังการทดสอบสำหรับการทดสอบความดีแบบไคสแควร์
ฉันทำการทดสอบความดีของพอดี (GOF) ของไคสแควร์ด้วยสามประเภทและต้องการทดสอบโมฆะโดยเฉพาะว่าสัดส่วนประชากรในแต่ละหมวดหมู่เท่ากัน (กล่าวคือสัดส่วน 1/3 ในแต่ละกลุ่ม): กลุ่ม ข้อมูล OBSERVED 1 กลุ่ม 2 กลุ่ม 3 รวม 686 928 1012 2626 ดังนั้นสำหรับการทดสอบ GOF นี้การนับที่คาดหวังคือ 2626 (1/3) = 875.333 และการทดสอบให้ค่าp - value ที่สำคัญมากที่<0.0001 ตอนนี้มันชัดเจนว่ากลุ่ม 1 แตกต่างอย่างมากจาก 2 และ 3 และไม่น่าเป็นไปได้ที่ 2 และ 3 จะแตกต่างกันอย่างมีนัยสำคัญ อย่างไรก็ตามถ้าฉันต้องการทดสอบทั้งหมดอย่างเป็นทางการและสามารถให้ค่าpสำหรับแต่ละกรณีวิธีการที่เหมาะสมจะเป็นอย่างไร ฉันค้นหาทั่วออนไลน์และดูเหมือนว่ามีความคิดเห็นที่แตกต่างกัน แต่ไม่มีเอกสารที่เป็นทางการ ฉันสงสัยว่ามีข้อความหรือเอกสารที่ผ่านการตรวจสอบโดยเพื่อนที่ระบุสิ่งนี้ สิ่งที่สมเหตุสมผลสำหรับฉันคือการทดสอบโดยรวมที่สำคัญเพื่อทดสอบzสำหรับความแตกต่างในแต่ละคู่ของสัดส่วนอาจมีการแก้ไขค่า (อาจ Bonferroni เช่น)αα\alpha

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.