คำถามติดแท็ก t-test

การทดสอบเพื่อเปรียบเทียบค่าเฉลี่ยของตัวอย่างสองตัวอย่างหรือค่าเฉลี่ยของตัวอย่างหนึ่งค่า (หรือค่าพารามิเตอร์ประมาณ) กับค่าที่ระบุ หรือที่เรียกว่า "การทดสอบนักเรียน t" หลังจากนามแฝงของนักประดิษฐ์

4
การเปรียบเทียบค่า p กับแต่ละรายการมีความหมายอย่างไร
ฉันมีประชากรสองคน (ชายและหญิง) แต่ละคนมีตัวอย่าง สำหรับตัวอย่างแต่ละตัวอย่างฉันมีคุณสมบัติ A & B สองรายการ (เกรดเฉลี่ยปีแรกและคะแนน SAT) ฉันใช้การทดสอบแบบแยกต่างหากสำหรับ A & B: ทั้งคู่พบความแตกต่างอย่างมีนัยสำคัญระหว่างทั้งสองกลุ่ม A กับP = 0.008และ B กับP = 0.002100010001000p =0.008p=0.008p=0.008p=0.002p=0.002p=0.002 การอ้างว่าทรัพย์สิน B นั้นเป็นการเลือกปฏิบัติที่ดีกว่า (สำคัญกว่า) คือคุณสมบัติ A หรือไม่? หรือว่าการทดสอบ t เป็นเพียงการวัดใช่หรือไม่ (สำคัญหรือไม่สำคัญ)? ปรับปรุง : ตามความเห็นที่นี่และกับสิ่งที่ผมได้อ่านในวิกิพีเดียผมคิดว่าคำตอบที่ควรจะวางความหมาย p-value และรายงานของคุณขนาดของผล ความคิดใด ๆ

4
ค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนในกรณีขอบคืออะไร?
ความแม่นยำหมายถึง: p = true positives / (true positives + false positives) มันถูกต้องหรือไม่ที่ในฐานะtrue positivesและfalse positivesวิธีที่ 0 ความแม่นยำเข้าใกล้ 1? คำถามเดียวกันสำหรับการเรียกคืน: r = true positives / (true positives + false negatives) ขณะนี้ฉันกำลังใช้การทดสอบทางสถิติที่ฉันต้องการคำนวณค่าเหล่านี้และบางครั้งมันก็เกิดขึ้นที่ตัวส่วนเป็น 0 และฉันสงสัยว่าจะคืนค่าใดให้กับกรณีนี้ PS: ขอโทษแท็กที่ไม่เหมาะสมผมอยากจะใช้recall, precisionและlimitแต่ฉันไม่สามารถสร้างแท็กใหม่ ๆ
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

2
การเลือกระหว่าง -test และ -test
ความเป็นมา: ฉันกำลังนำเสนอให้กับเพื่อนร่วมงานที่ทำงานเกี่ยวกับการทดสอบสมมติฐานและเข้าใจว่าส่วนใหญ่ดี แต่มีแง่มุมหนึ่งที่ฉันคาดว่าจะเป็นปมพยายามเข้าใจและอธิบายให้ผู้อื่นฟัง นี่คือสิ่งที่ฉันคิดว่าฉันรู้ (โปรดแก้ไขถ้าผิด!) สถิติที่อาจเป็นเรื่องปกติหากทราบความแปรปรวนให้ทำตามการแจกแจงแบบtttหากไม่ทราบความแปรปรวน CLT (ทฤษฎีขีด จำกัด กลาง): การกระจายตัวตัวอย่างของค่าเฉลี่ยตัวอย่างนั้นประมาณปกติสำหรับขนาดใหญ่พอnnn (อาจเป็น303030 , อาจสูงถึง300300300สำหรับการแจกแจงแบบเบ้สูง) ttt -distribution สามารถพิจารณาปกติองศาอิสระ&gt;30&gt;30> 30 คุณใช้การทดสอบถ้า:zzz ประชากรปกติและความแปรปรวนเป็นที่รู้จัก (สำหรับขนาดตัวอย่างใด ๆ ) ประชากรปกติไม่ทราบความแปรปรวนและ (เนื่องจาก CLT)n&gt;30n&gt;30n>30 ประชากรทวินาม, , n q &gt; 10np&gt;10np&gt;10np>10nq&gt;10nq&gt;10nq>10 คุณใช้ -test ถ้า:ttt ประชากรปกติไม่ทราบความแปรปรวนและn&lt;30n&lt;30n<30 ไม่มีความรู้เกี่ยวกับประชากรหรือความแปรปรวนและแต่ข้อมูลตัวอย่างดูเป็นปกติ / ผ่านการทดสอบและอื่น ๆ เพื่อให้ประชากรสามารถสันนิษฐานได้ว่าเป็นปกติn&lt;30n&lt;30n<30 ดังนั้นฉันเหลือ: สำหรับตัวอย่างและ&lt; ≈ 300 (?) ไม่มีความรู้เกี่ยวกับประชากรและความแปรปรวนที่ทราบ / ไม่รู้จัก&gt;30&gt;30>30&lt;≈300&lt;≈300<\approx 300 …

2
จับคู่ t-test เป็นกรณีพิเศษของการสร้างแบบจำลองผลกระทบเชิงเส้นแบบผสม
เรารู้ว่าแบบทดสอบt - paired เป็นเพียงกรณีพิเศษของการวัดทางเดียว (หรือในเรื่อง) ANOVA เช่นเดียวกับแบบจำลองผสมเอฟเฟกต์แบบเชิงเส้นซึ่งสามารถแสดงให้เห็นด้วยฟังก์ชัน lme () ในแพ็คเกจ nlme ใน R ดังแสดงด้านล่าง #response data from 10 subjects under two conditions x1&lt;-rnorm(10) x2&lt;-1+rnorm(10) # Now create a dataframe for lme myDat &lt;- data.frame(c(x1,x2), c(rep("x1", 10), rep("x2", 10)), rep(paste("S", seq(1,10), sep=""), 2)) names(myDat) &lt;- c("y", "x", "subj") เมื่อฉันรันการทดสอบ t จับคู่ต่อไปนี้: …

1
มีการทดสอบทางสถิติเพื่อเปรียบเทียบสองตัวอย่างขนาด 1 และ 3 หรือไม่
สำหรับโครงการด้านนิเวศวิทยากลุ่มห้องปฏิบัติการของฉันได้เพิ่มน้ำส้มสายชูลงในถังที่บรรจุน้ำปริมาณ 4 บ่อเท่ากัน 1 ชุดควบคุมโดยไม่มีอีโลเดีย (พืชน้ำ) และ 3 กรรมวิธีที่มีอีโลเดียในปริมาณเท่ากัน วัตถุประสงค์ของการเพิ่มน้ำส้มสายชูคือการลดค่าความเป็นกรดด่าง สมมติฐานคือถังที่มีอีลาเดียจะกลับไปเป็นค่า pH ปกติที่เร็วขึ้น กรณีนี้เป็นจริง เราวัดค่า pH ของแต่ละถังเป็นเวลาประมาณสองสัปดาห์ ในที่สุดรถถังทั้งหมดก็กลับสู่ค่า pH ตามธรรมชาติของพวกเขา แต่ระยะเวลาที่ใช้ในการนี้นั้นสั้นกว่ามากสำหรับรถถังที่มีอีโลเดีย เมื่อเราบอกอาจารย์เกี่ยวกับการออกแบบการทดลองของเราเขากล่าวว่าไม่มีการทดสอบทางสถิติที่สามารถดำเนินการกับข้อมูลเพื่อเปรียบเทียบการควบคุมกับการรักษา นั่นเป็นเพราะไม่มีการจำลองแบบสำหรับการควบคุม (เราใช้ถังควบคุมเพียงตัวเดียว) เราไม่สามารถคำนวณความแปรปรวนได้ดังนั้นเราจึงไม่สามารถเปรียบเทียบค่าเฉลี่ยตัวอย่างของการควบคุมและการรักษา ดังนั้นคำถามของฉันคือจริงหรือไม่ ฉันเข้าใจความหมายของเขา ตัวอย่างเช่นหากคุณเพิ่มความสูงของชายคนหนึ่งและผู้หญิงหนึ่งคนคุณจะไม่สามารถสรุปได้เกี่ยวกับประชากรของพวกเขา แต่เราทำการรักษา 3 ครั้งและความแปรปรวนมีน้อย ดูเหมือนว่ามีเหตุผลที่จะสมมติว่าความแปรปรวนจะคล้ายกันในการควบคุม? ปรับปรุง: ขอบคุณสำหรับคำตอบที่ยอดเยี่ยม เราได้รับน้ำมากขึ้นและอีโลเดียจากพื้นที่ชุ่มน้ำและตัดสินใจว่าเราจะทำการทดลองอีกครั้งด้วยรถถังขนาดเล็ก แต่คราวนี้มี 5 การควบคุมและ 5 การบำบัด เรากำลังจะรวมสิ่งนี้กับข้อมูลดั้งเดิมของเรา แต่ค่าเริ่มต้นของรถถังนั้นแตกต่างกันมากจนดูเหมือนจะไม่ถูกต้องที่จะพิจารณาการทดลองใหม่ที่จะสุ่มตัวอย่างจากประชากรเดียวกันกับการทดลองดั้งเดิม เราพิจารณาการเพิ่มอีโลเดียในปริมาณที่แตกต่างกันและพยายามเชื่อมโยงความเร็วของการฟื้นฟูพีเอช (วัดเมื่อเวลาผ่านไปจนกระทั่งพีเอชกลับสู่ค่าดั้งเดิม) ด้วยอีโลเดีย แต่เราตัดสินใจว่าไม่จำเป็น วัตถุประสงค์ของเราเพียงเพื่อแสดงให้เห็นว่าอีโลเดียสร้างความแตกต่างในเชิงบวกไม่ใช่เพื่อสร้างแบบจำลองการทำนายบางอย่างสำหรับค่าพีเอชตอบสนองต่ออีลาเดียในปริมาณที่แตกต่างกันอย่างแท้จริง มันน่าสนใจที่จะกำหนดปริมาณที่เหมาะสมของอีโลเดีย แต่นั่นอาจเป็นแค่จำนวนสูงสุดที่สามารถอยู่รอดได้ การพยายามปรับเส้นโค้งการถดถอยให้เหมาะสมกับข้อมูลจะไม่ได้รับความกระจ่างเป็นพิเศษเนื่องจากการเปลี่ยนแปลงที่ซับซ้อนต่าง …

2
วิธีการทดสอบความแตกต่างระหว่างสองกลุ่มหมายถึงเมื่อข้อมูลไม่กระจายตามปกติ?
ฉันจะกำจัดรายละเอียดและการทดลองทางชีวภาพทั้งหมดและเสนอราคาเพียงปัญหาในมือและสิ่งที่ฉันทำทางสถิติ ฉันอยากจะรู้ว่ามันถูกต้องหรือไม่และจะทำอย่างไรต่อไป หากข้อมูล (หรือคำอธิบายของฉัน) ไม่ชัดเจนเพียงพอฉันจะพยายามอธิบายให้ดีขึ้นโดยแก้ไข สมมติว่าฉันมีสองกลุ่ม / สังเกต X และ Y มีขนาดNx=215Nx=215N_x=215และNy=40Ny=40N_y=40 40 ฉันต้องการทราบว่าค่าเฉลี่ยของการสังเกตทั้งสองนี้เท่ากันหรือไม่ คำถามแรกของฉันคือ: หากสมมติฐานเป็นที่พอใจจะต้องใช้การทดสอบสองตัวอย่างพารามิเตอร์ที่นี่? ฉันถามสิ่งนี้เพราะจากความเข้าใจของฉันมันมักจะใช้เมื่อขนาดเล็ก? ฉันพล็อตฮิสโทแกรมของทั้ง X และ Y และพวกมันไม่ได้กระจายตามปกติซึ่งเป็นหนึ่งในสมมติฐานของการทดสอบสองตัวอย่าง ความสับสนของฉันคือว่าฉันคิดว่าพวกเขาเป็นสองประชากรและนั่นคือเหตุผลที่ฉันตรวจสอบการกระจายปกติ แต่ฉันกำลังจะทำการทดสอบสองตัวอย่าง ... นี่ถูกไหม? จากทฤษฎีบทขีด จำกัด กลางฉันเข้าใจว่าถ้าคุณทำการสุ่มตัวอย่าง (โดยมี / ไม่มีการซ้ำซ้อนขึ้นอยู่กับขนาดประชากรของคุณ) หลาย ๆ ครั้งและคำนวณค่าเฉลี่ยของตัวอย่างในแต่ละครั้งมันจะกระจายโดยประมาณปกติ และค่าเฉลี่ยของตัวแปรสุ่มนี้จะเป็นการประมาณค่าเฉลี่ยของประชากรที่ดี ดังนั้นฉันจึงตัดสินใจทำทั้ง X และ Y 1,000 ครั้งและได้รับตัวอย่างและฉันกำหนดตัวแปรสุ่มให้กับค่าเฉลี่ยของแต่ละตัวอย่าง พล็อตนั้นกระจายตามปกติอย่างมาก ค่าเฉลี่ยของ X และ Y เท่ากับ 4.2 และ …

2
การแปลงบันทึกเป็นเทคนิคที่ใช้ได้สำหรับการทดสอบข้อมูลที่ไม่ใช่ข้อมูลปกติหรือไม่
ในการทบทวนกระดาษผู้เขียนกล่าวว่า "ตัวแปรผลลัพธ์อย่างต่อเนื่องที่แสดงการแจกแจงแบบเบ้ถูกแปลงโดยใช้ลอการิทึมธรรมชาติก่อนที่จะทำการทดสอบ t เพื่อให้เป็นไปตามสมมติฐานเบื้องต้นของภาวะปกติ" นี่เป็นวิธีที่ยอมรับได้ในการวิเคราะห์ข้อมูลที่ไม่ใช่ข้อมูลปกติหรือไม่ นี่อาจเป็นคำถามที่ค่อนข้างแปลก แต่ฉันไม่เคยเห็นมาก่อน

2
การทดสอบของนักเรียนเป็นการทดสอบแบบ Wald หรือไม่
การทดสอบของนักเรียนเป็นการทดสอบแบบ Wald หรือไม่ ผมได้อ่านคำอธิบายของการทดสอบ Wald จาก Wasserman ของทุกสถิติ สำหรับฉันแล้วการทดสอบ Wald รวมถึงการทดสอบ t ถูกต้องไหม ถ้าไม่มีอะไรทำให้การทดสอบแบบ t ไม่ใช่แบบทดสอบ Wald

3
วิธีจำลองข้อมูลให้มีนัยสำคัญทางสถิติได้อย่างไร
ฉันอยู่เกรด 10 และฉันต้องการจำลองข้อมูลสำหรับโครงงานวิทยาศาสตร์การเรียนรู้ของเครื่อง ตัวแบบสุดท้ายจะใช้กับข้อมูลผู้ป่วยและจะทำนายความสัมพันธ์ระหว่างช่วงเวลาของสัปดาห์และผลกระทบที่มีต่อการรับประทานยาอย่างสม่ำเสมอภายในข้อมูลของผู้ป่วยรายเดียว ค่าการยึดมั่นจะเป็นเลขฐานสอง (0 หมายถึงพวกเขาไม่ได้ทานยา 1 หมายถึงพวกเขา) ฉันกำลังมองหาที่จะสร้างรูปแบบการเรียนรู้ของเครื่องซึ่งสามารถเรียนรู้จากความสัมพันธ์ระหว่างเวลาของสัปดาห์และแยกสัปดาห์ออกเป็นช่วงเวลา 21 ช่วงเวลาสามสัปดาห์ในแต่ละวัน (1 คือเช้าวันจันทร์ 2 วันจันทร์เป็นวันจันทร์ ฯลฯ ) ฉันต้องการจำลองข้อมูลผู้ป่วย 1,000 ราย ผู้ป่วยแต่ละรายจะมีข้อมูล 30 สัปดาห์ ฉันต้องการแทรกแนวโน้มบางอย่างที่เกี่ยวข้องกับช่วงเวลาหนึ่งสัปดาห์และยึดมั่น ตัวอย่างเช่น, ในชุดข้อมูลเดียวฉันอาจพูดได้ว่าช่วงเวลา 7 ของสัปดาห์มีความสัมพันธ์อย่างมีนัยสำคัญทางสถิติกับการยึดมั่น เพื่อให้ฉันตัดสินใจได้ว่าความสัมพันธ์นั้นมีนัยสำคัญทางสถิติหรือไม่ฉันต้องทำการทดสอบสองตัวอย่าง t-test เปรียบเทียบหนึ่งช่วงเวลากับแต่ละช่วงเวลาอื่น ๆ และให้แน่ใจว่าค่านัยสำคัญน้อยกว่า 0.05 อย่างไรก็ตามแทนที่จะเลียนแบบข้อมูลของฉันเองและตรวจสอบว่าแนวโน้มที่ฉันแทรกมีความสำคัญหรือไม่ฉันจะทำงานไปข้างหลังและอาจใช้โปรแกรมที่ฉันสามารถขอให้กำหนดช่วงเวลาหนึ่งให้กับแนวโน้มที่สำคัญด้วยการยึดมั่นและจะกลับมา ข้อมูลเลขฐานสองที่บรรจุอยู่ในแนวโน้มที่ฉันขอและยังเป็นข้อมูลไบนารีสำหรับช่วงเวลาอื่น ๆ ที่มีเสียงดังบ้าง แต่ไม่ได้สร้างแนวโน้มที่มีนัยสำคัญทางสถิติ มีโปรแกรมใดบ้างที่สามารถช่วยให้ฉันประสบความสำเร็จเช่นนี้ หรือบางทีโมดูลหลาม? ความช่วยเหลือใด ๆ (แม้ความคิดเห็นทั่วไปในโครงการของฉัน) จะได้รับการชื่นชมอย่างมาก !!

1
เหตุใด t-test และ ANOVA จึงให้ค่า p แตกต่างกันสำหรับการเปรียบเทียบสองกลุ่ม
ในบทความ Wikipedia เกี่ยวกับANOVAมันบอกว่า ในรูปแบบที่ง่ายที่สุด ANOVA จัดให้มีการทดสอบทางสถิติว่าค่าเฉลี่ยของหลาย ๆ กลุ่มมีค่าเท่ากันหรือไม่และดังนั้นจึงทำให้การทดสอบ t-test เป็นมากกว่าสองกลุ่ม ความเข้าใจของฉันเกี่ยวกับเรื่องนี้คือ ANOVA นั้นเหมือนกับ t-test เมื่อเปรียบเทียบกับกลุ่มสองกลุ่ม อย่างไรก็ตามในตัวอย่างง่าย ๆ ของฉันด้านล่าง (ใน R) การวิเคราะห์ความแปรปรวนและการทดสอบ t ให้ค่า p ที่เหมือนกัน แต่แตกต่างกันเล็กน้อย มีใครอธิบายได้บ้างไหม x1=rnorm(100,mean=0,sd=1) x2=rnorm(100,mean=0.5,sd=1) y1=rnorm(100,mean=0,sd=10) y2=rnorm(100,mean=0.5,sd=10) t.test(x1,x2)$p.value # 0.0002695961 t.test(y1,y2)$p.value # 0.8190363 df1=as.data.frame(rbind(cbind(x=x1,type=1), cbind(x2,type=2))) df2=as.data.frame(rbind(cbind(x=y1,type=1), cbind(y2,type=2))) anova(lm(x~type,df1))$`Pr(&gt;F)`[1] # 0.0002695578 anova(lm(x~type,df2))$`Pr(&gt;F)`[1] # 0.8190279

3
t-test กับข้อมูลที่บิดเบือนสูง
ฉันมีชุดข้อมูลที่มีการตรวจสอบข้อมูลค่ารักษาพยาบาลนับหมื่น ข้อมูลนี้เอียงไปทางขวาอย่างมากและมีศูนย์จำนวนมาก ดูเหมือนว่าสำหรับคนสองชุด (ในกรณีนี้มีวงดนตรีสองวงที่มี&gt; 3000 obs ต่อคน): Min. 1st Qu. Median Mean 3rd Qu. Max. 0.0 0.0 0.0 4536.0 302.6 395300.0 Min. 1st Qu. Median Mean 3rd Qu. Max. 0.0 0.0 0.0 4964.0 423.8 721700.0 ถ้าฉันทำการทดสอบ t ของ Welch กับข้อมูลนี้ฉันจะได้ผลลัพธ์กลับมา: Welch Two Sample t-test data: x and y t = …

2
พลังของการถดถอยโลจิสติกและการทดสอบทีเปรียบเทียบ
พลังของการถดถอยโลจิสติกและการทดสอบทีเทียบเท่าหรือไม่ ถ้าเป็นเช่นนั้นพวกเขาควรจะ "ความหนาแน่นของข้อมูลเทียบเท่า" โดยที่ฉันหมายถึงว่าการสังเกตที่สำคัญจำนวนเดียวกันให้ผลลัพธ์เดียวกันกับที่ได้รับค่าคงที่ของ. 05 พิจารณาสองกรณี: [การทดสอบสถิติพารามิเตอร์]: 30 การดึงออกมาจากการสังเกตแบบทวินามและค่าที่ได้จะเป็นค่าเฉลี่ย สิ่งนี้ทำได้ 30 ครั้งสำหรับกลุ่ม A (ซึ่งมีค่าทวินามเท่ากับ. 70 ที่เกิดขึ้น) และ 30 ครั้งสำหรับกลุ่ม B (ซึ่งมีราคาทวินามเท่ากับ. 75 ที่เกิดขึ้น) ผลตอบแทนนี้ 30 หมายถึงกลุ่มที่เป็นตัวแทนของสรุป 1,800 ดึงจากการกระจายทวินาม การทดสอบ t-58df ใช้เพื่อเปรียบเทียบค่าเฉลี่ย [การถดถอยโลจิสติก]: การถดถอยโลจิสติกจะดำเนินการกับความลาดชันรหัสจำลองที่เป็นตัวแทนของการเป็นสมาชิกกลุ่มและแต่ละ 1,800 วาด คำถามของฉันมีสองส่วน: เมื่อกำหนดค่าอัลฟ่าเป็น. 05 พลังของวิธีการเหล่านี้จะเหมือนหรือต่างกันหรือไม่ ทำไม? ฉันจะพิสูจน์ได้อย่างไร คำตอบสำหรับคำถามที่ 1 นั้นมีความอ่อนไหวต่อขนาดตัวอย่างที่จะเข้าสู่การทดสอบ t-size ขนาดตัวอย่างของแต่ละกลุ่มในการทดสอบ t-t ความน่าจะเป็นแบบทวินามพื้นฐานหรือปัจจัยอื่น ๆ ถ้าเป็นเช่นนั้นฉันจะรู้ได้อย่างไร …

6
ฉันสามารถเชื่อถือผลลัพธ์สำคัญของการทดสอบ t ได้ไหมถ้าขนาดตัวอย่างเล็ก?
หากผลการทดสอบการทดสอบด้านเดียวของฉันมีความสำคัญ แต่ขนาดตัวอย่างมีขนาดเล็ก (เช่นต่ำกว่า 20 หรือมากกว่านั้น) ฉันจะยังเชื่อถือได้หรือไม่ ถ้าไม่ฉันจะจัดการและ / หรือตีความผลลัพธ์นี้อย่างไร

3
“ สถิติทดสอบ” เป็นค่าหรือตัวแปรสุ่มหรือไม่
ตอนนี้ฉันเป็นนักเรียนที่เรียนวิชาสถิติเป็นครั้งแรก ฉันสับสนกับคำว่า "สถิติการทดสอบ" ในต่อไป (ฉันเห็นนี้ในตำราบาง) ดูเหมือนว่าจะมีค่าเฉพาะคำนวณจากตัวอย่างที่เฉพาะเจาะจง t = ¯ x - μ 0เสื้อเสื้อtt = x¯¯¯- μ0s / n--√เสื้อ=x¯-μ0s/n t=\frac{\overline{x} - \mu_0}{s / \sqrt{n}} อย่างไรก็ตามในต่อไปนี้ (ฉันเห็นสิ่งนี้ในหนังสือเรียนเล่มอื่น ๆ ) ดูเหมือนว่าจะเป็นตัวแปรสุ่ม T = ¯ X - μ 0TTTT= X¯¯¯¯- μ0S/ n--√T=X¯-μ0S/n T=\frac{\overline{X} - \mu_0}{S / \sqrt{n}} ดังนั้นคำว่า "สถิติการทดสอบ" หมายถึงค่าเฉพาะหรือตัวแปรสุ่มหรือทั้งสองอย่าง ?

3
การเปรียบเทียบผลลัพธ์ความแม่นยำของลักษณนามสองตัวสำหรับนัยสำคัญทางสถิติกับการทดสอบ t
ฉันต้องการเปรียบเทียบความแม่นยำของตัวแยกประเภทสองตัวสำหรับนัยสำคัญทางสถิติ ตัวแยกประเภททั้งสองทำงานในชุดข้อมูลเดียวกัน นำไปสู่การนี้ผมที่จะเชื่อว่าฉันควรจะใช้ตัวอย่างหนึ่ง t-test จากสิ่งที่ฉันได้รับการอ่าน ตัวอย่างเช่น: Classifier 1: 51% accuracy Classifier 2: 64% accuracy Dataset size: 78,000 นี่เป็นการทดสอบที่ถูกต้องที่จะใช้หรือไม่? ถ้าเป็นเช่นนั้นฉันจะคำนวณได้อย่างไรว่าความแตกต่างของความแม่นยำระหว่างลักษณนามมีความสำคัญ หรือฉันควรใช้การทดสอบอื่น?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.