คำถามติดแท็ก nonparametric

ใช้แท็กนี้เพื่อสอบถามเกี่ยวกับลักษณะของวิธีการแบบไม่มีพารามิเตอร์หรือแบบพารามิเตอร์หรือความแตกต่างระหว่างทั้งสอง โดยทั่วไปแล้ววิธีการที่ไม่ใช่พารามิเตอร์ขึ้นอยู่กับสมมติฐานบางอย่างเกี่ยวกับการแจกแจงต้นแบบในขณะที่วิธีการพารามิเตอร์ทำสมมติฐานที่ช่วยให้ข้อมูลที่จะอธิบายด้วยพารามิเตอร์จำนวนน้อย

7
วิธีเลือกระหว่างการทดสอบ t-test หรือ non-parametric เช่น Wilcoxon ในกลุ่มตัวอย่างขนาดเล็ก
สมมติฐานบางอย่างสามารถทดสอบได้โดยใช้นักศึกษาของT -test (อาจจะใช้การแก้ไขเวลช์การแปรปรวนไม่เท่ากันในกรณีที่สองตัวอย่าง) หรือโดยการทดสอบไม่ใช่ตัวแปรเช่น Wilcoxon จับคู่ลงนามในการทดสอบการจัดอันดับการทดสอบ Wilcoxon-Mann-Whitney U, หรือการทดสอบเครื่องหมายจับคู่ เราจะตัดสินใจอย่างมีหลักการเกี่ยวกับการทดสอบใดที่เหมาะสมที่สุดโดยเฉพาะอย่างยิ่งหากขนาดตัวอย่างเป็น "เล็ก" หลายตำราเบื้องต้นและบันทึกการบรรยายให้ "ผัง" วิธีการที่ปกติมีการตรวจสอบ (อย่างใดอย่างหนึ่ง - inadvisedly - โดยการทดสอบภาวะปกติหรือวงกว้างมากขึ้นโดยพล็อต QQหรือคล้ายกัน) ที่จะตัดสินใจระหว่างT -test หรือการทดสอบไม่ใช่ตัวแปร สำหรับ unpaired สองตัวอย่างT -test อาจจะมีการตรวจสอบต่อไปสำหรับความสม่ำเสมอของความแปรปรวนในการตัดสินใจว่าจะใช้การแก้ไขเวลช์ ปัญหาหนึ่งของวิธีนี้คือวิธีการตัดสินใจที่จะใช้การทดสอบขึ้นอยู่กับข้อมูลที่สังเกตและวิธีการนี้มีผลต่อประสิทธิภาพ (พลังงานอัตราความผิดพลาดประเภทที่ 1) ของการทดสอบที่เลือก ปัญหาอีกประการหนึ่งคือความยากลำบากในการตรวจสอบมาตรฐานอยู่ในชุดข้อมูลขนาดเล็ก: การทดสอบอย่างเป็นทางการมีพลังงานต่ำดังนั้นการละเมิดอาจไม่ถูกตรวจจับได้ดี แม้การละเมิดที่ร้ายแรงจะไม่สามารถตรวจจับได้เช่นหากมีการกระจายการผสม แต่ไม่มีการสังเกตจากส่วนประกอบหนึ่งของส่วนผสม ซึ่งแตกต่างจากขนาดใหญ่เราไม่สามารถพึ่งพาความปลอดภัยของทฤษฎีขีด จำกัด กลางและบรรทัดฐานเชิงเส้นกำกับของสถิติการทดสอบและการแจกแจงแบบtnnn หลักการหนึ่งในการตอบสนองต่อสิ่งนี้คือ "ปลอดภัยไว้ก่อน": ไม่มีทางที่จะพิสูจน์ความน่าเชื่อถือของสมมติฐานในตัวอย่างเล็ก ๆ อีกประการหนึ่งคือการพิจารณาเหตุใด ๆ สมมติว่าปกติในทางทฤษฎี (เช่นตัวแปรคือผลรวมของส่วนประกอบสุ่มหลาย CLT ใช้) หรือสังเกตุ …

14
ทำไมสถิติที่ไม่ทนทาน (และทนทาน) จึงถูกแทนที่ด้วยเทคนิคแบบดั้งเดิม?
เมื่อแก้ปัญหาทางธุรกิจโดยใช้ข้อมูลเป็นเรื่องธรรมดาที่มีสมมติฐานอย่างน้อยหนึ่งข้อที่ว่าสถิติแบบดั้งเดิมไม่ถูกต้อง ส่วนใหญ่ไม่มีใครมารบกวนการตรวจสอบสมมติฐานเหล่านั้นเพื่อให้คุณไม่เคยรู้จริง ตัวอย่างเช่นเมตริกเว็บทั่วไปจำนวนมากจึงเป็น "แบบหางยาว" (สัมพันธ์กับการแจกแจงแบบปกติ) คือตอนนี้มีการบันทึกไว้เป็นอย่างดีเพื่อให้เราได้รับอนุญาต อีกตัวอย่างหนึ่งชุมชนออนไลน์ - แม้ในชุมชนที่มีสมาชิกนับพันก็มีเอกสารครบถ้วนว่าส่วนแบ่งที่ใหญ่ที่สุดของการมีส่วนร่วมในการมีส่วนร่วมในชุมชนเหล่านี้ส่วนใหญ่เป็นของกลุ่มผู้มีอิทธิพลน้อย (เช่นไม่กี่เดือนที่ผ่านมาหลังจากที่ SO API ให้บริการในรุ่นเบต้าสมาชิกStackOverflowเผยแพร่การวิเคราะห์สั้น ๆ จากข้อมูลที่เขาเก็บรวบรวมผ่านทาง API ข้อสรุปของเขา - น้อยกว่าร้อยละหนึ่งของบัญชีสมาชิก SO ส่วนใหญ่ กิจกรรมบน SO (สมมุติว่าถามคำถามและตอบคำถาม) อีก 1-2% คิดเป็นสัดส่วนที่เหลือและสมาชิกส่วนใหญ่ที่ไม่ทำอะไรเลย) การแจกแจงของการเรียงลำดับนั้น - บ่อยครั้งมากกว่ากฎแทนที่จะเป็นข้อยกเว้น - มักถูกสร้างแบบจำลองที่ดีที่สุดด้วยฟังก์ชันความหนาแน่นของกฎกำลังไฟฟ้า สำหรับการแจกแจงแบบนี้แม้แต่ทฤษฎีบทขีด จำกัด กลางก็เป็นปัญหาที่จะนำมาใช้ ดังนั้นเมื่อมีประชากรจำนวนมากเช่นนี้เป็นที่สนใจของนักวิเคราะห์และเนื่องจากรูปแบบคลาสสิกนั้นมีประสิทธิภาพในการแสดงข้อมูลเหล่านี้ได้ไม่ดีนักและเนื่องจากวิธีการที่แข็งแกร่งและทนทานได้เกิดขึ้นมาระยะหนึ่งแล้ว (อย่างน้อย 20 ปี) พวกเขาไม่ได้ใช้บ่อยขึ้นหรือไม่ (ฉันยังสงสัยว่าทำไมฉันไม่ใช้บ่อยขึ้น แต่นั่นไม่ใช่คำถามสำหรับCrossValidated ) ใช่ฉันรู้ว่ามีบทตำราที่อุทิศให้กับสถิติที่มีประสิทธิภาพและฉันรู้ว่ามี (ไม่กี่) R แพ็คเกจ ( robustbaseเป็นสิ่งที่ฉันคุ้นเคยและใช้) เป็นต้น …

5
Kendall Tau หรือ Rho's Spearman?
ในกรณีใดที่หนึ่งควรชอบหนึ่งมากกว่าอีก? ฉันพบคนที่อ้างว่าเป็นประโยชน์สำหรับเคนดัลล์ด้วยเหตุผลด้านการสอนมีเหตุผลอื่นอีกไหม?

15
ทำไมสถิติแบบพารามิเตอร์จะได้รับความนิยมมากกว่าแบบ nonparametric
ใครสามารถอธิบายให้ฉันฟังได้ว่าทำไมทุกคนจะเลือกพาราเมทริกสำหรับวิธีการทดสอบสมมติฐานหรือการวิเคราะห์การถดถอย ในใจของฉันมันเหมือนกับการไปล่องแพและเลือกนาฬิกาที่ไม่กันน้ำเพราะคุณอาจไม่เปียก ทำไมไม่ใช้เครื่องมือที่ใช้ได้กับทุกโอกาส?

6
การใช้การทดสอบการเปลี่ยนรูปแบบใน R เพื่อใช้แทนการทดสอบแบบที (ทั้งคู่และไม่ใช่คู่)?
ฉันมีข้อมูลจากการทดสอบที่ฉันวิเคราะห์โดยใช้การทดสอบที ตัวแปรตามคือสเกลช่วงเวลาและข้อมูลไม่ถูกจับคู่ (เช่น 2 กลุ่ม) หรือจับคู่ (เช่นภายในวิชา) เช่น (ภายในวิชา): x1 <- c(99, 99.5, 65, 100, 99, 99.5, 99, 99.5, 99.5, 57, 100, 99.5, 99.5, 99, 99, 99.5, 89.5, 99.5, 100, 99.5) y1 <- c(99, 99.5, 99.5, 0, 50, 100, 99.5, 99.5, 0, 99.5, 99.5, 90, 80, 0, 99, 0, 74.5, …

3
การแปลความหมายของตัวทำนายการแปลงสภาพบันทึกและ / หรือการตอบสนอง
ฉันสงสัยว่ามันจะสร้างความแตกต่างในการตีความไม่ว่าจะเป็นเพียงขึ้นอยู่กับทั้งขึ้นอยู่กับและเป็นอิสระหรือตัวแปรอิสระเท่านั้นที่ถูกเปลี่ยนเข้าสู่ระบบ พิจารณากรณีของ log(DV) = Intercept + B1*IV + Error ฉันสามารถตีความ IV เป็นเปอร์เซ็นต์เพิ่มขึ้น แต่จะเปลี่ยนแปลงได้อย่างไรเมื่อฉันมี log(DV) = Intercept + B1*log(IV) + Error หรือเมื่อฉันมี DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

8
แบบจำลองทั้งหมดไร้ประโยชน์หรือไม่? มีรูปแบบที่แน่นอน - หรือมีประโยชน์หรือไม่
คำถามนี้รบกวนจิตใจฉันมานานกว่าหนึ่งเดือนแล้ว ฉบับเดือนกุมภาพันธ์ 2558 ของAmstat Newsมีบทความโดย Berkeley ศาสตราจารย์ Mark van der Laan ที่ดุคนที่ใช้โมเดลที่ไม่แน่นอน เขากล่าวว่าการใช้แบบจำลองสถิติเป็นศิลปะมากกว่าวิทยาศาสตร์ ตามที่เขาพูดเราสามารถใช้ "แบบจำลองที่แน่นอน" และความล้มเหลวของเราในการทำเช่นนั้นมีส่วนทำให้ "ขาดความเข้มงวด ... ฉันกลัวว่าการเป็นตัวแทนของเราในด้านวิทยาศาสตร์ข้อมูลกำลังกลายเป็นคนชายขอบ" ผมยอมรับว่าเราอยู่ในอันตรายจากการกลายเป็นชายขอบ แต่ภัยคุกคามมักจะมาจากผู้ที่เรียกร้อง (มีเสียงมากเช่นศาสตราจารย์แวนเดอร์ Laan ดูเหมือนว่า) ว่าพวกเขาจะไม่ได้ใช้วิธีการตัวอย่างบางส่วน แต่มีวิธีการในความเป็นจริงไกลน้อยเข้มงวดกว่าแบบจำลองทางสถิติที่มีการใช้อย่างระมัดระวัง - แม้เป็นสิ่งที่ผิด ฉันคิดว่ามันยุติธรรมที่จะบอกว่าศาสตราจารย์แวนเดอร์ลันค่อนข้างดูถูกคนที่พูดซ้ำคำพูดที่ใช้บ่อยของ Box "ทุกรุ่นผิด แต่มีประโยชน์" โดยพื้นฐานแล้วเมื่อฉันอ่านมันเขาบอกว่าแบบจำลองทั้งหมดผิดและไร้ประโยชน์ทั้งหมด ตอนนี้ฉันจะไม่เห็นด้วยกับอาจารย์ของ Berkeley บ้าง ในทางกลับกันเขาเป็นใครที่มองข้ามมุมมองของยักษ์ตัวจริงในสนามของเรา ในการอธิบายอย่างละเอียดดร. แวนเดอร์แลนกล่าวว่า "มันไร้สาระสมบูรณ์เมื่อต้องระบุว่าแบบจำลองทั้งหมดผิด ... ตัวอย่างเช่นแบบจำลองทางสถิติที่ไม่ทำให้สมมติฐานเป็นจริงเสมอไป" เขายังคง: "แต่บ่อยครั้งที่เราสามารถทำได้ดีกว่าที่เราจะได้รู้ว่าข้อมูลที่เป็นผลของทดลองเหมือนอิสระ." ฉันไม่เห็นว่าจะมีใครรู้ว่ายกเว้นในการสุ่มตัวอย่างแบบสุ่มหรือการตั้งค่าการทดลองที่แคบมาก ผู้เขียนชี้ให้เห็นถึงการทำงานของเขาในการเรียนรู้โอกาสสูงสุดและการเรียนรู้ด้วยการสูญเสียขั้นต่ำที่กำหนดเป้าหมายซึ่ง "รวมเอาสถานะของศิลปะในการประเมินการเรียนรู้ของเครื่องจักร / การปรับตัวด้วยข้อมูล ทฤษฎีกระบวนการในขณะที่ยังคงให้การอนุมานทางสถิติอย่างเป็นทางการ …

3
Bootstrap vs. การทดสอบสมมติฐานการเปลี่ยนลำดับ
มีเทคนิคการสุ่มตัวอย่างที่นิยมใช้กันหลายครั้งซึ่งมักใช้ในทางปฏิบัติเช่น bootstrapping, permutation test, jackknife เป็นต้นมีบทความและหนังสือจำนวนมากที่พูดถึงเทคนิคเหล่านี้เช่นPhilip I Good (2010) Permutation, Parametric และ Bootstrap Tests ของสมมติฐาน คำถามของฉันคือเทคนิคการสุ่มตัวอย่างแบบใดที่ได้รับความนิยมและง่ายต่อการใช้งานมากขึ้น การทดสอบการบูตหรือการเปลี่ยนรูป?

4
ต้นไม้ด้านการตัดสินใจที่อ่อนแอคืออะไร?
ต้นไม้ตัดสินใจดูเหมือนจะเป็นวิธีการเรียนรู้ด้วยเครื่องที่เข้าใจได้ง่ายมาก เมื่อสร้างแล้วสามารถตรวจสอบได้ง่ายโดยมนุษย์ซึ่งเป็นข้อได้เปรียบที่ดีในการใช้งานบางอย่าง อะไรคือจุดอ่อนด้านการปฏิบัติของต้นไม้การตัดสินใจ?

2
มีช่วงความเชื่อมั่นที่ไม่ใช่พารามิเตอร์ที่เชื่อถือได้สำหรับค่าเฉลี่ยของการแจกแจงแบบเบ้หรือไม่?
การแจกแจงแบบเบ้อย่างมากเช่นบันทึกปกติไม่ส่งผลให้ช่วงความมั่นใจในการบูตที่ถูกต้องแม่นยำ นี่คือตัวอย่างที่แสดงว่าบริเวณหางด้านซ้ายและขวาอยู่ห่างจากอุดมคติในอุดมคติ 0.025 ไม่ว่าคุณจะลองใช้วิธีบูตสแตรปแบบใดใน R: require(boot) n <- 25 B <- 1000 nsim <- 1000 set.seed(1) which <- c('basic', 'perc', 'norm', 'bca', 'stud') mul <- 0; sdl <- 1.65 # on log scale dist <- c('normal', 'lognormal')[2] switch(dist, normal = {g <- function(x) x; mu <- mul}, lognormal = {g …

1
สัญชาตญาณเบื้องหลังการโต้ตอบของผลิตภัณฑ์เทนเซอร์ในเกม (แพ็คเกจ MGCV ใน R)
ทั่วไปรุ่นสารเติมแต่งเป็นคนที่ ตัวอย่างเช่น ฟังก์ชั่นนั้นราบรื่นและสามารถประเมินได้ มักจะถูกลงโทษโดยเส้นโค้ง MGCV เป็นแพ็คเกจใน R ที่ทำเช่นนั้นและผู้แต่ง (Simon Wood) เขียนหนังสือเกี่ยวกับแพ็คเกจของเขาด้วยตัวอย่าง R Ruppert และคณะ (2003) เขียนหนังสือที่เข้าถึงได้ง่ายขึ้นเกี่ยวกับสิ่งที่เรียบง่ายกว่าในสิ่งเดียวกัน y=α+f1(x1)+f2(x2)+eiy=α+f1(x1)+f2(x2)+ei y = \alpha + f_1(x_1) + f_2(x_2) + e_i คำถามของฉันเกี่ยวกับการโต้ตอบภายในแบบจำลองเหล่านี้ ถ้าฉันต้องการทำสิ่งต่อไปนี้: ถ้าเราอยู่ในดินแดน OLS (ที่เป็นเพียงเบต้า) ผมไม่มีปัญหากับการตีความ\หากเราประเมินผ่านเดอร์ไลน์ที่ถูกลงโทษฉันก็ไม่มีปัญหากับการตีความในบริบทเพิ่มเติม ฉฉ 3y=α+f1(x1)+f2(x2)+f3(x1×x2)+eiy=α+f1(x1)+f2(x2)+f3(x1×x2)+ei y = \alpha + f_1(x_1) + f_2(x_2) + f_3(x_1\times x_2) + e_i ffff^3f^3\hat{f}_3 แต่แพ็คเกจ MGCV ใน …

3
R: การสุ่มฟอเรสต์การโยน NaN / Inf ในข้อผิดพลาด“ การเรียกฟังก์ชันต่างประเทศ” แม้จะไม่มีชุดข้อมูลของ NaN [ปิด]
ฉันใช้คาเร็ตเพื่อรันฟอเรสต์แบบสุ่มที่ผ่านการตรวจสอบความถูกต้องข้ามชุดข้อมูล ตัวแปร Y เป็นปัจจัย ไม่มีชุดข้อมูลของ NaN, Inf's หรือ NA ในชุดข้อมูลของฉัน อย่างไรก็ตามเมื่อใช้ป่าสุ่มฉันได้รับ Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs …

3
การใช้งานเชิงประจักษ์ของความเป็นไปได้เชิงประจักษ์มีอะไรบ้าง
ฉันเคยได้ยินความน่าจะเป็นเชิงประจักษ์ของโอเว่น แต่จนกระทั่งเมื่อไม่นานมานี้มันก็ไม่ต้องสนใจจนกระทั่งฉันเจอมันในกระดาษดอกเบี้ย ( Mengersen et al. 2012 ) ในความพยายามของฉันที่จะเข้าใจฉันได้รวบรวมว่าโอกาสที่ข้อมูลที่สังเกตได้จะแสดงเป็น ที่และ0L=∏ipi=∏iP(Xi=x)=∏iP(Xi≤x)−P(Xi<x)L=∏ipi=∏iP(Xi=x)=∏iP(Xi≤x)−P(Xi<x)L = \prod_i p_i = \prod_i P(X_i=x) = \prod_i P(X_i \le x) - P(X_i \lt x)∑ipi=1∑ipi=1\sum_i p_i = 1pi>0pi>0p_i > 0 อย่างไรก็ตามฉันไม่สามารถทำให้การก้าวกระโดดทางจิตที่เชื่อมโยงการเป็นตัวแทนนี้กับวิธีที่มันสามารถใช้ในการอ้างถึงเกี่ยวกับการสังเกต บางทีฉันอาจหยั่งรากเกินไปในการคิดถึงพารามิเตอร์ความน่าจะเป็นของโมเดล ไม่ว่าฉันกำลังค้นหา Google Scholar สำหรับกระดาษบางเล่มที่ใช้โอกาสเชิงประจักษ์ที่จะช่วยฉันกำหนดแนวคิด ... เพื่อประโยชน์ เห็นได้ชัดว่ามีหนังสือของ Art Owen เกี่ยวกับความเป็นไปได้ในเชิงประจักษ์แต่ Google Books หลุดพ้นความน่าเบื่อไปหมดแล้วและฉันยังอยู่ในขั้นตอนการขอสินเชื่อระหว่างห้องสมุดที่ช้า ในขณะเดียวกันใครบางคนสามารถชี้แนะฉันไปที่เอกสารและเอกสารที่แสดงให้เห็นอย่างชัดเจนถึงความเป็นไปได้ในเชิงประจักษ์และวิธีการใช้งาน? ตัวอย่างคำอธิบายของ EL ก็ยินดีด้วยเช่นกัน!

3
ทำไมแบบจำลองกระบวนการเกาส์เซียนเรียกว่าไม่ใช่พารามิเตอร์?
ฉันสับสนเล็กน้อย ทำไมกระบวนการแบบเกาส์ที่เรียกว่าตัวแบบไม่ใช่พารามิเตอร์? พวกเขาคิดว่าค่าการทำงานหรือส่วนย่อยของพวกเขามีเกาส์ก่อนหน้าด้วยค่าเฉลี่ย 0 และฟังก์ชันความแปรปรวนร่วมที่กำหนดให้เป็นฟังก์ชั่นเคอร์เนล ฟังก์ชั่นเคอร์เนลเหล่านี้มีพารามิเตอร์บางตัว (เช่นไฮเปอร์พารามิเตอร์) เหตุใดพวกเขาจึงเรียกว่าแบบจำลองที่ไม่ใช่พารามิเตอร์

2
เป็นความจริงที่ว่าวิธีการแบบเบย์ไม่เหมาะสมหรือไม่
เป็นความจริงที่ว่าวิธีการแบบเบย์ไม่เหมาะสมหรือไม่ (ฉันเห็นเอกสารและแบบฝึกหัดที่อ้างสิทธิ์นี้) ตัวอย่างเช่นหากเราใช้กระบวนการแบบเกาส์เซียนกับ MNIST (การจำแนกตัวเลขด้วยลายมือ) แต่แสดงเพียงตัวอย่างเดียวมันจะเปลี่ยนเป็นการกระจายก่อนหน้าสำหรับอินพุตใด ๆ ที่แตกต่างจากตัวอย่างเดี่ยว แต่มีความแตกต่างเล็กน้อยหรือไม่?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.