คำถามติดแท็ก nonparametric

ใช้แท็กนี้เพื่อสอบถามเกี่ยวกับลักษณะของวิธีการแบบไม่มีพารามิเตอร์หรือแบบพารามิเตอร์หรือความแตกต่างระหว่างทั้งสอง โดยทั่วไปแล้ววิธีการที่ไม่ใช่พารามิเตอร์ขึ้นอยู่กับสมมติฐานบางอย่างเกี่ยวกับการแจกแจงต้นแบบในขณะที่วิธีการพารามิเตอร์ทำสมมติฐานที่ช่วยให้ข้อมูลที่จะอธิบายด้วยพารามิเตอร์จำนวนน้อย

1
มีแบนด์วิดธ์ที่เหมาะสมที่สุดสำหรับการประมาณความหนาแน่นเคอร์เนลของอนุพันธ์หรือไม่?
ฉันต้องการประเมินฟังก์ชันความหนาแน่นตามชุดการสังเกตโดยใช้ตัวประมาณความหนาแน่นของเคอร์เนล จากการสังเกตเดียวกันฉันต้องประเมินอนุพันธ์อันดับหนึ่งและสองของความหนาแน่นโดยใช้อนุพันธ์ของเครื่องประมาณความหนาแน่นเคอร์เนล แบนด์วิดท์จะมีผลอย่างมากจากผลลัพธ์สุดท้าย ก่อนอื่นฉันรู้ว่ามีฟังก์ชั่น R สองตัวที่ให้แบนด์วิดท์ของ KDE ฉันไม่แน่ใจว่าจะเลือกอันไหนมากกว่า ใครช่วยแนะนำหนึ่งในฟังก์ชั่น R เหล่านี้สำหรับแบนด์วิดธ์ของ KDE ได้หรือไม่? ประการที่สองสำหรับอนุพันธ์ของ KDE ฉันควรเลือกแบนด์วิดธ์เดียวกันหรือไม่

3
วิธีการปรับขนาดไวโอลินสำหรับการเปรียบเทียบ?
ฉันกำลังพยายามวาดไวโอลินและสงสัยว่ามีวิธีปฏิบัติที่ดีที่สุดที่ยอมรับได้สำหรับการปรับขนาดพวกมันข้ามกลุ่มหรือไม่ นี่คือสามตัวเลือกที่ฉันได้ลองใช้mtcarsชุดข้อมูลR (Motor Trend Cars จากปี 1973 พบได้ที่นี่ ) ความกว้างเท่ากัน ดูเหมือนจะเป็นสิ่งที่กระดาษต้นฉบับ * ทำและสิ่งที่ R vioplotทำ ( ตัวอย่าง ) ดีสำหรับการเปรียบเทียบรูปร่าง พื้นที่ที่เท่าเทียมกัน ให้ความรู้สึกถูกต้องเนื่องจากแต่ละพล็อตเป็นพล็อตความน่าจะเป็นดังนั้นพื้นที่ของแต่ละอันควรเท่ากับ 1.0 ในพื้นที่ประสานงานบางแห่ง ดีสำหรับการเปรียบเทียบความหนาแน่นภายในแต่ละกลุ่ม แต่ดูเหมือนจะเหมาะสมกว่าหากมีการวางทับ พื้นที่ถ่วงน้ำหนัก ชอบพื้นที่เท่ากัน แต่ถ่วงน้ำหนักตามจำนวนการสังเกต 6 สูบค่อนข้างบางลงเนื่องจากมีรถยนต์น้อยกว่า ดีสำหรับการเปรียบเทียบความหนาแน่นข้ามกลุ่ม * พล็อตไวโอลิน: Synergis พล็อตกล่องความหนาแน่นของการติดตาม (DOI: 10.2307 / 2685478)

1
เหตุใดจึงใช้ bootstrap แบบพารามิเตอร์
ขณะนี้ฉันกำลังพยายามทำให้บางสิ่งบางอย่างเกี่ยวกับ bootstrap ของพารามิเตอร์ สิ่งต่าง ๆ ส่วนใหญ่อาจไม่สำคัญ แต่ฉันก็ยังคิดว่าฉันอาจพลาดอะไรบางอย่างไป สมมติว่าฉันต้องการรับช่วงความมั่นใจสำหรับข้อมูลโดยใช้ขั้นตอนการบูตพารามิเตอร์ ดังนั้นฉันมีตัวอย่างนี้และฉันถือว่าการกระจายตัวตามปกติ ฉันก็จะประเมินความแปรปรวนและค่าเฉลี่ยและได้รับการกระจายของฉันประมาณการซึ่งจะเห็นได้ชัดเพียง{V}) เอ็ม พีเอ็น(ม. ,วี )โวลต์^v^\hat{v}ม.^m^\hat{m}P^P^\hat{P}ยังไม่มีข้อความ( ม^, v^)N(m^,v^)N(\hat{m},\hat{v}) แทนที่จะสุ่มตัวอย่างจากการแจกแจงนั้นฉันก็สามารถคำนวณควอนไทล์เชิงวิเคราะห์และทำได้ a) ฉันสรุป: ในกรณีที่ไม่สำคัญนี้ bootstrap แบบพารามิเตอร์จะเหมือนกับการคำนวณสิ่งต่าง ๆ ในการแจกแจงแบบปกติ? ในทางทฤษฎีนี่จะเป็นกรณีสำหรับโมเดลบูตสแตรปทั้งหมดตราบใดที่ฉันสามารถจัดการการคำนวณได้ b) ฉันได้ข้อสรุป: การใช้สมมติฐานของการแจกแจงบางอย่างจะทำให้ฉันมีความแม่นยำเป็นพิเศษใน bootstrap แบบพารามิเตอร์เหนือ nonparametric one (ถ้ามันถูกต้องแน่นอน) แต่นอกเหนือจากนั้นฉันแค่ทำเพราะฉันไม่สามารถจัดการกับการคำนวณการวิเคราะห์และไม่พยายามจำลองทางออกของฉัน? c) ฉันจะใช้มันถ้าการคำนวณแบบ "ปกติ" ทำได้โดยใช้การประมาณบางอย่างเพราะนี่อาจทำให้ฉันมีความแม่นยำมากขึ้น ... ? สำหรับฉันประโยชน์ของ bootstrap (ไม่ใช่พารามิเตอร์) ดูเหมือนจะโกหกในความจริงที่ว่าฉันไม่จำเป็นต้องรับการแจกจ่ายใด ๆ สำหรับ bootstrap แบบพาราเมตริกที่หายไป - หรือมีสิ่งที่ฉันพลาดและตำแหน่ง …

3
การประมาณความหนาแน่นมีประโยชน์ที่ไหน?
หลังจากผ่านการทดสอบทางคณิตศาสตร์สั้น ๆ เล็กน้อยฉันคิดว่าฉันมีสัญชาตญาณเล็กน้อยในการประมาณความหนาแน่นของเคอร์เนล แต่ฉันก็ทราบด้วยว่าการประมาณความหนาแน่นหลายตัวแปรสำหรับตัวแปรมากกว่าสามตัวอาจไม่ใช่ความคิดที่ดีในแง่ของคุณสมบัติทางสถิติของตัวประมาณค่า ดังนั้นในสถานการณ์ประเภทใดที่ฉันควรจะประเมินพูดความหนาแน่นของตัวแปรที่แยกจากกันโดยใช้วิธีการที่ไม่ใช้พารามิเตอร์? มันมีค่าพอที่จะเริ่มกังวลเกี่ยวกับการประมาณค่าสำหรับตัวแปรมากกว่าสองตัวหรือไม่? หากคุณสามารถชี้ไปที่ลิงค์ที่มีประโยชน์เกี่ยวกับการประยุกต์ใช้การประมาณค่าความหนาแน่นหลายตัวแปรนั้นจะดีมาก

2
การวิเคราะห์กำลังไฟสำหรับการทดสอบ Kruskal-Wallis หรือ Mann-Whitney U โดยใช้ R?
เป็นไปได้ไหมที่จะทำการวิเคราะห์พลังงานสำหรับการทดสอบ Kruskal-Wallis และ Mann-Whitney U? ถ้าใช่จะมีแพ็คเกจ / ฟังก์ชั่น R ใดบ้างที่ใช้งานได้?

2
การบังคับใช้การทดสอบไคสแควร์ถ้าเซลล์จำนวนมากมีความถี่น้อยกว่า 5
เพื่อค้นหาความสัมพันธ์ระหว่างการสนับสนุนของเพื่อน (ตัวแปรอิสระ) และความพึงพอใจในการทำงาน (ตัวแปรตาม) ฉันต้องการใช้การทดสอบไคสแควร์ การสนับสนุนของเพื่อนคือหมวดหมู่ในสี่กลุ่มตามขอบเขตของการสนับสนุน: 1 = ขอบเขตที่น้อยมาก 2 = บางส่วน 3 = ถึงมากและ 4 = ถึงระดับที่ดีมาก ความพึงพอใจในการทำงานคือหมวดหมู่เป็นสอง: 0 = ไม่พอใจและ 1 = พอใจ ผลลัพธ์ SPSS บอกว่าความถี่เซลล์ 37.5 เปอร์เซ็นต์น้อยกว่า 5 ขนาดตัวอย่างของฉันคือ 101 และฉันไม่ต้องการลดหมวดหมู่ในตัวแปรอิสระให้มีจำนวนน้อยลง ในสถานการณ์นี้มีการทดสอบอื่นใดที่สามารถนำไปใช้เพื่อทดสอบการเชื่อมโยงนี้ได้หรือไม่

1
ทำไมความสัมพันธ์จึงยากนักในสถิติที่ไม่มีพารามิเตอร์
ข้อความที่ไม่ใช่พารามิเตอร์ของฉัน, สถิติ Nonparametric เชิงปฏิบัติของฉันมักจะให้สูตรที่สะอาดสำหรับการคาดหวังความแปรปรวนสถิติการทดสอบและสิ่งที่คล้ายกัน แต่รวมถึงข้อแม้ที่ใช้งานได้เฉพาะถ้าเราไม่สนใจความสัมพันธ์ เมื่อทำการคำนวณสถิติ Mann-Whitney U ขอแนะนำให้คุณโยนคู่ที่ผูกเมื่อเปรียบเทียบซึ่งใหญ่กว่า ฉันได้รับความสัมพันธ์นั้นไม่ได้บอกอะไรเราจริงๆเกี่ยวกับประชากรที่ใหญ่กว่า (ถ้านั่นคือสิ่งที่เราสนใจ) เนื่องจากไม่มีกลุ่มใดที่ใหญ่กว่ากลุ่มอื่น ๆ แต่ดูเหมือนว่ามันจะไม่สำคัญสำหรับการพัฒนาการแจกแจงแบบเชิงกำกับ ทำไมจึงเป็นเช่นนี้ความไม่แน่นอนในการจัดการความสัมพันธ์ในขั้นตอนที่ไม่ใช่พารามิเตอร์บางอย่าง? มีวิธีการดึงข้อมูลที่เป็นประโยชน์ใด ๆ จากความสัมพันธ์มากกว่าเพียงแค่ทิ้งพวกเขาไปหรือไม่? แก้ไข: ในส่วนที่เกี่ยวกับความเห็นของ @ whuber ฉันได้ตรวจสอบแหล่งที่มาของฉันอีกครั้งและบางขั้นตอนใช้ค่าเฉลี่ยของอันดับแทนที่จะลดค่าที่ผูกไว้อย่างสมบูรณ์ ในขณะนี้ดูเหมือนจะมีเหตุผลมากขึ้นในการอ้างอิงถึงการเก็บรักษาข้อมูล แต่สำหรับฉันแล้วมันก็ยังขาดความแม่นยำเช่นกัน อย่างไรก็ตามจิตวิญญาณของคำถามยังคงอยู่

3
ทำไมประสิทธิภาพเชิงสัมพัทธ์ของซีมโทติคของการทดสอบ Wilcoxon
มันเป็นที่รู้จักกันดีว่าประสิทธิภาพญาติ asymptotic (เป็น) ของ Wilcoxon ลงนามในการทดสอบยศเป็นเมื่อเทียบกับนักศึกษาของT -test ถ้าข้อมูลจะถูกดึงออกมาจากประชากรกระจายตามปกติ สิ่งนี้เป็นจริงสำหรับทั้งการทดสอบหนึ่งตัวอย่างขั้นพื้นฐานและตัวแปรสำหรับสองตัวอย่างอิสระ (Wilcoxon-Mann-Whitney U) นอกจากนี้ยังเป็นส่วนของการทดสอบ Kruskal-Wallis เมื่อเทียบกับ ANOVA F -test สำหรับข้อมูลปกติ3π≈ 0.9553π≈0.955\frac{3}{\pi} \approx 0.955 สิ่งนี้น่าทึ่ง (สำหรับฉันซึ่งเป็นหนึ่งใน " ลักษณะที่ไม่คาดคิดที่สุดของππ\pi ") และผลลัพธ์ที่เรียบง่ายอย่างน่าทึ่งมีหลักฐานที่ลึกซึ้งน่าทึ่งหรือเรียบง่าย

1
อะไรคือชื่อของวิธีการประมาณความหนาแน่นที่คู่ที่เป็นไปได้ทั้งหมดถูกใช้เพื่อสร้างการกระจายแบบผสมปกติ?
ฉันแค่คิดถึงวิธีที่เป็นระเบียบเรียบร้อย (ไม่จำเป็นต้องดี) ในการสร้างความหนาแน่นมิติหนึ่งและคำถามของฉันคือ: วิธีการประมาณความหนาแน่นนี้มีชื่อหรือไม่? ถ้าไม่ใช่มันเป็นกรณีพิเศษของวิธีอื่นในวรรณคดีหรือไม่? นี่คือวิธีการที่เรามีเวกเตอร์ซึ่งเราสันนิษฐานว่ามาจากการแจกแจงที่ไม่รู้จักที่เราต้องการประเมิน วิธีการทำเช่นนี้คือการใช้ค่าที่เป็นไปได้ทั้งหมดในXและสำหรับแต่ละคู่[ x i , x j ] i ≠ jเหมาะสมกับการแจกแจงแบบปกติโดยใช้โอกาสสูงสุด การประมาณความหนาแน่นของผลลัพธ์คือการกระจายตัวของส่วนผสมที่ประกอบด้วย Normals ที่ได้ทั้งหมดซึ่งแต่ละ Normal จะได้รับน้ำหนักเท่ากันX= [ x1, x2, . . . , xn]X=[x1,x2,...,xn]X = [x_1,x_2,...,x_n]XXX[ xผม, xJ]ฉัน≠ j[xi,xj]i≠j[x_i,x_j]_{i \neq j} รูปด้านล่างแสดงให้เห็นถึงการใช้วิธีนี้ในเวกเตอร์ ] ที่นี่วงกลมคือ datapoints, Normals สีคือการแจกแจงความน่าจะเป็นสูงสุดที่ประมาณโดยใช้แต่ละคู่ที่เป็นไปได้และเส้นสีดำหนาแสดงการประมาณความหนาแน่นที่เกิดขึ้น (นั่นคือการกระจายตัวของผสม)[ - 1.3 , 0.15 , 0.73 , …

5
จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
หากการทดสอบพารามิเตอร์ใดไม่ปฏิเสธโมฆะทางเลือกที่ไม่ใช่พารามิเตอร์ของมันจะทำเช่นเดียวกันหรือไม่?
หากการทดสอบแบบไม่มีพารามิเตอร์นั้นถือว่ามีพลังงานน้อยกว่าทางเลือกแบบพารามิเตอร์นี่หมายความว่าหากการทดสอบแบบพารามิเตอร์ใด ๆ ไม่ปฏิเสธโมฆะตัวเลือกที่ไม่ใช่แบบพาราเมตริกก็ไม่ปฏิเสธโมฆะด้วย? การเปลี่ยนแปลงนี้จะเกิดขึ้นได้อย่างไรหากข้อสันนิษฐานของการทดสอบแบบพารามิเตอร์ไม่เป็นไปตามข้อกำหนดและจะใช้การทดสอบต่อไป

6
การวัดที่แข็งแกร่ง (ไม่ใช่พารามิเตอร์) เช่นค่าสัมประสิทธิ์การแปรผัน - IQR / ค่ามัธยฐานหรือทางเลือก?
สำหรับชุดข้อมูลที่กำหนดการแพร่กระจายมักจะคำนวณเช่นค่าเบี่ยงเบนมาตรฐานหรือเป็น IQR (ช่วงควอไทล์ระหว่าง) ในขณะที่ a standard deviationอยู่ในเกณฑ์ปกติ (คะแนน z, ฯลฯ ) และสามารถนำมาใช้เพื่อเปรียบเทียบการแพร่กระจายจากประชากรสองกลุ่มที่แตกต่างกันนี่ไม่ใช่กรณีที่มี IQR เนื่องจากตัวอย่างจากประชากรสองคนที่แตกต่างกันอาจมีค่าในระดับที่แตกต่างกันสองระดับ e.g. Pop A: 100, 67, 89, 75, 120, ... Pop B: 19, 22, 43, 8, 12, ... สิ่งที่ฉันตามมาคือการวัดที่แข็งแกร่ง (ไม่ใช่พารามิเตอร์) ที่ฉันสามารถใช้เพื่อเปรียบเทียบการเปลี่ยนแปลงภายในประชากรที่แตกต่างกัน ทางเลือกที่ 1: IQR / Median- นี้จะเป็นโดยการเปรียบเทียบกับค่าสัมประสิทธิ์ของการเปลี่ยนแปลงคือการหมู่}σμσμ \frac{\sigma}{\mu} ตัวเลือก 2: Range / IQR คำถาม: มาตรการใดที่มีความหมายมากขึ้นสำหรับการเปรียบเทียบความแปรปรวนระหว่างประชากร? และถ้าเป็นตัวเลือกที่ 1 …

3
มีรุ่นตัวอย่างหลายตัวหรือเป็นทางเลือกในการทดสอบ Kolmogorov-Smirnov หรือไม่
ฉันกำลังเปรียบเทียบการกระจายขนาดของต้นไม้ในหกคู่แปลงที่หนึ่งแปลงได้รับการรักษาและอื่น ๆ ควบคุม โดยใช้การทดสอบ Kolmogorov-Smirnov คู่ของแปลงแต่ละผมพบว่าช่วงที่จะ0.75มีวิธีการที่เหมาะสมในการจัดการกับข้อมูลซ้ำทั้งหมดหรือไม่เช่นการทดสอบหลายตัวอย่างของการทดสอบ KS หรือมีการทดสอบติดตามที่เหมาะสมหรือไม่? หรือฉันควรสรุปบางอย่างเช่น "การกระจายขนาดแตกต่างกันอย่างมีนัยสำคัญ ) ใน 2 คู่ของแปลงและเล็กน้อย ( ) ในหนึ่งคู่ของแปลง"ppp0.00037070.00037070.00037070.750.750.75(p&lt;0.05(p&lt;0.05(p < 0.05p=0.59p=0.59p = 0.59

2
วิธีการจัดการกับผลกระทบเพดานเนื่องจากเครื่องมือวัด?
ฉันได้รวบรวมข้อมูลทางจิตวิทยาจิตวิทยาที่วัดความสามารถของกลุ่ม (สองกลุ่ม) ในการรับรู้การสั่นสะเทือน โพรบที่สั่นสะเทือนเคลื่อนตัวเข้าหาผิวหนังในตำแหน่งที่เล็กลงและเล็กลงและวัตถุนั้นบ่งชี้ว่าเมื่อพวกเขารู้สึกถึงการสั่นสะเทือน โชคไม่ดีที่ความถี่สูงโพรบสามารถเคลื่อนที่ในระยะทางสั้น ๆ เท่านั้นและบางครั้งระยะทางที่ใหญ่ที่สุดที่โพรบสามารถเคลื่อนที่ยังคงมีขนาดไม่ใหญ่พอสำหรับวัตถุที่จะรับรู้ ดังนั้นฉันจึงมีค่าเกณฑ์ที่แม่นยำสำหรับบางวิชา แต่สำหรับบางคนที่ไม่เคยรู้สึกถึงการสั่นสะเทือนฉันก็มีค่าที่ฉันรู้ว่าเกณฑ์ของพวกเขานั้นยิ่งใหญ่กว่า มีวิธีใดบ้างที่ฉันจะยังคงรวมข้อมูลนี้ไว้ และวิธีที่ดีที่สุดในการวิเคราะห์คืออะไร?

3
ตรวจสอบว่ากระบวนการกระจายแบบเทลด์หนักได้รับการปรับปรุงอย่างมีนัยสำคัญหรือไม่
ฉันสังเกตเวลาประมวลผลของกระบวนการก่อนและหลังการเปลี่ยนแปลงเพื่อค้นหาหากกระบวนการได้รับการปรับปรุงโดยการเปลี่ยนแปลง กระบวนการได้รับการปรับปรุงหากเวลาในการประมวลผลลดลง การกระจายเวลาของการประมวลผลเป็นแบบเทลด์ไขมันดังนั้นการเปรียบเทียบตามค่าเฉลี่ยจึงไม่สมเหตุสมผล แต่ฉันอยากทราบว่าความน่าจะเป็นในการสังเกตเวลาประมวลผลที่ลดลงหลังจากการเปลี่ยนแปลงนั้นสูงกว่า 50% หรือไม่ ให้เป็นตัวแปรสุ่มสำหรับเวลาการประมวลผลหลังจากการเปลี่ยนแปลงและYเป็นหนึ่งก่อน ถ้าP ( X &lt; Y )สูงกว่า0.5อย่างมีนัยสำคัญฉันจะบอกว่ากระบวนการได้รับการปรับปรุงXXXYYYP( X&lt; Y)P(X&lt;Y)P(X < Y)0.50.50.5 ตอนนี้ฉันมีสังเกตx ฉันของXและเมตรสังเกตY ญของY สังเกตน่าจะเป็นของP ( X &lt; Y )คือP = 1nnnxผมxix_iXXXม.mmYJyjy_jYYYP( X&lt; Y)P(X&lt;Y)P(X < Y)Jพี^= 1ไม่มΣผมΣJ1xผม&lt; yJp^=1nm∑i∑j1xi&lt;yj\hat p = \frac{1}{n m} \sum_i \sum_j 1_{x_i < y_j} ฉันจะพูดอะไรเกี่ยวกับได้จากการสังเกตการณ์x iและy j ?P( X&lt; Y)P(X&lt;Y)P(X < …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.