คำถามติดแท็ก kernel-smoothing

เทคนิคการปรับให้เรียบของเคอร์เนลเช่นการประมาณความหนาแน่นของเคอร์เนล (KDE) และการถดถอยเคอร์เนลของ Nadaraya-Watson ฟังก์ชันการประมาณโดยการแก้ไขท้องถิ่นจากจุดข้อมูล เพื่อไม่ให้สับสนกับ [เคอร์เนลเคล็ดลับ] สำหรับเมล็ดที่ใช้เช่นใน SVM

2
“ เคอร์เนล” ในภาษาอังกฤษธรรมดาคืออะไร
มีประเพณีที่แตกต่างกันหลายประการ: การประมาณความหนาแน่นของเคอร์เนล เคล็ดลับเคอร์เนล เคอร์เนลทำให้เรียบ โปรดอธิบายความหมายของ "เคอร์เนล" ในภาษาอังกฤษด้วยคำพูดของคุณ

4
วิธีการที่ดีสำหรับแปลงความหนาแน่นของตัวแปรที่ไม่เป็นลบใน R?
plot(density(rexp(100)) เห็นได้ชัดว่าความหนาแน่นทั้งหมดทางด้านซ้ายของศูนย์แสดงถึงอคติ ฉันต้องการสรุปข้อมูลบางอย่างสำหรับผู้ที่ไม่ใช่นักสถิติและฉันต้องการหลีกเลี่ยงคำถามเกี่ยวกับสาเหตุที่ข้อมูลที่ไม่ใช่เชิงลบมีความหนาแน่นทางด้านซ้ายของศูนย์ แปลงสำหรับการตรวจสอบแบบสุ่ม ฉันต้องการแสดงการกระจายของตัวแปรโดยกลุ่มการรักษาและกลุ่มควบคุม การแจกแจงแบบ exponential-ish ฮิสโทแกรมมีความซับซ้อนด้วยเหตุผลหลายประการ ค้นหา Google อย่างรวดเร็วทำให้ผมทำงานโดยสถิติในเมล็ดที่ไม่ใช่เชิงลบเช่น: นี้ แต่มีการนำมาใช้ใน R หรือไม่? ของวิธีการดำเนินการใด ๆ ของพวกเขา "ดีที่สุด" อย่างใดสำหรับสถิติเชิงพรรณนา? แก้ไข: แม้ว่าfromคำสั่งสามารถแก้ไขปัญหาปัจจุบันของฉันได้ก็คงจะดีที่จะรู้ว่ามีใครใช้เมล็ดในวรรณคดีโดยใช้การประมาณความหนาแน่นแบบไม่ลบ

2
การเลือกแบนด์วิดท์สำหรับการประมาณความหนาแน่นของเคอร์เนล
สำหรับตัวประมาณความหนาแน่นของเคอร์เนล (KDE) ฉันใช้กฎของ Silverman ในการคำนวณ :ชั่วโมงชั่วโมงh 0.9 นาที( s d, ผมQ R / 1.34 ) × n- 0.20.9นาที(sd,ผมQR/1.34)×n-0.2\begin{equation} 0.9 \min(sd, IQR/1.34)\times n^{-0.2} \end{equation} อะไรคือกฎมาตรฐานสำหรับ KDE หลายตัวแปร (สมมติว่าเคอร์เนลปกติ)

1
“ การประมาณความหนาแน่นของเคอร์เนล” คือการโน้มน้าวใจอะไร
ฉันพยายามทำความเข้าใจเกี่ยวกับการประมาณความหนาแน่นของเคอร์เนลให้ดีขึ้น ใช้คำจำกัดความจาก Wikipedia: https://en.wikipedia.org/wiki/Kernel_density_estimation#Definition ฉชั่วโมง^( x ) = 1nΣni = 1Kชั่วโมง( x - xผม)= 1n ชมΣni = 1K( x - xผมชั่วโมง)fh^(x)=1n∑i=1nKh(x−xi)=1nh∑i=1nK(x−xih) \hat{f_h}(x) = \frac{1}{n}\sum_{i=1}^n K_h (x - x_i) \quad = \frac{1}{nh} \sum_{i=1}^n K\Big(\frac{x-x_i}{h}\Big) ลองเอาไปเป็นฟังก์ชันรูปสี่เหลี่ยมผืนผ้าซึ่งให้1ถ้าxอยู่ระหว่าง- 0.5ถึง0.5และ0มิฉะนั้นและh (ขนาดหน้าต่าง) เป็น 1K( )K()K()111xxx- 0.5−0.5-0.50.50.50.5000hhh ฉันเข้าใจว่าความหนาแน่นนั้นเป็นหน้าที่ของทั้งสองฟังก์ชั่น แต่ฉันไม่แน่ใจว่าฉันรู้วิธีกำหนดฟังก์ชันทั้งสองนี้อย่างไร หนึ่งในนั้นควร (อาจ) เป็นฟังก์ชันของข้อมูลซึ่งสำหรับทุกจุดใน R บอกเราว่ามีจุดข้อมูลจำนวนเท่าใดในตำแหน่งนั้น (ส่วนใหญ่ ) และฟังก์ชั่นอื่น …

2
คุณสามารถอธิบายการประมาณความหนาแน่นของ Parzen window (kernel) ในแง่ของคนธรรมดาได้หรือไม่?
การประเมินความหนาแน่นของหน้าต่าง Parzen อธิบายไว้ดังนี้ p ( x ) = 1nΣi = 1n1ชั่วโมง2ϕ ( xผม- xชั่วโมง)p(x)=1n∑i=1n1h2ϕ(xi−xh) p(x)=\frac{1}{n}\sum_{i=1}^{n} \frac{1}{h^2} \phi \left(\frac{x_i - x}{h} \right) โดยที่คือจำนวนองค์ประกอบในเวกเตอร์,คือเวกเตอร์,คือความหนาแน่นของความน่าจะเป็นของ ,คือขนาดของหน้าต่าง Parzen และเป็นฟังก์ชันของหน้าต่างx p ( x ) x h ϕnnnxxxp ( x )p(x)p(x)xxxชั่วโมงhhφϕ\phi คำถามของฉันคือ: อะไรคือความแตกต่างพื้นฐานระหว่างฟังก์ชั่น Parzen Window และฟังก์ชั่นความหนาแน่นอื่น ๆ เช่นฟังก์ชั่นเกาส์เซียนเป็นต้น ฟังก์ชั่น Window Function ( ) ในการค้นหาความหนาแน่นของคืออะไร?xφϕ\phixxx ทำไมเราสามารถเสียบฟังก์ชั่นความหนาแน่นอื่น ๆ …

4
วิธีการฉายเวกเตอร์ใหม่บนพื้นที่ PCA?
หลังจากทำการวิเคราะห์องค์ประกอบหลัก (PCA) ฉันต้องการฉายเวกเตอร์ใหม่ลงบนพื้นที่ PCA (เช่นค้นหาพิกัดในระบบพิกัด PCA) ผมได้คำนวณ PCA ในภาษา R prcompโดยใช้ ตอนนี้ฉันควรคูณเวกเตอร์ของฉันด้วยเมทริกซ์การหมุน PCA ควรจัดองค์ประกอบหลักในเมทริกซ์นี้เป็นแถวหรือคอลัมน์?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

2
หากเคอร์เนล Epanechnikov เหมาะสมที่สุดในทางทฤษฎีเมื่อทำการประมาณค่าความหนาแน่นเคอร์เนลทำไมจึงไม่ใช้บ่อยกว่านี้
ฉันได้อ่าน (เช่นที่นี่ ) ว่าเคอร์เนล Epanechnikov เหมาะสมที่สุดอย่างน้อยก็ในทางทฤษฎีเมื่อทำการประมาณความหนาแน่นของเคอร์เนล หากเป็นจริงแล้วทำไมเกาส์เซียนถึงปรากฏบ่อยขึ้นในฐานะเคอร์เนลเริ่มต้นหรือในหลาย ๆ กรณีเป็นเคอร์เนลเพียงตัวเดียวในไลบรารีการประเมินความหนาแน่น

2
หากความกว้างของเคอร์เนลตัวแปรมักจะดีสำหรับการถดถอยของเคอร์เนลทำไมพวกเขาถึงไม่ดีสำหรับการประมาณความหนาแน่นของเคอร์เนล?
คำถามนี้เป็นคำถามได้รับแจ้งจากที่อื่น ๆ การอภิปราย เมล็ดแปรผันมักใช้ในการถดถอยแบบท้องถิ่น ตัวอย่างเช่นเหลืองถูกนำมาใช้กันอย่างแพร่หลายและทำงานได้ดีเช่นเดียวกับการถดถอยนุ่มนวลและขึ้นอยู่กับเคอร์เนลของความกว้างของตัวแปรที่ปรับให้เหมาะกับข้อมูล sparsity ในทางตรงกันข้ามเมล็ดแปรผันมักจะคิดว่านำไปสู่การประมาณค่าที่ไม่ดีในการประมาณความหนาแน่นของเคอร์เนล (ดูTerrell and Scott, 1992 ) มีเหตุผลที่เข้าใจง่ายว่าทำไมพวกเขาจะทำงานได้ดีสำหรับการถดถอย แต่ไม่ใช่สำหรับการประเมินความหนาแน่น?

1
สัญชาตญาณของตัวอย่างที่แลกเปลี่ยนได้ภายใต้สมมติฐานว่างคืออะไร
การทดสอบการเปลี่ยนรูป (เรียกอีกอย่างว่าการทดสอบแบบสุ่มการทดสอบแบบสุ่มอีกครั้งหรือการทดสอบที่แน่นอน) มีประโยชน์มากและมีประโยชน์เมื่อสมมติฐานของการแจกแจงปกติที่ต้องการโดยตัวอย่างเช่นt-testไม่พบและเมื่อการเปลี่ยนแปลงของค่าโดยการจัดอันดับ การทดสอบแบบไม่มีพารามิเตอร์Mann-Whitney-U-testจะนำไปสู่การสูญเสียข้อมูลมากขึ้น อย่างไรก็ตามไม่ควรมองข้ามสมมุติฐานข้อเดียวและข้อเดียวเพียงข้อเดียวเมื่อใช้การทดสอบชนิดนี้คือข้อสมมติฐานของความสามารถแลกเปลี่ยนได้ของตัวอย่างภายใต้สมมติฐานว่าง เป็นที่น่าสังเกตว่าวิธีการแบบนี้สามารถใช้ได้เมื่อมีตัวอย่างมากกว่าสองตัวอย่างเช่นสิ่งที่นำไปใช้ในcoinแพ็คเกจ R คุณช่วยกรุณาใช้ภาษาที่เป็นรูปเป็นร่างหรือปรีชาเชิงแนวคิดในภาษาอังกฤษธรรมดาเพื่อแสดงสมมติฐานนี้ได้หรือไม่? นี่จะมีประโยชน์มากในการอธิบายปัญหาที่ถูกมองข้ามในหมู่ผู้ที่ไม่ใช่นักสถิติเช่นฉัน หมายเหตุ: จะเป็นประโยชน์อย่างมากหากพูดถึงกรณีที่การใช้การทดสอบการเปลี่ยนแปลงไม่ถือหรือไม่ถูกต้องภายใต้สมมติฐานเดียวกัน ปรับปรุง: สมมติว่าฉันมี 50 วิชาที่รวบรวมจากคลินิกท้องถิ่นในเขตของฉันโดยการสุ่ม พวกเขาถูกสุ่มให้รับยาหรือยาหลอกในอัตราส่วน 1: 1 พวกเขาทั้งหมดถูกวัดสำหรับ Paramerter 1 Par1ที่ V1 (พื้นฐาน), V2 (3 เดือนต่อมา) และ V3 (1 ปีต่อมา) วิชาทั้งหมด 50 กลุ่มสามารถแบ่งเป็น 2 กลุ่มตามคุณสมบัติ A; ค่าบวก = 20 และค่าลบ = 30 นอกจากนี้ยังสามารถจัดกลุ่มย่อยได้อีก 2 กลุ่มตามคุณลักษณะ B; B positive = …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
พื้นที่ภายใต้“ pdf” ในการประมาณความหนาแน่นของเคอร์เนลใน R
ฉันพยายามใช้ฟังก์ชัน ' ความหนาแน่น ' ใน R เพื่อทำการประมาณความหนาแน่นของเคอร์เนล ฉันมีความยากลำบากการตีความผลและเปรียบเทียบชุดข้อมูลต่างๆที่ดูเหมือนว่าพื้นที่ใต้เส้นโค้งไม่จำเป็นต้อง 1. สำหรับใด ๆฟังก์ชั่นความหนาแน่นของความน่าจะเป็น (PDF) , เราจำเป็นต้องมีพื้นที่∫ ∞ - ∞ φ ( x ) d x = 1 ฉันสมมติว่าการประมาณความหนาแน่นของเคอร์เนลรายงาน pdf ฉันใช้integrate.xyจากsfsmiscเพื่อประเมินพื้นที่ใต้เส้นโค้งϕ ( x )φ(x)\phi(x)∫∞- ∞ϕ ( x ) dx = 1∫-∞∞φ(x)dx=1\int_{-\infty}^\infty \phi(x) dx = 1 > # generate some data > xx<-rnorm(10000) > …

3
วิธีการคำนวณการทับซ้อนระหว่างความหนาแน่นของความน่าจะเป็นเชิงประจักษ์
ฉันกำลังมองหาวิธีการคำนวณพื้นที่ทับซ้อนระหว่างการประมาณความหนาแน่นเคอร์เนลสองตัวใน R เป็นการวัดความคล้ายคลึงกันระหว่างสองตัวอย่าง เพื่อชี้แจงในตัวอย่างต่อไปนี้ฉันจะต้องหาปริมาณของพื้นที่ที่ทับซ้อนกันของสีม่วง: library(ggplot2) set.seed(1234) d <- data.frame(variable=c(rep("a", 50), rep("b", 30)), value=c(rnorm(50), runif(30, 0, 3))) ggplot(d, aes(value, fill=variable)) + geom_density(alpha=.4, color=NA) มีการอภิปรายคำถามที่คล้ายกันที่นี่ความแตกต่างที่ฉันต้องทำสำหรับข้อมูลเชิงประจักษ์โดยพลการมากกว่าการแจกแจงปกติที่กำหนดไว้ล่วงหน้า overlapแพคเกจที่อยู่คำถามนี้ แต่เห็นได้ชัดเฉพาะข้อมูลการประทับเวลาซึ่งไม่ทำงานสำหรับฉัน ดัชนี Bray-Curtis (ตามการนำไปใช้ในฟังก์ชั่นveganของบรรจุภัณฑ์vegdist(method="bray")) ก็มีความเกี่ยวข้องเช่นกัน แต่สำหรับข้อมูลที่แตกต่างกันบ้าง ฉันสนใจทั้งวิธีการทางทฤษฎีและฟังก์ชัน R ที่ฉันอาจใช้เพื่อนำไปใช้

1
วิธีการวาดตัวอย่างแบบสุ่มจากการกระจายโดยประมาณที่ไม่ใช่พารามิเตอร์
ฉันมีตัวอย่าง 100 คะแนนที่ต่อเนื่องและเป็นหนึ่งมิติ ฉันประเมินความหนาแน่นแบบไม่อิงพารามิเตอร์โดยใช้วิธีเคอร์เนล ฉันจะสุ่มตัวอย่างจากการแจกแจงโดยประมาณนี้ได้อย่างไร

1
มีแบนด์วิดธ์ที่เหมาะสมที่สุดสำหรับการประมาณความหนาแน่นเคอร์เนลของอนุพันธ์หรือไม่?
ฉันต้องการประเมินฟังก์ชันความหนาแน่นตามชุดการสังเกตโดยใช้ตัวประมาณความหนาแน่นของเคอร์เนล จากการสังเกตเดียวกันฉันต้องประเมินอนุพันธ์อันดับหนึ่งและสองของความหนาแน่นโดยใช้อนุพันธ์ของเครื่องประมาณความหนาแน่นเคอร์เนล แบนด์วิดท์จะมีผลอย่างมากจากผลลัพธ์สุดท้าย ก่อนอื่นฉันรู้ว่ามีฟังก์ชั่น R สองตัวที่ให้แบนด์วิดท์ของ KDE ฉันไม่แน่ใจว่าจะเลือกอันไหนมากกว่า ใครช่วยแนะนำหนึ่งในฟังก์ชั่น R เหล่านี้สำหรับแบนด์วิดธ์ของ KDE ได้หรือไม่? ประการที่สองสำหรับอนุพันธ์ของ KDE ฉันควรเลือกแบนด์วิดธ์เดียวกันหรือไม่

1
Kernel Bandwidth: กฎของ Scott กับ Silverman
ทุกคนสามารถอธิบายเป็นภาษาอังกฤษธรรมดาได้ว่าอะไรคือความแตกต่างระหว่างกฎของหัวแม่มือของ Scott และ Silverman สำหรับการเลือกแบนด์วิดธ์? โดยเฉพาะเมื่อใดจะดีกว่าอีก มันเกี่ยวข้องกับการกระจายต้นแบบหรือไม่? จำนวนตัวอย่าง? PS ผมหมายถึงรหัสใน SciPy

3
การประมาณความหนาแน่นมีประโยชน์ที่ไหน?
หลังจากผ่านการทดสอบทางคณิตศาสตร์สั้น ๆ เล็กน้อยฉันคิดว่าฉันมีสัญชาตญาณเล็กน้อยในการประมาณความหนาแน่นของเคอร์เนล แต่ฉันก็ทราบด้วยว่าการประมาณความหนาแน่นหลายตัวแปรสำหรับตัวแปรมากกว่าสามตัวอาจไม่ใช่ความคิดที่ดีในแง่ของคุณสมบัติทางสถิติของตัวประมาณค่า ดังนั้นในสถานการณ์ประเภทใดที่ฉันควรจะประเมินพูดความหนาแน่นของตัวแปรที่แยกจากกันโดยใช้วิธีการที่ไม่ใช้พารามิเตอร์? มันมีค่าพอที่จะเริ่มกังวลเกี่ยวกับการประมาณค่าสำหรับตัวแปรมากกว่าสองตัวหรือไม่? หากคุณสามารถชี้ไปที่ลิงค์ที่มีประโยชน์เกี่ยวกับการประยุกต์ใช้การประมาณค่าความหนาแน่นหลายตัวแปรนั้นจะดีมาก

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.