คำถามติดแท็ก smoothing

วิธีการปรับให้เรียบในการวิเคราะห์ข้อมูลเช่น Splines หรือ kernel smoothers ยังถดถอยที่เรียบขึ้นเช่น lowess

3
วิธีการใช้เพียร์สันสหสัมพันธ์อย่างถูกต้องกับอนุกรมเวลา
ฉันมี 2 ซีรีย์ (ราบรื่นทั้งคู่) ที่ฉันอยากจะครอสสัมพันธ์เพื่อดูว่าพวกมันมีความสัมพันธ์กันอย่างไร ฉันตั้งใจจะใช้สัมประสิทธิ์สหสัมพันธ์ของเพียร์สัน สิ่งนี้เหมาะสมหรือไม่ คำถามที่สองของฉันคือฉันสามารถเลือกตัวอย่าง 2 ซีรี่ส์ได้ตามต้องการ เช่นฉันสามารถเลือกจำนวนข้อมูลที่ฉันต้องการเรา สิ่งนี้จะส่งผลต่อสัมประสิทธิ์สหสัมพันธ์ที่ส่งออกหรือไม่ ฉันจำเป็นต้องพิจารณาเรื่องนี้หรือไม่? เพื่อประกอบการอธิบาย option(i) [1, 4, 7, 10] & [6, 9, 6, 9, 6] option(ii) [1,2,3,4,5,6,7,8,9,10] & [6,7,8,9,8,7,6,7,8,9,8,7,6]

2
การเลือกแบนด์วิดท์สำหรับการประมาณความหนาแน่นของเคอร์เนล
สำหรับตัวประมาณความหนาแน่นของเคอร์เนล (KDE) ฉันใช้กฎของ Silverman ในการคำนวณ :ชั่วโมงชั่วโมงh 0.9 นาที( s d, ผมQ R / 1.34 ) × n- 0.20.9นาที(sd,ผมQR/1.34)×n-0.2\begin{equation} 0.9 \min(sd, IQR/1.34)\times n^{-0.2} \end{equation} อะไรคือกฎมาตรฐานสำหรับ KDE หลายตัวแปร (สมมติว่าเคอร์เนลปกติ)

4
ค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนในกรณีขอบคืออะไร?
ความแม่นยำหมายถึง: p = true positives / (true positives + false positives) มันถูกต้องหรือไม่ที่ในฐานะtrue positivesและfalse positivesวิธีที่ 0 ความแม่นยำเข้าใกล้ 1? คำถามเดียวกันสำหรับการเรียกคืน: r = true positives / (true positives + false negatives) ขณะนี้ฉันกำลังใช้การทดสอบทางสถิติที่ฉันต้องการคำนวณค่าเหล่านี้และบางครั้งมันก็เกิดขึ้นที่ตัวส่วนเป็น 0 และฉันสงสัยว่าจะคืนค่าใดให้กับกรณีนี้ PS: ขอโทษแท็กที่ไม่เหมาะสมผมอยากจะใช้recall, precisionและlimitแต่ฉันไม่สามารถสร้างแท็กใหม่ ๆ
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

2
การปรับให้เรียบ - ควรใช้เมื่อใดและเมื่อใด?
มีโพสต์เก่า ๆ บนบล็อกของ William Briggsซึ่งดูที่ข้อผิดพลาดของการทำให้ข้อมูลเรียบและดำเนินการกับข้อมูลที่ราบรื่นผ่านการวิเคราะห์ อาร์กิวเมนต์ที่สำคัญคือ: หากในช่วงเวลาหนึ่งของความบ้าคุณทำข้อมูลอนุกรมเวลาที่ราบรื่นและคุณใช้มันเป็นข้อมูลป้อนเข้าในการวิเคราะห์อื่น ๆ คุณจะเพิ่มโอกาสในการหลอกตัวเองได้อย่างมาก! เพราะนี่คือการทำให้ราบรื่นสัญญาณปลอม - สัญญาณที่ดูสมจริงกับวิธีการวิเคราะห์อื่น ๆ ไม่ว่าคุณจะแน่ใจในผลลัพธ์สุดท้ายของคุณมากเกินไป! อย่างไรก็ตามฉันพยายามดิ้นรนเพื่อหาบทสนทนาที่ครอบคลุมว่าจะราบรื่นหรือไม่และเมื่อใด มันขมวดคิ้วเพียงเพื่อทำให้ราบรื่นเมื่อใช้ข้อมูลที่ทำให้ราบเรียบเป็นข้อมูลการวิเคราะห์อื่น ๆ หรือมีสถานการณ์อื่น ๆ เมื่อไม่แนะนำให้เรียบ? ในทางกลับกันมีสถานการณ์ที่ควรปรับให้เรียบหรือไม่?

2
หากความกว้างของเคอร์เนลตัวแปรมักจะดีสำหรับการถดถอยของเคอร์เนลทำไมพวกเขาถึงไม่ดีสำหรับการประมาณความหนาแน่นของเคอร์เนล?
คำถามนี้เป็นคำถามได้รับแจ้งจากที่อื่น ๆ การอภิปราย เมล็ดแปรผันมักใช้ในการถดถอยแบบท้องถิ่น ตัวอย่างเช่นเหลืองถูกนำมาใช้กันอย่างแพร่หลายและทำงานได้ดีเช่นเดียวกับการถดถอยนุ่มนวลและขึ้นอยู่กับเคอร์เนลของความกว้างของตัวแปรที่ปรับให้เหมาะกับข้อมูล sparsity ในทางตรงกันข้ามเมล็ดแปรผันมักจะคิดว่านำไปสู่การประมาณค่าที่ไม่ดีในการประมาณความหนาแน่นของเคอร์เนล (ดูTerrell and Scott, 1992 ) มีเหตุผลที่เข้าใจง่ายว่าทำไมพวกเขาจะทำงานได้ดีสำหรับการถดถอย แต่ไม่ใช่สำหรับการประเมินความหนาแน่น?

3
ในการปรับให้เรียบของ Kneser-Ney มีการจัดการคำที่มองไม่เห็นอย่างไร
จากสิ่งที่ฉันได้เห็นสูตรการปรับให้เรียบของ Kneser-Ney (ลำดับที่สอง) ไม่ทางใดก็ทางหนึ่ง P2KN(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn)PKN2(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn) \begin{align} P^2_{KN}(w_n|w_{n-1}) &= \frac{\max \left\{ C\left(w_{n-1}, w_n\right) - D, 0\right\}}{\sum_{w'} C\left(w_{n-1}, w'\right)} + \lambda(w_{n-1}) \times P_{cont}(w_n) \end{align} กับ normalizing factorให้เป็นλ(wn−1)λ(wn−1)\lambda(w_{n-1}) λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙)λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙) \begin{align} \lambda(w_{n-1}) &= \frac{D}{\sum_{w'} C\left(w_{n-1}, w'\right)} \times N_{1+}\left(w_{n-1}\bullet\right) \end{align} และความน่าจะเป็นอย่างต่อเนื่องPc o n t( ด้วยn)Pคโอnเสื้อ(Wn)P_{cont}(w_n)ของคำwnWnw_n Pcont(wn)=N1+(∙wn)∑w′N1+(∙w′)Pcont(wn)=N1+(∙wn)∑w′N1+(∙w′) \begin{align} P_{cont}(w_n) &= \frac{N_{1+}\left(\bullet w_{n}\right)}{\sum_{w'} N_{1+}\left(\bullet w'\right)} \end{align} ที่N1+(∙w)N1+(∙w)N_{1+}\left(\bullet …

2
วิธีปรับข้อมูลให้ราบรื่น
ฉันมีข้อมูลบางอย่างที่ฉันต้องการให้ราบเรียบเพื่อให้จุดที่ราบเรียบลดลงแบบ monotonically ข้อมูลของฉันลดลงอย่างรวดเร็วจากนั้นก็เริ่มเป็นที่ราบสูง นี่คือตัวอย่างการใช้ R df <- data.frame(x=1:10, y=c(100,41,22,10,6,7,2,1,3,1)) ggplot(df, aes(x=x, y=y))+geom_line() เทคนิคการปรับให้เรียบแบบไหนที่ฉันสามารถใช้ได้ นอกจากนี้มันคงจะดีถ้าฉันสามารถบังคับให้จุดที่ปรับให้เรียบครั้งที่ 1 ใกล้เคียงกับจุดที่ฉันสังเกตเห็น

1
วิธีปรับแต่งการปรับให้เรียบใน mgcv GAM model
ฉันพยายามหาวิธีควบคุมพารามิเตอร์การปรับให้เรียบใน mgcv: แบบจำลอง gam ฉันมีตัวแปรทวินามฉันกำลังพยายามสร้างแบบจำลองเป็นฟังก์ชันหลักของพิกัด x และ y บนกริดคงที่รวมถึงตัวแปรอื่น ๆ ที่มีอิทธิพลน้อยกว่า ในอดีตฉันได้สร้างรูปแบบการถดถอยในท้องถิ่นที่ดีพอสมควรโดยใช้แพ็คเกจ locfit และค่า (x, y) อย่างไรก็ตามฉันต้องการลองรวมตัวแปรอื่น ๆ เข้ากับโมเดลและดูเหมือนว่าโมเดลเสริมทั่วไป (GAM) มีความเป็นไปได้ที่ดี หลังจากดูแพ็คเกจเกมและ mgcv ซึ่งทั้งสองอย่างมีฟังก์ชั่น GAM ฉันเลือกใช้หลังเนื่องจากมีความคิดเห็นจำนวนมากในเธรดรายการจดหมายดูเหมือนจะแนะนำ ข้อเสียอย่างหนึ่งก็คือดูเหมือนว่ามันจะไม่สนับสนุนการถดถอยในท้องถิ่นอย่างราบรื่นเช่นเหลืองหรือ locfit ในการเริ่มต้นฉันแค่ต้องการลองทำซ้ำประมาณโมเดล locfit โดยใช้เพียงพิกัด (x, y) ฉันลองด้วยการทำให้ผลิตภัณฑ์เรียบเนียนทั้งปกติและเทนเซอร์: my.gam.te <- gam(z ~ te(x, y), family=binomial(logit), data=my.data, scale = -1) my.gam.s <- gam(z ~ s(x, …
14 r  smoothing  mgcv 

4
การปรับข้อมูลอนุกรมเวลาให้ราบรื่น
ฉันกำลังสร้างแอปพลิเคชัน Android ที่บันทึกข้อมูลมาตรวัดความเร็วในระหว่างการนอนหลับเพื่อวิเคราะห์แนวโน้มการนอนหลับและเลือกให้ผู้ใช้ใกล้เวลาที่ต้องการระหว่างการนอนหลับเบา ฉันได้สร้างส่วนประกอบที่รวบรวมและจัดเก็บข้อมูลรวมถึงการเตือนแล้ว ฉันยังต้องจัดการกับสัตว์ร้ายในการแสดงและบันทึกข้อมูลการนอนหลับอย่างมีความหมายและชัดเจนซึ่งเป็นสิ่งที่ควรนำมาใช้ในการวิเคราะห์ด้วย รูปภาพสองสามภาพบอกสองพันคำ: (ฉันสามารถโพสต์ได้เพียงลิงค์เดียวเนื่องจากเป็นตัวแทนต่ำ) นี่คือข้อมูลที่ไม่มีการกรองผลรวมของการเคลื่อนไหวที่รวบรวมในช่วงเวลา 30 วินาที และข้อมูลเดียวกันเรียบเนียนด้วยการแสดงของฉันเองในการเคลื่อนย้ายเฉลี่ยเรียบ แก้ไข) แผนภูมิทั้งสองแสดงถึงการปรับเทียบ - มีตัวกรอง 'สัญญาณรบกวน' ขั้นต่ำและตัวกรองตัดสูงสุดรวมถึงระดับสัญญาณเรียกเตือน (เส้นสีขาว) น่าเสียดายที่สิ่งเหล่านี้ไม่ได้เป็นคำตอบที่ดีที่สุด - ข้อแรกยากที่จะเข้าใจสำหรับผู้ใช้โดยเฉลี่ยและข้อที่สองซึ่งง่ายต่อการเข้าใจซ่อนสิ่งที่เกิดขึ้นมากมาย โดยเฉพาะอย่างยิ่งค่าเฉลี่ยลบรายละเอียดของแหลมในการเคลื่อนไหว - และฉันคิดว่าสิ่งเหล่านั้นมีความหมาย เหตุใดแผนภูมิเหล่านี้ถึงสำคัญมาก ชุดเวลาเหล่านี้จะปรากฏตลอดทั้งคืนเป็นข้อเสนอแนะให้กับผู้ใช้และจะถูกเก็บไว้สำหรับการตรวจสอบ / วิเคราะห์ในภายหลัง การปรับให้เรียบจะช่วยลดค่าใช้จ่ายในหน่วยความจำ (ทั้ง RAM และที่เก็บข้อมูล) และทำให้การแสดงผลเร็วขึ้นสำหรับโทรศัพท์ / อุปกรณ์ที่ขาดแคลนทรัพยากรเหล่านี้ เห็นได้ชัดว่ามีวิธีที่ดีกว่าในการทำให้ข้อมูลราบรื่นขึ้น - ฉันมีความคิดที่คลุมเครือเช่นการใช้การถดถอยเชิงเส้นเพื่อหาการเปลี่ยนแปลง 'คมชัด' ในการเคลื่อนไหว ฉันต้องการคำแนะนำและข้อมูลเพิ่มเติมก่อนที่จะดำดิ่งลงไปในสิ่งที่สามารถแก้ไขได้อย่างเหมาะสมที่สุด ขอบคุณ!

2
ตัวกรองคาลมานจะให้ผลที่ดีกว่าค่าเฉลี่ยเคลื่อนที่อย่างง่ายเมื่อใด
ฉันเพิ่งใช้ตัวกรองคาลมานกับตัวอย่างง่ายๆของการวัดตำแหน่งของอนุภาคด้วยความเร็วและความเร่งแบบสุ่ม ฉันพบว่าตัวกรองคาลมานทำงานได้ดี แต่ฉันถามตัวเองว่าอะไรคือความแตกต่างระหว่างสิ่งนี้กับค่าเฉลี่ยเคลื่อนที่? ฉันพบว่าถ้าฉันใช้หน้าต่างประมาณ 10 ตัวอย่างว่าค่าเฉลี่ยเคลื่อนที่มีประสิทธิภาพสูงกว่าตัวกรองคาลมานและฉันพยายามค้นหาตัวอย่างเมื่อใช้ตัวกรองคาลมานมีข้อได้เปรียบเพียงแค่ใช้ค่าเฉลี่ยเคลื่อนที่ ฉันรู้สึกว่าค่าเฉลี่ยเคลื่อนที่นั้นใช้งานง่ายกว่าตัวกรองคาลมานและคุณสามารถนำไปใช้กับสัญญาณโดยไม่ต้องกังวลเกี่ยวกับกลไกพื้นที่รัฐ ฉันรู้สึกเหมือนขาดอะไรบางอย่างพื้นฐานที่นี่และขอขอบคุณสำหรับความช่วยเหลือที่ผู้อื่นสามารถเสนอได้

5
การหาจุดผันใน R จากข้อมูลที่ราบเรียบ
loessผมมีข้อมูลบางอย่างที่ผมเรียบใช้ ฉันต้องการหาจุดเบี่ยงเบนของเส้นที่เรียบ เป็นไปได้ไหม ฉันแน่ใจว่ามีคนทำวิธีแฟนซีเพื่อแก้ปัญหานี้ ... ฉันหมายถึง ... หลังจากทั้งหมดมันคือ R! ฉันพอใจกับการเปลี่ยนฟังก์ชั่นปรับให้เรียบที่ฉันใช้ ฉันเพิ่งใช้loessเพราะนั่นคือสิ่งที่ฉันเคยใช้ในอดีต แต่ฟังก์ชั่นการปรับให้เรียบนั้นใช้ได้ ฉันรู้ว่าจุดเปลี่ยนผันจะขึ้นอยู่กับฟังก์ชันการปรับให้เรียบที่ฉันใช้ ฉันไม่เป็นไร ฉันต้องการเริ่มต้นด้วยการมีฟังก์ชั่นการปรับให้เรียบซึ่งสามารถช่วยแยกจุดที่ทำให้เกิดการเว้าออกได้ นี่คือรหัสที่ฉันใช้: x = seq(1,15) y = c(4,5,6,5,5,6,7,8,7,7,6,6,7,8,9) plot(x,y,type="l",ylim=c(3,10)) lo <- loess(y~x) xl <- seq(min(x),max(x), (max(x) - min(x))/1000) out = predict(lo,xl) lines(xl, out, col='red', lwd=2)
14 r  smoothing  loess 

2
จะใช้ตัวกรองคาลมานได้อย่างไร
ฉันมีวิถีของวัตถุในพื้นที่ 2 มิติ (พื้นผิว) วิถีที่ได้รับเป็นลำดับของ(x,y)พิกัด ฉันรู้ว่าการวัดของฉันมีเสียงดังและบางครั้งฉันก็มีค่าผิดปกติชัดเจน ดังนั้นฉันต้องการกรองข้อสังเกตของฉัน เท่าที่ฉันเข้าใจตัวกรองคาลมานมันก็ทำสิ่งที่ฉันต้องการ ฉันก็เลยลองใช้ดู ผมพบว่าการดำเนินงานหลามที่นี่ และนี่คือตัวอย่างที่เอกสารประกอบให้: from pykalman import KalmanFilter import numpy as np kf = KalmanFilter(transition_matrices = [[1, 1], [0, 1]], observation_matrices = [[0.1, 0.5], [-0.3, 0.0]]) measurements = np.asarray([[1,0], [0,0], [0,1]]) # 3 observations kf = kf.em(measurements, n_iter=5) (filtered_state_means, filtered_state_covariances) = kf.filter(measurements) (smoothed_state_means, …

2
Laplace smoothing และ Dirichlet มาก่อน
ในบทความวิกิพีเดียเรื่อง Laplace smoothing (หรือการปรับให้เรียบขึ้น) กล่าวกันว่าจากมุมมองแบบเบย์ สิ่งนี้สอดคล้องกับค่าคาดหวังของการแจกแจงหลังโดยใช้การแจกแจง Dirichlet แบบสมมาตรพร้อมพารามิเตอร์เหมือนก่อนαα\alpha ฉันสับสนเกี่ยวกับความจริงที่ว่า ใครช่วยให้ฉันเข้าใจว่าทั้งสองสิ่งนั้นเท่ากัน? ขอบคุณ!

2
แบนด์วิดท์เคอร์เนลในการประมาณความหนาแน่นของเคอร์เนล
ฉันกำลังทำการประมาณค่าความหนาแน่นเคอร์เนลโดยมีการตั้งค่าคะแนนถ่วงน้ำหนัก (เช่น. แต่ละตัวอย่างมีน้ำหนักที่ไม่จำเป็นต้องใช้) ในมิติ N นอกจากนี้ตัวอย่างเหล่านี้อยู่ในพื้นที่เมตริก (เช่น. เราสามารถกำหนดระยะห่างระหว่างพวกเขา) แต่ไม่มีอะไรอื่น ตัวอย่างเช่นเราไม่สามารถหาค่าเฉลี่ยของคะแนนตัวอย่างหรือค่าเบี่ยงเบนมาตรฐานหรือปรับขนาดตัวแปรหนึ่งเมื่อเทียบกับตัวแปรอื่น เคอร์เนลได้รับผลกระทบจากระยะทางนี้และน้ำหนักของตัวอย่างแต่ละตัว: ฉ( x ) = 1∑ w e i gเอชทีเอสผม* Σ W อีฉันกรัมเอชทีผมชั่วโมง∗ Ke r n e l ( dฉันs T n คอี( x , xผม)ชั่วโมง)ฉ(x)=1ΣWอีผมก.ชั่วโมงเสื้อsผม* * * *ΣWอีผมก.ชั่วโมงเสื้อผมชั่วโมง* * * *KอีRnอีล.(dผมsเสื้อanคอี(x,xผม)ชั่วโมง)f(x) = \frac{1.}{\sum weights_i} * \sum\frac{weight_i}{h} * Kernel(\frac{distance(x,x_i)}{h}) ในบริบทนี้ฉันกำลังพยายามที่จะหาการประเมินประสิทธิภาพสำหรับแบนด์วิดธ์เคอร์เนลอาจจะเป็นตำแหน่งที่แตกต่างกันและโดยเฉพาะอย่างยิ่งที่จะช่วยให้การฟื้นฟูที่ถูกต้องในการฝึกอบรมชุดxฉัน …

4
จะรับค่าที่ใช้ใน plot.gam เป็น mgcv ได้อย่างไร?
ฉันต้องการทราบค่าที่(x, y)ใช้ในการลงจุดplot(b, seWithMean=TRUE)ในแพ็คเกจmgcv ไม่มีใครรู้ว่าฉันสามารถแยกหรือคำนวณค่าเหล่านี้ได้อย่างไร นี่คือตัวอย่าง: library(mgcv) set.seed(0) dat <- gamSim(1, n=400, dist="normal", scale=2) b <- gam(y~s(x0), data=dat) plot(b, seWithMean=TRUE)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.