คำถามติดแท็ก data-transformation

การแสดงออกทางคณิตศาสตร์บ่อยครั้งไม่เชิงเส้นของค่าข้อมูล ข้อมูลมักถูกแปลงเพื่อให้เป็นไปตามสมมติฐานของแบบจำลองทางสถิติหรือเพื่อให้ผลลัพธ์ของการวิเคราะห์สามารถตีความได้มากขึ้น

2
การเลือกวิธีการสลายตัวตามฤดูกาล
การปรับตามฤดูกาลเป็นขั้นตอนสำคัญในการประมวลผลข้อมูลล่วงหน้าเพื่อการวิจัยเพิ่มเติม อย่างไรก็ตามนักวิจัยมีตัวเลือกมากมายสำหรับการแยกย่อยของแนวโน้มตามฤดูกาล ที่พบมากที่สุด (ตัดสินโดยจำนวนของการอ้างอิงในวรรณคดีเชิงประจักษ์) คู่แข่งวิธีการสลายตัวตามฤดูกาล X-11 (12) -ARIMA, TRAMO / ที่นั่ง (ทั้งการดำเนินการในDemetra + ) และ 's STL การค้นหาเพื่อหลีกเลี่ยงการสุ่มเลือกระหว่างเทคนิคการสลายตัวที่กล่าวถึงข้างต้น (หรือวิธีการง่าย ๆ เช่นตัวแปรตัวแปรตามฤดูกาล) ฉันต้องการทราบกลยุทธ์พื้นฐานที่นำไปสู่การเลือกวิธีการสลายตัวตามฤดูกาลได้อย่างมีประสิทธิภาพRRR คำถามย่อยที่สำคัญหลายอย่าง (ยินดีต้อนรับลิงก์ไปยังการสนทนาด้วย) อาจเป็น: อะไรคือความเหมือนและความแตกต่างจุดแข็งและจุดอ่อนของวิธีการคืออะไร? มีกรณีพิเศษหรือไม่เมื่อวิธีการหนึ่งเป็นที่นิยมมากกว่าวิธีอื่น? คุณสามารถให้คำแนะนำทั่วไปกับสิ่งที่อยู่ในกล่องดำของวิธีการสลายตัวที่แตกต่างกันได้อย่างไร มีเทคนิคพิเศษในการเลือกพารามิเตอร์สำหรับวิธีการ (ฉันไม่พอใจกับค่าเริ่มต้นเสมอstlตัวอย่างเช่นมีพารามิเตอร์จำนวนมากที่ต้องจัดการกับบางครั้งฉันรู้สึกว่าฉันไม่รู้วิธีเลือกสิ่งเหล่านี้อย่างถูกวิธี) เป็นไปได้หรือไม่ที่จะแนะนำเกณฑ์บางอย่าง (สถิติ) ว่าอนุกรมเวลาได้รับการปรับตามฤดูกาลอย่างมีประสิทธิภาพ (การวิเคราะห์ความสัมพันธ์, ความหนาแน่นของสเปกตรัมหรือไม่? เกณฑ์ขนาดตัวอย่างขนาดเล็ก - ความทนทาน?)

4
ค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนในกรณีขอบคืออะไร?
ความแม่นยำหมายถึง: p = true positives / (true positives + false positives) มันถูกต้องหรือไม่ที่ในฐานะtrue positivesและfalse positivesวิธีที่ 0 ความแม่นยำเข้าใกล้ 1? คำถามเดียวกันสำหรับการเรียกคืน: r = true positives / (true positives + false negatives) ขณะนี้ฉันกำลังใช้การทดสอบทางสถิติที่ฉันต้องการคำนวณค่าเหล่านี้และบางครั้งมันก็เกิดขึ้นที่ตัวส่วนเป็น 0 และฉันสงสัยว่าจะคืนค่าใดให้กับกรณีนี้ PS: ขอโทษแท็กที่ไม่เหมาะสมผมอยากจะใช้recall, precisionและlimitแต่ฉันไม่สามารถสร้างแท็กใหม่ ๆ
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

2
จากการแจกแจงแบบสม่ำเสมอจนถึงการแจกแจงแบบเลขชี้กำลังและในทางกลับกัน
นี้น่าจะเป็นคำถามเล็กน้อย แต่การค้นหาของฉันได้รับการไร้ผลเพื่อให้ห่างไกลรวมทั้งบทความวิกิพีเดียนี้และ "บทสรุปของการกระจาย" เอกสาร ถ้ามีการแจกแจงแบบเดียวกันนั่นหมายความว่าตามการแจกแจงเอ็กซ์โพเนนเชียลหรือไม่?XXXeXeXe^X ในทำนองเดียวกันถ้าตามการแจกแจงเอ็กซ์โปเนนเชียลมันหมายถึงตามการกระจายตัวแบบสม่ำเสมอหรือไม่?YYYln(Y)ln(Y)ln(Y)

2
การคำนวณข้อผิดพลาดมาตรฐานหลังจากการแปลงบันทึก
พิจารณาชุดของตัวเลขสุ่มที่กระจายตามปกติ: x <- rnorm(n=1000, mean=10) เราต้องการทราบค่าเฉลี่ยและข้อผิดพลาดมาตรฐานในค่าเฉลี่ยดังนั้นเราจึงทำสิ่งต่อไปนี้: se <- function(x) { sd(x)/sqrt(length(x)) } mean(x) # something near 10.0 units se(x) # something near 0.03 units ที่ดี! อย่างไรก็ตามสมมติว่าเราไม่จำเป็นต้องรู้ว่าการแจกแจงเริ่มต้นของเราเป็นไปตามการแจกแจงแบบปกติ เราบันทึกการแปลงข้อมูลและทำการคำนวณข้อผิดพลาดมาตรฐานเดียวกัน z <- log(x, base=10) mean(z) # something near 1 log units se(z) # something near 0.001 log units เยี่ยมยอด แต่ตอนนี้เราจำเป็นต้องแปลงกลับเพื่อให้ได้คำตอบในหน่วยที่ไม่ใช่หน่วยบันทึก 10^mean(z) # something …

2
การแปลงบันทึกเป็นเทคนิคที่ใช้ได้สำหรับการทดสอบข้อมูลที่ไม่ใช่ข้อมูลปกติหรือไม่
ในการทบทวนกระดาษผู้เขียนกล่าวว่า "ตัวแปรผลลัพธ์อย่างต่อเนื่องที่แสดงการแจกแจงแบบเบ้ถูกแปลงโดยใช้ลอการิทึมธรรมชาติก่อนที่จะทำการทดสอบ t เพื่อให้เป็นไปตามสมมติฐานเบื้องต้นของภาวะปกติ" นี่เป็นวิธีที่ยอมรับได้ในการวิเคราะห์ข้อมูลที่ไม่ใช่ข้อมูลปกติหรือไม่ นี่อาจเป็นคำถามที่ค่อนข้างแปลก แต่ฉันไม่เคยเห็นมาก่อน

3
วิธีการดำเนินการแปลงภาพอัตราส่วนภาพสามมิติ
ฉันมีข้อมูลเกี่ยวกับพฤติกรรมการเคลื่อนไหว (เวลาที่ใช้ในการนอนหลับอยู่ประจำที่และทำกิจกรรมทางกาย) ซึ่งมีจำนวนถึง 24 (เช่นในชั่วโมงต่อวัน) ฉันต้องการสร้างตัวแปรที่ใช้เวลาสัมพัทธ์ที่ใช้ในพฤติกรรมเหล่านี้ - ฉันได้รับแจ้งว่าการเปลี่ยนแปลงอัตราส่วนการบันทึกภาพสามมิติจะทำให้สิ่งนี้สำเร็จ ดูเหมือนว่าฉันควรใช้ฟังก์ชั่น ilr ใน R แต่ไม่สามารถหาตัวอย่างที่แท้จริงด้วยรหัสได้ ฉันจะเริ่มที่ไหน ตัวแปรที่ฉันมีคือเวลานอนหลับเวลานั่งนิ่งเฉลี่ยกิจกรรมออกกำลังกายเบา ๆ โดยเฉลี่ยกิจกรรมออกกำลังกายปานกลางปานกลางและออกกำลังกายแข็งแรงโดยเฉลี่ย รายงานการนอนหลับด้วยตนเองในขณะที่คนอื่น ๆ เป็นค่าเฉลี่ยจากวันที่ถูกต้องของข้อมูล accelerometer ดังนั้นสำหรับตัวแปรเหล่านี้เคสจะไม่รวมเท่ากับ 24 ฉันเดาว่าฉันทำงานใน SAS แต่ดูเหมือนว่า R จะใช้งานได้ง่ายกว่าสำหรับส่วนนี้ ดังนั้นการนำเข้าข้อมูลก่อนโดยมีเพียงตัวแปรที่น่าสนใจ จากนั้นใช้ฟังก์ชั่น acomp () จากนั้นฉันไม่สามารถหาไวยากรณ์สำหรับฟังก์ชัน ilr () ได้ ความช่วยเหลือใด ๆ ที่จะได้รับการชื่นชมมาก

5
อะไรคือเหตุผลที่การเปลี่ยนแปลงการบันทึกใช้กับการแจกแจงแบบเบ้ขวา?
ฉันเคยได้ยินว่า การแปลงท่อนซุงเป็นที่นิยมกันมากที่สุดสำหรับการแจกแจงแบบเบ้ด้านขวาในการถดถอยเชิงเส้นหรือการถดถอยเชิงปริมาณ ฉันต้องการทราบว่ามีเหตุผลใดบ้างที่อยู่ภายใต้ข้อความนี้? ทำไมการแปลงบันทึกจึงเหมาะสมสำหรับการแจกแจงเบ้ที่ถูกต้อง วิธีการกระจายซ้ายเอียง?

3
“ การทำให้เป็นมาตรฐาน” หมายถึงอะไรและวิธีการตรวจสอบว่าตัวอย่างหรือการกระจายได้รับการทำให้เป็นมาตรฐาน
ฉันมีคำถามที่ขอให้ตรวจสอบว่าการแจกแจงแบบฟอร์ม ( Uniform(a,b)Uniform(a,b){\rm Uniform}(a,b) ) เป็นมาตรฐานหรือไม่ สำหรับหนึ่งแล้วการกระจายแบบใดที่จะทำให้เป็นมาตรฐาน และสองเราจะตรวจสอบได้อย่างไรว่าการแจกแจงเป็นแบบปกติหรือไม่? ฉันเข้าใจโดยการคำนวณ X−meansdX−meansd \frac{X-\text{mean}}{\text{sd}} เราได้รับข้อมูลที่ทำให้เป็นมาตรฐานแต่ที่นี่มันจะขอให้ตรวจสอบว่าการกระจายเป็นปกติหรือไม่

2
การเปรียบเทียบ AIC ของรุ่นและรุ่นที่แปลงเป็นไฟล์บันทึก
สาระสำคัญของคำถามของฉันคือ: Letเป็นหลายตัวแปรตัวแปรสุ่มปกติที่มีค่าเฉลี่ยและความแปรปรวนเมทริกซ์\ให้Z = \ ล็อก (Y)คือZ_i = \ ล็อก (Y_i) ผม \ in \ {1 \ ldots, n \} ฉันจะเปรียบเทียบ AIC ของแบบจำลองที่เหมาะกับการรับรู้ของYกับแบบจำลองที่ตรงกับการรับรู้ของZ ที่สังเกตได้อย่างไร μ Σ Z : = บันทึก( Y ) Z ฉัน = บันทึก( Y ฉัน ) , ฉัน∈ { 1 , ... , n } Y ZY∈RnY∈RnY \in …

4
ตัวแปร“ Normalizing” สำหรับ SVD / PCA
สมมติว่าเรามีตัวแปรNNNวัดได้(a1,a2,…,aN)(a1,a2,…,aN)(a_1, a_2, \ldots, a_N)เราทำการวัดจำนวนM>NM>NM > Nของการวัดแล้วต้องการทำการแยกสลายค่าเอกพจน์บนผลลัพธ์เพื่อค้นหาแกนของความแปรปรวนสูงสุดสำหรับMMM points ในช่องว่างมิติNNN( หมายเหตุ:คิดว่าวิธีการของฉันได้รับการหักออกเพื่อ⟨ ฉัน ⟩ = 0สำหรับทุกฉัน .)aiaia_i⟨ai⟩=0⟨ai⟩=0\langle a_i \rangle = 0iii ทีนี้สมมติว่าตัวแปรหนึ่งตัว (หรือมากกว่า) มีขนาดลักษณะแตกต่างกันอย่างมีนัยสำคัญมากกว่าส่วนที่เหลือ เช่น1อาจมีค่าอยู่ในช่วง10 - 100ในขณะที่ส่วนที่เหลืออาจจะอยู่ที่ประมาณ0.1 - 1 นี้จะเอียงแกนของความแปรปรวนสูงสุดต่อ1ของแกนมากa1a1a_110−10010−10010-1000.1−10.1−10.1-1a1a1a_1 ความแตกต่างของขนาดอาจเป็นเพราะตัวเลือกการวัดที่โชคร้าย (ถ้าเรากำลังพูดถึงข้อมูลทางกายภาพเช่นกิโลเมตรเทียบกับเมตร) แต่ที่จริงแล้วตัวแปรที่แตกต่างกันอาจมีมิติที่แตกต่างกันโดยสิ้นเชิง (เช่นน้ำหนักเทียบกับปริมาตร) อาจไม่มีวิธีที่ชัดเจนในการเลือกหน่วย "เปรียบได้" สำหรับพวกเขา คำถาม: ฉันต้องการทราบว่ามีวิธีการมาตรฐาน / ทั่วไปในการทำให้ข้อมูลเป็นมาตรฐานเพื่อหลีกเลี่ยงปัญหานี้หรือไม่ ผมสนใจในเทคนิคมาตรฐานที่ผลิตขนาดเทียบเคียง1 - Nเพื่อจุดประสงค์นี้มากกว่าขึ้นมาพร้อมกับสิ่งใหม่ ๆa1−aNa1−aNa_1 - a_N แก้ไข: ความเป็นไปได้อย่างหนึ่งคือทำให้ตัวแปรแต่ละตัวเป็นปกติโดยค่าเบี่ยงเบนมาตรฐานหรือสิ่งที่คล้ายกัน อย่างไรก็ตามปัญหาต่อไปนี้จะปรากฏขึ้น: ลองตีความข้อมูลเป็น cloud point …

2
การแปลงกลับของสัมประสิทธิ์การถดถอย
ฉันกำลังถดถอยเชิงเส้นด้วยตัวแปรที่ขึ้นกับการแปลง การเปลี่ยนแปลงต่อไปนี้ได้ทำขึ้นเพื่อให้สมมติฐานเกี่ยวกับความเป็นปกติของเศษซากเหลืออยู่ ตัวแปรที่ขึ้นต่อกันที่ไม่ถูกแปลงนั้นมีความเบ้เชิงลบและการแปลงต่อไปนี้ทำให้ใกล้เคียงปกติ: Y=50−Yorig−−−−−−−−√Y=50−YorigY=\sqrt{50-Y_{orig}} โดยที่YorigYorigY_{orig}เป็นตัวแปรตามในระดับเดิม ฉันคิดว่ามันทำให้ความรู้สึกที่จะใช้การเปลี่ยนแปลงบางอย่างเกี่ยวกับββ\betaค่าสัมประสิทธิ์การทำงานทางด้านหลังของเราขนาดเดิม ใช้สมการถดถอยต่อไปนี้ Y=50−Yorig−−−−−−−−√=α+β⋅XY=50−Yorig=α+β⋅XY=\sqrt{50-Y_{orig}}=\alpha+\beta \cdot X และโดยการแก้ไขเรามีX=0X=0X=0 α=50−Yorig−−−−−−−−√=50−αorig−−−−−−−−√α=50−Yorig=50−αorig\alpha=\sqrt{50-Y_{orig}}=\sqrt{50-\alpha_{orig}} และในที่สุดก็, αorig=50−α2αorig=50−α2\alpha_{orig}=50-\alpha^2 ใช้ตรรกะเดียวกันฉันพบ βorig=α (α−2β)+β2+αorig−50βorig=α (α−2β)+β2+αorig−50\beta_{orig}=\alpha\space(\alpha-2\beta)+\beta^2+\alpha_{orig}-50 ตอนนี้ทุกอย่างทำงานได้ดีสำหรับแบบจำลองที่มีตัวทำนาย 1 หรือ 2 ตัว ค่าสัมประสิทธิ์การแปลงกลับคล้ายกับค่าเดิมตอนนี้ฉันสามารถเชื่อถือข้อผิดพลาดมาตรฐานได้แล้ว ปัญหาเกิดขึ้นเมื่อมีคำศัพท์โต้ตอบเช่น Y=α+X1βX1+X2βX2+X1X2βX1X2Y=α+X1βX1+X2βX2+X1X2βX1X2Y=\alpha+X_1\beta_{X_1}+X_2\beta_{X_2}+X_1X_2\beta_{X_1X_2} จากนั้นการเปลี่ยนรูปแบบกลับสำหรับนั้นไม่ใกล้เคียงกับระดับเดิมและฉันไม่แน่ใจว่าทำไมจึงเกิดขึ้น ฉันไม่แน่ใจเช่นกันว่าสูตรที่พบสำหรับการเปลี่ยนค่าสัมประสิทธิ์เบต้าสามารถใช้งานได้เช่นเดียวกับที่ 3 β (สำหรับเงื่อนไขการโต้ตอบ) ก่อนเข้าสู่พีชคณิตบ้าฉันคิดว่าฉันจะขอคำแนะนำ ...ββ\betaββ\beta

2
เหตุใดจึงต้องแปลงข้อมูลก่อนที่จะทำการวิเคราะห์ส่วนประกอบหลัก
ฉันกำลังติดตามการสอนที่นี่: http://www.r-bloggers.com/computing-and-visualizing-pca-in-r/เพื่อให้เข้าใจ PCA ได้ดียิ่งขึ้น บทช่วยสอนใช้ชุดข้อมูล Iris และใช้การแปลงบันทึกก่อน PCA: โปรดสังเกตว่าในรหัสต่อไปนี้เราใช้การแปลงบันทึกกับตัวแปรต่อเนื่องตามที่แนะนำโดย [1] และตั้งค่าcenterและscaleเท่ากับTRUEในการเรียกเพื่อprcompสร้างมาตรฐานของตัวแปรก่อนการประยุกต์ใช้ PCA มีใครบางคนสามารถอธิบายให้ฉันเป็นภาษาอังกฤษแบบธรรมดาทำไมคุณถึงใช้ฟังก์ชั่นบันทึกในสี่คอลัมน์แรกของชุดข้อมูล Iris ฉันเข้าใจว่ามันมีส่วนเกี่ยวข้องกับการทำข้อมูลให้สัมพันธ์ แต่ฉันสับสนว่าอะไรคือหน้าที่ของ log, center และ scale การอ้างอิง [1] ด้านบนคือVenables and Ripley, สถิติประยุกต์สมัยใหม่กับ S-PLUS , หัวข้อ 11.1 ที่กล่าวสั้น ๆ ว่า: ข้อมูลคือการวัดทางกายภาพดังนั้นกลยุทธ์การเริ่มต้นที่ดีคือการทำงานกับขนาดของบันทึก สิ่งนี้ได้ทำมาตลอด

2
ทำไม GLM จึงแตกต่างจาก LM ด้วยตัวแปรที่ถูกแปลง
ตามที่อธิบายไว้ในเอกสารประกอบคำบรรยายนี้ (หน้า 1)โมเดลเชิงเส้นสามารถเขียนในรูปแบบ: y=β1x1+⋯+βpxp+εi,y=β1x1+⋯+βpxp+εi, y = \beta_1 x_{1} + \cdots + \beta_p x_{p} + \varepsilon_i, โดยที่คือตัวแปรตอบกลับและ เป็นตัวแปรอธิบายyyyxixix_{i}ithithi^{th} บ่อยครั้งที่มีเป้าหมายของการทดสอบสมมติฐานการประชุมหนึ่งสามารถเปลี่ยนตัวแปรการตอบสนอง ตัวอย่างเช่นเราใช้ฟังก์ชั่นบันทึกในแต่ละy_iการแปลงตัวแปรตอบกลับไม่ถือเอาการทำ GLMyiyiy_i สามารถเขียน GLM ในแบบฟอร์มต่อไปนี้ (จากเอกสารประกอบการเรียนอีกครั้ง (หน้า 3) ) g(u)=β1x1+⋯+βpxp+εi,g(u)=β1x1+⋯+βpxp+εi, g(u) = \beta_1 x_{1} + \cdots + \beta_p x_{p} + \varepsilon_i, โดยที่uuuเป็นเพียงสัญลักษณ์อื่นสำหรับyyyดังที่ฉันเข้าใจจากหน้า 2 ในเอกสารประกอบการบรรยาย g()g()g()เรียกว่าฟังก์ชั่นลิงค์ ฉันไม่เข้าใจความแตกต่างระหว่าง GLM และ LM กับตัวแปรที่แปลงจากสไลด์ในหลักสูตร คุณช่วยฉันได้ไหม

2
ความเป็นมาของการแปลงสภาพให้เป็นมาตรฐานสำหรับ GLM
\newcommand{\E}{\mathbb{E}}วิธีการคือ normalizing เปลี่ยนสำหรับครอบครัวชี้แจง มา? A ( ⋅ ) = ∫ d uV 1 / 3 ( μ )A(⋅)=∫duV1/3(μ)A(\cdot) = \displaystyle\int\frac{du}{V^{1/3}(\mu)} โดยเฉพาะอย่างยิ่ง : ฉันพยายามติดตามภาพร่างการขยายตัวของเทย์เลอร์ในหน้า 3 เลื่อน 1 ที่นี่แต่มีคำถามหลายข้อ ด้วยXXXจากตระกูลชี้แจงการแปลงh ( X )h(X)h(X)และκ ฉันκi\kappa _iแสดงถึงฉันทีเอชithi^{th} cumulant สไลด์ยืนยันว่า: κ 3 ( h ( ˉ X ) ) ≈ h ′ ( μ ) …

4
ข้อผิดพลาดที่ควรหลีกเลี่ยงเมื่อเปลี่ยนข้อมูล?
ฉันได้รับความสัมพันธ์เชิงเส้นตรงที่แข็งแกร่งระหว่างตัวแปรและหลังจากเปลี่ยนการตอบสนองเป็นสองเท่า แบบจำลองคือ แต่ฉันเปลี่ยนเป็น ปรับปรุงจาก. 19 เป็น. 76XXXYYYY∼XY∼XY\sim XYX−−√∼X−−√YX∼X\sqrt{\frac{Y}{X}}\sim \sqrt{X}R2R2R^2 เห็นได้ชัดว่าฉันทำการผ่าตัดที่เหมาะสมกับความสัมพันธ์นี้ ทุกคนสามารถพูดถึงข้อผิดพลาดในการทำเช่นนี้เช่นอันตรายจากการเปลี่ยนแปลงมากเกินไปหรือการละเมิดหลักการทางสถิติที่เป็นไปได้หรือไม่?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.