คำถามติดแท็ก data-transformation

การแสดงออกทางคณิตศาสตร์บ่อยครั้งไม่เชิงเส้นของค่าข้อมูล ข้อมูลมักถูกแปลงเพื่อให้เป็นไปตามสมมติฐานของแบบจำลองทางสถิติหรือเพื่อให้ผลลัพธ์ของการวิเคราะห์สามารถตีความได้มากขึ้น

2
พารามิเตอร์การบูตแบบกึ่งพารามิเตอร์และแบบไม่มีพารามิเตอร์สำหรับรุ่นผสม
ตัดต่อไปนี้จะนำมาจากบทความนี้ ฉันเป็นมือใหม่ในการบู๊ตสแตรปและพยายามที่จะใช้การบู๊ตสแปปปิ้งแบบกึ่งพารามิเตอร์แบบกึ่งพารามิเตอร์และแบบไม่มีพารามิเตอร์สำหรับแบบจำลองเชิงเส้นผสมกับR bootแพ็คเกจ รหัส R นี่คือRรหัสของฉัน: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

1
จะตัดสินผู้ชนะอย่างยุติธรรมในงานวิทยาศาสตร์ระดับภูมิภาคได้อย่างไร?
ฉันต้องการความช่วยเหลือในการหาวิธีที่ถูกต้องในการคำนวณผู้ชนะในงานวิทยาศาสตร์ของเรา ฉันไม่ต้องการให้ฉันไม่รู้ถึงสถิติและคณิตศาสตร์เพื่อให้เด็กมีโอกาสชนะ (ทุนการศึกษาจำนวนมาก & ผลประโยชน์ความก้าวหน้าในการเดิมพัน) ขอบคุณล่วงหน้าสำหรับความช่วยเหลือของ. พื้นหลังเล็กน้อยของวิธีการตั้งค่าสิ่งต่าง ๆ : โดยทั่วไปงานของเรามีโครงการนักศึกษาประมาณ 600 โครงการ โครงการเหล่านี้เสร็จสมบูรณ์และนำเสนอโดยนักเรียนเป็นรายบุคคลหรือเป็นทีมของนักเรียน ทีมสามารถประกอบด้วยเด็ก 2 หรือ 3 คน นักเรียนแบ่งออกเป็นสองแผนก: ระดับประถมศึกษา (ระดับ 6-8) และระดับมัธยมศึกษา (เกรด 9-12) แต่ละแผนกมีประเภทที่แตกต่างกัน: 9 หมวดหมู่สำหรับโครงการระดับประถมศึกษาและ 17 หมวดหมู่สำหรับโครงการแผนกรอง รางวัลจะมอบให้สำหรับที่หนึ่งที่สองและสามสำหรับแต่ละหมวดหมู่ในแต่ละหมวด รางวัลชมเชยที่มอบรางวัลนั้นมอบให้สำหรับตำแหน่งนอกเหนือจากที่สาม สำหรับแต่ละโครงการเรามอบหมายผู้ตัดสินระหว่าง 4 ถึง 6 คน เราทำสิ่งที่ได้รับมอบหมายตามคุณสมบัติของผู้ตัดสินความพึงพอใจในหมวดหมู่และประสบการณ์การตัดสินที่ผ่านมาของพวกเขา (มีประสบการณ์มากขึ้นถูกมอบหมายให้ทำงานในแผนกอาวุโส) วิธีการตัดสินคะแนนโครงการ: สำหรับแต่ละโครงการมี 5 เกณฑ์ที่กำหนดคะแนน แต่ละเกณฑ์สามารถมอบให้ระหว่าง 1 ถึง 20 คะแนน เกณฑ์ทั่วไปคือ: วัตถุประสงค์ …

1
จะรวมการพยากรณ์ได้อย่างไรเมื่อตัวแปรตอบสนองในตัวแบบการพยากรณ์แตกต่างกันอย่างไร
บทนำ ในการรวมการคาดการณ์หนึ่งในโซลูชั่นยอดนิยมขึ้นอยู่กับการประยุกต์ใช้เกณฑ์ข้อมูลบางอย่าง การยกตัวอย่างเช่น Akaike เกณฑ์โดยประมาณสำหรับรุ่นหนึ่งสามารถคำนวณความแตกต่างของจากแล้วRP_j = E ^ {(AIC ^ * - AIC_j) / 2}อาจจะตีความว่าเป็น ความน่าจะเป็นแบบสัมพัทธ์ของ model jเป็นค่าจริง น้ำหนักนั้นถูกกำหนดเป็นAICjAICjAIC_jjjjAICjAICjAIC_jAIC∗=minjAICjAIC∗=minjAICjAIC^* = \min_j{AIC_j}RPj=e(AIC∗−AICj)/2RPj=e(AIC∗−AICj)/2RP_j = e^{(AIC^*-AIC_j)/2}jjj wj=RPj∑jRPjwj=RPj∑jRPjw_j = \frac{RP_j}{\sum_j RP_j} ปัญหา ความยากลำบากที่ฉันพยายามเอาชนะคือแบบจำลองนั้นประมาณจากตัวแปรตอบสนอง (ภายนอก) ที่แปรเปลี่ยนไป ตัวอย่างเช่นบางรุ่นขึ้นอยู่กับอัตราการเติบโตประจำปีและอีกรุ่น - จากอัตราการเติบโตรายไตรมาส ดังนั้นค่าAIC_j ที่แยกออกมาAICjAICjAIC_jจะไม่สามารถเปรียบเทียบกันได้โดยตรง พยายามแก้ปัญหา เนื่องจากสิ่งที่สำคัญคือความแตกต่างของAICAICAICที่สามารถใช้AICของโมเดลพื้นฐานAICAICAIC(ตัวอย่างเช่นฉันพยายามแยกlm(y~-1)โมเดลโดยไม่มีพารามิเตอร์ใด ๆ ) ที่ไม่แปรเปลี่ยนไปจากการตอบสนองการแปลงตัวแปรการตอบสนองแล้วเปรียบเทียบความแตกต่างระหว่างโมเดลjjj th และ ฐานรูปแบบAICAICAICAICนี่ แต่มันดูเหมือนว่ายังคงเป็นจุดที่อ่อนแอ - ความแตกต่างเป็นผลกระทบจากการเปลี่ยนแปลงของตัวแปรการตอบสนอง สรุปข้อสังเกต หมายเหตุตัวเลือกเช่น "ประมาณโมเดลทั้งหมดในตัวแปรตอบกลับเดียวกัน" …

3
ขนาดผลการถดถอยเชิงเส้นเมื่อใช้ตัวแปรที่แปลงแล้ว
เมื่อดำเนินการถดถอยเชิงเส้นมักจะมีประโยชน์ในการทำการแปลงเช่นการแปลงบันทึกสำหรับตัวแปรตามเพื่อให้บรรลุโครงสร้างการกระจายปกติดีขึ้น บ่อยครั้งที่มันยังมีประโยชน์ในการตรวจสอบเบต้าจากการถดถอยเพื่อประเมินขนาดเอฟเฟกต์ / ความเกี่ยวข้องที่แท้จริงของผลลัพธ์ สิ่งนี้ทำให้เกิดปัญหาเมื่อใช้เช่นการแปลงบันทึกขนาดของเอฟเฟกต์จะอยู่ในสเกลบันทึกและฉันได้รับการบอกว่าเนื่องจากความไม่เป็นเชิงเส้นของสเกลที่ใช้แล้วการเปลี่ยนรูปกลับของเบต้าเหล่านี้จะทำให้ค่าที่ไม่มีความหมาย ไม่มีการใช้งานจริงใด ๆ จนถึงตอนนี้เรามักจะดำเนินการถดถอยเชิงเส้นด้วยตัวแปรแปลงเพื่อตรวจสอบความสำคัญแล้วจากนั้นถดถอยเชิงเส้นกับตัวแปรที่ไม่ได้เปลี่ยนรูปแบบเดิมเพื่อกำหนดขนาดของผลกระทบ มีวิธีที่ถูก / ดีกว่าในการทำเช่นนี้? ส่วนใหญ่เราทำงานกับข้อมูลทางคลินิกดังนั้นตัวอย่างชีวิตจริงจะพิจารณาว่าการสัมผัสที่แน่นอนส่งผลต่อตัวแปรเช่นความสูงน้ำหนักหรือการวัดในห้องปฏิบัติการอย่างไรและเราต้องการสรุปบางสิ่งเช่น "การเปิดรับ A มีผลกระทบ ของการเพิ่มน้ำหนัก 2 กก. "

7
การแจกแจงแบบปกติและการแปลงแบบโมโนโทนิก
ฉันได้ยินมาว่ามีปริมาณมากที่เกิดขึ้นตามธรรมชาติกระจายอยู่ตามปกติ นี่เป็นธรรมโดยใช้ทฤษฎีขีด จำกัด กลางซึ่งบอกว่าเมื่อคุณเฉลี่ยตัวแปรสุ่มจำนวนมากคุณจะได้รับการแจกแจงแบบปกติ ยกตัวอย่างเช่นลักษณะที่ถูกกำหนดโดยผลของสารเติมแต่งของยีนจำนวนมากอาจมีการกระจายโดยประมาณปกติเนื่องจากค่าของยีนอาจมีพฤติกรรมคล้ายกับตัวแปรสุ่มไอด ตอนนี้สิ่งที่ทำให้ฉันสับสนก็คือทรัพย์สินของการกระจายตามปกติไม่ชัดเจนว่าไม่แปรเปลี่ยนภายใต้การแปลงแบบโมโนโทนิก ดังนั้นหากมีสองวิธีในการวัดสิ่งที่เกี่ยวข้องโดยการแปลงแบบโมโนโทนิกพวกเขาไม่น่าจะได้รับการแจกแจงแบบปกติทั้งคู่ ตัวอย่างเช่นเราสามารถวัดขนาดของเม็ดฝนตามเส้นผ่าศูนย์กลางพื้นที่ผิวหรือปริมาตร สมมติว่ารูปร่างที่คล้ายกันสำหรับเม็ดฝนทุกอันพื้นที่ผิวเป็นสัดส่วนกับกำลังสองของเส้นผ่านศูนย์กลางและปริมาตรเป็นสัดส่วนกับลูกบาศก์ของเส้นผ่านศูนย์กลาง ดังนั้นวิธีการวัดเหล่านี้ทั้งหมดจึงไม่สามารถกระจายได้ตามปกติ ดังนั้นคำถามของฉันคือวิธีการปรับขนาด (เช่นตัวเลือกเฉพาะของการแปลงแบบโมโนโทนิก) ซึ่งการกระจายตัวเป็นปกตินั้นต้องมีความสำคัญทางกายภาพหรือไม่ ตัวอย่างเช่นควรกระจายความสูงตามปกติหรือตารางของความสูงหรือลอการิทึมของความสูงหรือรากที่สองของความสูง มีวิธีตอบคำถามโดยการทำความเข้าใจกระบวนการที่ส่งผลต่อความสูงหรือไม่?

1
ฉันจะใช้การปรับขนาดที่เหมาะสมที่สุดเพื่อปรับขนาดตัวแปรหมวดหมู่ตามลำดับได้อย่างไร
ในการตอบคำถามนี้เกี่ยวกับการรักษาข้อมูลที่เป็นหมวดหมู่อย่างต่อเนื่องจะมีการกล่าวถึงการปรับสเกลที่เหมาะสมที่สุด วิธีนี้ทำงานอย่างไรและมีการนำไปใช้อย่างไร
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.