คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

1
ทำไม LASSO ถึงไม่หาคู่ทำนายที่สมบูรณ์แบบของฉันในมิติที่สูง?
ฉันใช้การทดลองเล็ก ๆ กับ LASSO regression ใน R เพื่อทดสอบว่ามันสามารถหาคู่ทำนายที่สมบูรณ์แบบได้หรือไม่ ทั้งคู่มีการกำหนดดังนี้: f1 + f2 = result ผลลัพธ์ที่ได้คือเวกเตอร์ที่กำหนดไว้ล่วงหน้าที่เรียกว่า 'อายุ' F1 และ f2 ถูกสร้างขึ้นโดยใช้เวกเตอร์อายุครึ่งหนึ่งและตั้งค่าที่เหลือเป็น 0 ตัวอย่างเช่น: age = [1,2,3,4,5,6], f1 = [1,2,3, 0,0,0] และ f2 = [0,0,0,4,5,6] ฉันรวมคู่ทำนายนี้กับจำนวนที่เพิ่มขึ้นของตัวแปรที่สร้างแบบสุ่มโดยการสุ่มตัวอย่างจากการแจกแจงปกติ N (1,1) สิ่งที่ฉันเห็นคือเมื่อฉันกด 2 ^ 16 ตัวแปร LASSO ไม่พบคู่ของฉันอีกต่อไป ดูผลลัพธ์ด้านล่าง ทำไมสิ่งนี้จึงเกิดขึ้น คุณสามารถทำซ้ำผลลัพธ์ด้วยสคริปต์ด้านล่าง ฉันสังเกตว่าเมื่อฉันเลือกเวกเตอร์อายุที่แตกต่างกันเช่น: [1: 193] ดังนั้น …

1
วิธีการใช้วิธีเดลต้าสำหรับข้อผิดพลาดมาตรฐานของผลกระทบเล็กน้อย?
ฉันสนใจที่จะเข้าใจวิธีการเดลต้าในการประมาณข้อผิดพลาดมาตรฐานของผลกระทบส่วนเพิ่มโดยเฉลี่ยของตัวแบบการถดถอยซึ่งรวมถึงคำศัพท์การโต้ตอบ ฉันได้ดูคำถามที่เกี่ยวข้องภายใต้วิธีเดลต้าแต่ไม่มีผู้ใดได้ให้สิ่งที่ฉันกำลังมองหา พิจารณาข้อมูลตัวอย่างต่อไปนี้เป็นตัวอย่างที่สร้างแรงบันดาลใจ: set.seed(1) x1 <- rnorm(100) x2 <- rbinom(100,1,.5) y <- x1 + x2 + x1*x2 + rnorm(100) m <- lm(y ~ x1*x2) ฉันสนใจในผลกระทบที่ขอบเฉลี่ย (อาเมส) ของและx1 x2ในการคำนวณเหล่านี้ฉันทำต่อไปนี้: cf <- summary(m)$coef me_x1 <- cf['x1',1] + cf['x1:x2',1]*x2 # MEs of x1 given x2 me_x2 <- cf['x2',1] + cf['x1:x2',1]*x1 # MEs of …

1
วิธีรับค่าของ Mean squared error ในการถดถอยเชิงเส้นใน R
ปล่อยให้โมเดลการถดถอยเชิงเส้นที่ได้รับจากฟังก์ชัน R ต้องการทราบว่าเป็นไปได้ที่จะได้รับจากคำสั่ง Mean Squared Error ฉันมีตัวอย่างผลลัพธ์ต่อไปนี้ > lm <- lm(MuscleMAss~Age,data) > sm<-summary(lm) > sm Call: lm(formula = MuscleMAss ~ Age, data = data) Residuals: Min 1Q Median 3Q Max -16.1368 -6.1968 -0.5969 6.7607 23.4731 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 156.3466 5.5123 28.36 <2e-16 *** Age -1.1900 …
20 r  regression  error 

3
ค่าสัมประสิทธิ์แบบทดสอบ (ความชันถดถอย) เทียบกับค่าบางค่า
ใน R เมื่อฉันมี (ทั่วไป) โมเดลเชิงเส้นตรง ( lm, glm, gls, glmm, ... ) วิธีที่ฉันสามารถทดสอบค่าสัมประสิทธิ์ (ถดถอยลาด) กับค่าอื่น ๆ ที่ไม่ใช่ 0? ในบทสรุปของแบบจำลองนั้นมีการรายงานผลการทดสอบค่าสัมประสิทธิ์ t-test โดยอัตโนมัติ แต่สำหรับการเปรียบเทียบกับ 0 ฉันต้องการเปรียบเทียบกับค่าอื่น ฉันรู้ว่าฉันสามารถใช้เคล็ดลับที่มี reparametrizing y ~ xเป็นy - T*x ~ xที่Tเป็นค่าการทดสอบและใช้รูปแบบ reparametrized นี้ แต่ฉันหาทางออกที่ง่ายที่จะเป็นไปได้ที่การทำงานในรูปแบบเดิม
20 r  regression  t-test 

4
มีอัลกอริทึมคล้ายต้นไม้ตัดสินใจสำหรับการทำคลัสเตอร์แบบไม่ดูแลหรือไม่
ฉันมีชุดข้อมูลประกอบด้วย 5 คุณสมบัติ: A, B, C, D, E พวกเขาทั้งหมดเป็นค่าตัวเลข แทนที่จะทำการจัดกลุ่มตามความหนาแน่นสิ่งที่ฉันต้องการทำคือการจัดกลุ่มข้อมูลในลักษณะคล้ายต้นไม้ตัดสินใจ วิธีที่ฉันหมายถึงคือ: อัลกอริทึมอาจแบ่งข้อมูลออกเป็นกลุ่มเริ่มต้น X ตามคุณลักษณะ C เช่นกลุ่ม X อาจมีขนาดเล็ก C ขนาดกลาง C ขนาดใหญ่และค่า C ที่มีขนาดใหญ่มากเป็นต้นถัดไปภายใต้โหนดคลัสเตอร์ X แต่ละโหนดอัลกอริธึมเพิ่มเติม ข้อมูลในคลัสเตอร์ Y ตามคุณลักษณะ A อัลกอริทึมจะดำเนินต่อไปจนกว่าจะใช้คุณลักษณะทั้งหมด อัลกอริทึมที่ฉันอธิบายไว้ข้างต้นเป็นเหมือนอัลกอริธึมต้นไม้ตัดสินใจ แต่ฉันต้องการมันสำหรับการจัดกลุ่มแบบไม่ดูแลแทนการจัดกลุ่มแบบมีผู้ดูแล คำถามของฉันมีดังต่อไปนี้: อัลกอริทึมดังกล่าวมีอยู่แล้วหรือไม่? ชื่อที่ถูกต้องสำหรับอัลกอริทึมดังกล่าวคืออะไร มีแพ็คเกจ / ไลบรารี R / python ที่มีการใช้อัลกอริทึมชนิดนี้หรือไม่?

1
อะไรคือความเท่าเทียมแบบไม่อิงพารามิเตอร์ของ ANOVA สองทางที่สามารถรวมการโต้ตอบได้?
สวัสดีฉันกำลังพยายามที่จะหาค่าเทียบเท่าที่ไม่ใช่พารามิเตอร์ของ ANOVA สองทาง (การออกแบบ 3x4) ซึ่งมีความสามารถในการรวมการโต้ตอบ จากการอ่านของฉันใน Zar 1984 "การวิเคราะห์ชีวสถิติ" นี่เป็นไปได้โดยใช้วิธีการที่วางไว้ใน Scheirer, Ray, และ Hare (1976) อย่างไรก็ตามจากการโพสต์อื่น ๆ ทางออนไลน์มันถูกอนุมานว่าวิธีนี้ไม่เหมาะสมอีกต่อไป ถูก) ไม่มีใครรู้วิธีการที่เหมาะสมสำหรับการทำเช่นนั้นและถ้าเป็นเช่นนั้นฟังก์ชั่นที่สอดคล้องกันใน R หรือ Stata?

4
ความแตกต่างระหว่างการทดสอบ ANOVA และ Kruskal-Wallis
ฉันกำลังเรียน R และได้ทำการทดลองกับการวิเคราะห์ความแปรปรวน ฉันวิ่งมาทั้งคู่แล้ว kruskal.test(depVar ~ indepVar, data=df) และ anova(lm(depVar ~ indepVar, data=dF)) มีความแตกต่างในทางปฏิบัติระหว่างการทดสอบทั้งสองนี้หรือไม่? ความเข้าใจของฉันคือพวกเขาทั้งสองประเมินสมมติฐานว่างว่าประชากรมีค่าเฉลี่ยเท่ากัน

2
อัลกอริทึม EM ดำเนินการด้วยตนเอง
ฉันต้องการใช้อัลกอริทึม EM ด้วยตนเองแล้วเปรียบเทียบกับผลลัพธ์normalmixEMของmixtoolsแพ็คเกจ แน่นอนฉันจะมีความสุขถ้าพวกเขาทั้งสองนำไปสู่ผลลัพธ์เดียวกัน อ้างอิงหลักคือเจฟฟรีย์ McLachlan (2000) จำกัด ผสมรุ่น ฉันมีความหนาแน่นของสอง Gaussians ในรูปแบบทั่วไปบันทึกความเป็นไปได้ที่ได้รับ (McLachlan หน้า 48): logLc(Ψ)=∑i=1g∑j=1nzij{logπi+logfi(yi;θi)}.log⁡Lc(Ψ)=∑i=1g∑j=1nzij{log⁡πi+log⁡fi(yi;θi)}. \log L_c(\Psi) = \sum_{i=1}^g \sum_{j=1}^n z_{ij}\{\log \pi_i + \log f_i(y_i;\theta_i)\}. เป็นถ้าสังเกตได้จาก THความหนาแน่นของส่วนประกอบมิฉะนั้น0คือความหนาแน่นของการกระจายปกติ เป็นสัดส่วนผสมดังนั้นความน่าจะเป็นที่สังเกตจากการกระจายแบบเกาส์เป็นครั้งแรกและความน่าจะเป็นที่สังเกตจากการกระจายเสียนที่สองzijzijz_{ij}111ผมผมi000ฉผมฉผมf_iππ\piπ1π1\pi_1π2π2\pi_2 Eขั้นตอนคือตอนนี้การคำนวณของความคาดหวังที่มีเงื่อนไข: Q ( Ψ ; Ψ( 0 )) = EΨ ( 0 ){ บันทึกLค( | Ψ ) | Y} .Q(Ψ;Ψ(0))=EΨ(0){เข้าสู่ระบบ⁡Lค(|Ψ)|Y}. Q(\Psi;\Psi^{(0)}) …

3
ฉันได้รับการโหลดที่“ น่ากลัว” ใน rollapply PCA ใน R. ฉันจะแก้ไขได้ไหม?
ฉันมีข้อมูลส่งคืน 10 ปีต่อวันสำหรับ 28 สกุลเงินที่แตกต่างกัน ฉันต้องการแยกส่วนประกอบหลักตัวแรก แต่แทนที่จะใช้งาน PCA ตลอดทั้ง 10 ปีฉันต้องการเปิดหน้าต่างใหม่ 2 ปีเพราะพฤติกรรมของสกุลเงินมีวิวัฒนาการและฉันต้องการสะท้อนสิ่งนี้ อย่างไรก็ตามฉันมีปัญหาที่สำคัญนั่นคือทั้งฟังก์ชั่น princomp () และ prcomp () มักจะกระโดดจากการโหลดเชิงบวกถึงเชิงลบในการวิเคราะห์ PCA ที่อยู่ติดกัน (เช่น 1 วันห่างกัน) ดูแผนภูมิการโหลดสำหรับสกุลเงิน EUR: เห็นได้ชัดว่าฉันไม่สามารถใช้สิ่งนี้ได้เพราะการโหลดที่อยู่ติดกันจะกระโดดจากบวกเป็นลบดังนั้นซีรี่ส์ของฉันที่ใช้มันจะผิดพลาด ตอนนี้มาดูค่าสัมบูรณ์ของการโหลดสกุลเงิน EUR: ปัญหาคือแน่นอนว่าฉันยังไม่สามารถใช้สิ่งนี้ได้เพราะคุณสามารถเห็นได้จากแผนภูมิด้านบนว่าการโหลดนั้นไปจากเชิงลบเป็นบวกและย้อนกลับไปในบางครั้งซึ่งเป็นลักษณะที่ฉันต้องรักษาไว้ มีวิธีใดบ้างที่ฉันสามารถแก้ไขปัญหานี้ได้ ฉันสามารถบังคับให้การปฐมนิเทศ eigenvector เหมือนกันใน PCAs ที่อยู่ติดกันได้หรือไม่ โดยวิธีการที่ปัญหานี้เกิดขึ้นกับฟังก์ชั่น FactoMineR () รหัสสำหรับ rollapply อยู่ที่นี่: rollapply(retmat, windowl, function(x) summary(princomp(x))$loadings[, 1], by.column = …
20 r  pca 

1
การคำนวณช่วงการทำนายสำหรับการถดถอยโลจิสติก
ฉันต้องการที่จะเข้าใจวิธีการสร้างช่วงเวลาการทำนายสำหรับการประมาณการการถดถอยโลจิสติก ฉันได้รับคำแนะนำให้ทำตามขั้นตอนในการสร้างแบบจำลองข้อมูลไบนารีของ Collett , 2nd Ed p.98-99 หลังจากนำขั้นตอนนี้มาใช้และเปรียบเทียบกับ R ของpredict.glmจริง ๆ แล้วฉันคิดว่าหนังสือเล่มนี้แสดงขั้นตอนการคำนวณช่วงความเชื่อมั่นไม่ใช่ช่วงเวลาทำนาย การปฏิบัติตามขั้นตอนจาก Collett โดยเปรียบเทียบกับpredict.glmแสดงไว้ด้านล่าง ฉันต้องการทราบว่า: ฉันจะไปจากที่นี่เพื่อสร้างช่วงการทำนายแทนช่วงความมั่นใจได้อย่างไร #Derived from Collett 'Modelling Binary Data' 2nd Edition p.98-99 #Need reproducible "random" numbers. seed <- 67 num.students <- 1000 which.student <- 1 #Generate data frame with made-up data from students: set.seed(seed) #reset seed …

3
การรวมโมเดลการเรียนรู้ของเครื่อง
ฉันยังใหม่กับการเรียนรู้ข้อมูล / การเรียนรู้ของเครื่อง / ฯลฯ และได้อ่านเกี่ยวกับวิธีการรวมแบบจำลองหลายแบบและแบบจำลองเดียวกันเพื่อปรับปรุงการทำนาย ความประทับใจของฉันจากการอ่านบทความสองเล่ม (ซึ่งมักจะน่าสนใจและยอดเยี่ยมเกี่ยวกับทฤษฎีและตัวอักษรกรีก แต่สั้น ๆ เกี่ยวกับรหัสและตัวอย่างจริง) คือมันควรจะเป็นเช่นนี้: ฉันใช้แบบจำลอง ( knn, RFและอื่น ๆ ) และรับรายการตัวแยกประเภทระหว่าง 0 และ 1 คำถามของฉันคือวิธีรวมรายการตัวแยกประเภทแต่ละรายการเหล่านี้หรือไม่ ฉันใช้โมเดลเดียวกันกับชุดการฝึกอบรมของฉันหรือไม่เพื่อให้จำนวนคอลัมน์ที่เข้าสู่โมเดลสุดท้ายเหมือนกันหรือมีเคล็ดลับอื่น ๆ อีกหรือไม่ มันจะดีถ้าคำแนะนำ / ตัวอย่างรวมถึงรหัส R หมายเหตุ: สำหรับชุดข้อมูลที่มีเส้น 100k ในชุดฝึกอบรมและ 70k ในชุดทดสอบและ 10 คอลัมน์

2
แคเร็ตวิธีการสุ่มตัวอย่างอีกครั้ง
ฉันใช้ไลบรารีcaretใน R เพื่อทดสอบขั้นตอนการสร้างแบบจำลองต่างๆ trainControlวัตถุช่วยให้หนึ่งเพื่อระบุวิธีการใหม่การสุ่มตัวอย่าง วิธีการที่อธิบายไว้ในเอกสารส่วน 2.3 และรวมถึง: boot, boot632, cv, LOOCV, LGOCV, และrepeatedcv oobถึงแม้ว่าสิ่งเหล่านี้บางอย่างจะอนุมานได้ง่าย แต่วิธีการเหล่านี้ไม่ได้มีการกำหนดไว้อย่างชัดเจน อะไรคือขั้นตอนที่สอดคล้องกับวิธีการสุ่มตัวอย่างใหม่เหล่านี้?
20 r  resampling  caret 

2
อนุญาตการเปรียบเทียบโมเดลเอฟเฟกต์แบบผสม (เอฟเฟกต์แบบสุ่มเป็นหลัก)
ฉันได้ดูการสร้างเอฟเฟ็กต์แบบผสมโดยใช้แพ็คเกจ lme4 ในอาร์ฉันใช้lmerคำสั่งเป็นหลักดังนั้นฉันจะถามคำถามของฉันผ่านรหัสที่ใช้ไวยากรณ์นั้น ฉันคิดว่าคำถามง่าย ๆ ทั่วไปอาจจะใช่ไหมที่จะเปรียบเทียบสองโมเดลที่สร้างขึ้นในการlmerใช้อัตราส่วนความน่าจะเป็นตามชุดข้อมูลที่เหมือนกันหรือไม่ ฉันเชื่อว่าคำตอบนั้นต้องเป็น "ไม่" แต่ฉันไม่ถูกต้อง ฉันได้อ่านข้อมูลที่ขัดแย้งกันว่าเอฟเฟกต์แบบสุ่มจะต้องเหมือนกันหรือไม่และองค์ประกอบของเอฟเฟกต์แบบสุ่มนั้นมีความหมายอย่างไร ดังนั้นฉันจะนำเสนอตัวอย่างเล็ก ๆ น้อย ๆ ฉันจะนำพวกเขาจากข้อมูลการวัดซ้ำ ๆ โดยใช้การกระตุ้นคำบางทีบางอย่างเช่นBaayen (2008)น่าจะมีประโยชน์ในการตีความ สมมติว่าฉันมีแบบจำลองที่มีตัวทำนายเอฟเฟกต์คงที่สองตัวเราจะเรียกพวกมันว่า A และ B และเอฟเฟกต์สุ่มบางอย่าง ... คำศัพท์และวิชาที่มองเห็นพวกมัน ฉันอาจสร้างแบบจำลองดังต่อไปนี้ m <- lmer( y ~ A + B + (1|words) + (1|subjects) ) (โปรดทราบว่าฉันตั้งใจออกไปdata =และเราจะถือว่าฉันหมายถึงREML = FALSEเพื่อความชัดเจนเสมอ) ทีนี้จากแบบจำลองต่อไปนี้ซึ่งเป็นสิ่งที่โอเคที่จะเปรียบเทียบกับอัตราส่วนความน่าจะเป็นกับแบบจำลองข้างบนและแบบใด? m1 <- lmer( y ~ A …

3
การทดสอบความสำคัญของยอดเขาในความหนาแน่นสเปกตรัม
บางครั้งเราใช้พล็อตความหนาแน่นสเปกตรัมเพื่อวิเคราะห์ช่วงเวลาในอนุกรมเวลา โดยปกติเราวิเคราะห์พล็อตโดยการตรวจสอบด้วยสายตาและจากนั้นพยายามวาดข้อสรุปเกี่ยวกับช่วงเวลา แต่นักสถิติได้ทำการพัฒนาการทดสอบเพื่อตรวจสอบว่าสไปค์ใด ๆ ในพล็อตนั้นแตกต่างจากเสียงสีขาวหรือไม่? ผู้เชี่ยวชาญด้าน R ได้พัฒนาแพ็คเกจใด ๆ สำหรับการวิเคราะห์ความหนาแน่นสเปกตรัมและสำหรับการทำแบบทดสอบนั้นหรือไม่? ดีมากถ้ามีคนช่วยได้ ขอแสดงความนับถือ, P.

3
วิธีการตั้งค่าและประเมินโมเดล logom แบบมัลติโนเมียลใน R
ฉันใช้โมเดล login แบบหลายมิติใน JMP และได้ผลลัพธ์กลับมาซึ่งรวมถึง AIC และค่า p-chi-squared สำหรับการประมาณพารามิเตอร์แต่ละตัว แบบจำลองมีผลลัพธ์เด็ดขาดหนึ่งรายการและมีคำอธิบายอย่างละเอียด 7 ข้อ ฉันพอดีกับสิ่งที่ฉันคิดว่าจะสร้างรูปแบบเดียวกันใน R โดยใช้multinomฟังก์ชั่นในแพ็คเกจnnet รหัสนั้นเป็นพื้น: fit1 <- multinom(y ~ x1+x2+...xn,data=mydata); summary(fit1); อย่างไรก็ตามทั้งสองให้ผลลัพธ์ที่แตกต่าง ด้วย JMP AIC คือ 2923.21 และnnet::multinomAIC คือ 3116.588 ดังนั้นคำถามแรกของฉันคือ: หนึ่งในรุ่นผิดหรือเปล่า? สิ่งที่สองคือ JMP ให้ค่า chi-squared สำหรับการประมาณการพารามิเตอร์แต่ละครั้งซึ่งฉันต้องการ การสรุปผลการทำงานบน multinom fit1ไม่ได้ - เพียงแค่ให้ค่าประมาณ, AIC และ Deviance คำถามที่สองของฉันคือ: มีวิธีรับค่า p สำหรับแบบจำลองและการประมาณค่าเมื่อใช้nnet::multinomหรือไม่ …
20 r  logistic  multinomial  logit  jmp 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.