คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

3
คำอธิบายที่ง่ายสำหรับพล็อตพิกัดขนาน
ฉันได้อ่านและเห็นพล็อตพิกัดขนานมากมาย ใครสามารถตอบคำถามชุดต่อไปนี้: อะไรคือสมการพิกัดขนาน (PCP) ในคำง่ายๆเพื่อให้คนธรรมดาเข้าใจ คำอธิบายทางคณิตศาสตร์พร้อมปรีชาถ้าเป็นไปได้ PCP มีประโยชน์เมื่อใดและควรใช้เมื่อใด PCP ไม่มีประโยชน์เมื่อใดและควรหลีกเลี่ยงเมื่อใด? ข้อดีและข้อเสียที่เป็นไปได้ของ PCP

3
ประเมินขนาดของประชากรที่ถูกสุ่มตัวอย่างด้วยจำนวนการสังเกตซ้ำ
สมมติว่าฉันมีประชากร 50 ล้านสิ่งที่ไม่เหมือนใครและฉันนำตัวอย่าง 10 ล้านชิ้น (มาทดแทน) ... กราฟแรกที่ฉันแนบมาแสดงให้เห็นว่าฉันได้ทดลองสิ่ง "เดียวกัน" กี่ครั้งซึ่งค่อนข้างหายาก ประชากรใหญ่กว่าตัวอย่างของฉัน อย่างไรก็ตามหากประชากรของฉันมีเพียง 10 ล้านสิ่งและฉันใช้ตัวอย่าง 10 ล้านตัวเนื่องจากกราฟที่สองแสดงให้เห็นว่าฉันมักจะลองทำซ้ำอีกครั้ง คำถามของฉันคือ - จากตารางความถี่การสังเกตของฉัน (ข้อมูลในแผนภูมิแท่ง) เป็นไปได้หรือไม่ที่จะได้ประมาณขนาดประชากรดั้งเดิมเมื่อไม่ทราบ? และมันจะดีมากถ้าคุณสามารถหาตัวชี้ว่าจะทำยังไงในอาร์

3
วิธีจำลองการวิเคราะห์พลังงานที่กำหนดเองของ lm model (โดยใช้ R)
ต่อไปนี้เป็นคำถามที่ผ่านมาเรามีที่นี่ ฉันอยากจะรู้ว่าใครเคยเจอหรือสามารถแบ่งปันรหัส R เพื่อทำการวิเคราะห์พลังงานแบบกำหนดเองตามการจำลองสำหรับตัวแบบเชิงเส้น? ต่อมาฉันอยากจะขยายไปยังรุ่นที่ซับซ้อนมากขึ้น แต่ดูเหมือนว่าจะเริ่มต้นได้ทันที ขอบคุณ

1
รูปแบบอินพุตสำหรับการตอบสนองใน binomial glm ใน R
ในRมีสามวิธีในการจัดรูปแบบข้อมูลอินพุตสำหรับการถดถอยโลจิสติกโดยใช้glmฟังก์ชัน: ข้อมูลสามารถอยู่ในรูปแบบ "ไบนารี" สำหรับการสังเกตแต่ละครั้ง (เช่น y = 0 หรือ 1 สำหรับการสังเกตแต่ละครั้ง); ข้อมูลสามารถอยู่ในรูปแบบ "Wilkinson-Rogers" (เช่นy = cbind(success, failure)) โดยแต่ละแถวแสดงถึงการรักษาหนึ่งครั้ง หรือ ข้อมูลสามารถอยู่ในรูปแบบถ่วงน้ำหนักสำหรับการสังเกตแต่ละครั้ง (เช่น y = 0.3, น้ำหนัก = 10) ทั้งสามวิธีมีการประมาณค่าสัมประสิทธิ์เท่ากัน แต่แตกต่างกันไปตามระดับของอิสรภาพและค่าเบี่ยงเบนและผลคะแนน AIC สองวิธีสุดท้ายมีการสังเกตน้อยกว่า (และดีกรีอิสระ) เพราะพวกเขาใช้การรักษาแต่ละครั้งสำหรับจำนวนการสังเกตในขณะที่วิธีแรกใช้การสังเกตแต่ละครั้งสำหรับจำนวนการสังเกต คำถามของฉัน:มีความได้เปรียบเชิงตัวเลขหรือเชิงสถิติในการใช้รูปแบบอินพุตหนึ่งมากกว่าอีกรูปแบบหนึ่งหรือไม่ ข้อได้เปรียบเดียวที่ฉันเห็นคือไม่ต้องฟอร์แมตข้อมูลRเพื่อใช้กับตัวแบบ ฉันได้ดูเอกสาร glmค้นหาบนเว็บและเว็บไซต์นี้และพบโพสต์ที่เกี่ยวข้องเป็นรูปธรรมแต่ไม่มีคำแนะนำในหัวข้อนี้ นี่คือตัวอย่างที่จำลองซึ่งแสดงให้เห็นถึงพฤติกรรมนี้: # Write function to help simulate data drc4 <- function(x, b =1.0, …

1
ทำไม ecdf ใช้ฟังก์ชั่นขั้นตอนและไม่ใช่การแก้ไขเชิงเส้น?
ฟังก์ชั่น CDF เชิงประจักษ์มักจะประมาณโดยฟังก์ชั่นขั้นตอน มีเหตุผลที่ทำเช่นนี้และไม่ใช้การแก้ไขเชิงเส้นหรือไม่ ฟังก์ชันขั้นตอนมีคุณสมบัติทางทฤษฎีที่น่าสนใจซึ่งทำให้เราชอบหรือไม่ นี่คือตัวอย่างของทั้งสอง: ecdf2 <- function (x) { x <- sort(x) n <- length(x) if (n < 1) stop("'x' must have 1 or more non-missing values") vals <- unique(x) rval <- approxfun(vals, cumsum(tabulate(match(x, vals)))/n, method = "linear", yleft = 0, yright = 1, f = 0, ties …
13 r  distributions  ecdf 

1
แพคเกจ GBM กับ Caret ใช้ GBM
ฉันเคยใช้การจูนโมเดลcaretแต่แล้วก็รันโมเดลอีกครั้งโดยใช้gbmแพ็คเกจ ฉันเข้าใจว่าcaretแพ็กเกจที่ใช้gbmและเอาต์พุตควรเหมือนกัน อย่างไรก็ตามการทดสอบการทำงานอย่างรวดเร็วโดยใช้data(iris)แสดงความแตกต่างในรูปแบบประมาณ 5% โดยใช้ RMSE และ R ^ 2 เป็นตัวชี้วัดการประเมินผล ฉันต้องการค้นหาประสิทธิภาพของแบบจำลองที่ดีที่สุดโดยใช้caretแต่เรียกใช้อีกครั้งgbmเพื่อใช้ประโยชน์จากแผนการพึ่งพาบางส่วน รหัสด้านล่างสำหรับการทำซ้ำ คำถามของฉันจะเป็น: 1) เหตุใดฉันจึงเห็นความแตกต่างระหว่างแพ็คเกจทั้งสองนี้ถึงแม้ว่าพวกเขาจะเหมือนกัน (ฉันเข้าใจว่าพวกมันสุ่ม แต่ 5% ค่อนข้างแตกต่างกันมากโดยเฉพาะอย่างยิ่งเมื่อฉันไม่ได้ใช้ชุดข้อมูลที่ดีirisสำหรับการสร้างแบบจำลองของฉัน) . 2) มีข้อดีหรือข้อเสียในการใช้ทั้งสองแพคเกจหรือไม่ 3) ไม่เกี่ยวข้อง: การใช้irisชุดข้อมูลที่ดีที่สุดinteraction.depthคือ 5 แต่สูงกว่าที่ฉันได้อ่านควรจะใช้สูงสุดfloor(sqrt(ncol(iris)))ซึ่งควรจะเป็น 2 นี่เป็นกฎง่ายๆหรือเข้มงวดหรือไม่? library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric …

2
สูตรสำหรับช่วงความมั่นใจ 95% สำหรับ
ฉันค้นหาและค้นหาบน stats.stackexchange แต่ไม่พบสูตรการคำนวณช่วงความมั่นใจ 95% สำหรับค่าสำหรับการถดถอยเชิงเส้น ทุกคนสามารถให้ได้หรือไม่R2R2R^2 ยิ่งไปกว่านั้นสมมติว่าฉันใช้การถดถอยเชิงเส้นด้านล่างในอาร์ฉันจะคำนวณช่วงความมั่นใจ 95% สำหรับค่าโดยใช้รหัส R ได้อย่างไรR2R2R^2 lm_mtcars <- lm(mpg ~ wt, mtcars)

4
การตีความความแปรปรวนของเอฟเฟกต์แบบสุ่มในเครื่องแปล
ฉันกำลังทบทวนบทความเกี่ยวกับการผสมเกสรซึ่งมีการแจกแจงข้อมูลแบบทวินาม (ผลไม้สุกหรือไม่มี) ดังนั้นฉันจึงใช้เอglmerฟเฟกต์แบบสุ่มหนึ่งอัน (พืชเดี่ยว) และผลคงที่หนึ่งอัน (การรักษา) ผู้ตรวจทานต้องการทราบว่าพืชมีผลต่อชุดผลไม้หรือไม่ แต่ฉันมีปัญหาในการตีความglmerผลลัพธ์ ฉันได้อ่านจากเว็บไซต์และดูเหมือนว่าอาจมีปัญหากับการเปรียบเทียบglmและglmerรุ่นโดยตรงดังนั้นฉันจึงไม่ทำเช่นนั้น ฉันคิดว่าวิธีที่ตรงไปตรงมาที่สุดในการตอบคำถามคือเพื่อเปรียบเทียบความแปรปรวนของเอฟเฟกต์แบบสุ่ม (1.449 ด้านล่าง) กับความแปรปรวนทั้งหมดหรือความแปรปรวนที่อธิบายโดยการรักษา แต่ฉันจะคำนวณผลต่างอื่น ๆ เหล่านี้ได้อย่างไร ดูเหมือนว่าจะไม่รวมอยู่ในผลลัพธ์ด้านล่าง ฉันอ่านบางอย่างเกี่ยวกับความแปรปรวนตกค้างที่ไม่รวมอยู่ในทวินามglmer- ฉันจะตีความความสำคัญสัมพัทธ์ของเอฟเฟกต์แบบสุ่มได้อย่างไร > summary(exclusionM_stem) Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) [glmerMod] Family: binomial ( logit ) Formula: cbind(Fruit_1, Fruit_0) ~ Treatment + (1 | PlantID) AIC BIC logLik deviance …

2
การตีความความแปรปรวนร่วมของสัมประสิทธิ์การถดถอยคืออะไร?
ฟังก์ชัน lm ใน R สามารถพิมพ์ค่าความแปรปรวนร่วมประมาณของสัมประสิทธิ์การถดถอย ข้อมูลนี้ให้อะไรกับเรา? ตอนนี้เราสามารถตีความแบบจำลองได้ดีขึ้นหรือวินิจฉัยปัญหาที่อาจเกิดขึ้นในแบบจำลองได้หรือไม่

1
การแตกความลาดเอียงสำหรับเคสจากโมเดลเอฟเฟกต์ผสม (lme4)
ฉันต้องการแยกความลาดชันสำหรับแต่ละคนในรูปแบบเอฟเฟกต์ผสมตามที่ระบุไว้ในวรรคต่อไปนี้ แบบจำลองเอฟเฟกต์แบบผสมถูกนำมาใช้เพื่ออธิบายลักษณะการเปลี่ยนแปลงของแต่ละบุคคลในมาตรการสรุปทางปัญญาซึ่งรวมถึงข้อกำหนดสำหรับอายุเพศและปีการศึกษาซึ่งเป็นผลกระทบคงที่ (Laird and Ware, 1982; Wilson et al., 2000, 2002c) ... ส่วนที่เหลือเงื่อนไขความลาดชันการลดลงของความรู้ความเข้าใจของแต่ละบุคคลถูกดึงออกมาจากแบบจำลองผสมหลังจากปรับผลกระทบของอายุเพศและการศึกษา จากนั้นนำมาใช้เป็นข้อมูลเชิงปริมาณสำหรับการวิเคราะห์ความสัมพันธ์ทางพันธุกรรม การประมาณการเหล่านี้เปรียบเสมือนความแตกต่างระหว่างความชันของแต่ละบุคคลกับความชันที่คาดการณ์ของบุคคลที่มีอายุเพศและระดับการศึกษาเดียวกัน De Jager, PL, Shulman, JM, Chibnik, LB, Keenan, BT, Raj, T. , Wilson, RS, et al. (2012) จีโนมกว้างสแกนทั่วไปสายพันธุ์ที่มีผลต่ออัตราการที่เกี่ยวข้องกับอายุการลดลงของความรู้ความเข้าใจ ชีววิทยาของวัย, 33 (5), 1017.e1–1017.e15 ฉันดูที่การใช้coefฟังก์ชั่นเพื่อดึงค่าสัมประสิทธิ์สำหรับแต่ละบุคคล แต่ฉันไม่แน่ใจว่านี่เป็นวิธีการที่ถูกต้องที่จะใช้หรือไม่ ใครสามารถให้คำแนะนำเกี่ยวกับวิธีการทำเช่นนี้? #example R code library(lme4) attach(sleepstudy) fml <- lmer(Reaction ~ Days …
13 r  mixed-model 

2
การคำนวณ
ผมได้อ่านเกี่ยวกับการคำนวณR2R2R^2ค่าในรูปแบบผสมและหลังจากที่ได้อ่านคำถามที่พบบ่อย R-sig โพสต์อื่น ๆ ในฟอรั่มนี้ (ฉันจะเชื่อมโยงไม่กี่ แต่ฉันไม่ได้มีชื่อเสียงพอ) และอีกหลายอ้างอิงอื่น ๆ ผมเข้าใจว่าการใช้R2R2R^2ค่าในบริบทของตัวแบบผสมนั้นซับซ้อน อย่างไรก็ตามเมื่อเร็ว ๆ นี้ฉันได้พบกับสองเอกสารด้านล่าง ในขณะที่วิธีการเหล่านี้ดูมีแนวโน้ม (สำหรับฉัน) ฉันไม่ใช่นักสถิติและฉันก็สงสัยว่าถ้ามีใครอีกคนที่มีข้อมูลเชิงลึกเกี่ยวกับวิธีที่พวกเขาเสนอและวิธีเปรียบเทียบกับวิธีอื่น ๆ ที่ได้รับการเสนอ Nakagawa, Shinichi และ Holger Schielzeth "วิธีการทั่วไปและง่าย ๆ สำหรับรับ R2 จากโมเดลเอฟเฟกต์การผสมเชิงเส้นทั่วไป" วิธีการทางนิเวศวิทยาและวิวัฒนาการ 4.2 (2013): 133-142 จอห์นสันพอลซีดี "การขยาย R2GLMM ของ Nakagawa & Schielzeth ไปเป็นแบบจำลองเชิงลาดแบบสุ่ม" วิธีการในนิเวศวิทยาและวิวัฒนาการ (2014) วิธีนี้ยังสามารถนำมาใช้โดยใช้ฟังก์ชั่น r.squaredGLMM ในแพ็คเกจ MuMInซึ่งให้คำอธิบายวิธีการดังต่อไปนี้ R2R2R^2R2R2R^2RGLMM(m)2=σ2fσ2f+∑(σ2l)+σ2e+σ2dRGLMM(m)2=σf2σf2+∑(σl2)+σe2+σd2R_{GLMM}(m)^2 = \frac{σ_f^2}{σ_f^2 + …

1
การบูรณาการ CDF เชิงประจักษ์
ฉันมีการกระจายเชิงประจักษ์ ) ฉันคำนวณมันดังนี้G ( x )G(x)G(x) x <- seq(0, 1000, 0.1) g <- ecdf(var1) G <- g(x) ฉันแสดงว่าคือhคือ pdf ในขณะที่Gคือ cdfh ( x ) = dG / dxh(x)=dG/dxh(x) = dG/dxชั่วโมงhhGGG ตอนนี้ฉันต้องการแก้สมการสำหรับการรวมสูงสุด (พูด, ), ดังนั้นค่าคาดหวังของxคือkบางอันaaaxxxkkk นั่นคือการบูรณาการจากไปขผมควรจะมี∫ x H ( x ) d x = k ฉันต้องการที่จะแก้ปัญหาสำหรับข000bbb∫xh(x)dx=k∫xh(x)dx=k\int xh(x)dx = kbbb เมื่อรวมส่วนต่าง ๆ …
13 r  integral  ecdf 

5
การใส่หลายครั้งสำหรับค่าที่หายไป
ฉันต้องการใช้การใส่ข้อมูลเพื่อแทนที่ค่าที่หายไปในชุดข้อมูลของฉันภายใต้ข้อ จำกัด บางประการ ตัวอย่างเช่นผมต้องการตัวแปรที่ประเมินx1จะมีค่ามากกว่าหรือเท่ากับผลรวมของสองตัวแปรอื่น ๆ ของฉันพูดและx2 x3ฉันยังต้องการที่x3จะได้รับการกล่าวหาโดยทั้ง0หรือ>= 14และฉันต้องการที่x2จะได้รับการกล่าวหาโดยทั้งหรือ0>= 16 ฉันพยายามกำหนดข้อ จำกัด เหล่านี้ใน SPSS สำหรับการใส่หลายครั้ง แต่ใน SPSS ฉันสามารถกำหนดค่าสูงสุดและต่ำสุดได้เท่านั้น มีวิธีใดที่จะกำหนดข้อ จำกัด เพิ่มเติมใน SPSS หรือคุณรู้แพ็คเกจ R ที่จะให้ฉันกำหนดข้อ จำกัด ดังกล่าวสำหรับการใส่ค่าที่หายไป? ข้อมูลของฉันเป็นดังนี้: x1 =c(21, 50, 31, 15, 36, 82, 14, 14, 19, 18, 16, 36, 583, NA,NA,NA, 50, 52, 26, 24) x2 = c(0, NA, …

1
Gamma GLM เทียบกับ Log-linked Gaussian GLM เทียบกับ LM-log-แปรรูป LM
จากผลลัพธ์ของฉันปรากฏว่า GLM Gamma เป็นไปตามสมมติฐานส่วนใหญ่ แต่เป็นการปรับปรุงที่คุ้มค่าสำหรับ LM ที่แปลงเป็นไฟล์บันทึกหรือไม่ วรรณกรรมส่วนใหญ่ฉันพบข้อตกลงกับ Poisson หรือ Binomial GLMs ฉันพบว่าบทความการประเมินผลของรูปแบบเชิงเส้นของสมมติฐานทั่วไปโดยใช้การสุ่มคืนค่ามีประโยชน์มาก แต่มันไม่มีแผนการจริงที่ใช้ในการตัดสินใจ หวังว่าคนที่มีประสบการณ์สามารถชี้ฉันในทิศทางที่ถูกต้อง ฉันต้องการสร้างแบบจำลองการกระจายตัวของตัวแปรตอบสนองของฉัน T ซึ่งมีพล็อตแบบกระจาย ที่คุณสามารถดูมันเป็นเบ้บวก: ฉันมีปัจจัยสองอย่างที่ต้องพิจารณา: METH และ CASEPART โปรดทราบว่าการศึกษาครั้งนี้ส่วนใหญ่เป็นการสำรวจโดยมีวัตถุประสงค์หลักเพื่อการศึกษานำร่องก่อนทำการสร้างแบบจำลองเชิงทฤษฎีและทำการแสดง DoE รอบ ๆ ฉันมีโมเดลต่อไปนี้ใน R พร้อมโครงการวินิจฉัย: LM.LOG<-lm(log10(T)~factor(METH)+factor(CASEPART),data=tdat) GLM.GAMMA<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="Gamma"(link='log')) GLM.GAUS<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="gaussian"(link='log')) ฉันยังได้รับค่า P ต่อไปนี้ผ่านการทดสอบ Shapiro-Wilks ในส่วนที่เหลือ: LM.LOG: 2.347e-11 GLM.GAMMA: 0.6288 GLM.GAUS: 0.6288 ฉันคำนวณค่า AIC และ BIC แต่ถ้าฉันถูกต้องพวกเขาจะไม่บอกฉันมากนักเนื่องจากตระกูลต่าง ๆ …

4
ใน R วิธีคำนวณค่า p สำหรับพื้นที่ใต้ ROC
ฉันพยายามหาวิธีคำนวณค่า p สำหรับพื้นที่ภายใต้ลักษณะตัวดำเนินการตัวรับ (ROC) ฉันมีตัวแปรต่อเนื่องและผลการทดสอบการวินิจฉัย ฉันต้องการดูว่า AUROC มีนัยสำคัญทางสถิติหรือไม่ ฉันพบแพ็คเกจจำนวนมากที่เกี่ยวข้องกับเส้นโค้ง ROC: pROC, ROCR, caTools, การตรวจสอบ, Epi แต่หลังจากใช้เวลาหลายชั่วโมงในการอ่านเอกสารและการทดสอบฉันไม่สามารถหาวิธีได้ ฉันคิดว่าฉันเพิ่งพลาดไป
13 r  p-value  roc 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.