คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

1
การลดขนาด (SVD หรือ PCA) บนเมทริกซ์ขนาดใหญ่ที่กระจัดกระจาย
/ แก้ไข: ติดตามเพิ่มเติมตอนนี้คุณสามารถใช้irlba :: prcomp_irlba / แก้ไข: ติดตามโพสต์ของฉันเอง irlbaขณะนี้มีอาร์กิวเมนต์ "กลาง" และ "สเกล" ซึ่งให้คุณใช้ในการคำนวณส่วนประกอบหลักเช่น: pc <- M %*% irlba(M, nv=5, nu=0, center=colMeans(M), right_only=TRUE)$v ฉันมีMatrixคุณสมบัติเบาบางขนาดใหญ่ที่ฉันต้องการใช้ในอัลกอริทึมการเรียนรู้ของเครื่อง: library(Matrix) set.seed(42) rows <- 500000 cols <- 10000 i <- unlist(lapply(1:rows, function(i) rep(i, sample(1:5,1)))) j <- sample(1:cols, length(i), replace=TRUE) M <- sparseMatrix(i, j) เนื่องจากเมทริกซ์นี้มีหลายคอลัมน์ฉันต้องการลดขนาดของมันเป็นสิ่งที่จัดการได้มากกว่า ฉันสามารถใช้แพ็คเกจ irlba ที่ยอดเยี่ยมเพื่อทำ …

2
วิธีการกำหนดขอบเขตการตัดสินใจของลักษณนามเพื่อนบ้านใกล้เคียง k- ที่ใกล้ที่สุดจากองค์ประกอบของการเรียนรู้ทางสถิติ
ฉันต้องการสร้างพล็อตที่อธิบายไว้ในหนังสือ ElemStatLearn "องค์ประกอบของการเรียนรู้ทางสถิติ: การทำเหมืองข้อมูลการอนุมานและการทำนายรุ่นที่สอง" โดย Trevor Hastie & Robert Tibshirani & Jerome Friedman เนื้อเรื่องคือ: ฉันสงสัยว่าฉันสามารถสร้างกราฟที่แน่นอนนี้ได้Rอย่างไรโดยเฉพาะบันทึกกราฟกริดและการคำนวณเพื่อแสดงขอบเขต

3
แสดงภาพล้านฉบับ PCA
เป็นไปได้หรือไม่ที่จะเห็นภาพผลลัพธ์ของการวิเคราะห์องค์ประกอบหลักในรูปแบบที่ให้ข้อมูลเชิงลึกมากกว่าแค่ตารางสรุป? เป็นไปได้ไหมที่จะทำเมื่อจำนวนการสังเกตมีขนาดใหญ่พูด ~ 1e4 และเป็นไปได้หรือไม่ที่จะทำใน R [สภาพแวดล้อมอื่น ๆ ยินดีต้อนรับ]?

1
การกระจายของพารามิเตอร์ใน BUGS และ R แตกต่างกันอย่างไร?
ฉันได้พบการแจกแจงบางอย่างซึ่ง BUGS และ R มีพารามิเตอร์ต่างกัน: Normal, log-Normal และ Weibull สำหรับแต่ละสิ่งเหล่านี้ฉันรวบรวมว่าพารามิเตอร์ตัวที่สองที่ใช้โดย R จำเป็นต้องแปลงผกผัน (1 / พารามิเตอร์) ก่อนที่จะใช้ใน BUGS (หรือ JAGS ในกรณีของฉัน) ไม่มีใครทราบรายการที่ครอบคลุมของการเปลี่ยนแปลงเหล่านี้ที่มีอยู่ในปัจจุบัน? ที่ใกล้เคียงที่สุดที่ฉันสามารถหาได้คือการเปรียบเทียบการแจกแจงในตารางที่ 7 ของคู่มือผู้ใช้ JAGS 2.2.0กับผลลัพธ์?rnormอื่น ๆ และอาจเป็นข้อความความน่าจะเป็นบางอย่าง วิธีนี้ดูเหมือนจะต้องการการแปลงที่จะต้องมีการอนุมานจากไฟล์ PDF แยกต่างหาก ฉันต้องการหลีกเลี่ยงงานนี้ (และข้อผิดพลาดที่เป็นไปได้) หากทำไปแล้วหรือเริ่มรายการที่นี่ ปรับปรุง ตามคำแนะนำของเบ็นฉันได้เขียนฟังก์ชั่นต่อไปนี้เพื่อแปลงดาต้าเฟรมของพารามิเตอร์จาก R เป็น BUGS parameterization ##' convert R parameterizations to BUGS paramaterizations ##' ##' R …

1
การเปรียบเทียบแบบจำลองเอฟเฟกต์แบบหลากหลาย
ฉันพยายามวิเคราะห์ข้อมูลบางอย่างโดยใช้แบบจำลองเอฟเฟกต์ผสม ข้อมูลที่ฉันรวบรวมนั้นเป็นตัวแทนของน้ำหนักของสัตว์เล็กที่มีจีโนไทป์ต่างกันตามเวลา ฉันใช้แนวทางที่เสนอที่นี่: https://gribblelab.wordpress.com/2009/03/09/repeated-measures-anova-using-r/ โดยเฉพาะฉันใช้โซลูชัน # 2 ดังนั้นฉันมีสิ่งที่ชอบ require(nlme) model <- lme(weight ~ time * Genotype, random = ~1|Animal/time, data=weights) av <- anova(model) ตอนนี้ฉันต้องการเปรียบเทียบหลายอย่าง ใช้multcompฉันสามารถทำได้: require(multcomp) comp.geno <- glht(model, linfct=mcp(Genotype="Tukey")) print(summary(comp.geno)) และแน่นอนฉันสามารถทำเช่นเดียวกันกับเวลา ฉันมีสองคำถาม: ฉันจะใช้mcpเพื่อดูปฏิสัมพันธ์ระหว่างเวลาและจีโนไทป์ได้อย่างไร เมื่อฉันวิ่งglhtฉันได้รับคำเตือนนี้: covariate interactions found -- default contrast might be inappropriate มันหมายความว่าอะไร? ฉันสามารถเพิกเฉยได้อย่างปลอดภัยหรือไม่? หรือฉันควรทำอย่างไรเพื่อหลีกเลี่ยง แก้ไข: ฉันพบPDF นี้ที่ระบุว่า: …

6
วิธีเพิ่มความสามารถในการทำซ้ำในระยะยาวของการวิจัย (โดยเฉพาะการใช้ R และ Sweave)
บริบท: เพื่อตอบคำถามก่อนหน้าเกี่ยวกับการวิจัยที่ทำซ้ำได้Jake เขียน ปัญหาหนึ่งที่เราค้นพบเมื่อสร้าง JASA archive ของเราคือเวอร์ชันและค่าเริ่มต้นของแพ็คเกจ CRAN เปลี่ยนไป ดังนั้นในที่เก็บถาวรนั้นเรายังรวมรุ่นของแพ็คเกจที่เราใช้ ระบบที่ใช้ vignette อาจจะแตกเป็นเสี่ยง ๆ เมื่อคนเปลี่ยนแพ็คเกจของพวกเขา (ไม่แน่ใจว่าจะรวมแพ็คเกจเพิ่มเติมภายในแพ็คเกจที่เป็น Compendium) ได้อย่างไร ในที่สุดฉันสงสัยว่าจะทำอย่างไรเมื่อตัว R เปลี่ยนไป มีวิธีการผลิตพูดว่าเครื่องเสมือนจริงที่สร้างสภาพแวดล้อมการคำนวณทั้งหมดที่ใช้สำหรับกระดาษเช่นที่เครื่องเสมือนไม่ใหญ่หลวงหรือไม่? คำถาม: กลยุทธ์ที่ดีในการสร้างความมั่นใจว่าการวิเคราะห์ข้อมูลที่ทำซ้ำได้นั้นสามารถทำซ้ำได้ในอนาคต (เช่นห้าสิบหรือยี่สิบปีหลังจากการตีพิมพ์)? อะไรคือกลยุทธ์ที่ดีในการเพิ่มความสามารถในการทำซ้ำอย่างต่อเนื่องเมื่อใช้ Sweave และ R ดูเหมือนว่าจะเกี่ยวข้องกับปัญหาของการทำให้มั่นใจว่าโครงการการวิเคราะห์ข้อมูลที่ทำซ้ำได้จะทำงานในเครื่องของผู้อื่นที่มีค่าเริ่มต้นแพ็คเกจที่แตกต่างกันเล็กน้อย ฯลฯ

2
ความสำคัญเชิงสัมพัทธ์ของชุดพยากรณ์ในการจำแนกประเภทป่าสุ่มใน R
ฉันต้องการพิจารณาความสำคัญสัมพัทธ์ของชุดของตัวแปรที่มีต่อการrandomForestจำแนกประเภทในอาร์importanceฟังก์ชั่นนี้ให้MeanDecreaseGiniตัวชี้วัดสำหรับตัวทำนายแต่ละตัว - มันง่ายเหมือนการรวมสิ่งนี้กับตัวทำนายแต่ละตัวในเซตหรือไม่? ตัวอย่างเช่น: # Assumes df has variables a1, a2, b1, b2, and outcome rf <- randomForest(outcome ~ ., data=df) importance(rf) # To determine whether the "a" predictors are more important than the "b"s, # can I sum the MeanDecreaseGini for a1 and a2 and compare to that of …

3
เป็นไปได้หรือไม่ที่จะคำนวณ AIC และ BIC สำหรับแบบจำลองการถดถอยแบบ lasso?
เป็นไปได้หรือไม่ที่จะคำนวณค่า AIC หรือ BIC สำหรับตัวแบบการถดถอยแบบบ่วงบาศและตัวแบบที่ทำให้เป็นมาตรฐานอื่นที่พารามิเตอร์จะเข้าสู่สมการเพียงบางส่วนเท่านั้น เรากำหนดระดับของเสรีภาพได้อย่างไร ฉันใช้ R เพื่อให้พอดีกับแบบจำลองการถดถอยแบบ lasso กับglmnet()ฟังก์ชันจากglmnetแพ็คเกจและฉันต้องการทราบวิธีคำนวณค่า AIC และ BIC สำหรับแบบจำลอง ด้วยวิธีนี้ฉันอาจเปรียบเทียบค่ากับแบบจำลองที่พอดีโดยไม่มีการทำให้เป็นมาตรฐาน เป็นไปได้ที่จะทำ?
31 r  model-selection  lasso  aic  bic 

7
วิธีการทางสถิติเพื่อพล็อตข้อมูลได้อย่างมีประสิทธิภาพมากขึ้นเมื่อมีจุดหลายล้านจุด?
ฉันพบว่า R อาจใช้เวลานานในการสร้างแปลงเมื่อมีคะแนนนับล้าน - ไม่น่าแปลกใจเนื่องจากมีการลงจุดเป็นรายบุคคล นอกจากนี้แปลงดังกล่าวมักจะรกเกินไปและแน่นเกินไปที่จะเป็นประโยชน์ หลายจุดซ้อนทับกันและก่อตัวเป็นมวลดำและใช้เวลามากมายในการพล็อตจุดให้มากขึ้น มีทางเลือกทางสถิติใด ๆ ในการแทนข้อมูลขนาดใหญ่ใน scatterplot มาตรฐานหรือไม่? ฉันได้พิจารณาโครงเรื่องความหนาแน่นแล้ว แต่มีทางเลือกอื่นอะไรอีกบ้างnnn

2
การกระจายแบบกึ่งทวินามคืออะไร (ในบริบทของ GLM)
ฉันหวังว่าบางคนสามารถให้ภาพรวมที่เข้าใจง่ายเกี่ยวกับการกระจายตัวของ quasibinomial คืออะไรและมันทำอะไร ฉันสนใจในประเด็นเหล่านี้เป็นพิเศษ: วิธี quasibinomial แตกต่างกับการกระจายทวินาม เมื่อตัวแปรตอบสนองเป็นสัดส่วน (ค่าตัวอย่าง ได้แก่ 0.23, 0.11, 0.78, 0.98) โมเดล quasibinomial จะทำงานใน R แต่โมเดลทวินามจะไม่ ทำไมรูปแบบ quasibinomial ควรใช้เมื่อตัวแปรการตอบสนอง TRUE / FALSE เกินกำหนด

1
คำสั่ง anova () ทำอะไรกับวัตถุโมเดล lmer
หวังว่านี่เป็นคำถามที่ใครบางคนที่นี่สามารถตอบสำหรับฉันเกี่ยวกับธรรมชาติของการสลายจำนวนสแควร์สจากรูปแบบเอฟเฟกต์ผสมกับlmer(จากแพ็คเกจ lme4 R) ก่อนอื่นฉันควรจะบอกว่าฉันรู้ถึงความขัดแย้งกับการใช้วิธีการนี้และในทางปฏิบัติฉันมีแนวโน้มที่จะใช้ bootstrapped LRT เพื่อเปรียบเทียบแบบจำลอง (ตามที่ Faraway, 2006 แนะนำ) อย่างไรก็ตามฉันสับสนในวิธีการทำซ้ำผลลัพธ์และเพื่อความมีสติของตัวเองฉันคิดว่าฉันจะถามที่นี่ โดยพื้นฐานแล้วฉันจะได้สัมผัสกับการใช้แบบจำลองเอฟเฟกต์ที่เหมาะสมกับlme4แพ็คเกจ ฉันรู้ว่าคุณสามารถใช้anova()คำสั่งเพื่อให้บทสรุปของการทดสอบผลกระทบคงที่ตามลำดับในรูปแบบ เท่าที่ฉันรู้ว่าสิ่งนี้คือสิ่งที่ Faraway (2006) อ้างถึงเป็นวิธีการ 'คาดหมายถึงกำลังสอง' สิ่งที่ฉันอยากรู้คือการคำนวณจำนวนเงินสแควร์สเป็นอย่างไร? ฉันรู้ว่าฉันสามารถนำค่าประมาณจากโมเดลเฉพาะ (โดยใช้coef()) สมมติว่าได้รับการแก้ไขแล้วทำการทดสอบโดยใช้ผลรวมของกำลังสองของเศษซากโมเดลที่มีและไม่มีปัจจัยที่น่าสนใจ นี่เป็นสิ่งที่ดีสำหรับโมเดลที่มีปัจจัยภายในเรื่องเดียว อย่างไรก็ตามเมื่อใช้การออกแบบการแยกส่วนผลบวกของค่ากำลังสองที่ฉันได้รับจะเท่ากับค่าที่ผลิตโดย R โดยใช้aov()การError()กำหนดที่เหมาะสม อย่างไรก็ตามนี่ไม่เหมือนกับผลบวกของกำลังสองที่สร้างโดยanova()คำสั่งบนวัตถุจำลองแม้ว่าข้อเท็จจริงที่ว่าอัตราส่วน F จะเหมือนกันก็ตาม ของหลักสูตรนี้เหมาะสมอย่างสมบูรณ์เนื่องจากไม่จำเป็นต้องมีError()ชั้นในรูปแบบผสม อย่างไรก็ตามนี่ต้องหมายความว่าผลรวมของกำลังสองจะถูกลงโทษในรูปแบบผสมเพื่อให้ได้อัตราส่วน F ที่เหมาะสม สิ่งนี้สำเร็จได้อย่างไร และรูปแบบอย่างไรแก้ไขผลรวมระหว่างพล็อตของสี่เหลี่ยม แต่ไม่แก้ไขผลรวมภายในพล็อตของสแควร์ เห็นได้ชัดว่านี่เป็นสิ่งที่จำเป็นสำหรับ ANOVA แบบแยกส่วนแบบคลาสสิกที่ทำได้โดยการกำหนดค่าความผิดพลาดต่างกันสำหรับเอฟเฟกต์ต่าง ๆ ดังนั้นโมเดลผสมเอฟเฟกต์จะอนุญาตได้อย่างไร โดยพื้นฐานแล้วฉันต้องการที่จะสามารถจำลองผลลัพธ์ที่ได้จากanova()คำสั่งที่ใช้กับวัตถุโมเดล lmer เพื่อตรวจสอบผลลัพธ์และความเข้าใจของฉันอย่างไรก็ตามในปัจจุบันฉันสามารถทำสิ่งนี้ได้สำหรับการออกแบบภายในเรื่องปกติ แต่ไม่ใช่สำหรับการแยก - พล็อตเรื่องการออกแบบและฉันไม่สามารถหาสาเหตุได้ในกรณีนี้ ตัวอย่างเช่น: library(faraway) …

2
ทดสอบการกระจาย bimodal
ฉันสงสัยว่ามีการทดสอบทางสถิติเพื่อ "ทดสอบ" ความสำคัญของการกระจาย bimodal หรือไม่ ฉันหมายความว่าข้อมูลของฉันตรงกับการกระจาย bimodal มากแค่ไหน? ถ้าเป็นเช่นนั้นมีการทดสอบในโปรแกรม R หรือไม่?

2
เปรียบเทียบ lme และ lmer
ฉันสงสัยว่าถ้าใครสามารถทำให้ฉันเข้าใจถึงความแตกต่างในปัจจุบันระหว่างฟังก์ชั่นทั้งสองนี้ ฉันพบคำถามต่อไปนี้: วิธีการเลือกไลบรารี nlme หรือ lme4 R สำหรับโมเดลเอฟเฟกต์ผสม? แต่วันนั้นมาจากสองสามปีที่ผ่านมา นั่นคืออายุการใช้งานในแวดวงซอฟต์แวร์ คำถามเฉพาะของฉันคือ: มี (ยัง) โครงสร้างความสัมพันธ์ใด ๆlmeที่lmerไม่จัดการ? เป็นไปได้ / แนะนำให้ใช้lmerกับข้อมูลพาเนลหรือไม่ ขออภัยหากสิ่งเหล่านี้ค่อนข้างพื้นฐาน รายละเอียดเพิ่มเติมเล็กน้อย: ข้อมูลพาเนลคือที่ที่เรามีการวัดหลายรายการในบุคคลเดียวกัน ณ เวลาต่างๆ โดยทั่วไปฉันทำงานในบริบททางธุรกิจซึ่งคุณอาจมีข้อมูลสำหรับลูกค้าซ้ำ / ระยะยาวในช่วงหลายปีที่ผ่านมา เราต้องการอนุญาตให้มีการเปลี่ยนแปลงเมื่อเวลาผ่านไป แต่การปรับตัวแปรดัมมี่ให้ชัดเจนสำหรับแต่ละเดือนหรือปีนั้นไม่มีประสิทธิภาพ อย่างไรก็ตามฉันไม่แน่ใจว่าlmerเป็นเครื่องมือที่เหมาะสมสำหรับข้อมูลประเภทนี้หรือไม่หรือว่าฉันต้องการโครงสร้างความสัมพันธ์อัตโนมัติที่lmeมี

4
วิธีการลดขนาดด้วย PCA ใน R
ฉันมีชุดข้อมูลขนาดใหญ่และฉันต้องการลดขนาดข้อมูล ตอนนี้ทุกที่ฉันอ่านว่าฉันสามารถใช้ PCA สำหรับสิ่งนี้ อย่างไรก็ตามฉันยังดูเหมือนจะไม่ได้สิ่งที่ต้องทำหลังจากการคำนวณ / การแสดง PCA princompในการวิจัยนี้จะกระทำได้อย่างง่ายดายด้วยคำสั่ง แต่จะทำอย่างไรหลังจากคำนวณ PCA หากฉันตัดสินใจว่าจะใช้ส่วนประกอบหลักแรกฉันจะลดชุดข้อมูลของฉันได้อย่างไร100100100
30 r  pca 

3
เป็นวิธีที่ดีในการใช้ R เพื่อสร้าง scatterplot ที่แยกข้อมูลโดยการรักษาคืออะไร?
ฉันใหม่มากกับ R และสถิติโดยทั่วไป แต่ฉันต้องสร้างโปรเจ็กต์ที่ฉันคิดว่าอาจเกินขีดความสามารถดั้งเดิม ฉันมีเวกเตอร์ของการสังเกตสองสามอันและฉันต้องการทำ scatterplot กับพวกเขาและแต่ละคู่ตกอยู่ในหนึ่งในสามประเภท ฉันต้องการสร้าง scatterplot ที่แยกแต่ละหมวดหมู่ตามสีหรือตามสัญลักษณ์ ฉันคิดว่าสิ่งนี้จะดีกว่าการสร้างแผนการกระจายที่แตกต่างกันสามแบบ ฉันมีปัญหาอีกอันหนึ่งกับความจริงที่ว่าในแต่ละหมวดหมู่มีกลุ่มขนาดใหญ่ ณ จุดหนึ่ง แต่กลุ่มนั้นมีขนาดใหญ่กว่ากลุ่มหนึ่งมากกว่าอีกสองกลุ่ม ไม่มีใครรู้วิธีที่ดีในการทำเช่นนี้? แพ็คเกจที่ฉันควรติดตั้งและเรียนรู้วิธีการใช้งาน? ใครทำอะไรที่คล้ายกัน? ขอบคุณ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.