คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

5
แพ็คเกจ KNN imputation R
ฉันกำลังมองหาแพ็คเกจใส่ข้อมูลของ KNN ฉันดูแพคเกจ imputation ( http://cran.r-project.org/web/packages/imputation/imputation.pdf ) แต่ด้วยเหตุผลบางอย่างฟังก์ชั่น KNN impute (แม้เมื่อทำตามตัวอย่างจากคำอธิบาย) ดูเหมือนว่า เพื่อกำหนดค่าศูนย์ (ตามด้านล่าง) ฉันได้รับการมองไปรอบ ๆ แต่ยังไม่สามารถหาอะไรได้และด้วยเหตุนี้จึงสงสัยว่าใครมีคำแนะนำอื่น ๆ สำหรับแพ็คเกจการใส่ KNN ที่ดี? W ในรหัสต่อไปนี้ - ค่า NA จะถูกแทนที่ด้วยศูนย์ - ไม่ใช่ด้วยค่าเฉลี่ย Knn require(imputation) x = matrix(rnorm(100),10,10) x.missing = x > 1 x[x.missing] = NA kNNImpute(x, 3) x

4
การทดสอบตัวผู้ใน R [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน7 เดือนที่ผ่านมา ในการทดสอบสมมติฐานการถดถอยแบบขนานในการถดถอยโลจิสติกอันดับฉันพบว่ามีหลายวิธี ฉันใช้ทั้งวิธีกราฟิก (ตามรายละเอียดในหนังสือของ Harrell) และวิธีรายละเอียดโดยใช้ แพ็คเกจลำดับใน R อย่างไรก็ตามฉันต้องการรันการทดสอบ Brant (จาก Stata) สำหรับทั้งตัวแปรเดี่ยวและสำหรับโมเดลทั้งหมด ฉันได้ดูไปรอบ ๆ แต่ไม่พบการใช้งานใน R มีการนำการทดสอบ Brant ไปใช้ใน R หรือไม่?

1
วิธีการหาที่เหลือและพล็อตพวกเขา
ฉันได้รับข้อมูลแล้ว x = c(21,34,6,47,10,49,23,32,12,16,29,49,28,8,57,9,31,10,21,26,31,52,21,8,18,5,18,26,27,26,32,2,59,58,19,14,16,9,23,28,34,70,69,54,39,9,21,54,26) y = c(47,76,33,78,62,78,33,64,83,67,61,85,46,53,55,71,59,41,82,56,39,89,31,43,29,55, 81,82,82,85,59,74,80,88,29,58,71,60,86,91,72,89,80,84,54,71,75,84,79) ฉันจะได้รับส่วนที่เหลือและพล็อตกับอย่างไร? และฉันจะทดสอบว่าส่วนที่เหลือดูเหมือนจะเป็นปกติโดยประมาณได้อย่างไรxxx ฉันไม่แน่ใจว่าถ้าฉันทำแบบเชิงเส้นพอดีอย่างถูกต้องเมื่อฉันได้สมการแต่บันทึกการบรรยายบอกว่าเส้นการถดถอยเชิงเส้นควรอยู่ในรูปแบบy i = β 0 + β 1 x + ϵ .Y= 6.9 x - 5.5Y=6.9x-5.5y=6.9x-5.5Yผม= β0+ β1x + ϵYผม=β0+β1x+εy_i=\beta_0+\beta_1x+\epsilon
14 r  regression 

3
คุณจะทำ Bayesian ANOVA และการถดถอยใน R อย่างไร [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน2 ปีที่ผ่านมา ฉันมีชุดข้อมูลที่ค่อนข้างง่ายซึ่งประกอบด้วยตัวแปรอิสระหนึ่งตัวหนึ่งตัวแปรขึ้นอยู่กับหนึ่งตัวและตัวแปรเด็ดขาด ผมมีประสบการณ์มากมายการทดสอบการทำงาน frequentist ชอบaov()และlm()แต่ฉันไม่สามารถหาวิธีการดำเนินการเทียบเท่าแบบเบย์ในอาร์ ฉันต้องการเรียกใช้การถดถอยเชิงเส้นแบบเบย์ในสองตัวแปรแรกและการวิเคราะห์ความแปรปรวนแบบเบย์โดยใช้ตัวแปรหมวดหมู่เป็นการจัดกลุ่ม แต่ฉันไม่สามารถหาตัวอย่างง่ายๆเกี่ยวกับวิธีการทำเช่นนี้กับอาร์ ทั้งสอง? นอกจากนี้สถิติผลลัพธ์ที่สร้างขึ้นโดยการวิเคราะห์แบบเบย์คืออะไรและพวกเขาแสดงอะไร? ฉันไม่ได้มีความเชี่ยวชาญในสถิติมากนัก แต่ฉันทามติดูเหมือนว่าการใช้การทดสอบขั้นพื้นฐานที่มีค่า p นั้นตอนนี้คิดว่าค่อนข้างผิดและฉันพยายามติดตาม ความนับถือ.

3
ฟังก์ชั่นค่าใช้จ่ายใน cv.glm ในแพ็คเกจการบูตของ R คืออะไร?
ฉันกำลังทำการตรวจสอบความถูกต้องโดยใช้วิธีการตรวจสอบ ผมมีการตอบสนองไบนารีและกำลังใช้แพคเกจการบูตสำหรับ R และฟังก์ชั่น cv.glm ปัญหาของฉันคือฉันไม่เข้าใจส่วน "ต้นทุน" ในฟังก์ชั่นนี้ จากสิ่งที่ฉันสามารถเข้าใจได้นี่คือฟังก์ชั่นที่ตัดสินว่าควรประเมินค่าที่ประมาณว่าเป็น 1 หรือ 0 นั่นคือค่าเกณฑ์สำหรับการจำแนกประเภท ถูกต้องหรือไม่ cost <- function(r, pi = 0) mean(abs(r-pi) > 0.5)และในความช่วยเหลือในการวิจัยที่พวกเขาใช้ฟังก์ชั่นนี้สำหรับรูปแบบทวินาม: ฉันจะตีความฟังก์ชั่นนี้ได้อย่างไร? ดังนั้นฉันสามารถแก้ไขได้อย่างถูกต้องสำหรับการวิเคราะห์ของฉัน ความช่วยเหลือใด ๆ ที่ได้รับการชื่นชมไม่ต้องการที่จะใช้ฟังก์ชั่นที่ฉันไม่เข้าใจ

1
RandomForest - การตีความการแปลง MDS
ฉันใช้ randomForest เพื่อจำแนกพฤติกรรมสัตว์ 6 อย่าง (เช่นการยืนการเดินการว่ายน้ำ ฯลฯ ) โดยใช้ตัวแปร 8 ตัว (ท่าทางการเคลื่อนไหวและการเคลื่อนไหวที่แตกต่างกัน) MDSplot ในแพ็คเกจ randomForest ให้ผลลัพธ์นี้กับฉันและฉันมีปัญหาในการตีความผลลัพธ์ ฉันทำ PCA ด้วยข้อมูลเดียวกันและได้รับการแยกที่ดีระหว่างคลาสทั้งหมดใน PC1 และ PC2 แล้ว แต่ที่นี่ Dim1 และ Dim2 ดูเหมือนจะแยกพฤติกรรม 3 อย่างเท่านั้น สิ่งนี้หมายความว่าพฤติกรรมทั้งสามนี้มีความแตกต่างมากกว่าพฤติกรรมอื่น ๆ ทั้งหมด (ดังนั้น MDS จึงพยายามค้นหาความแตกต่างที่ยิ่งใหญ่ที่สุดระหว่างตัวแปร แต่ไม่จำเป็นต้องเป็นตัวแปรทั้งหมดในขั้นตอนแรก) การจัดตำแหน่งของทั้งสามคลัสเตอร์ (เช่นใน Dim1 และ Dim2) บ่งชี้ว่าอย่างไร เนื่องจากฉันค่อนข้างใหม่สำหรับ RI ก็มีปัญหาในการพล็อตเรื่องนี้ (แต่ฉันมีความคิดว่าสีที่ต่างกันหมายถึงอะไร) แต่บางทีใครบางคนอาจช่วยได้? ขอบคุณมาก!! ฉันเพิ่มพล็อตที่สร้างด้วยฟังก์ชัน …

1
มีทางเลือกอื่นสำหรับการทดสอบ Kolmogorov-Smirnov สำหรับข้อมูลที่เชื่อมโยงกับการแก้ไขหรือไม่?
ฉันได้รับข้อมูลจำนวนมากจากตัวอย่างสองตัวอย่าง (ควบคุมและจัดการ) แต่ละค่ามีหลายพันค่าซึ่งต้องผ่านการทดสอบที่สำคัญใน R. ตามทฤษฎีค่าควรจะต่อเนื่อง แต่เนื่องจากการปัดเศษทำโดยซอฟต์แวร์การวัดที่พวกเขาไม่ได้ ' และพวกเขามีความผูกพัน การแจกแจงไม่เป็นที่รู้จักและรูปร่างของการควบคุมและการแจกแจงที่ได้รับการรักษาอาจแตกต่างกันดังนั้นฉันต้องการใช้การทดสอบแบบไม่อิงพารามิเตอร์เพื่อเปรียบเทียบว่าความแตกต่างระหว่างตัวอย่างมีความสำคัญสำหรับ 10 ปัจจัยที่แตกต่างกันหรือไม่ ฉันคิดว่าจะใช้การทดสอบ Kolmogorov-Smirnov แต่มันไม่เหมาะสำหรับความสัมพันธ์ ฉันเพิ่งสะดุดกับห้องสมุด R ใหม่ที่เรียกว่าการจับคู่ที่ดำเนินการทดสอบรุ่น bootstrap ของ KS และยอมรับความสัมพันธ์ ตอนนี้เป็นความคิดที่ดีจริง ๆ หรือฉันควรใช้การทดสอบอื่นแทนหรือไม่ และฉันจำเป็นต้องปรับค่า p หรือไม่?

5
ลบจุดที่ไม่เกี่ยวข้องใกล้กับจุดศูนย์กลางของ QQ-plot
ฉันพยายามพล็อต QQ-plot ด้วยชุดข้อมูลสองชุดประมาณ 1.2 ล้านจุดใน R (ใช้ qqplot และป้อนข้อมูลลงใน ggplot2) การคำนวณนั้นง่ายพอ แต่กราฟผลลัพธ์นั้นโหลดช้าอย่างเจ็บปวดเนื่องจากมีหลายจุด ฉันได้ลองใช้การประมาณเชิงเส้นเพื่อลดจำนวนคะแนนเป็น 10,000 (นี่คือสิ่งที่ฟังก์ชั่น qqplot ทำอยู่แล้วถ้าหนึ่งในชุดข้อมูลของคุณมีขนาดใหญ่กว่าอีกชุดหนึ่ง) แต่คุณสูญเสียรายละเอียดจำนวนมากในหาง จุดข้อมูลส่วนใหญ่ที่อยู่ตรงกลางนั้นไร้ประโยชน์ - มันซ้อนทับกันมากจนอาจมีประมาณ 100 ต่อพิกเซล มีวิธีง่ายๆในการลบข้อมูลที่อยู่ใกล้กันเกินไปโดยไม่ปล่อยข้อมูลที่กระจัดกระจายไปทางหางหรือไม่?

1
มีแบนด์วิดธ์ที่เหมาะสมที่สุดสำหรับการประมาณความหนาแน่นเคอร์เนลของอนุพันธ์หรือไม่?
ฉันต้องการประเมินฟังก์ชันความหนาแน่นตามชุดการสังเกตโดยใช้ตัวประมาณความหนาแน่นของเคอร์เนล จากการสังเกตเดียวกันฉันต้องประเมินอนุพันธ์อันดับหนึ่งและสองของความหนาแน่นโดยใช้อนุพันธ์ของเครื่องประมาณความหนาแน่นเคอร์เนล แบนด์วิดท์จะมีผลอย่างมากจากผลลัพธ์สุดท้าย ก่อนอื่นฉันรู้ว่ามีฟังก์ชั่น R สองตัวที่ให้แบนด์วิดท์ของ KDE ฉันไม่แน่ใจว่าจะเลือกอันไหนมากกว่า ใครช่วยแนะนำหนึ่งในฟังก์ชั่น R เหล่านี้สำหรับแบนด์วิดธ์ของ KDE ได้หรือไม่? ประการที่สองสำหรับอนุพันธ์ของ KDE ฉันควรเลือกแบนด์วิดธ์เดียวกันหรือไม่

3
ช่วงความมั่นใจสำหรับรุ่น GAM
mgcv::gamหน้าความช่วยเหลือของReading : ความมั่นใจ / ช่วงเวลาที่น่าเชื่อถือนั้นพร้อมใช้งานสำหรับปริมาณใด ๆ ที่คาดการณ์ไว้โดยใช้แบบจำลองที่ติดตั้งไว้ อย่างไรก็ตามฉันไม่สามารถหาวิธีที่จะได้รับจริง ฉันคิดว่าpredict.gamจะมีtype=confidenceและlevelพารามิเตอร์ แต่ไม่ได้ คุณช่วยฉันเกี่ยวกับวิธีการสร้างมันได้หรือไม่

2
ชุดซอฟต์แวร์ที่เหมาะสมที่สุดสำหรับการวิเคราะห์แบบเบย์
ฉันสงสัยว่าพวกคุณแนะนำแพคเกจทางสถิติสำหรับการดำเนินการอนุมานแบบเบย์ ตัวอย่างเช่นฉันรู้ว่าคุณสามารถเรียกใช้ openBUGS หรือ winBUGS เป็น standalones หรือคุณสามารถเรียกพวกเขาจาก R แต่ R ยังมีแพ็คเกจของตัวเองหลายตัว (MCMCPack, BACCO) ซึ่งสามารถทำการวิเคราะห์แบบเบส์ ไม่มีใครมีคำแนะนำใด ๆ ที่เป็นแพคเกจสถิติเบย์ใน R ที่ดีที่สุดหรือเกี่ยวกับทางเลือกอื่น ๆ (Matlab หรือ Mathematica?) คุณสมบัติหลักที่ฉันต้องการเปรียบเทียบคือประสิทธิภาพการใช้งานง่ายความเสถียรและความยืดหยุ่น

1
วิธีการจัดการกับการผสมผสานของไบนารีและอินพุตอย่างต่อเนื่องในเครือข่ายประสาทเทียม?
ฉันใช้แพ็คเกจ nnet ใน R เพื่อพยายามสร้าง ANN เพื่อคาดการณ์ราคาอสังหาริมทรัพย์สำหรับคอนโด (โครงการส่วนตัว) ฉันยังใหม่กับสิ่งนี้และไม่มีพื้นฐานทางคณิตศาสตร์ดังนั้นโปรดเปลือยกับฉัน ฉันมีตัวแปรอินพุตที่เป็นทั้งไบนารีและต่อเนื่อง ตัวอย่างเช่นตัวแปรไบนารีบางตัวที่ แต่เดิมใช่ / ไม่ใช่ถูกแปลงเป็น 1/0 สำหรับโครงข่ายประสาท ตัวแปรอื่น ๆ Sqftที่มีอย่างต่อเนื่องเช่น ตัวอย่างการป้อนข้อมูล ฉันปรับมาตรฐานทั้งหมดให้อยู่ในระดับ 0-1 อาจBedroomsและBathroomsไม่ควรเป็นมาตรฐานเนื่องจากช่วงของพวกเขานั้นมีเพียง 0-4 ใช่ไหม อินพุตผสมเหล่านี้มีปัญหาสำหรับ ANN หรือไม่ ฉันได้ผลลัพธ์ที่ถูกต้อง แต่เมื่อตรวจสอบน้ำหนักของ ANN ที่เลือกไว้อย่างละเอียดแล้วดูเหมือนว่าไม่สมเหตุสมผล รหัสของฉันอยู่ด้านล่างคำแนะนำใด ๆ ANN <- nnet(Price ~ Sqft + Bedrooms + Bathrooms + Parking2 + Elevator + Central.AC + …

1
วิธีการลดผลรวมที่เหลือของกำลังสองของการยกกำลังสองได้อย่างไร?
ฉันมีข้อมูลต่อไปนี้และต้องการให้พอดีกับรูปแบบการเติบโตแบบเอ็กซ์โปเนนเชียลเชิงลบของมัน: Days <- c( 1,5,12,16,22,27,36,43) Emissions <- c( 936.76, 1458.68, 1787.23, 1840.04, 1928.97, 1963.63, 1965.37, 1985.71) plot(Days, Emissions) fit <- nls(Emissions ~ a* (1-exp(-b*Days)), start = list(a = 2000, b = 0.55)) curve((y = 1882 * (1 - exp(-0.5108*x))), from = 0, to =45, add = T, col = "green", …

1
กำลังมองหาขั้นตอนผ่านตัวอย่างของการวิเคราะห์ปัจจัยเกี่ยวกับข้อมูลแบบแบ่งขั้ว (ตัวแปรไบนารี) โดยใช้ R
ฉันมีข้อมูลแบบแบ่งขั้วมีเพียงตัวแปรไบนารีเท่านั้นและเจ้านายของฉันขอให้ฉันทำการวิเคราะห์ปัจจัยโดยใช้เมทริกซ์สหสัมพันธ์ tetrachoric ก่อนหน้านี้ฉันสามารถสอนตัวเองถึงวิธีการวิเคราะห์ที่แตกต่างกันตามตัวอย่างที่นี่และที่เว็บไซต์สถิติของ UCLAและเว็บไซต์อื่น ๆ เช่นนี้ แต่ฉันไม่สามารถหาขั้นตอนผ่านตัวอย่างของการวิเคราะห์ปัจจัยบน dichotomous ข้อมูล (ตัวแปรไบนารี) โดยใช้ R ฉันเห็นการตอบสนองของ chl ต่อคำถามที่ค่อนข้างคล้ายคลึงกันและฉันก็เห็นคำตอบของ ttnphnsด้วย แต่ฉันกำลังมองหาบางสิ่งที่สะกดได้มากกว่านี้อีกขั้นจากตัวอย่างที่ฉันสามารถใช้งานได้ ไม่มีใครที่นี่รู้ขั้นตอนดังกล่าวผ่านตัวอย่างของการวิเคราะห์ปัจจัยในตัวแปรไบนารีโดยใช้ R หรือไม่? อัปเดต 2012-07-11 22: 03: 35Z ฉันควรเพิ่มว่าฉันกำลังทำงานกับเครื่องมือที่กำหนดขึ้นซึ่งมีสามมิติซึ่งเราได้เพิ่มคำถามเพิ่มเติมและตอนนี้เราหวังว่าจะพบสี่มิติที่แตกต่างกัน นอกจากนี้ขนาดตัวอย่างของเรามีเพียงและขณะนี้เรามี19รายการ ฉันเปรียบเทียบขนาดตัวอย่างและจำนวนรายการของเรากับบทความจิตวิทยาจำนวนหนึ่งและเราอยู่ในระดับล่างสุด แต่เราต้องการลองต่อไป แม้ว่านี่จะไม่สำคัญสำหรับขั้นตอนในตัวอย่างที่ฉันกำลังมองหาและตัวอย่างของ caracal ด้านล่างดูน่าทึ่งจริงๆ ฉันจะใช้วิธีของฉันผ่านมันโดยใช้ข้อมูลของฉันเป็นสิ่งแรกในตอนเช้าn = 153n=153n=153191919

1
วิธีการประเมินองค์ประกอบความแปรปรวนกับ lmer สำหรับแบบจำลองที่มีเอฟเฟกต์แบบสุ่มและเปรียบเทียบกับผลการค้นหา lme
ฉันทำการทดลองที่ฉันเลี้ยงดูครอบครัวที่แตกต่างกันซึ่งมาจากประชากรสองแหล่งที่แตกต่างกัน แต่ละครอบครัวได้รับมอบหมายให้หนึ่งในสองของการรักษา หลังจากการทดลองฉันวัดคุณสมบัติหลายอย่างของแต่ละคน เพื่อทดสอบผลกระทบของการรักษาหรือแหล่งที่มารวมทั้งการมีปฏิสัมพันธ์ของพวกเขาฉันใช้แบบจำลองเชิงเส้นผลกระทบเชิงเส้นกับครอบครัวเป็นปัจจัยสุ่มเช่น lme(fixed=Trait~Treatment*Source,random=~1|Family,method="ML") ดีมากตอนนี้ฉันต้องคำนวณส่วนประกอบความแปรปรวนแบบสัมพัทธ์นั่นคือเปอร์เซ็นต์ของความแปรปรวนที่อธิบายโดยการรักษาหรือแหล่งที่มาเช่นเดียวกับการมีปฏิสัมพันธ์ หากไม่มีเอฟเฟกต์แบบสุ่มฉันสามารถใช้ผลรวมของกำลังสอง (SS) เพื่อคำนวณความแปรปรวนที่อธิบายโดยแต่ละปัจจัย แต่สำหรับโมเดลผสม (ที่มีการประมาณค่า ML) ไม่มี SS ดังนั้นฉันคิดว่าฉันสามารถใช้การรักษาและแหล่งที่มาเป็นเอฟเฟกต์แบบสุ่มเพื่อประเมินความแปรปรวนเช่น lme(fixed=Trait~1,random=~(Treatment*Source)|Family, method="REML") อย่างไรก็ตามในบางกรณี lme ไม่ได้รวมกันดังนั้นฉันใช้ lmer จากแพ็คเกจ lme4: lmer(Trait~1+(Treatment*Source|Family),data=DATA) ที่ฉันแยกความแตกต่างจากแบบจำลองโดยใช้ฟังก์ชันสรุป: model<-lmer(Trait~1+(Treatment*Source|Family),data=regrexpdat) results<-VarCorr(model) variances<-results[,3] ฉันได้รับค่าเช่นเดียวกับฟังก์ชั่น VarCorr ฉันใช้ค่าเหล่านี้แล้วในการคำนวณอัตราร้อยละของการเปลี่ยนแปลงที่เกิดขึ้นจริงโดยนำผลรวมเป็นรูปแบบทั้งหมด สิ่งที่ฉันกำลังดิ้นรนคือการตีความผลลัพธ์จากแบบจำลอง lme เริ่มต้น (ด้วยการรักษาและแหล่งที่มาเป็นผลกระทบคงที่) และแบบจำลองแบบสุ่มเพื่อประเมินองค์ประกอบความแปรปรวน (พร้อมการรักษาและแหล่งที่มาเป็นผลแบบสุ่ม) ฉันพบว่าส่วนใหญ่ร้อยละของความแปรปรวนที่อธิบายโดยแต่ละปัจจัยไม่สอดคล้องกับความสำคัญของผลกระทบคงที่ ตัวอย่างเช่นสำหรับลักษณะ HD, lme เริ่มต้นแสดงให้เห็นแนวโน้มสำหรับการมีปฏิสัมพันธ์เช่นเดียวกับความสำคัญสำหรับการรักษา เมื่อใช้วิธีการย้อนหลังฉันพบว่าการรักษามีแนวโน้มใกล้เคียงอย่างมีนัยสำคัญ อย่างไรก็ตามการประมาณส่วนประกอบความแปรปรวนฉันพบว่าแหล่งที่มานั้นมีความแปรปรวนสูงสุดคิดเป็น 26.7% ของความแปรปรวนทั้งหมด The lme: anova(lme(fixed=HD~as.factor(Treatment)*as.factor(Source),random=~1|as.factor(Family),method="ML",data=test),type="m") numDF …
14 r  anova  variance  lme4-nlme 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.