คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

1
การทดสอบ anova type III สำหรับ GLMM
ฉันเหมาะสมกับglmerโมเดลในlme4แพ็กเกจ R ฉันกำลังมองหาตารางโนวาที่มีค่า p แสดงอยู่ในนั้น แต่ฉันไม่สามารถหาแพ็คเกจที่เหมาะกับมันได้ เป็นไปได้ไหมที่จะทำใน R? แบบจำลองที่ฉันเหมาะสมอยู่ในรูปแบบ: model1<-glmer(dmn~period*teethTreated+(1|fullName), family="poisson", data=subset(dataset, group=='Four times a year'), control=glmerControl(optimizer="bobyqa"))

5
การถดถอยโลจิสติกในข้อมูลขนาดใหญ่
ฉันมีชุดข้อมูลประมาณ 5,000 ฟีเจอร์ สำหรับข้อมูลนั้นฉันใช้การทดสอบ Chi Square เป็นครั้งแรกเพื่อเลือกคุณสมบัติ หลังจากนั้นฉันได้ประมาณ 1,500 ตัวแปรซึ่งแสดงความสัมพันธ์อย่างมีนัยสำคัญกับตัวแปรตอบกลับ ตอนนี้ฉันต้องพอดีกับการถดถอยโลจิสติกในที่ ฉันใช้แพ็คเกจ glmulti สำหรับ R (แพ็คเกจ glmulti ให้การเลือกเซตย่อยที่มีประสิทธิภาพสำหรับ vlm) แต่สามารถใช้คุณสมบัติได้ครั้งละ 30 คุณสมบัติเท่านั้นประสิทธิภาพในการทำงานลดลงเนื่องจากจำนวนแถวในชุดข้อมูลของฉันอยู่ที่ประมาณ 20,000 มีวิธีการหรือเทคนิคอื่น ๆ ในการแก้ปัญหาข้างต้นหรือไม่? ถ้าฉันไปตามวิธีข้างต้นมันจะใช้เวลามากเกินไปในการปรับให้เข้ากับโมเดล

2
การประมาณค่าพารามิเตอร์ด้วยโมเดลเชิงเส้นทั่วไป
โดยค่าเริ่มต้นเมื่อเราใช้glmฟังก์ชั่นใน R มันจะใช้วิธีการวนซ้ำน้อยที่สุดอย่างน้อยสี่เหลี่ยม (IWLS) เพื่อหาโอกาสในการประมาณค่าพารามิเตอร์สูงสุด ตอนนี้ฉันมีสองคำถาม การประมาณค่าของ IWLS รับประกันว่าจะมีฟังก์ชั่นโอกาสสูงสุดในระดับโลก ฉันคิดว่ามันไม่ได้ขึ้นอยู่กับสไลด์สุดท้ายในงานนำเสนอนี้ ! ฉันแค่ต้องการทำให้แน่ใจว่า เราสามารถพูดได้ว่าเหตุผลของคำถามที่ 1 ข้างต้นนั้นเป็นเพราะความจริงที่ว่าวิธีการหาค่าเหมาะที่สุดเชิงตัวเลขเกือบทั้งหมดอาจติดอยู่ที่ค่าสูงสุดในท้องถิ่นมากกว่าค่าสูงสุดทั่วโลก

4
วิธีการเรียนรู้เครื่องหลายตัวแปร (การทำนายตัวแปรตามหลายตัว)
ฉันต้องการทำนายกลุ่มของรายการที่บางคนจะซื้อ ... นั่นคือฉันมีตัวแปรที่ขึ้นอยู่กับหลายสี แทนที่จะสร้างแบบจำลองอิสระ 7 แบบหรือมากกว่านั้นเพื่อคาดการณ์ความน่าจะเป็นของคนที่ซื้อแต่ละรายการจาก 7 รายการแล้วรวมผลลัพธ์ฉันควรพิจารณาวิธีใดเพื่อให้มีแบบจำลองหนึ่งแบบที่อธิบายความสัมพันธ์ระหว่างตัวแปรที่สัมพันธ์กันซึ่งขึ้นอยู่กับ 7 สิ่งที่พวกเขาสามารถซื้อได้) ฉันใช้ R เป็นภาษาการเขียนโปรแกรมดังนั้นคำแนะนำเฉพาะของ R จึงเป็นที่ชื่นชม

2
การวิเคราะห์แบบเบส์ของตารางฉุกเฉิน: วิธีการอธิบายขนาดผลกระทบ
ฉันกำลังทำงานผ่านตัวอย่างในการวิเคราะห์ข้อมูล Doing Bayesianของ Kruschke โดยเฉพาะการวิเคราะห์ความแปรปรวนแบบปัวซองในพัวซอง 22 ซึ่งเขานำเสนอเป็นทางเลือกแทนการทดสอบไคสแควร์เป็นประจำสำหรับความเป็นอิสระสำหรับตารางฉุกเฉิน ฉันสามารถดูวิธีที่เราได้รับข้อมูลเกี่ยวกับการโต้ตอบที่เกิดขึ้นบ่อยหรือน้อยกว่าที่คาดไว้ถ้าตัวแปรนั้นเป็นอิสระ (เช่นเมื่อ HDI ไม่รวมศูนย์) คำถามของฉันคือฉันจะคำนวณหรือตีความขนาดผลกระทบในกรอบงานนี้ได้อย่างไร ยกตัวอย่างเช่น Kruschke เขียน "การรวมกันของดวงตาสีฟ้ากับผมสีดำเกิดขึ้นน้อยกว่าที่คาดถ้าสีตาและสีผมเป็นอิสระ" แต่เราจะอธิบายความแข็งแกร่งของความสัมพันธ์นั้นได้อย่างไร? ฉันจะรู้ได้อย่างไรว่าการโต้ตอบใดที่รุนแรงกว่าการโต้ตอบอื่น ๆ หากเราทำการทดสอบไคสแควร์ของข้อมูลเหล่านี้เราอาจคำนวณCramér V เป็นเครื่องวัดขนาดเอฟเฟกต์โดยรวม ฉันจะแสดงขนาดลักษณะพิเศษในบริบทเบย์นี้ได้อย่างไร นี่คือตัวอย่างที่มีในตัวเองจากหนังสือ (เขียนในR) ในกรณีที่คำตอบถูกซ่อนจากฉันในสายตาธรรมดา ... df <- structure(c(20, 94, 84, 17, 68, 7, 119, 26, 5, 16, 29, 14, 15, 10, 54, 14), .Dim = c(4L, 4L), .Dimnames …

2
R ตรวจจับแนวโน้มการเพิ่ม / ลดลงของอนุกรมเวลา
ฉันมีซีรีย์เวลาจำนวนมากพร้อมช่วงเวลา: วันสัปดาห์หรือเดือน ด้วยstl()ฟังก์ชั่นหรือกับloess(x ~ y)ฉันสามารถดูแนวโน้มของซีรีส์เวลาโดยเฉพาะ ฉันต้องการตรวจสอบว่าแนวโน้มของอนุกรมเวลาเพิ่มขึ้นหรือลดลง ฉันจะจัดการสิ่งนั้นได้อย่างไร ฉันพยายามคำนวณสัมประสิทธิ์การถดถอยเชิงเส้นด้วยlm(x ~ y)และเล่นกับสัมประสิทธิ์ความชัน ( If |slope|>2 and slope>0 thenแนวโน้มเพิ่มขึ้นelse if |slope|>2 and slope<0- ลดลง) อาจมีวิธีอื่นและวิธีที่มีประสิทธิภาพกว่าสำหรับการตรวจจับแนวโน้ม? ขอบคุณ! ตัวอย่าง: ฉันมี,timeserie1 timeserie2ฉันต้องการอัลกอริทึมแบบง่ายที่จะบอกฉันว่าtimeserie2เป็นอัลกอริทึมที่เพิ่มขึ้นและในtimeserie1แนวโน้มไม่เพิ่มขึ้นหรือลดลง ฉันควรใช้เกณฑ์ใด timeserie1: 1774 1706 1288 1276 2350 1821 1712 1654 1680 1451 1275 2140 1747 1749 1770 1797 1485 1299 2330 1822 1627 1847 …
9 r  time-series  trend 

1
การติดตั้ง DLM สัมประสิทธิ์ตามเวลาที่ต่างกัน
ฉันต้องการให้พอดีกับ DLM ด้วยค่าสัมประสิทธิ์การแปรผันของเวลานั่นคือส่วนขยายของการถดถอยเชิงเส้นปกติ yt=θ1+θ2x2yt=θ1+θ2x2y_t = \theta_1 + \theta_2x_2. ฉันมีผู้ทำนาย (x2x2x_2) และตัวแปรตอบกลับ (ytyty_t) จับปลาประจำปีทางทะเลและในทะเลตามลำดับตั้งแต่ปี 1950 - 2011 ฉันต้องการให้โมเดลการถดถอย DLM ปฏิบัติตาม yt=θt,1+θt,2xtyt=θt,1+θt,2xty_t = \theta_{t,1} + \theta_{t,2}x_t สมการวิวัฒนาการของระบบอยู่ที่ไหน θt=Gtθt−1θt=Gtθt−1\theta_t = G_t \theta_{t-1} จากหน้า 43 ของโมเดลเชิงเส้นไดนามิกพร้อม R โดย Petris และคณะ บางรหัสที่นี่ fishdata <- read.csv("http://dl.dropbox.com/s/4w0utkqdhqribl4/fishdata.csv", header=T) x <- fishdata$marinefao y <- fishdata$inlandfao lmodel <- lm(y …

1
วิธีการคำนวณไคสแควร์ใน Excel vs R
ฉันกำลังดูแผ่น excel ที่อ้างว่าคำนวณแต่ฉันไม่รู้จักวิธีนี้และฉันสงสัยว่าฉันทำอะไรหายไปหรือเปล่าχ2χ2\chi^2 นี่คือข้อมูลที่วิเคราะห์: +------------------+----------+----------+ | Total Population | Observed | Expected | +------------------+----------+----------+ | 2000 | 42 | 32.5 | | 2000 | 42 | 32.5 | | 2000 | 25 | 32.5 | | 2000 | 21 | 32.5 | +------------------+----------+----------+ และนี่คือผลรวมของแต่ละกลุ่มเพื่อคำนวณไคสแควร์: P = (sum of all observed)/(sum …
9 r  chi-squared  excel 

3
เหตุใดการถดถอยเชิงเส้นจึงไม่สามารถคาดการณ์ผลลัพธ์ของลำดับที่กำหนดอย่างง่ายได้
เพื่อนร่วมงานของฉันส่งปัญหานี้ให้ฉันอย่างเห็นได้ชัดว่าทำให้รอบบนอินเทอร์เน็ต: If $3 = 18, 4 = 32, 5 = 50, 6 = 72, 7 = 98$, Then, $10 =$ ? คำตอบน่าจะเป็น 200 3*6 4*8 5*10 6*12 7*14 8*16 9*18 10*20=200 เมื่อฉันทำการถดถอยเชิงเส้นใน R: data <- data.frame(a=c(3,4,5,6,7), b=c(18,32,50,72,98)) lm1 <- lm(b~a, data=data) new.data <- data.frame(a=c(10,20,30)) predict <- predict(lm1, newdata=new.data, interval='prediction') ฉันเข้าใจ: …
9 r  regression  lm 

1
R: Anova และการถดถอยเชิงเส้น
ฉันใหม่สำหรับสถิติและฉันพยายามเข้าใจความแตกต่างระหว่าง ANOVA และการถดถอยเชิงเส้น ฉันใช้ R เพื่อสำรวจสิ่งนี้ ฉันอ่านบทความต่าง ๆ เกี่ยวกับสาเหตุที่ ANOVA และการถดถอยแตกต่างกัน แต่ก็ยังเหมือนเดิมและวิธีที่สามารถมองเห็นได้ ฯลฯ ฉันคิดว่าฉันสวยที่นั่น แต่หายไปหนึ่งบิต ฉันเข้าใจว่า ANOVA เปรียบเทียบความแปรปรวนภายในกลุ่มกับความแปรปรวนระหว่างกลุ่มเพื่อพิจารณาว่ามีหรือไม่มีความแตกต่างระหว่างกลุ่มที่ทดสอบ ( https://controls.engin.umich.edu/wiki/index.php/Factor_analysis_and_ANOVA ) สำหรับการถดถอยเชิงเส้นฉันพบโพสต์ในฟอรัมนี้ซึ่งบอกว่าสามารถทดสอบได้เหมือนกันเมื่อเราทดสอบว่า b (ความชัน) = 0 ( ทำไม ANOVA สอน / ใช้ราวกับว่ามันเป็นวิธีการวิจัยที่แตกต่างเมื่อเทียบกับการถดถอยเชิงเส้น ) สำหรับกลุ่มมากกว่าสองกลุ่มฉันพบเว็บไซต์ที่ระบุ: สมมติฐานว่างคือ: H0:μ1=μ2=μ3H0:µ1=µ2=µ3\text{H}_0: µ_1 = µ_2 = µ_3 รูปแบบการถดถอยเชิงเส้นคือ: Y=ข0+ข1X1+ข2X2+ eY=ข0+ข1X1+ข2X2+อีy = b_0 + b_1X_1 + b_2X_2 …
9 r  regression  anova 

3
การประเมินพลังของการทดสอบภาวะปกติ (ใน R)
ฉันต้องการประเมินความถูกต้องของการทดสอบภาวะปกติมากกว่าขนาดตัวอย่างที่แตกต่างกันใน R (ฉันรู้ว่าการทดสอบภาวะปกติอาจทำให้เข้าใจผิด ) ตัวอย่างเช่นหากต้องการดูการทดสอบของ Shapiro-Wilk ฉันกำลังทำการจำลองต่อไปนี้ (เช่นเดียวกับการวางแผนผลลัพธ์) และคาดว่าเมื่อขนาดตัวอย่างเพิ่มความน่าจะเป็นที่จะปฏิเสธการปฏิเสธจะลดลง: n <- 1000 pvalue_mat <- matrix(NA, ncol = 1, nrow = n) for(i in 10:n){ x1 <- rnorm(i, mean = 0, sd = 1) pvalue_mat[i,] <- shapiro.test(x1)$p.value } plot(pvalue_mat) ความคิดของฉันน่าจะเป็นว่าเมื่อขนาดของกลุ่มตัวอย่างเพิ่มขึ้นควรมีอัตราการปฏิเสธที่ต่ำกว่า ฉันคิดว่าฉันเข้าใจผิด - ยินดีต้อนรับทุกความคิด

1
โครงสร้างของข้อมูลและการเรียกใช้ฟังก์ชันสำหรับข้อมูลเหตุการณ์ที่เกิดซ้ำพร้อมตัวแปรขึ้นอยู่กับเวลา
ฉันกำลังพยายามประเมินผลของยา 2 ชนิด ( drug1, drug2) ต่อโอกาสที่ผู้ป่วยจะตกลงมา ( event) ผู้ป่วยสามารถล้มได้มากกว่าหนึ่งครั้งและสามารถวางหรือถอดออกจากยาเสพติดได้ทุกจุด คำถามของฉันคือวิธีการจัดโครงสร้างข้อมูลโดยคำนึงถึงช่วงเวลา (วัน) โดยเฉพาะอย่างยิ่งว่าต้องมีการทับซ้อนกันระหว่างวันหรือไม่ Nมีสองเหตุผลที่ว่าทำไมผมคิดว่าโครงสร้างของฉันคือผิดเป็นครั้งแรกเป็นที่ไม่ถูกต้องดูเหมือน นอกจากนี้ผมยังได้รับข้อผิดพลาดบางช่วงเวลาที่เป็นวันเดียว (เช่นtime1=4, time2=4) และนไม่แน่ใจว่าวิธีการเหล่านี้ควรได้รับการเข้ารหัส เวลาเริ่มต้นของรายการถัดไปควรเป็นเวลาหยุดของรายการก่อนหน้าหรือไม่ ฉันได้ลองทั้งสองวิธี (โดยมีและไม่มีทับซ้อนกัน) และในขณะที่การทับซ้อนกันได้รับการกำจัดคำเตือนNก็ยังไม่ถูกต้อง Warning message: In Surv(time = c(0, 2, 7, 15, 20, 0, 18, 27, 32, 35, 39, 46, 53, : Stop time must be > start time, NA created …
9 r  survival  cox-model 

3
การถดถอยโลจิสติก: การเพิ่มผลบวกจริง - การบวกเท็จ
ฉันมีโมเดลการถดถอยโลจิสติก (พอดีผ่าน glmnet ใน R พร้อมกับการทำให้เป็นมาตรฐานสุทธิ) และฉันต้องการเพิ่มความแตกต่างระหว่างผลบวกจริงและผลบวกปลอม ในการดำเนินการดังกล่าวขั้นตอนต่อไปนี้อยู่ในใจ: พอดีกับโมเดลการถดถอยโลจิสติกมาตรฐาน ใช้เกณฑ์การทำนายเป็น 0.5 ระบุการคาดการณ์ในเชิงบวกทั้งหมด กำหนดน้ำหนัก 1 สำหรับการสังเกตที่คาดการณ์ไว้ในเชิงบวก 0 สำหรับคนอื่น ๆ ทั้งหมด พอดีกับรูปแบบการถดถอยโลจิสติกถ่วงน้ำหนัก อะไรคือข้อบกพร่องของวิธีนี้? อะไรจะเป็นวิธีที่ถูกต้องในการแก้ไขปัญหานี้ เหตุผลที่ต้องการเพิ่มความแตกต่างระหว่างจำนวนของผลบวกที่แท้จริงและเชิงลบที่ผิดเนื่องจากการออกแบบใบสมัครของฉัน ในฐานะส่วนหนึ่งของโครงงานในชั้นเรียนฉันกำลังสร้างผู้เข้าร่วมอิสระในตลาดออนไลน์ - ถ้าแบบจำลองของฉันทำนายว่าสามารถซื้อบางอย่างและขายในภายหลังด้วยราคาที่สูงกว่า ฉันต้องการยึดติดกับการถดถอยโลจิสติกและผลลัพธ์ไบนารีผลลัพธ์ (ชนะ, แพ้) ตามต้นทุนคงที่และการเพิ่มขึ้นของราคาต่อหน่วย (ฉันได้รับหรือสูญเสียจำนวนเดียวกันในทุกธุรกรรม) คิดบวกทำให้ฉันเจ็บเพราะหมายความว่าฉันซื้ออะไรและไม่สามารถขายได้ในราคาที่สูงขึ้น อย่างไรก็ตามการลบที่ผิดพลาดไม่ได้ทำร้ายฉัน (เฉพาะในแง่ของโอกาสเสียค่าใช้จ่าย) เพราะมันหมายถึงว่าฉันไม่ได้ซื้อ แต่ถ้าฉันมีฉันจะทำเงิน ในทำนองเดียวกัน ฉันยอมรับว่าการตัด 0.5 นั้นเป็นการสุ่มโดยพลการและเมื่อฉันปรับรูปแบบจากขั้นตอนที่ 1 บนขีด จำกัด การทำนายซึ่งให้ผลต่างสูงสุดระหว่างความจริง / เท็จบวกจะกลายเป็นใกล้กว่า 0.4 ฉันคิดว่านี่เป็นเพราะลักษณะที่บิดเบือนของข้อมูลของฉัน - อัตราส่วนระหว่างเชิงลบและบวกเป็นเรื่องเกี่ยวกับ …

6
วิธีประมาณฟังก์ชั่นการตอบกลับอัตโนมัติของเวกเตอร์ & การตอบสนองต่อแรงกระตุ้นด้วยข้อมูลพาเนล
ฉันกำลังทำงานกับการประมาณเวกเตอร์การถดถอยอัตโนมัติ (VARs) และการประมาณค่าฟังก์ชันตอบสนองต่อแรงกระตุ้น (IRF) ตามข้อมูลพาเนลกับบุคคล 33 คนใน 77 ไตรมาส สถานการณ์ประเภทนี้ควรวิเคราะห์อย่างไร มีอัลกอริทึมอะไรอยู่สำหรับจุดประสงค์นี้ ฉันต้องการดำเนินการวิเคราะห์เหล่านี้ใน R ดังนั้นหากใครคุ้นเคยกับรหัส R หรือแพ็คเกจที่ออกแบบมาเพื่อจุดประสงค์นี้ที่พวกเขาสามารถแนะนำได้นั่นจะเป็นประโยชน์อย่างยิ่ง

4
การสร้างแบบจำลองสำหรับคะแนนฟุตบอล
ใน Dixon, Coles ( 1997 ) พวกเขาใช้การประเมินความเป็นไปได้สูงสุดสำหรับโมเดล Poisson อิสระทั้งสองที่แก้ไขใน (4.3) เพื่อทำแบบจำลองคะแนนในฟุตบอล ฉันพยายามใช้ R เพื่อ "ทำซ้ำ" อัลฟ่าและเบต้ารวมถึงพารามิเตอร์เอฟเฟกต์โฮม (หน้า 274, ตารางที่ 4) โดยไม่ใช้แพ็คเกจใด ๆ (โดยใช้รุ่นปัวซองอิสระทั่วไปก็ดีเช่นกัน) ฉันลองใช้bivpoisแพ็คเกจ แต่ไม่แน่ใจว่าจะแก้ไขพารามิเตอร์ได้อย่างไร ฉันจะขอบคุณเป็นอย่างยิ่งหากใครสามารถช่วยฉันด้วยรหัส R เพื่อสร้างแบบจำลองข้อมูล - คะแนนจากทีมเหย้าและทีมเยือนสำหรับซีซั่น 2012/13 ในพรีเมียร์ลีกอังกฤษ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.