สถิติและข้อมูลขนาดใหญ่ r

1

ทำไมฉันถึงได้ผลลัพธ์ที่แตกต่างกันมากสำหรับโพลี (raw = T) กับโพลี ()

ฉันต้องการสร้างแบบจำลองตัวแปรเวลาที่แตกต่างกันสองแบบซึ่งบางตัวมีการวางตัวเป็นเส้นตรงในข้อมูลของฉัน (age + cohort = period) เมื่อทำสิ่งนี้ฉันพบปัญหาlmerและการโต้ตอบpoly()แต่อาจไม่ จำกัด เพียงlmerฉันได้รับผลลัพธ์เดียวกันกับnlmeIIRC เห็นได้ชัดว่าความเข้าใจของฉันในสิ่งที่ฟังก์ชั่นโพลี () ไม่เพียงพอ ฉันเข้าใจสิ่งที่poly(x,d,raw=T)ทำและฉันคิดว่าหากไม่มีraw=Tมันทำให้มีหลายชื่อแบบหลายมุมฉาก (ฉันไม่สามารถพูดได้ว่าฉันเข้าใจความหมายที่แท้จริง) ซึ่งทำให้กระชับได้ง่ายขึ้น แต่ไม่อนุญาตให้คุณตีความสัมประสิทธิ์โดยตรง ฉันอ่านว่าเพราะฉันใช้ฟังก์ชั่นการทำนายการคาดคะเนควรจะเหมือนกัน แต่พวกเขาก็ไม่ได้แม้ว่าแบบจำลองมาบรรจบกันตามปกติ ฉันใช้ตัวแปรที่อยู่ตรงกลางและก่อนอื่นฉันคิดว่าบางทีพหุนาม orthogonal อาจนำไปสู่ความสัมพันธ์ที่มีผลคงที่ที่สูงขึ้นกับคำที่มีการทำงานร่วม collinear แต่ดูเหมือนว่าจะเทียบเคียงได้ ฉันได้วางแบบสรุปสองแบบไว้ที่นี่แล้ว แปลงเหล่านี้หวังแสดงให้เห็นถึงขอบเขตของความแตกต่าง ฉันใช้ฟังก์ชันคาดการณ์ซึ่งมีเฉพาะใน dev เท่านั้น เวอร์ชั่นของ lme4 (ได้ยินเกี่ยวกับที่นี่ ) แต่เอฟเฟกต์คงที่จะเหมือนกันในเวอร์ชั่น CRAN (และพวกมันก็ดูเหมือนตัวเองเช่น ~ 5 สำหรับการโต้ตอบเมื่อ DV ของฉันมีช่วง 0-4) สายลเมอร์คือ cohort2_age =lmer(churchattendance ~ poly(cohort_c,2,raw=T) * age_c + ctd_c …

10 r lme4-nlme polynomial

2

R เทียบเท่ากับตัวเลือกของคลัสเตอร์เมื่อใช้การถดถอยแบบทวินามลบ

ฉันพยายามจำลองการทำงานของเพื่อนร่วมงานและกำลังย้ายการวิเคราะห์จาก Stata ไปยัง R โมเดลที่เธอใช้เรียกใช้ตัวเลือก "cluster" ภายในฟังก์ชัน nbreg เพื่อจัดกลุ่มข้อผิดพลาดมาตรฐาน ดูhttp://repec.org/usug2007/crse.pdfสำหรับคำอธิบายที่สมบูรณ์เกี่ยวกับสิ่งที่และเหตุผลของตัวเลือกนี้ คำถามของฉันคือวิธีการเรียกใช้ตัวเลือกเดียวกันนี้สำหรับการถดถอยทวินามลบภายใน R? รูปแบบหลักในกระดาษของเรามีการระบุไว้ใน Stata ดังนี้ xi: nbreg cntpd09 logpop08 pcbnkthft07 pccrunion07 urbanpop pov00 pov002 edu4yr /// black04 hispanic04 respop i.pdpolicy i.maxloan rollover i.region if isser4 != 1, cluster(state) และฉันได้แทนที่สิ่งนี้ด้วย pday<-glm.nb(cntpd09~logpop08+pcbnkthft07+pccrunion07+urbanpop+pov00+pov002+edu4yr+ black04+hispanic04+respop+as.factor(pdpolicy)+as.factor(maxloan)+rollover+ as.factor(region),data=data[which(data$isser4 != 1),]) ซึ่งเห็นได้ชัดว่าขาดชิ้นส่วนข้อผิดพลาดของคลัสเตอร์ เป็นไปได้ไหมที่จะทำการจำลองแบบที่แน่นอน? ถ้าเป็นเช่นนั้นได้อย่างไร ถ้าไม่ทางเลือกที่เหมาะสมคืออะไร? ขอบคุณ [แก้ไข] …

10 r stata negative-binomial

1

การโต้ตอบของคำอิสระและไม่เป็นอิสระหมายความว่าอย่างไร

ถ้าฉันพอดีข้อมูลของฉันกับสิ่งที่ชอบlm(y~a*b)ในไวยากรณ์ R ซึ่งaเป็นตัวแปรไบนารีและbเป็นตัวแปรตัวเลขa:bคำศัพท์การโต้ตอบคือความแตกต่างระหว่างความชันของy~bที่a= 0 และที่a= 1 ตอนนี้สมมติว่าความสัมพันธ์ระหว่างyและbคือ curvilinear ถ้าตอนนี้ผมพอดีlm(y~a*poly(b,2))แล้วa:poly(b,2)1คือการเปลี่ยนแปลงในการเปลี่ยนแปลงที่y~bมีเงื่อนไขในระดับaดังกล่าวข้างต้นและa:poly(b,2)2การเปลี่ยนแปลงในเงื่อนไขในระดับของy~b^2 aต้องใช้การถักด้วยมือ แต่หากค่าสัมประสิทธิ์การโต้ตอบแตกต่างจากศูนย์อย่างใดอย่างหนึ่งฉันสามารถยืนยันได้ว่ามันหมายถึงaไม่เพียง แต่ส่งผลกระทบในแนวดิ่งyแต่ยังรวมถึงตำแหน่งของจุดสูงสุดและความชันของความy~b+b^2โค้ง แล้วถ้าฉันพอดีlm(y~a*bs(b,df=3))ล่ะ ฉันจะตีความอย่างไรa:bs(b,df=3)1, a:bs(b,df=3)2และa:bs(b,df=3)3เงื่อนไข? การกระจัดตามแนวดิ่งของyเส้นโค้งเหล่านี้เกิดจากaที่แต่ละส่วนในสามส่วนหรือไม่

10 r multiple-regression splines

2

regularization

มีหลายวิธีในการดำเนินการทำให้เป็นมาตรฐาน - L0L0L_0, L1L1L_1และ L2L2L_2บรรทัดฐานตามบรรทัดฐานเช่น ตามFriedman Hastie & Tibsharani , regularizer ที่ดีที่สุดขึ้นอยู่กับปัญหา: คือธรรมชาติของฟังก์ชั่นเป้าหมายที่แท้จริง, พื้นฐานที่ใช้เฉพาะ, อัตราส่วนสัญญาณต่อเสียงรบกวน, และขนาดตัวอย่าง มีการวิจัยเชิงประจักษ์เปรียบเทียบวิธีการและประสิทธิภาพของวิธีการทำให้เป็นมาตรฐานแบบต่างๆหรือไม่?

10 r regression machine-learning regularization

6

วิธีการประเมินพลังการทำนายของชุดตัวพยากรณ์เชิงหมวดหมู่ของผลลัพธ์ไบนารี คำนวณความน่าจะเป็นหรือการถดถอยโลจิสติก?

ฉันพยายามที่จะตรวจสอบว่าความน่าจะเป็นแบบง่าย ๆ จะสามารถแก้ปัญหาของฉันได้หรือไม่ถ้าจะใช้ (และเรียนรู้) วิธีการที่ซับซ้อนกว่านี้เช่นการถดถอยแบบโลจิสติกส์ ตัวแปรการตอบสนองในปัญหานี้คือการตอบสนองแบบไบนารี (0, 1) ฉันมีตัวแปรตัวทำนายจำนวนหนึ่งที่จัดหมวดหมู่และไม่มีการเรียงลำดับ ฉันพยายามที่จะพิจารณาว่าชุดค่าผสมของตัวแปรตัวทำนายใดให้สัดส่วนที่สูงที่สุดของ 1 ฉันต้องการการถดถอยแบบโลจิสติกส์หรือไม่? การคำนวณสัดส่วนในตัวอย่างที่ฉันตั้งไว้สำหรับการรวมกันของตัวทำนายหมวดหมู่แต่ละชุดจะเป็นประโยชน์อย่างไร

10 r probability logistic

2

การวิเคราะห์โพสต์ - ฮอคที่ถูกต้องคืออะไรสำหรับการวัด ANOVA ซ้ำสามทาง?

ฉันได้ทำการทดสอบ ANOVA ซ้ำสามทาง การวิเคราะห์หลังการประชุมอะไรถูกต้อง? นี่คือการออกแบบที่สมดุลอย่างสมบูรณ์ (2x2x2) โดยมีปัจจัยหนึ่งที่มีการวัดซ้ำภายในวัตถุ ฉันตระหนักถึงวิธีการหลายตัวแปรในการวัด ANOVA ซ้ำ ๆ ใน R แต่สัญชาตญาณแรกของฉันคือดำเนินการในลักษณะ aov () ที่เรียบง่ายของ ANOVA: aov.repeated <- aov(DV ~ IV1 * IV2 * Time + Error(Subject/Time), data=data) DV = ตัวแปรตอบกลับ IV1 = ตัวแปรอิสระ 1 (2 ระดับ, A หรือ B) IV2 = ตัวแปรอิสระ 2 (2 ระดับ, ใช่หรือไม่) IV3 …

10 r anova repeated-measures interaction post-hoc

1

ข้ามเอฟเฟกต์แบบสุ่มและข้อมูลที่ไม่สมดุล

ฉันกำลังสร้างแบบจำลองข้อมูลบางอย่างที่ฉันคิดว่าฉันมีผลกระทบแบบสุ่มข้ามสอง แต่ชุดข้อมูลไม่สมดุลและฉันไม่แน่ใจว่าต้องทำอะไรเพื่อบัญชี ข้อมูลของฉันคือชุดของเหตุการณ์ เหตุการณ์เกิดขึ้นเมื่อลูกค้าพบกับผู้ให้บริการเพื่อดำเนินงานซึ่งประสบความสำเร็จหรือไม่ มีลูกค้าและผู้ให้บริการหลายพันรายและลูกค้าและผู้ให้บริการแต่ละรายมีส่วนร่วมในกิจกรรมที่แตกต่างกันจำนวน (ประมาณ 5 ถึง 500) ลูกค้าและผู้ให้บริการแต่ละรายมีระดับทักษะและโอกาสที่งานจะประสบความสำเร็จคือหน้าที่ของทักษะของผู้เข้าร่วมทั้งสอง ไม่มีการทับซ้อนระหว่างไคลเอนต์และผู้ให้บริการ ฉันสนใจความแปรปรวนของประชากรของลูกค้าและผู้ให้บริการที่เกี่ยวข้องดังนั้นเราจึงสามารถทราบได้ว่าแหล่งข้อมูลใดมีผลต่ออัตราความสำเร็จมากขึ้น ฉันต้องการทราบค่าเฉพาะของทักษะระหว่างลูกค้าและผู้ให้บริการที่เรามีข้อมูลเพื่อระบุลูกค้าหรือผู้ให้บริการที่ดีที่สุด / แย่ที่สุด ตอนแรกฉันต้องการสมมติว่าความน่าจะเป็นของความสำเร็จนั้นเกิดจากระดับทักษะรวมของลูกค้าและผู้ให้บริการโดยไม่มีผลกระทบคงที่อื่น ๆ ดังนั้นสมมติว่า x เป็นปัจจัยสำหรับลูกค้าและ y เป็นปัจจัยสำหรับผู้ให้บริการจากนั้นใน R (โดยใช้แพ็คเกจ lme4) ฉันมีรูปแบบที่ระบุเป็น: glmer( success ~ (1 | x) + (1 | y), family=binomial(), data=events) ปัญหาหนึ่งคือลูกค้าไม่ได้กระจายอย่างเท่าเทียมกันทั่วทั้งผู้ให้บริการ ลูกค้าที่มีทักษะสูงจะมีโอกาสที่จะจับคู่กับผู้ให้บริการที่มีทักษะสูงกว่า ความเข้าใจของฉันคือผลกระทบแบบสุ่มจะต้องไม่เกี่ยวข้องกับตัวทำนายอื่น ๆ ในโมเดล แต่ฉันไม่แน่ใจว่าจะอธิบายได้อย่างไร นอกจากนี้ลูกค้าและผู้ให้บริการบางรายมีกิจกรรมน้อยมาก (น้อยกว่า 10) ในขณะที่ลูกค้าอื่นมีจำนวนมาก (มากถึง 500) …

10 r mixed-model random-effects-model logistic

1

ความช่วยเหลือเกี่ยวกับการสร้างแบบจำลอง SEM (OpenMx, polycor)

ฉันมีปัญหามากมายกับชุดข้อมูลเดียวที่ฉันพยายามใช้ SEM เราสมมติว่ามีปัจจัยแฝง 5 ตัวคือ A, B, C, D, E พร้อมด้วยตัวชี้วัด A1 ถึง A5 (ปัจจัยที่สั่ง), B1 ถึง B3 (เชิงปริมาณ), C1, D1, E1 (ทั้งหมดสามปัจจัยสุดท้ายที่สั่งโดยมีเพียง 2 ระดับสำหรับ E1 เรามีความสนใจในความแปรปรวนร่วมระหว่างปัจจัยทั้งหมด ฉันพยายามที่จะใช้OpenMxเพื่อทำเช่นนั้น นี่คือความพยายามของฉัน: ฉันก่อนพยายามใช้การฝึกอบรมขีด จำกัด สำหรับปัจจัยที่สั่งทั้งหมด แต่การบรรจบล้มเหลว ฉันตัดสินใจที่จะใช้ความสัมพันธ์แบบ polychoric / polyserial แทนข้อมูลดิบด้วยฟังก์ชั่นhetcorจากห้องสมุดpolycor(ฉันวางแผนที่จะบูตตัวอย่างเพื่อรับช่วงความมั่นใจ) มันก็ล้มเหลวที่จะมาบรรจบกัน! ฉันพยายาม จำกัด เฉพาะบุคคลที่มีข้อมูลครบถ้วน แต่ก็ล้มเหลวด้วย! คำถามแรกของฉันคือ: มีวิธีธรรมชาติในการตีความความล้มเหลวเหล่านี้? คำถามที่สองของฉันคือฉันควรทำอย่างไร ??? แก้ไข: สำหรับผู้อ่านในอนาคตที่อาจพบปัญหาเดียวกันหลังจากที่ไปถึงรหัสของฟังก์ชั่นในการpolycor... การแก้ปัญหาเป็นเพียงการใช้งานที่มีตัวเลือกhetcor() …

10 r modeling multiple-regression sem

3

เหตุใดจึงมีค่า R ^ 2 (และสิ่งที่กำหนดไว้) เมื่อ lm ไม่มีความแปรปรวนในค่าที่คาดการณ์

พิจารณารหัส R ต่อไปนี้: example <- function(n) { X <- 1:n Y <- rep(1,n) return(lm(Y~X)) } #(2.13.0, i386-pc-mingw32) summary(example(7)) #R^2 = .1963 summary(example(62)) #R^2 = .4529 summary(example(4540)) #R^2 = .7832 summary(example(104))) #R^2 = 0 #I did a search for n 6:10000, the result for R^2 is NaN for #n = 2, …

10 r regression

3

วัดซ้ำแบบจำลองสมการโครงสร้าง

ฉันต้องการวิเคราะห์ชุดข้อมูลของข้อมูลการฟื้นฟูสมรรถภาพทางคลินิก ฉันสนใจในความสัมพันธ์ที่ขับเคลื่อนด้วยสมมุติฐานระหว่างปริมาณข้อมูลที่ป้อนเข้า (ปริมาณของการรักษา) และการเปลี่ยนแปลงสถานะสุขภาพ แม้ว่าชุดข้อมูลจะมีขนาดค่อนข้างเล็ก (n ~ 70) เรามีข้อมูลซ้ำ ๆ ที่สะท้อนการเปลี่ยนแปลงทางโลกทั้งคู่ ฉันคุ้นเคยกับการสร้างแบบจำลองเอฟเฟ็กต์ที่ไม่ใช่เชิงเส้นใน R แต่ฉันสนใจในความสัมพันธ์แบบ "เชิงสาเหตุ" ที่อาจเกิดขึ้นระหว่างอินพุตและเอาต์พุตที่นี่และกำลังพิจารณาการประยุกต์ใช้มาตรการซ้ำ ๆ ของ SEM ฉันขอขอบคุณคำแนะนำว่าหากแพ็คเกจ SEM สำหรับ R (sam, lavaan, openmx?) ใดเหมาะที่สุดกับข้อมูลการวัดซ้ำ ๆ และโดยเฉพาะคำแนะนำสำหรับตำรา (มี "Pinheiro และ Bates" ของฟิลด์หรือไม่) .

10 r repeated-measures panel-data sem

2

ช่วงความเชื่อมั่นสำหรับไคสแควร์

ฉันพยายามหาวิธีแก้ปัญหาเพื่อเปรียบเทียบการทดสอบ "ดี - พอดี - แบบไค - สแควร์" แม่นยำยิ่งขึ้นฉันต้องการเปรียบเทียบผลลัพธ์จากการทดสอบอิสระสองครั้ง ในการทดลองเหล่านี้ผู้เขียนใช้ความดีแบบพอดีไคสแควร์เพื่อเปรียบเทียบการคาดเดาแบบสุ่ม (ความถี่ที่คาดหวัง) กับความถี่ที่สังเกตได้ การทดลองสองรายการมีจำนวนผู้เข้าร่วมเท่ากันและขั้นตอนการทดลองเหมือนกันมีเพียงสิ่งเร้าที่เปลี่ยนไป ผลการทดลองทั้งสองระบุว่าไคสแควร์อย่างมีนัยสำคัญ (exp. 1: X² (18) = 45; p <.0005 และ exp 2: X² (18) = 79; p <.0001) ทีนี้สิ่งที่ฉันอยากทำคือทดสอบว่ามีความแตกต่างระหว่างสองผลลัพธ์นี้หรือไม่ ฉันคิดว่าวิธีแก้ปัญหาอาจใช้ช่วงความเชื่อมั่น แต่ฉันไม่รู้วิธีคำนวณช่วงความมั่นใจเหล่านี้กับผลลัพธ์เหล่านี้เท่านั้น หรืออาจเป็นการทดสอบเพื่อเปรียบเทียบขนาดเอฟเฟกต์ (Cohen's w)? ใครมีทางออก? ขอบคุณมาก! FD

10 r confidence-interval chi-squared

4

มีวิธีใช้การตรวจสอบไขว้เพื่อทำการเลือกตัวแปร / คุณสมบัติใน R หรือไม่?

ฉันมีชุดข้อมูลที่มีตัวแปรประมาณ 70 ตัวที่ฉันต้องการลด สิ่งที่ฉันต้องการทำคือใช้ CV เพื่อค้นหาตัวแปรที่มีประโยชน์มากที่สุดในรูปแบบต่อไปนี้ 1) สุ่มเลือกพูด 20 ตัวแปร 2) ใช้stepwise/ LASSO/ lars/ ฯลฯ เพื่อเลือกตัวแปรที่สำคัญที่สุด 3) ทำซ้ำ ~ 50x และดูว่าตัวแปรใดถูกเลือก (ไม่ตัดออก) บ่อยที่สุด นี่เป็นไปตามสายของสิ่งที่randomForestจะทำ แต่rfVarSelดูเหมือนว่าแพคเกจจะทำงานเฉพาะกับปัจจัย / การจัดหมวดหมู่และฉันจำเป็นต้องทำนายตัวแปรตามอย่างต่อเนื่อง ฉันกำลังใช้ R ดังนั้นคำแนะนำใด ๆ ก็จะถูกนำไปใช้อย่างเหมาะสม

10 r cross-validation feature-selection random-forest stepwise-regression

7

ใน R ไดรเวอร์กราฟิกที่ดีที่สุดสำหรับการใช้กราฟใน Microsoft Word คืออะไร

ฉันใช้ R เพื่อสร้างกราฟที่เรียบร้อยที่ฉันใช้ในเอกสาร Microsoft Office ตามหน้านี้คุณภาพที่ดีที่สุดนั้นมาพร้อมกับไดรเวอร์ PDF น่าเสียดายที่ Word ไม่รองรับการนำเข้าตัวเลข PDF ฉันควรใช้อะไร

10 r data-visualization

1

ขนาดของต้นไม้ในการไล่ระดับต้นไม้ไล่สี

การไล่ระดับต้นไม้แบบไล่ตามที่เสนอโดยฟรีดแมนใช้ต้นไม้ตัดสินใจด้วยJโหนดขั้ว (= ใบ) เป็นผู้เรียนพื้นฐาน มีหลายวิธีในการปลูกต้นไม้ที่มีJจุดตรงตัวอย่างเช่นสามารถปลูกต้นไม้ในแบบลึกแรกหรือแบบกว้างแรก ... มีวิธีการที่กำหนดไว้ในการปลูกต้นไม้ด้วยJโหนดเทอร์มินัลสำหรับการไล่ระดับสีต้นไม้หรือไม่? ฉันตรวจสอบขั้นตอนการปลูกต้นไม้ของgbmแพ็คเกจของ R และดูเหมือนว่ามันจะขยายต้นไม้ในลักษณะที่ลึกเป็นอันดับแรกและใช้การวิเคราะห์แบบฮิวริสติกโดยปรับปรุงข้อผิดพลาดเพื่อเลือกว่าจะขยายโหนดด้านซ้ายหรือโหนดลูกที่ถูกต้องหรือไม่

10 r cart boosting

4

LaTeX เอาท์พุตสำหรับวัตถุ summary.lm ของ R - ในขณะที่แสดงข้อมูลนอกตาราง [ปิด]

ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน3 ปีที่ผ่านมา ดูเหมือนว่าฉันจะเป็นแบบพื้นฐาน แต่ฉันไม่สามารถหาวิธีแก้ปัญหาออนไลน์ได้ดังนั้นฉันจึงสงสัยว่าจะพลาดอะไรบ้าง ฉันต้องการรวมเอาท์พุทของวัตถุสรุป lm ภายในเอกสาร Sweave (.Rnw) ฉันสามารถส่งออกสรุป. lm ตามที่เป็นอยู่หรือใช้แพ็คเกจ xtable / Hmisc (ผ่านคำสั่ง xtable หรือลาเท็กซ์) มีบางอย่างเช่น xtable ที่ให้ข้อมูลสรุปที่มีให้จากนอกตารางหรือไม่ ( , F สถิติ ฯลฯ ... ?)R2R2R^2

10 r regression

คำถามติดแท็ก r