สถิติและข้อมูลขนาดใหญ่ r

1

วิธีประมาณกระบวนการปัวซองโดยใช้ R (หรือ: วิธีการใช้แพคเกจ NHPoisson?)

ฉันมีฐานข้อมูลของเหตุการณ์ (เช่นตัวแปรของวันที่) และ covariates ที่เกี่ยวข้อง เหตุการณ์ถูกสร้างขึ้นโดยกระบวนการปัวซองที่ไม่อยู่กับที่ซึ่งพารามิเตอร์เป็นฟังก์ชันที่ไม่รู้จัก (แต่อาจเป็นเชิงเส้น) ของ covariates บางตัว ฉันคิดว่าแพ็คเกจ NHPoisson มีไว้เพื่อจุดประสงค์นี้เท่านั้น แต่หลังจากการวิจัยไม่ประสบความสำเร็จ 15 ชั่วโมงฉันก็ยังไม่รู้ว่าจะใช้อย่างไร Heck ฉันลองอ่านหนังสืออ้างอิงทั้งสองเล่ม: Coles, S. (2001) บทนำสู่การสร้างแบบจำลองทางสถิติของค่าที่สูงที่สุด สปริงเกอร์ Casella, G. และ Berger, RL, (2002) อนุมานทางสถิติ. บรูคส์ / โคล ตัวอย่างเดียวในเอกสารประกอบของ fitPP.fun ดูเหมือนจะไม่เหมาะกับการตั้งค่าของฉัน ฉันไม่มีคุณค่ามากนัก! ฉันเพิ่งมีเหตุการณ์ที่เปลือยเปล่า ทุกคนได้โปรดช่วยฉันด้วยตัวอย่างง่ายๆของการกระชับกระบวนการ Poisson กับพารามิเตอร์กับตัวแปรร่วมเดียวและสมมติฐานที่ ? ฉันสนใจในการประมาณและ\ฉันให้ชุดข้อมูลสองคอลัมน์พร้อมเวลาของเหตุการณ์ (สมมติว่าวัดเป็นวินาทีหลังจากเวลาโดยพลการ ) และอีกคอลัมน์หนึ่งที่มีค่าของ covariate ?X λ = …

15 r poisson-distribution poisson-process

1

ความหมายของเงื่อนไขการส่งออกในแพคเกจ gbm?

ฉันใช้แพ็คเกจ gbm เพื่อจัดหมวดหมู่ ตามที่คาดหวังผลลัพธ์ที่ดี แต่ฉันพยายามที่จะเข้าใจผลลัพธ์ของตัวจําแนก เอาต์พุตมีห้าเทอม `Iter TrainDeviance ValidDeviance StepSize Improve` ทุกคนสามารถอธิบายความหมายของแต่ละคำโดยเฉพาะอย่างยิ่งความหมายของการปรับปรุง

15 r machine-learning

1

การแสดงผลแบบจำลองผสม

หนึ่งในปัญหาที่ฉันมีกับรุ่นที่ผสมกันคือการหาการสร้างภาพข้อมูลในรูปแบบที่สามารถลงเอยด้วยกระดาษหรือโปสเตอร์เมื่อมีผลลัพธ์แล้ว ตอนนี้ฉันกำลังทำงานกับโมเดลเอฟเฟกต์ผสมปัวซองด้วยสูตรที่มีลักษณะดังนี้: a <- glmer(counts ~ X + Y + Time + (Y + Time | Site) + offset(log(people)) ด้วยบางสิ่งที่ติดตั้งใน glm () เราสามารถใช้การทำนาย () เพื่อรับการทำนายสำหรับชุดข้อมูลใหม่ได้อย่างง่ายดายและสร้างบางสิ่งจากนั้น แต่ด้วยผลลัพธ์เช่นนี้ - คุณจะสร้างบางสิ่งเช่นพล็อตของอัตราเมื่อเวลาผ่านไปด้วยการเลื่อนจาก X (และน่าจะมีค่าที่ตั้งไว้เป็น Y) ได้อย่างไร ฉันคิดว่ามีใครสามารถทำนายขนาดพอดีได้ดีพอจากประมาณการคงที่ผลกระทบ แต่สิ่งที่เกี่ยวกับ 95% CI? มีใครอีกบ้างที่คิดว่าจะช่วยให้เห็นภาพผลลัพธ์ ผลลัพธ์ของโมเดลอยู่ด้านล่าง: Random effects: Groups Name Variance Std.Dev. Corr Site (Intercept) 5.3678e-01 0.7326513 time …

15 r data-visualization mixed-model

5

ไลบรารี Java แบบโอเพนซอร์สสำหรับสถิติในระดับที่เสนอโดยหลักสูตรสถิติบัณฑิต

ฉันกำลังเรียนหลักสูตรบัณฑิตศึกษาในสถิติประยุกต์ที่ใช้ตำราเรียนต่อไปนี้ (เพื่อให้คุณรู้สึกถึงระดับของเนื้อหาที่ถูกครอบคลุม): แนวคิดและวิธีการทางสถิติโดย GK Bhattacharyya และ RA Johnson ศาสตราจารย์ต้องการให้เราใช้ SAS สำหรับการบ้าน คำถามของฉันคือ: มีห้องสมุด Java (IES) ที่สามารถใช้แทน SAS สำหรับปัญหาที่มักจะเห็นในชั้นเรียนดังกล่าว ขณะนี้ฉันกำลังพยายามทำกับApache Math Commonsและแม้ว่าฉันจะประทับใจกับห้องสมุด (มันใช้งานง่ายและเข้าใจง่าย) ดูเหมือนจะขาดสิ่งง่าย ๆ เช่นความสามารถในการวาดฮิสโทแกรม (คิดถึงการรวมเข้ากับไลบรารีแผนภูมิ ) ฉันดูที่ Colt แต่ความสนใจเริ่มแรกของฉันก็ลดลงอย่างรวดเร็ว จะขอบคุณอินพุตใด ๆ - และฉันได้ดูคำถามที่คล้ายกันใน Stackoverflow แต่ไม่พบสิ่งใดที่น่าสนใจ หมายเหตุ: ฉันรู้ว่าไลบรารี R, SciPy และ Octave และ java ที่โทรไปหาพวกเขา - ฉันกำลังมองหาไลบรารีดั้งเดิมของ Java หรือชุดของไลบรารีที่สามารถให้คุณสมบัติที่ฉันกำลังมองหาอยู่ด้วยกัน หมายเหตุ: …

15 r sas java

3

ตัวเลือกในรูปแบบการถดถอยความเป็นอันตรายแบบสัดส่วนเมื่อส่วนที่เหลือของ Schoenfeld ไม่ดีมีอะไรบ้าง

ฉันกำลังทำการถดถอยแบบอันตรายตามสัดส่วนของ Cox ในการใช้ R coxphซึ่งรวมถึงตัวแปรจำนวนมาก ส่วนที่เหลือ Martingale ดูดีและส่วนที่เหลือ Schoenfeld นั้นยอดเยี่ยมสำหรับเกือบทุกตัวแปร มีสามตัวแปรที่มี Schoenfeld ส่วนที่เหลือไม่แบนและลักษณะของตัวแปรนั้นมันทำให้รู้สึกว่าพวกเขาอาจแตกต่างกันไปตามเวลา นี่คือตัวแปรที่ฉันไม่สนใจจริง ๆ ดังนั้นการทำให้เป็นชั้นจะดี อย่างไรก็ตามพวกเขาทั้งหมดเป็นตัวแปรต่อเนื่องไม่ใช่ตัวแปรเด็ดขาด ดังนั้นฉันจึงเข้าใจชั้นที่จะไม่เป็นเส้นทาง * ฉันได้ลองสร้างปฏิสัมพันธ์ระหว่างตัวแปรและเวลาตามที่อธิบายไว้ที่นี่แต่เราได้รับข้อผิดพลาด: In fitter(X, Y, strats, offset, init, control, weights = weights, : Ran out of iterations and did not converge ฉันทำงานกับจุดข้อมูลเกือบ 1,000 จุดและทำงานกับตัวแปรครึ่งโหลด้วยหลาย ๆ ปัจจัยแต่ละตัวดังนั้นจึงรู้สึกเหมือนว่าเรากำลังผลักดันขีด จำกัด ของวิธีที่ข้อมูลนี้จะถูกหั่นและหั่นเป็นลูกเต๋า โชคไม่ดีโมเดลที่เรียบง่ายทั้งหมดที่ฉันได้ลองด้วยตัวแปรที่รวมอยู่น้อยกว่านั้นแย่ลงอย่างชัดเจน ตัวเลือกของฉันคืออะไร? เนื่องจากฉันไม่สนใจเกี่ยวกับตัวแปรที่มีพฤติกรรมแย่ ๆ …

15 r model cox-model hazard schoenfeld-residuals

2

สร้างตัวแปรสุ่มแบบกระจายที่สัมพันธ์กันสามชุด

สมมติว่าเรามี X1∼unif(n,0,1),X1~ยูนิฟ(n,0,1),X_1 \sim \textrm{unif}(n,0,1), X2∼unif(n,0,1),X2~ยูนิฟ(n,0,1),X_2 \sim \textrm{unif}(n,0,1), โดยที่เป็นตัวอย่างแบบสุ่มขนาดเท่ากันของขนาด n และunif(n,0,1)unif(n,0,1)\textrm{unif}(n,0,1) Y=X1,Y=X1,Y=X_1, Z=0.4X1+1−0.4−−−−−−√X2.Z=0.4X1+1−0.4X2.Z = 0.4 X_1 + \sqrt{1 - 0.4}X_2. จากนั้นความสัมพันธ์ระหว่างและเป็น0.4YYYZZZ0.40.40.4 ฉันสามารถขยายนี้ถึงสามตัวแปร , , ?X1X1X_1X2X2X_2X3X3X_3

15 r correlation random-generation uniform

1

ทำไมค่าสัมประสิทธิ์การถดถอย rlm () ประมาณต่างจาก lm () ใน R?

ฉันกำลังใช้ rlm ในแพ็คเกจ R MASS เพื่อถดถอยโมเดลเชิงเส้นหลายตัวแปร มันใช้งานได้ดีสำหรับตัวอย่างจำนวนหนึ่ง แต่ฉันได้รับค่าสัมประสิทธิ์เสมือนสำหรับรุ่นเฉพาะ: Call: rlm(formula = Y ~ X1 + X2 + X3 + X4, data = mymodel, maxit = 50, na.action = na.omit) Residuals: Min 1Q Median 3Q Max -7.981e+01 -6.022e-03 -1.696e-04 8.458e-03 7.706e+01 Coefficients: Value Std. Error t value (Intercept) 0.0002 0.0001 1.8418 …

15 r multiple-regression robust

2

จะทดสอบผลกระทบของตัวแปรการจัดกลุ่มด้วยตัวแบบที่ไม่ใช่เชิงเส้นได้อย่างไร?

ฉันมีคำถามเกี่ยวกับการใช้ตัวแปรการจัดกลุ่มในรูปแบบที่ไม่ใช่เชิงเส้น เนื่องจากฟังก์ชั่น nls () ไม่อนุญาตให้ใช้กับตัวแปรปัจจัยฉันพยายามดิ้นรนเพื่อหาว่าใครสามารถทดสอบผลกระทบของปัจจัยที่มีต่อแบบจำลองได้ ฉันได้รวมตัวอย่างด้านล่างที่ฉันต้องการให้พอดีกับรูปแบบการเติบโต "ตามฤดูกาล von Bertalanffy" กับการรักษาการเจริญเติบโตที่แตกต่างกัน (ส่วนใหญ่ใช้กับการเจริญเติบโตของปลา) ฉันต้องการทดสอบผลกระทบของทะเลสาบที่ปลาโตขึ้นรวมถึงอาหารที่ได้รับ (เป็นเพียงตัวอย่างเทียม) ฉันคุ้นเคยกับวิธีแก้ปัญหานี้ - การใช้แบบจำลองการทดสอบแบบทดสอบ F เปรียบเทียบกับข้อมูลที่ถูกรวบรวมเทียบกับความเหมาะสมที่แยกจากกันโดย Chen et al (1992) (ARSS - "การวิเคราะห์ผลรวมที่เหลือของกำลังสอง") กล่าวอีกนัยหนึ่งสำหรับตัวอย่างด้านล่าง ฉันคิดว่ามีวิธีที่ง่ายกว่าในการใช้ R โดยใช้ nlme () แต่ฉันพบปัญหา ก่อนอื่นเลยโดยใช้ตัวแปรการจัดกลุ่มระดับความอิสระนั้นสูงกว่าที่ฉันจะได้รับจากการปรับรุ่นแยกต่างหาก ประการที่สองฉันไม่สามารถซ้อนตัวแปรการจัดกลุ่มได้ - ฉันไม่เห็นว่าปัญหาของฉันอยู่ที่ไหน ความช่วยเหลือใด ๆ ที่ใช้ nlme หรือวิธีการอื่น ๆ นั้นได้รับการชื่นชมอย่างมาก ด้านล่างเป็นรหัสสำหรับตัวอย่างของฉันประดิษฐ์: ###seasonalized von Bertalanffy growth model soVBGF …

15 r mixed-model nls

3

วิธีที่ดีที่สุดในการเห็นภาพการขัดสีโดยใช้ R?

ผ่านเว็บไซต์นี้ฉันเพิ่งค้นพบ Sankey Diagrams วิธีที่ยอดเยี่ยมในการมองภาพสิ่งที่เกิดขึ้นในแผนภูมิการไหลแบบดั้งเดิม นี่คือตัวอย่างที่ดีของ Sankey Diagram โดยGeorge M. Whitesides และ George W. Crabtree , Source; อย่าลืมการวิจัยพื้นฐานด้านพลังงานระยะยาววิทยาศาสตร์ 9 กุมภาพันธ์ 2550: ฉบับที่ 5 315. ไม่ใช่ 5813, pp. 796 - 798 หลังจากที่ฉันรู้ว่าไม่มีแพ็คเกจ Sankey R ฉันพบสคริปต์ R ออนไลน์โชคไม่ดีที่สคริปต์นี้ค่อนข้างดิบและค่อนข้าง จำกัด ด้วยความหวังสูงฉันขอแพคเกจ Sankey R หรือฟังก์ชั่นที่เป็นผู้ใหญ่มากกว่าที่ stackoverflowแต่ฉันประหลาดใจที่ดูเหมือนว่าเราไม่มีฟังก์ชั่นที่เป็นผู้ใหญ่สำหรับการสร้าง Sankey Diagrams ใน R หลังจากที่ฉันโพสต์Geek On Acid จำนวนมากก็ใจดีพอที่จะแนะนำการแฮ็กขนาดเล็กในสคริปต์ที่มีอยู่ซึ่งทำให้มันทำงานได้มากหรือน้อยตามวัตถุประสงค์เฉพาะของฉัน R-script …

15 r data-visualization sankey-diagram

3

วิธีการขยาย data frame ใน R

15 r

1

วิธีรับ R-squared เพื่อความพอดี?

จะคำนวณสถิติR-squared ( R2R2r^2 ) ใน R for loessและ / หรือpredictฟังก์ชั่นเอาต์พุตได้อย่างไร? ตัวอย่างเช่นสำหรับข้อมูลนี้: cars.lo <- loess(dist ~ speed, cars) cars.lp <- predict(cars.lo, data.frame(speed = seq(5, 30, 1)), se = TRUE) cars.lpมีสองอาร์เรย์fitสำหรับรุ่นและse.fitข้อผิดพลาดมาตรฐาน

15 r r-squared loess

3

มีวิธีการปิดการใช้งานคุณสมบัติการปรับพารามิเตอร์ (ตาราง) ใน CARET หรือไม่?

CARET จะใช้กริดการปรับแต่งที่กำหนดไว้ล่วงหน้าโดยอัตโนมัติเพื่อสร้างแบบจำลองต่างๆก่อนที่จะเลือกรุ่นสุดท้ายจากนั้นทำการฝึกอบรมรุ่นสุดท้ายในข้อมูลการฝึกอบรมเต็มรูปแบบ ฉันสามารถจัดหากริดการปรับจูนของตัวเองด้วยการรวมกันของพารามิเตอร์เดียวเท่านั้น อย่างไรก็ตามแม้ในกรณีนี้ CARET "เลือก" โมเดลที่ดีที่สุดในบรรดาพารามิเตอร์การปรับ (แม้ว่าจะมีเพียงหนึ่งในกรณีนี้) จากนั้นจึงปรับโมเดลให้เหมาะสมกับข้อมูลการฝึกอบรมทั้งหมด นี่เป็นขั้นตอนพิเศษที่ฉันต้องการหลีกเลี่ยง ฉันจะข้ามขั้นตอนการค้นหาแบบจำลองข้ามการเปลี่ยนแปลงในตารางการปรับแต่งและบังคับให้ CARET สร้างข้อมูลการฝึกอบรมทั้งหมดได้ (นอกเหนือจากการเรียกไลบรารี่ต้นแบบโดยตรง)

15 r caret

1

ผลลัพธ์ที่ขัดแย้งกันของผลรวมกำลังสองของ Type III ใน ANOVA ใน SAS และ R

ผมวิเคราะห์ข้อมูลจากการทดลองปัจจัยที่ไม่สมดุลทั้งที่มีและSAS Rทั้งสองSASและRให้ผลรวมของสี่เหลี่ยมจัตุรัสประเภท I ที่คล้ายกัน แต่ผลรวมสี่เหลี่ยมจัตุรัส Type III ของพวกเขานั้นแตกต่างกัน ด้านล่างนี้SASและRรหัสและผลลัพธ์ DATA ASD; INPUT Y T B; DATALINES; 20 1 1 25 1 2 26 1 2 22 1 3 25 1 3 25 1 3 26 2 1 27 2 1 22 2 2 31 2 3 ; PROC GLM DATA=ASD; …

15 r anova sas sums-of-squares

2

การแบ่งพาร์ติชันต้นไม้ใน R: party vs. rpart

ไม่นานมานี้ตั้งแต่ฉันดูที่การแยกต้นไม้ ครั้งล่าสุดที่ฉันทำสิ่งนี้ฉันชอบปาร์ตี้ใน R (สร้างโดย Hothorn) แนวคิดของการอนุมานแบบมีเงื่อนไขผ่านการสุ่มตัวอย่างทำให้ฉันมีเหตุผล แต่ rpart ก็มีการอุทธรณ์ ในแอปพลิเคชันปัจจุบัน (ฉันไม่สามารถให้รายละเอียดได้ แต่เกี่ยวข้องกับการพยายามกำหนดว่าใครจะเข้าคุกในกลุ่มตัวอย่างขนาดใหญ่ของผู้ถูกจับกุม) ฉันไม่สามารถใช้วิธีการขั้นสูงเช่นป่าสุ่มการบรรจุถุงการส่งเสริมเป็นต้น - ฉันต้องการความสะดวก กฎ. ฉันจะยังชอบที่จะมีบางส่วนที่ควบคุมด้วยตนเองมากกว่าที่โหนดแยกตามที่แนะนำในวอชิงตันโพสต์และนักร้อง (2010) ซ้ำพาร์ทิชันและการประยุกต์ใช้ ฟรีแวร์ที่มาพร้อมกับหนังสือเล่มนี้อนุญาตให้ทำเช่นนี้ได้ แต่จะค่อนข้างดั้งเดิมในการป้อนข้อมูลของผู้ใช้ คำแนะนำหรือข้อเสนอแนะ?

15 r cart rpart partitioning

3

วิธีที่ดีในการสอน R ในห้องปฏิบัติการคอมพิวเตอร์คืออะไร

มีการคำถามที่ดีหลายประการและชุดของคำตอบในหนังสือเบื้องต้นหรือวิธีการเรียนรู้เช่น R ที่นี่และที่นี่ แต่ฉันมีปัญหาแตกต่างกันเล็กน้อย - วิธีที่ดีที่สุดในการใช้งานเซสชั่นนานหนึ่งชั่วโมง (หรือหลายครั้ง) ในห้องปฏิบัติการคอมพิวเตอร์ที่จะทำให้ผู้คนเริ่มต้นใน R คุ้นเคยกับวิธีการพื้นฐาน ฯลฯ แผนปัจจุบันของฉันคือการทำงานอย่างมีประสิทธิภาพผ่านบทเบื้องต้นของสิ่งที่ต้องการ SimpleR ของ Verzani จากนั้นแนะนำชุดข้อมูลที่คุ้นเคย แต่มีวิธีอื่นที่ผู้คนพบว่ามีประโยชน์หรือไม่ ตัวอย่างเช่นมันเป็นการดีที่จะแนะนำข้อมูลจริงทันทีหรือปัญหาที่อยู่ในทางที่เป็นนามธรรมมากขึ้น? ฉันควรใช้วิธีนี้อย่างถี่ถ้วนเพื่อใช้วงเล็บเหลี่ยมหรือกระตุ้นผู้คนด้วยตัวอย่างของกราฟิกขัดแตะ? กลุ่มเป้าหมายของฉันคุ้นเคยกับสถิติ (แม้ว่าไม่ใช่ผู้เชี่ยวชาญ) และผู้ใช้ SPSS ที่มีความเชี่ยวชาญ ไม่คุ้นเคยกับภาษาการเขียนโปรแกรมนอกเหนือจากแมโครและการเขียนสคริปต์ที่คุณจะได้รับใน SPSS และสิ่งที่คล้ายกัน คำแนะนำหรือการอ้างอิงถึงแผนการสอนใด ๆ จะได้รับการชื่นชม อย่างไรก็ตามฉันไม่ต้องการคัดลอกรายชื่อวัสดุออนไลน์จำนวนมากที่แนะนำ R - อ้างอิงอย่างเคร่งครัดกับคำถามแบบตัวต่อตัว

15 r teaching

คำถามติดแท็ก r