สถิติและข้อมูลขนาดใหญ่ r

1

วิธีตีความค่า p เป็น 0 หรือ 1 ได้อย่างไร

ฉันใช้การค้นหา ANOVA เช่นการมีปฏิสัมพันธ์ระหว่างเพศและระดับที่ฉันต้องการรู้ในสิ่งที่เกรดเด็กชายและเด็กหญิงแตกต่างกัน แต่ในหลาย ๆ กรณีฉันพบ (p) ค่า p-value 0 และ 1 เป็นไปได้อย่างไร ดูเหมือนจะไม่ถูกต้อง ... as.factor(gender) 1 16 16.2 2.6377 0.104396 as.factor(grade) 7 50077 7153.9 1165.4184 < 2.2e-16 *** as.factor(gender):as.factor(grade) 7 132 18.9 3.0795 0.003056 ** Residuals 7747 47555 6.1 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 …

9 r

2

อะไรคือการอ้างอิง / คำแนะนำที่ดีสำหรับการเรียนรู้ Emacs Speaks Statistics (with R)?

ฉันใช้ R มาหลายปีแล้ว แต่ฉันใช้ GUI อย่าง Tinn-R, JGR และ R-Studio ล่าสุด แม้ว่าฉันจะชอบอินเตอร์เฟสของ R-Studio แต่ฉันรู้สึกว่าสำหรับโปรแกรมที่ยาวขึ้นโดยมีกราฟิกไม่กี่ตัว / ไม่มีเลยฉันสามารถเขียนโค้ดได้อย่างมีประสิทธิภาพมากขึ้นโดยใช้ประโยชน์จากทางลัดที่นำเสนอโดยโปรแกรมแก้ไขข้อความพื้นฐานเช่น Emacs ฉันติดตั้ง Emacs และปลั๊กอิน ESS ทุกอย่างทำงานได้อย่างถูกต้องและฉันได้ทำการทดสอบโค้ดบางอย่าง แต่ฉันมีเวลายากที่จะชินกับมันและฉันไม่พบคู่มืออ้างอิงที่เหมาะสม การค้นหาของ Google ส่งคืนเว็บไซต์เก่า ๆ จำนวนไม่มากที่มีบทแนะนำซึ่งเน้นที่การติดตั้งและกำหนดค่าปลั๊กอินเป็นหลักและคู่มือในเว็บไซต์อย่างเป็นทางการนั้นค่อนข้างหนาแน่นเกินไปสำหรับฉัน ฉันกำลังมองหาการแนะนำสั้น ๆ (โดยเฉพาะกับภาพหน้าจอและรายการปุ่มลัด) ออกแบบมาสำหรับคนที่คุ้นเคยกับ R แต่ไม่ใช่ Emacs การอ้างอิงหรือเคล็ดลับอื่น ๆ ในการเริ่มต้นจะได้รับการชื่นชมอย่างมาก

9 r software

3

Boxplot สำหรับการกระจายหลาย ๆ

ฉันต้องวาดการแจกแจง 20 ครั้งในกราฟเดียวใน R และมันก็ดูไม่ดี (รก) กับฉันด้วย boxplot ปกติ (20 กล่อง) แม้กับ boxwex = 0.3 คุณช่วยแนะนำฉันได้ไหมว่าฉันจะพล็อตบ็อกซ์พล็อตใน R สำหรับการแจกแจง 20 แบบด้วยจุดสำหรับค่ามัธยฐานและแค่บรรทัดแทนที่จะเป็นกล่องได้อย่างไรเช่นด้านล่าง โปรดแนะนำฉันด้วยหากมีวิธีการ R ที่สร้าง boxplots ที่ดีโดยเฉพาะถ้าคุณต้องการแสดงการแจกแจงหลาย ๆ อย่างในกราฟเดียว -----0----

9 r boxplot

1

วิธีการเลือกจำนวนของการแยกใน rpart ()?

ฉันได้ใช้rpart.controlสำหรับการminsplit=2และได้ผลลัพธ์ที่ต่อไปนี้จากrpart()ฟังก์ชั่น เพื่อหลีกเลี่ยงการโอเวอร์โหลดข้อมูลฉันต้องใช้แยก 3 หรือแยก 7 หรือไม่ ฉันไม่ควรใช้ splits 7 ใช่ไหม โปรดแจ้งให้เราทราบ ตัวแปรที่ใช้จริงในการสร้างต้นไม้: [1] ct_a ct_b usr_a Root node error: 23205/60 = 386.75 n= 60 CP nsplit rel error xerror xstd 1 0.615208 0 1.000000 1.05013 0.189409 2 0.181446 1 0.384792 0.54650 0.084423 3 0.044878 2 0.203346 0.31439 0.063681 4 0.027653 …

9 r cart rpart

1

การใส่ข้อมูลหลายครั้งสำหรับข้อมูลการนับที่ขาดหายไปในอนุกรมเวลาจากการศึกษาแบบพาเนล

ฉันกำลังพยายามที่จะจัดการกับปัญหาที่เกี่ยวข้องกับการใส่ข้อมูลที่หายไปจากการศึกษาข้อมูลแบบพาเนล (ไม่แน่ใจว่าฉันกำลังใช้ 'การศึกษาข้อมูลแบบพาเนล' อย่างถูกต้อง - อย่างที่ฉันได้เรียนรู้ในวันนี้) ถึงปี 2009 ตลอดทั้งเดือนชายและหญิงสำหรับ 8 อำเภอที่แตกต่างกันและสำหรับกลุ่มอายุ 4 ขวบ ชื่อไฟล์มีลักษณะดังนี้: District Gender Year Month AgeGroup TotalDeaths Northern Male 2006 11 01-4 0 Northern Male 2006 11 05-14 1 Northern Male 2006 11 15+ 83 Northern Male 2006 12 0 3 Northern Male 2006 12 01-4 0 …

9 r time-series panel-data data-imputation

2

จับคู่ ANOVA หรือมาตรการผสมซ้ำแล้วซ้ำอีก?

ฉันถูกขอให้วิเคราะห์ข้อมูลบางอย่างจากการทดลองทางคลินิกโดยหาวิธีสองวิธีในการวัดความดันโลหิต ฉันมีข้อมูลจาก 50 วิชาโดยแต่ละรายการมีค่าระหว่าง 2 และ 57 มาตรการโดยใช้แต่ละวิธี ฉันสงสัยว่าจะทำอย่างไรดีที่สุด เห็นได้ชัดว่าฉันต้องการวิธีการแก้ปัญหาที่จะคำนึงถึงความจริงที่ว่าการวัดความดันโลหิตถูกจับคู่ (สองวิธีที่วัดพร้อมกัน) และเวลาที่แปรเปลี่ยนโควาเรียต (มีจำนวนการสังเกตต่อผู้ป่วยที่แตกต่างกัน ความแปรปรวนของผู้ป่วย ฉันกำลังคิดที่จะหยุดเรื่องรองเท้านี้เป็นมาตรการ ANOVA ซ้ำ ๆ แต่ฉันคิดว่ามันอาจจะต้องเป็นแบบจำลองผสม ฉันขอขอบคุณคำแนะนำที่เป็นประโยชน์ที่คุณสามารถให้ได้ ฉันเป็นมือใหม่ R ที่สมบูรณ์ แต่ตื่นเต้นมากที่จะพัฒนาทักษะและฉันมีประสบการณ์ปานกลางใน Stata ดังนั้นก็สามารถถอยกลับไปได้เสมอ

9 r anova mixed-model stata

2

เหตุใด R จึงวางแผนส่วนที่เหลือเป็นมาตรฐานเทียบกับปริมาณเชิงทฤษฎีในพล็อต QQ

ใน R ทำไมการตั้งค่าเริ่มต้นของการqqplot(linear model)ใช้ค่ามาตรฐานในแกน y? เหตุใด R จึงไม่ใช้ส่วนที่เหลือ "ปกติ"

9 r regression linear-model residuals qq-plot

2

การจัดกลุ่มเชิงพื้นที่ตามความหนาแน่นของแอปพลิเคชันที่มีการจัดกลุ่มเสียง (DBSCAN) ใน R

คำถามนี้เริ่มต้นเป็น "การจัดกลุ่มข้อมูลเชิงพื้นที่ใน R " และตอนนี้ย้ายไปยังคำถาม DBSCAN เนื่องจากการตอบคำถามแรกแนะนำให้ฉันค้นหาข้อมูลเกี่ยวกับ DBSCAN และอ่านเอกสารบางอย่างเกี่ยวกับ มีคำถามใหม่เกิดขึ้น DBSCAN ต้องการพารามิเตอร์บางตัวหนึ่งในนั้นคือ "ระยะทาง" เนื่องจากข้อมูลของฉันมีสามมิติลองจิจูดละติจูดและอุณหภูมิฉันควรใช้ "ระยะทาง" ใด มิติใดเกี่ยวข้องกับระยะทางนั้น ฉันควรจะเป็นอุณหภูมิ ฉันจะค้นหาระยะห่างขั้นต่ำเช่น R ได้อย่างไร พารามิเตอร์อื่นคือจำนวนจุดต่ำสุดที่ควรสร้างเป็นคลัสเตอร์ มีวิธีการหาหมายเลขนั้นหรือไม่? น่าเสียดายที่ฉันไม่พบ กำลังค้นหา Google ฉันไม่สามารถหาตัวอย่าง R สำหรับการใช้ dbscan ในชุดข้อมูลที่คล้ายกับของฉันคุณรู้จักเว็บไซต์ใดที่มีตัวอย่างประเภทนี้หรือไม่ ดังนั้นฉันสามารถอ่านและพยายามปรับให้เข้ากับกรณีของฉัน คำถามสุดท้ายคือความพยายามครั้งแรกของฉันกับ DBSCAN (ไม่มีคำตอบที่ถูกต้องสำหรับคำถามก่อนหน้า) ทำให้เกิดปัญหาหน่วยความจำ R บอกว่ามันไม่สามารถจัดสรรเวกเตอร์ได้ ฉันเริ่มต้นด้วยตารางที่เว้นระยะ 4 กม. ด้วย 779191 จุดที่สิ้นสุดในประมาณ 300,000 แถว x 3 คอลัมน์ (ละติจูดลองจิจูดและอุณหภูมิ) …

9 r clustering spatial

2

รุ่น Tobit พร้อม R

มีใครรู้บ้างว่าจะหาแอปพลิเคชันและตัวอย่างที่ดีได้ที่ไหน (นอกเหนือจากคู่มือและหนังสือเศรษฐศาสตร์ที่ใช้กับ R) โดยใช้โมเดล tobit กับแพ็คเกจ AER แก้ไข ฉันกำลังค้นหาคำสั่งเพื่อคำนวณผลกระทบส่วนเพิ่มสำหรับ y (ไม่ใช่สำหรับตัวแปรแฝง y *) ดูเหมือนว่าโดยที่เป็นฟังก์ชันการแจกแจงสะสม std.n ปกติ แต่ฉันจะคำนวณผลกระทบเหล่านั้นด้วย R ได้อย่างไรϕ(xβ/σ)βϕ(xβ/σ)β\phi(x\beta/\sigma)\betaϕϕ\phi

9 r tobit-regression

3

จะเปลี่ยนชื่อคอลัมน์ใน data frame ใน R ได้อย่างไร? [ปิด]

ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน6 ปีที่ผ่านมา names(mydat)[c(name)]<-c("newname") จากนี้ฉันรู้ว่าคอลัมน์ / ชื่อตัวแปร "ชื่อ" ของ data frame mydat จะถูกแทนที่ด้วย "newname" คำถามของฉันคือถ้าฉันต้องการทำสิ่งนี้ด้วยการวนซ้ำเพื่อที่ฉันจะได้สิ่งที่ชอบ: newname1 newname2 newname3 newname4 เป็นต้นฉันจะทำอย่างไร นี่คือสิ่งที่ทำและไม่ได้ผล: for(i in 1:4){ names(mydat)[c(name)]<-c("newname"i) } มีวิธีการรหัสนี้หรือไม่? ขอบคุณมากสำหรับทุกคนที่สามารถช่วยได้ Owusu Isaac

9 r

4

วิธีการทดสอบไคสแควร์หลังการทดสอบหลายตารางในตาราง 2 X 3

ชุดข้อมูลของฉันประกอบด้วยการเสียชีวิตโดยรวมหรือการอยู่รอดของสิ่งมีชีวิตที่ไซต์สามประเภททั้งฝั่งกลางและกลาง ตัวเลขในตารางด้านล่างแสดงถึงจำนวนเว็บไซต์ 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 ฉันต้องการทราบว่า # ของเว็บไซต์ที่มีอัตราการตาย 100% มีความสำคัญตามประเภทของไซต์หรือไม่ ถ้าฉันใช้ไคสแควร์ 2 x 3 ฉันจะได้ผลลัพธ์ที่สำคัญ มีการเปรียบเทียบแบบคู่หลังที่ฉันสามารถเรียกใช้หรือฉันควรใช้ ANOVA จิสติกส์หรือการถดถอยด้วยการแจกแจงแบบทวินามหรือไม่ ขอบคุณ!

9 logistic multiple-comparisons chi-squared r text-mining clustering classification feature-selection unsupervised-learning time-series references mode hypothesis-testing confidence-interval bootstrap normal-distribution order-statistics correlation statistical-significance spss bayesian beta-binomial

1

มี ARMA ที่เทียบเท่ากับอันดับสหสัมพันธ์หรือไม่

ฉันกำลังดูข้อมูลเชิงเส้นที่ไม่มากซึ่งโมเดลของ ARMA / ARIMA ทำงานได้ไม่ดี แม้ว่าฉันจะเห็นความสัมพันธ์อัตโนมัติบางอย่างและฉันหวังว่าจะได้ผลลัพธ์ที่ดีกว่าสำหรับการไม่เกี่ยวข้องกันโดยอัตโนมัติเชิงเส้น 1 / มี PACF ที่เทียบเท่ากับอันดับสหสัมพันธ์หรือไม่ (ใน R?) 2 / มีแบบจำลอง ARMA ที่เทียบเท่าสำหรับความสัมพันธ์เชิงเส้น / อันดับ (ใน R หรือไม่)

9 r correlation nonparametric garch arma

1

ใน R ฉันจะอ้างอิง \ lookup ใน cdf ของตารางการแจกแจงแบบปกติมาตรฐานได้อย่างไร

ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ฉันสมมติว่า R มีสิ่งนี้ในตัว ฉันจะอ้างอิงได้อย่างไร

9 r normal-distribution

3

ผิดหรือไม่ที่จะกระวนกระวายใจก่อนที่จะทำการทดสอบ Wilcoxon?

ฉันเขียนสคริปต์ทดสอบข้อมูลโดยใช้wilcox.testแต่เมื่อฉันได้ผลลัพธ์ผลลัพธ์ค่า p ทั้งหมดที่เท่ากับ 1 ฉันอ่านในบางเว็บไซต์ที่คุณสามารถใช้ jitter ก่อนทดสอบข้อมูล (เพื่อหลีกเลี่ยงความสัมพันธ์ตามที่กล่าวไว้) ฉันทำสิ่งนี้และตอนนี้ฉันมีผลลัพธ์ที่ยอมรับได้ การทำเช่นนี้ผิดหรือเปล่า? test<- function(column,datacol){ library(ggplot2) t=read.table("data.txt", stringsAsFactors=FALSE) uni=unique(c(t$V9)) for (xp in uni) { for(yp in uni) { testx <- subset(t, V9==xp) testy <- subset(t, V9==yp) zz <- wilcox.test(testx[[datacol]],jitter(testy[[datacol]])) p.value <- zz$p.value } } } นี่คือผลลัพธ์ของ dput(head(t)) structure(list(V1 = c(0.268912, 0.314681, 0.347078, 0.286945, …

9 r nonparametric ties

1

มีวิธีง่ายๆในการรวมสองรุ่น glm ใน R หรือไม่?

glm()ฉันมีสองรูปแบบการถดถอยโลจิสติกในการวิจัยที่ทำด้วย พวกเขาทั้งสองใช้ตัวแปรเดียวกัน แต่ทำโดยใช้ชุดย่อยที่แตกต่างกันของเมทริกซ์ มีวิธีง่ายๆในการรับแบบจำลองเฉลี่ยซึ่งให้ค่าสัมประสิทธิ์แล้วใช้กับฟังก์ชันทำนาย () หรือไม่ [ขออภัยถ้าคำถามประเภทนี้ควรโพสต์บนเว็บไซต์การเขียนโปรแกรมแจ้งให้เราทราบและฉันจะโพสต์ที่นั่น] ขอบคุณ

9 r generalized-linear-model

คำถามติดแท็ก r