คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

2
วิธีการใช้ R prcomp ผลลัพธ์สำหรับการทำนาย?
ฉันมี data.frame พร้อม 800 obs ของตัวแปร 40 ตัวและต้องการใช้การวิเคราะห์องค์ประกอบหลักเพื่อปรับปรุงผลลัพธ์ของการทำนายของฉัน (ซึ่งจนถึงขณะนี้ทำงานได้ดีที่สุดกับ Support Vector Machine กับตัวแปรที่เลือกด้วยมือ 15 อัน) ฉันเข้าใจว่า prcomp สามารถช่วยปรับปรุงการทำนายของฉันได้ แต่ฉันไม่รู้วิธีใช้ผลลัพธ์ของฟังก์ชัน prcomp ฉันได้รับผล: > PCAAnalysis <- prcomp(TrainTrainingData, scale.=TRUE) > summary(PCAAnalysis) Importance of components: PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9 PC10 PC11 PC12 PC13 PC14 Standard deviation 1.7231 1.5802 1.3358 …
25 r  pca 

1
“ การประมาณความหนาแน่นของเคอร์เนล” คือการโน้มน้าวใจอะไร
ฉันพยายามทำความเข้าใจเกี่ยวกับการประมาณความหนาแน่นของเคอร์เนลให้ดีขึ้น ใช้คำจำกัดความจาก Wikipedia: https://en.wikipedia.org/wiki/Kernel_density_estimation#Definition ฉชั่วโมง^( x ) = 1nΣni = 1Kชั่วโมง( x - xผม)= 1n ชมΣni = 1K( x - xผมชั่วโมง)fh^(x)=1n∑i=1nKh(x−xi)=1nh∑i=1nK(x−xih) \hat{f_h}(x) = \frac{1}{n}\sum_{i=1}^n K_h (x - x_i) \quad = \frac{1}{nh} \sum_{i=1}^n K\Big(\frac{x-x_i}{h}\Big) ลองเอาไปเป็นฟังก์ชันรูปสี่เหลี่ยมผืนผ้าซึ่งให้1ถ้าxอยู่ระหว่าง- 0.5ถึง0.5และ0มิฉะนั้นและh (ขนาดหน้าต่าง) เป็น 1K( )K()K()111xxx- 0.5−0.5-0.50.50.50.5000hhh ฉันเข้าใจว่าความหนาแน่นนั้นเป็นหน้าที่ของทั้งสองฟังก์ชั่น แต่ฉันไม่แน่ใจว่าฉันรู้วิธีกำหนดฟังก์ชันทั้งสองนี้อย่างไร หนึ่งในนั้นควร (อาจ) เป็นฟังก์ชันของข้อมูลซึ่งสำหรับทุกจุดใน R บอกเราว่ามีจุดข้อมูลจำนวนเท่าใดในตำแหน่งนั้น (ส่วนใหญ่ ) และฟังก์ชั่นอื่น …

4
การตรวจสอบสมมติฐาน lmer / lme แบบผสมใน R
ฉันวิ่งออกแบบซ้ำโดยที่ฉันทดสอบชาย 30 คนและหญิง 30 คนในภารกิจที่แตกต่างกันสามงาน ฉันต้องการที่จะเข้าใจว่าพฤติกรรมของชายและหญิงนั้นแตกต่างกันอย่างไรและขึ้นอยู่กับงานนั้นอย่างไร ฉันใช้ทั้งแพคเกจ lmer และ lme4 เพื่อตรวจสอบเรื่องนี้อย่างไรก็ตามฉันพยายามตรวจสอบสมมติฐานของทั้งสองวิธี รหัสที่ฉันเรียกใช้คือ lm.full <- lmer(behaviour ~ task*sex + (1|ID/task), REML=FALSE, data=dat) lm.full2 <-lme(behaviour ~ task*sex, random = ~ 1|ID/task, method="ML", data=dat) ฉันตรวจสอบว่าการโต้ตอบเป็นแบบจำลองที่ดีที่สุดโดยเปรียบเทียบกับแบบจำลองที่ง่ายกว่าโดยไม่มีการโต้ตอบและเรียกใช้ anova หรือไม่: lm.base1 <- lmer(behaviour ~ task+sex+(1|ID/task), REML=FALSE, data=dat) lm.base2 <- lme(behaviour ~ task+sex, random= ~1|ID/task), method="ML", data=dat) …

1
การเปรียบเทียบระดับของปัจจัยหลังจาก GLM ใน R
นี่เป็นพื้นหลังเล็กน้อยเกี่ยวกับสถานการณ์ของฉัน: ข้อมูลของฉันอ้างถึงจำนวนเหยื่อที่กินโดยนักล่า เนื่องจากจำนวนเหยื่อมี จำกัด (มีให้ 25) ในการทดลองแต่ละครั้งฉันจึงมีคอลัมน์ "ตัวอย่าง" แสดงจำนวนเหยื่อที่มี (เช่น 25 ในการทดลองแต่ละครั้ง) และอีกชื่อเรียกว่า "นับ" ซึ่งเป็นจำนวนของความสำเร็จ ( จำนวนเหยื่อที่ถูกกิน) ฉันใช้การวิเคราะห์ตามตัวอย่างจากหนังสือ R เกี่ยวกับข้อมูลสัดส่วน (หน้า 578) ตัวแปรอธิบายคืออุณหภูมิ (4 ระดับซึ่งฉันถือว่าเป็นปัจจัย) และเพศของนักล่า (เห็นได้ชัดว่าเป็นเพศชายหรือเพศหญิง) ดังนั้นฉันจะลงเอยกับโมเดลนี้: model <- glm(y ~ Temperature+Sex+Temperature*Sex data=predator, family=quasibinomial) หลังจากได้รับตารางการวิเคราะห์ของ Deviance ปรากฎว่าอุณหภูมิและเพศ (แต่ไม่ใช่การมีปฏิสัมพันธ์) มีผลอย่างมากต่อการบริโภคเหยื่อ ตอนนี้ปัญหาของฉัน: ฉันต้องรู้ว่าอุณหภูมิแตกต่างกันคือฉันต้องเปรียบเทียบ 4 อุณหภูมิกับแต่ละอื่น ๆ ถ้าฉันมีโมเดลเชิงเส้นฉันจะใช้ฟังก์ชัน TukeyHSD แต่เมื่อฉันใช้ GLM ฉันไม่สามารถทำได้ …

2
จะรู้ได้อย่างไรว่าข้อมูลตามการกระจายของปัวซองใน R หรือไม่
ฉันเป็นนักศึกษาระดับปริญญาตรีและมีโครงการสำหรับชั้นเรียนความเป็นไปได้ของฉัน โดยพื้นฐานแล้วฉันมีชุดข้อมูลเกี่ยวกับพายุเฮอริเคนที่ส่งผลกระทบต่อประเทศของฉันเป็นเวลาหลายปี ในหนังสือน่าจะเป็นของฉัน (ความน่าจะเป็นและสถิติที่มี R) มีตัวอย่าง (ไม่สมบูรณ์) ของวิธีการตรวจสอบว่าข้อมูลเป็นไปตามการแจกแจงแบบปัวซงพวกเขาเริ่มพยายามพิสูจน์ว่าเกณฑ์ 3 ข้อเหล่านี้: (จากหนังสือของฉันหน้า ตัวอย่าง 120 (เกณฑ์) หน้า 122-123) 1- จำนวนผลลัพธ์ในช่วงเวลาที่ไม่ทับซ้อนกันนั้นเป็นอิสระ กล่าวอีกนัยหนึ่งจำนวนผลลัพธ์ในช่วงเวลา (0, t] เป็นอิสระจากจำนวนผลลัพธ์ในช่วงเวลา (t, t + h], h> 0 2- ความน่าจะเป็นของผลลัพธ์สองรายการขึ้นไปในช่วงเวลาสั้น ๆ ที่เพียงพอเป็นศูนย์ กล่าวอีกนัยหนึ่งหาก h มีขนาดเล็กเพียงพอความน่าจะเป็นที่จะได้รับผลลัพธ์สองช่วงขึ้นไปในช่วงเวลานั้น (t, t + h] นั้นเล็กน้อยเมื่อเทียบกับความน่าจะเป็นที่จะได้ผลลัพธ์หนึ่งหรือศูนย์ในช่วงเวลาเดียวกัน 3- ความน่าจะเป็นของผลลัพธ์หนึ่งรายการในช่วงเวลาสั้น ๆ อย่างเพียงพอหรือพื้นที่ขนาดเล็กเป็นสัดส่วนกับความยาวของช่วงเวลาหรือภูมิภาค กล่าวอีกนัยหนึ่งความน่าจะเป็นที่จะเกิดผลลัพธ์หนึ่งครั้งในช่วงความยาว h คือ lambda * h …

1
ค่าที่ยอมรับได้ของเกณฑ์ Calinski & Harabasz (CH) คืออะไร
ฉันทำการวิเคราะห์ข้อมูลพยายามจัดกลุ่มข้อมูลตามยาวโดยใช้ R และแพ็คเกจkml ข้อมูลของฉันมีวิถีโคจรประมาณ 400 คน (ตามที่เรียกในกระดาษ) คุณสามารถเห็นผลลัพธ์ของฉันในภาพต่อไปนี้: หลังจากอ่านบทที่ 2.2 "การเลือกจำนวนกลุ่มที่เหมาะสม" ในเอกสารที่เกี่ยวข้องฉันไม่ได้รับคำตอบใด ๆ ฉันต้องการมี 3 กลุ่ม แต่ผลลัพธ์จะยังคงตกลงกับ CH ของ 80 ที่จริงฉันยังไม่รู้ว่าค่า CH หมายถึงอะไร ดังนั้นคำถามของฉันค่าเกณฑ์ที่ยอมรับได้ของเกณฑ์ Calinski & Harabasz (CH) คืออะไร

3
รหัส R ใช้ได้กับการผลิต (ปรับใช้) หรือไม่
ฉันได้อ่านบทความจำนวนหนึ่งที่พูดคุยเกี่ยวกับ บริษัท เช่น Google, Facebook และอื่น ๆ อีกมากมายที่ใช้ R เพื่อการวิจัย สถานการณ์อื่น ๆ ที่ฉันได้อ่านคือ บริษัท ที่ใช้ R เพื่อสร้างต้นแบบโซลูชันการวิเคราะห์จากนั้นนำไปใช้ใหม่ในภาษาอื่น ฉันกำลังพยายามค้นหาวรรณกรรมเกี่ยวกับ บริษัท ที่ใช้ R สำหรับรหัสการวิเคราะห์การผลิตจริง กรณีการใช้งานอาจเป็นระบบผู้แนะนำที่ผู้ใช้โต้ตอบผ่านหน้าเว็บที่ได้รับการตอบสนองจากสคริปต์ R ที่ดำเนินการบนเซิร์ฟเวอร์ระยะไกล ความจริงที่ว่าฉันมีปัญหาในการค้นหารายงานดังกล่าวทำให้ฉันสงสัยว่ามันไม่สามารถมองเห็นได้ ถ้าเป็นเช่นนั้นทำไม
25 r  references 

3
วิธีการวัดความเรียบของอนุกรมเวลาใน R?
มีวิธีที่ดีในการวัดความเรียบของอนุกรมเวลาใน R หรือไม่? ตัวอย่างเช่น, -1, -0.8, -0.6, -0.4, -0.2, 0, 0.2, 0.4, 0.6, 0.8, 1.0 ราบรื่นกว่า -1, 0.8, -0.6, 0.4, -0.2, 0, 0.2, -0.4, 0.6, -0.8, 1.0 แม้ว่าจะมีค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานเดียวกัน มันจะเจ๋งถ้ามีฟังก์ชั่นที่จะให้คะแนนที่ราบรื่นกับฉันในช่วงเวลา
25 r  time-series 

1
มีแผนการวินิจฉัยอะไรบ้างสำหรับการถดถอยแบบควอไทล์
ตามคำถามของฉันสำหรับ OLSฉันสงสัยว่ามีแผนการวินิจฉัยอะไรบ้างสำหรับการถดถอยแบบควอไทล์ (และมีการนำไปปฏิบัติของพวกเขาหรือไม่?) การค้นหา google อย่างรวดเร็วได้เกิดขึ้นกับตัวหนอน (ซึ่งฉันไม่เคยได้ยินมาก่อน) และฉันยินดีที่จะรู้วิธีการเพิ่มเติมที่คุณอาจรู้ (เป็นหนึ่งในนั้นจาก OLS พอร์ตสำหรับ quantile-regression?)

6
หนังสืออ้างอิงสำหรับสถิติที่มี R - มีอยู่และควรมีอะไรบ้าง
พื้นหลัง มีการถกเถียงกันมากมายเกี่ยวกับเรื่องนี้ดังนั้นฉันคิดว่าฉันสามารถหาคำตอบของฉันจากการสำรวจก่อนหน้านี้ใน StackExchange และโดย googling กราดเกรี้ยว หลังจากใช้เวลาครึ่งวันพยายามค้นหาหนังสืออ้างอิงเพียงเล่มเดียวสำหรับสถิติ (ชีวภาพ) กับ R ฉันสับสนอย่างที่สุดและต้องยอมแพ้ บางทีเนื้อหาฟรีที่รวมกันอาจดีกว่าหนังสือใด ๆ ที่คุณสามารถซื้อได้ในขณะนี้ ลองดูสิ อินเทอร์เน็ตเต็มไปด้วยวรรณกรรมฟรีที่ดีสำหรับภาษา Rดังนั้นจึงไม่มีประเด็นที่จะต้องจ่ายเงินสำหรับหนังสือธรรมดา ๆ ซึ่งจบลงด้วยการใช้เป็นของตกแต่งสำนักงานเกือบตลอดเวลา เว็บไซต์ R home แสดงรายการหนังสือที่เกี่ยวข้องกับ Rและมีหนังสือจำนวนมาก เพื่อให้ตรงตามจริงมากขึ้น: 115 โฆษณาเพียงรายการเดียวที่มีคำว่า " หนังสืออ้างอิงสถิติแบบสแตนด์อโลน " ตอนนี้มีอายุ 8 ปีและอาจล้าสมัย ฉบับที่สี่ของสถิติประยุกต์สมัยใหม่กับ Sนั้นเก่ากว่า หนังสือ Rนั้นมักจะถูกบดเคี้ยวเป็นพื้นฐานเกินไปและไม่แนะนำเนื่องจากขาดการอ้างอิงรหัสที่มีการจัดรูปแบบไม่ดีและเสร็จสิ้นการเลอะเทอะ อย่างไรก็ตามฉันกำลังมองหาหนังสือเล่มหนึ่งซึ่งฉันสามารถใช้เป็นข้อมูลอ้างอิงแบบสแตนด์อโลนกับสถิติที่ใช้งานจริง (แรกและสำคัญที่สุด) กับ R (รอง) หนังสือควรอยู่บนโต๊ะทำงานของฉันเพื่อเก็บคำอธิบายประกอบคราบกาแฟและลายนิ้วมือเลี่ยนแทนที่จะเป็นฝุ่นบนชั้นวางหนังสือ มันควรแทนที่คอลเลกชันของ pdf ฟรีที่ฉันใช้มาจนถึงตอนนี้อย่าลืมว่า R มาพร้อมกับห้องสมุดอ้างอิงที่ยอดเยี่ยม “ แนวทางที่ถูกต้องคืออะไร? …
25 r  references 

6
เทคนิคการสร้างภาพข้อมูลที่ดีในการเปรียบเทียบการกระจายคืออะไร
ฉันกำลังเขียนวิทยานิพนธ์ระดับปริญญาเอกของฉันและฉันก็รู้ว่าฉันอาศัยอยู่มากเกินไปในกล่องแปลงเพื่อเปรียบเทียบการแจกแจง คุณมีทางเลือกอื่นใดในการทำภารกิจนี้ให้สำเร็จ ฉันต้องการถามว่าคุณรู้จักแหล่งข้อมูลอื่น ๆ ในฐานะแกลเลอรี R หรือไม่ซึ่งฉันสามารถสร้างแรงบันดาลใจให้ตัวเองด้วยแนวคิดที่แตกต่างกันในการสร้างภาพข้อมูล

3
พล็อตการตีความของส่วนที่เหลือเทียบกับค่าติดตั้งจากการถดถอยปัวซอง
ฉันกำลังพยายามปรับให้พอดีกับข้อมูลด้วย GLM (การถดถอยปัวซอง) ในอาร์เมื่อฉันพล็อตส่วนที่เหลือเทียบกับค่าติดตั้งพล็อตที่สร้างหลาย ๆ (เกือบเป็นเส้นตรง สิ่งนี้หมายความว่า? library(faraway) modl <- glm(doctorco ~ sex + age + agesq + income + levyplus + freepoor + freerepa + illness + actdays + hscore + chcond1 + chcond2, family=poisson, data=dvisits) plot(modl)

4
Ziliak (2011) คัดค้านการใช้ค่า p และกล่าวถึงทางเลือกบางอย่าง พวกเขาคืออะไร
ในบทความล่าสุดที่กล่าวถึง demerits ของการพึ่งพา p-value สำหรับการอนุมานเชิงสถิติเรียกว่า"Matrixx v. Siracusano และ Student v. Fisher นัยสำคัญทางสถิติในการทดลอง" (DOI: 10.1111 / j.1740-9713.2011.00511.x), Stephen T. Ziliak คัดค้านการใช้ค่า p ในย่อหน้าสุดท้ายเขาพูดว่า: ข้อมูลเป็นสิ่งหนึ่งที่เรารู้และแน่นอน สิ่งที่เราต้องการทราบจริง ๆ คือสิ่งที่แตกต่างกันมาก: ความน่าจะเป็นของสมมติฐานที่เป็นจริง (หรืออย่างน้อยก็มีประโยชน์ในทางปฏิบัติ) จากข้อมูลที่เรามี เราต้องการทราบความน่าจะเป็นที่ยาทั้งสองนั้นแตกต่างกันและได้รับหลักฐานเท่าใด การทดสอบอย่างมีนัยสำคัญ - ขึ้นอยู่กับการเข้าใจผิดของเงื่อนไขการย้ายกับดักที่ฟิชเชอร์ล้มลง - ไม่ได้และไม่สามารถบอกเราว่าน่าจะเป็น ฟังก์ชั่นพลังงาน, ฟังก์ชั่นการสูญเสียที่คาดหวังและวิธีการตัดสินใจเชิงทฤษฎีและวิธีเบย์อื่น ๆ อีกมากมายที่สืบทอดมาจาก Student และ Jeffreys ซึ่งตอนนี้มีให้ใช้กันอย่างแพร่หลายและออนไลน์ฟรี ฟังก์ชั่นพลังงานฟังก์ชั่นการสูญเสียที่คาดหวังและ "วิธีการตัดสินใจเชิงทฤษฎีและวิธีเบย์อื่น ๆ " คืออะไร? วิธีการเหล่านี้ใช้กันอย่างแพร่หลายหรือไม่? พวกเขามีอยู่ใน …

2
เมื่อใดที่ฉัน * ไม่ * ใช้ฟังก์ชัน nlm ของ R สำหรับ MLE
ฉันวิ่งข้ามคู่มือแนะนำว่าฉันใช้ nlm ของ R สำหรับการประเมินความเป็นไปได้สูงสุด แต่ไม่มีของพวกเขา (รวมถึงเอกสารประกอบของ R ) ให้คำแนะนำเชิงทฤษฎีมากสำหรับเมื่อใช้หรือไม่ใช้ฟังก์ชัน เท่าที่ฉันสามารถบอกได้ nlm ก็แค่ทำการลดระดับความลาดชันตามวิธีการของนิวตัน มีหลักการเมื่อมีเหตุอันควรที่จะใช้วิธีการนี้หรือไม่? มีทางเลือกอะไรบ้าง? นอกจากนี้ยังมีข้อ จำกัด เกี่ยวกับขนาดของอาร์เรย์และอื่น ๆ อย่างใดอย่างหนึ่งสามารถส่งไปยัง nlm?

2
การทดสอบอัตราส่วนความน่าจะเป็นใน R
สมมติว่าฉันจะทำการถดถอยแบบลอจิสติกที่ไม่มีตัวแปรในตัวแปรอิสระหลายตัวเช่นนี้ mod.a <- glm(x ~ a, data=z, family=binominal("logistic")) mod.b <- glm(x ~ b, data=z, family=binominal("logistic")) ฉันทำการเปรียบเทียบแบบจำลอง (การทดสอบอัตราส่วนความน่าจะเป็น) เพื่อดูว่าแบบจำลองนั้นดีกว่าตัวแบบโมฆะโดยคำสั่งนี้หรือไม่ 1-pchisq(mod.a$null.deviance-mod.a$deviance, mod.a$df.null-mod.a$df.residual) จากนั้นฉันสร้างโมเดลอื่นพร้อมตัวแปรทั้งหมดในนั้น mod.c <- glm(x ~ a+b, data=z, family=binomial("logistic")) เพื่อดูว่าตัวแปรมีนัยสำคัญทางสถิติในโมเดลหลายตัวแปรหรือไม่ฉันใช้lrtestคำสั่งจากepicalc lrtest(mod.c,mod.a) ### see if variable b is statistically significant after adjustment of a lrtest(mod.c,mod.b) ### see if variable a is statistically …
25 r  logistic  diagnostic 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.