คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

25
Python เป็นโต๊ะทำงานสถิติ
ผู้คนจำนวนมากใช้เครื่องมือหลักเช่น Excel หรือสเปรดชีตอื่น SPSS, Stata หรือ R สำหรับความต้องการทางสถิติ พวกเขาอาจหันไปใช้แพคเกจเฉพาะสำหรับความต้องการพิเศษมาก แต่หลายสิ่งสามารถทำได้ด้วยสเปรดชีตอย่างง่ายหรือแพคเกจสถิติทั่วไปหรือสภาพแวดล้อมการเขียนโปรแกรมสถิติ ฉันชอบ Python เป็นภาษาการเขียนโปรแกรมเสมอและสำหรับความต้องการง่าย ๆ มันง่ายที่จะเขียนโปรแกรมสั้น ๆ ที่คำนวณสิ่งที่ฉันต้องการ Matplotlib ให้ฉันพล็อตมัน มีใครเปลี่ยนจากพูด R เป็น Python อย่างสมบูรณ์หรือไม่ R (หรือแพ็คเกจสถิติอื่น ๆ ) มีฟังก์ชันการทำงานเฉพาะสำหรับสถิติจำนวนมากและมีโครงสร้างข้อมูลที่ช่วยให้คุณคิดเกี่ยวกับสถิติที่คุณต้องการดำเนินการและน้อยกว่าเกี่ยวกับการแสดงข้อมูลภายในของคุณ Python (หรือภาษาไดนามิกอื่น ๆ ) มีประโยชน์ในการอนุญาตให้ฉันเขียนโปรแกรมในภาษาระดับสูงที่คุ้นเคยและช่วยให้ฉันโต้ตอบกับระบบในโลกแห่งความเป็นจริงซึ่งข้อมูลอยู่หรือที่ฉันสามารถทำการวัดได้ แต่ฉันไม่ได้พบแพ็คเกจ Python ใด ๆ ที่จะอนุญาตให้ฉันแสดงสิ่งต่าง ๆ ด้วย "คำศัพท์เชิงสถิติ" - จากสถิติเชิงพรรณนาอย่างง่ายไปจนถึงวิธีการหลายตัวแปรที่ซับซ้อนมากขึ้น คุณสามารถแนะนำอะไรได้ถ้าฉันต้องการใช้ Python เป็น "สถิติ workbench" เพื่อแทนที่ …
355 r  spss  stata  python 

10
ความแตกต่างระหว่างรุ่น logit และ probit
LogitและProbit modelแตกต่างกันอย่างไร? ฉันสนใจที่นี่มากขึ้นในการรู้ว่าจะใช้การถดถอยแบบลอจิสติกเมื่อใดและเมื่อใดควรใช้ Probit หากมีวรรณกรรมใด ๆ ที่กำหนดโดยใช้Rก็จะเป็นประโยชน์เช่นกัน

2
การตีความเอาต์พุตของ R's lm ()
หน้าความช่วยเหลือใน R คิดว่าฉันรู้ว่าตัวเลขเหล่านั้นมีความหมายอย่างไร แต่ฉันไม่เข้าใจ ฉันพยายามที่จะเข้าใจตัวเลขทุกตัวที่นี่อย่างสังหรณ์ใจ ฉันจะโพสต์ผลลัพธ์และแสดงความคิดเห็นในสิ่งที่ฉันค้นพบ อาจมี (จะ) ผิดพลาดอย่างฉันจะเขียนสิ่งที่ฉันคิด ส่วนใหญ่ฉันต้องการทราบว่าค่า t ในสัมประสิทธิ์หมายความว่าอย่างไรและทำไมพวกเขาพิมพ์ข้อผิดพลาดมาตรฐานที่เหลือ Call: lm(formula = iris$Sepal.Width ~ iris$Petal.Width) Residuals: Min 1Q Median 3Q Max -1.09907 -0.23626 -0.01064 0.23345 1.17532 นี่คือสรุป 5 จุดของส่วนที่เหลือ (ค่าเฉลี่ยของพวกเขาคือ 0 เสมอใช่ไหม) ตัวเลขสามารถใช้ (ฉันเดาที่นี่) เพื่อดูว่ามีค่าผิดปกติใหญ่ ๆ อย่างรวดเร็วหรือไม่ นอกจากนี้คุณสามารถดูได้ที่นี่หากส่วนที่เหลืออยู่ไกลจากการกระจายปกติ (พวกเขาควรจะกระจายตามปกติ) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) …


4
วิธีตีความพล็อต QQ
ฉันกำลังทำงานกับชุดข้อมูลขนาดเล็ก (21 ข้อสังเกต) และมีพล็อต QQ ปกติต่อไปนี้ใน R: เมื่อเห็นว่าพล็อตไม่รองรับความเป็นมาตรฐานฉันจะสรุปอะไรเกี่ยวกับการแจกแจงพื้นฐาน สำหรับฉันแล้วดูเหมือนว่าการแจกแจงที่เบ้ไปทางขวาจะเหมาะกว่าดีกว่าใช่มั้ย นอกจากนี้เราสามารถสรุปอะไรอีกจากข้อมูล

8
วิธีการจัดการกับการแยกที่สมบูรณ์แบบในการถดถอยโลจิสติก?
หากคุณมีตัวแปรที่แยกศูนย์และตัวแปรในเป้าหมายได้อย่างสมบูรณ์ R จะให้ข้อความเตือน "การแยกแบบสมบูรณ์แบบหรือกึ่งสมบูรณ์แบบ" ดังต่อไปนี้: Warning message: glm.fit: fitted probabilities numerically 0 or 1 occurred เรายังได้โมเดล แต่การประมาณค่าสัมประสิทธิ์สูงเกินจริง คุณจัดการกับสิ่งนี้ได้อย่างไรในทางปฏิบัติ?

21
จูเลียมีความหวังใด ๆ หรือไม่ที่จะติดอยู่ในชุมชนทางสถิติ?
ฉันเพิ่งอ่านโพสต์จาก R-บล็อกที่เชื่อมโยงกับการโพสต์บล็อกนี้จากจอห์นไมลส์สีขาวเกี่ยวกับภาษาใหม่ที่เรียกว่าจูเลีย จูเลียใช้ประโยชน์จากคอมไพเลอร์ทันเวลาที่ให้เวลาการรันที่รวดเร็วและทำให้มันมีความเร็วเท่ากันกับ C / C ++ ( ลำดับเดียวกันไม่เร็วเท่ากัน) นอกจากนี้ยังใช้กลไกการวนลูปดั้งเดิมที่พวกเราที่เริ่มเขียนโปรแกรมเกี่ยวกับภาษาดั้งเดิมคุ้นเคยกับแทนที่จะใช้คำสั่ง R และการดำเนินการเวกเตอร์ R จะไม่หายไปด้วยวิธีการใด ๆ แม้จะมีการกำหนดเวลาที่ยอดเยี่ยมเช่นนี้จากจูเลียก็ตาม มีการสนับสนุนอย่างกว้างขวางในอุตสาหกรรมและแพ็คเกจที่ยอดเยี่ยมมากมายที่จะทำอะไรก็ได้ ความสนใจของฉันคือ Bayesian ในธรรมชาติซึ่งมักจะเป็นไปไม่ได้ที่ vectorizing แน่นอนว่างานอนุกรมต้องทำโดยใช้ลูปและเกี่ยวข้องกับการคำนวณหนักในแต่ละการทำซ้ำ R อาจช้ามากในงานวนลูปอนุกรมเหล่านี้และ C / ++ ไม่ใช่การเดินในสวนเพื่อเขียน จูเลียดูเหมือนเป็นทางเลือกที่ยอดเยี่ยมสำหรับการเขียนใน C / ++ แต่มันยังอยู่ในช่วงเริ่มต้นและขาดฟังก์ชั่นมากมายที่ฉันชอบเกี่ยวกับอาร์มันน่าจะเหมาะที่จะเรียนรู้ว่าจูเลียเป็นสถิติทางคอมพิวเตอร์ จากชุมชนสถิติและผู้คนเริ่มเขียนแพ็คเกจที่เป็นประโยชน์สำหรับมัน คำถามของฉันเป็นไปตาม: จูเลียจำเป็นต้องมีฟีเจอร์อะไรเพื่อให้มีเสน่ห์ที่ทำให้ R เป็นภาษาของสถิติอย่างแท้จริง? อะไรคือข้อดีและข้อเสียของการเรียนรู้ Julia ในการทำงานหนักเชิงคำนวณเทียบกับการเรียนรู้ภาษาระดับต่ำเช่น C / ++?

3
แผ่นโกงของ Lmer
มีจำนวนมากของการสนทนาที่เกิดขึ้นบนเวทีนี้เกี่ยวกับวิธีการที่เหมาะสมในการระบุรูปแบบลำดับชั้นต่าง ๆ lmerโดยใช้เป็น ฉันคิดว่ามันจะเป็นการดีหากมีข้อมูลทั้งหมดในที่เดียว คำถามสองสามข้อที่จะเริ่ม: วิธีการระบุหลายระดับที่กลุ่มหนึ่งซ้อนอยู่ในอื่น ๆ : มันเป็น(1|group1:group2)หรือ(1+group1|group2)? ความแตกต่างระหว่าง(~1 + ....)และ(1 | ...)และ(0 | ...)อื่น ๆ คืออะไร? จะระบุการโต้ตอบระดับกลุ่มได้อย่างไร

2
ฉันจะรับจำนวนแถวของ data.frame ใน R ได้อย่างไร [ปิด]
หลังจากอ่านชุดข้อมูลแล้ว: dataset <- read.csv("forR.csv") ฉันจะได้รับ R เพื่อให้จำนวนกรณีมันมี? นอกจากนี้ค่าที่ส่งคืนจะรวมถึงกรณียกเว้นที่ไม่รวมด้วยna.omit(dataset)หรือไม่
157 r 


2
วิธีการตรวจสอบการกระจายที่เหมาะกับข้อมูลของฉันที่ดีที่สุด?
ฉันมีชุดข้อมูลและต้องการทราบว่าการกระจายแบบใดที่เหมาะกับข้อมูลของฉันที่สุด ฉันใช้fitdistr()ฟังก์ชันเพื่อประมาณค่าพารามิเตอร์ที่จำเป็นเพื่ออธิบายการแจกแจงแบบสมมติ (เช่น Weibull, Cauchy, Normal) การใช้พารามิเตอร์เหล่านั้นฉันสามารถทำการทดสอบ Kolmogorov-Smirnov เพื่อประเมินว่าข้อมูลตัวอย่างของฉันมาจากการแจกแจงแบบเดียวกับการแจกแจงแบบสันนิษฐานของฉันหรือไม่ หากค่า p คือ> 0.05 ฉันสามารถสรุปได้ว่าข้อมูลตัวอย่างถูกดึงมาจากการแจกแจงแบบเดียวกัน แต่ค่า p ไม่ได้ให้ข้อมูลเกี่ยวกับความเหมาะสมของพระเจ้าใช่ไหม? ดังนั้นในกรณีที่ค่า p ของข้อมูลตัวอย่างของฉันคือ> 0.05 สำหรับการแจกแจงแบบปกติรวมถึงการแจกแบบไวบูลฉันจะรู้ได้อย่างไรว่าการแจกแจงแบบใดที่เหมาะกับข้อมูลของฉันดีกว่า นี่เป็นสิ่งที่ฉันทำ: > mydata [1] 37.50 46.79 48.30 46.04 43.40 39.25 38.49 49.51 40.38 36.98 40.00 [12] 38.49 37.74 47.92 44.53 44.91 44.91 40.00 41.51 47.92 36.98 43.40 [23] …

6
ความสัมพันธ์กับตัวแปรหมวดหมู่ที่ไม่ได้เรียงลำดับ
ฉันมีชื่อไฟล์ที่มีข้อสังเกตและตัวแปรมากมาย บางส่วนมีการจัดหมวดหมู่ (ไม่เรียงลำดับ) และอื่น ๆ เป็นตัวเลข ฉันกำลังมองหาความสัมพันธ์ระหว่างตัวแปรเหล่านี้ ฉันสามารถคำนวณสหสัมพันธ์ของตัวแปรเชิงตัวเลข (Spearman's correlation) ได้ แต่: ฉันไม่ทราบวิธีการวัดความสัมพันธ์ระหว่างตัวแปรเด็ดขาดที่ไม่เรียงลำดับ ฉันไม่รู้วิธีวัดความสัมพันธ์ระหว่างตัวแปรเด็ดขาดที่ไม่เรียงลำดับกับตัวแปรตัวเลข ไม่มีใครรู้ว่าสิ่งนี้สามารถทำได้? ถ้าเป็นเช่นนั้นมีฟังก์ชั่น R ที่ใช้วิธีการเหล่านี้หรือไม่?

3
ข้อผิดพลาดมาตรฐานของสัมประสิทธิ์คำนวณได้อย่างไรในการถดถอย
เพื่อความเข้าใจของฉันเองฉันสนใจที่จะจำลองการคำนวณข้อผิดพลาดมาตรฐานของสัมประสิทธิ์โดยประมาณด้วยตนเองเช่นมาพร้อมกับlm()ฟังก์ชั่นเอาท์พุทRแต่ไม่สามารถตรึงมันได้ มีการใช้สูตร / การนำไปปฏิบัติอย่างไร

2
การกำจัดคำดักจับทางสถิติสำคัญเพิ่มในตัวแบบเชิงเส้น
ในโมเดลเชิงเส้นอย่างง่ายพร้อมตัวแปรอธิบายเดียว αi=β0+β1δi+ϵiαi=β0+β1δi+ϵi\alpha_i = \beta_0 + \beta_1 \delta_i + \epsilon_i ฉันพบว่าการลบคำดักจับช่วยเพิ่มความพอดีอย่างมาก (ค่าจาก 0.3 เป็น 0.9) อย่างไรก็ตามคำว่าการดักจับนั้นมีนัยสำคัญทางสถิติR2R2R^2 ด้วยการสกัดกั้น: Call: lm(formula = alpha ~ delta, data = cf) Residuals: Min 1Q Median 3Q Max -0.72138 -0.15619 -0.03744 0.14189 0.70305 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.48408 0.05397 8.97 <2e-16 *** delta …

1
ต้นไม้อนุมานแบบมีเงื่อนไขเทียบกับต้นไม้ตัดสินใจแบบดั้งเดิม
ใครสามารถอธิบายความแตกต่างหลักระหว่างต้นไม้การอนุมานแบบมีเงื่อนไข ( ctreeจากpartyแพ็คเกจใน R) เทียบกับอัลกอริทึมการตัดสินใจแบบดั้งเดิมมากขึ้น (เช่นrpartใน R) อะไรทำให้ต้นไม้ CI แตกต่างกัน จุดแข็งและจุดอ่อน? Update: ฉันได้ดูบทความโดย Horthorn และคณะที่ Chi อ้างถึงในความคิดเห็น ฉันไม่สามารถทำตามได้อย่างสมบูรณ์ - ทุกคนสามารถอธิบายได้ว่าตัวแปรถูกเลือกโดยใช้วิธีเรียงสับเปลี่ยน (เช่นฟังก์ชันอิทธิพลมีอะไร) ขอบคุณ!

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.