คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

9
อนุกรมเวลาสำหรับข้อมูลการนับด้วยการนับ <20
ฉันเพิ่งเริ่มทำงานกับคลินิกวัณโรค เราพบกันเป็นระยะเพื่อพูดคุยเกี่ยวกับจำนวนของผู้ป่วยวัณโรคที่เรากำลังรักษาจำนวนการทดสอบที่ดำเนินการ ฯลฯ ฉันต้องการเริ่มการสร้างแบบจำลองการนับเหล่านี้เพื่อที่เราจะไม่เพียงแค่เดาว่ามีบางอย่างผิดปกติหรือไม่ น่าเสียดายที่ฉันมีการฝึกอบรมน้อยมากในอนุกรมเวลาและการเปิดเผยส่วนใหญ่ของฉันคือการสร้างแบบจำลองสำหรับข้อมูลที่ต่อเนื่องมาก (ราคาหุ้น) หรือการนับจำนวนมาก (ไข้หวัดใหญ่) แต่เราจัดการกับ 0-18 กรณีต่อเดือน (เฉลี่ย 6.68, ค่ามัธยฐาน 7, ค่า 12.3) ซึ่งกระจายอยู่เช่นนี้: [ภาพหายไปจากหมอกแห่งกาลเวลา] [ภาพที่กินโดย Grue] ฉันได้พบบทความเล็ก ๆ น้อย ๆ ที่กล่าวถึงแบบจำลองนี้ แต่ฉันก็ยินดีอย่างยิ่งที่จะได้ยินคำแนะนำจากคุณ - ทั้งแนวทางและแพคเกจ R ที่ฉันสามารถใช้เพื่อใช้แนวทางเหล่านั้น แก้ไข: คำตอบของ mbq ​​ทำให้ฉันต้องคิดอย่างรอบคอบมากขึ้นเกี่ยวกับสิ่งที่ฉันถามที่นี่ ฉันแขวนสายเกินไปเมื่อนับรายเดือนและไม่ได้โฟกัสที่แท้จริงของคำถาม สิ่งที่ฉันอยากรู้คือ: ลดลง (มองเห็นได้ค่อนข้าง) จาก, 2008 เป็นต้นไปสะท้อนให้เห็นถึงแนวโน้มลดลงในจำนวนรวมของคดี? ฉันดูเหมือนว่าจำนวนผู้ป่วยรายเดือนระหว่างปี 2544-2550 สะท้อนให้เห็นถึงกระบวนการที่มีเสถียรภาพ อาจมีบางฤดูกาล แต่โดยรวมมีเสถียรภาพ จากปี 2008 จนถึงปัจจุบันดูเหมือนว่ากระบวนการนั้นกำลังเปลี่ยนแปลงไป: …

2
คำจำกัดความของเวลาความสัมพันธ์อัตโนมัติ (สำหรับขนาดตัวอย่างที่มีประสิทธิภาพ)
ฉันได้พบคำจำกัดความสองข้อในวรรณคดีสำหรับช่วงเวลาของความสัมพันธ์อัตโนมัติของอนุกรมเวลาที่ไม่คงที่: τa= 1 + 2 ∑k = 1∞ρkกับτข= 1 + 2 ∑k = 1∞| ρk|τa=1+2∑k=1∞ρkversusτb=1+2∑k=1∞|ρk| \tau_a = 1+2\sum_{k=1}^\infty \rho_k \quad \text{versus} \quad \tau_b = 1+2\sum_{k=1}^\infty \left|\rho_k\right| ที่เป็นอัตที่ล่าช้าk kρk= Cov [ Xเสื้อ, Xt + h]Var [ Xเสื้อ]ρk=Cov[Xt,Xt+h]Var[Xt]\rho_k = \frac{\text{Cov}[X_t,X_{t+h}]}{\text{Var}[X_t]}kkk โปรแกรมประยุกต์หนึ่งของเวลาอัตคือการหา "ขนาดของกลุ่มตัวอย่างที่มีประสิทธิภาพ": ถ้าคุณมีสังเกตของอนุกรมเวลาและคุณรู้ว่าเวลาของอัตแล้วคุณสามารถหลอกว่าคุณมีτnnnττ\tau nเอฟเอฟ= nτneff=nτ n_\text{eff} = \frac{n}{\tau} ตัวอย่างอิสระแทนมีความสัมพันธ์กันเพื่อวัตถุประสงค์ในการหาค่าเฉลี่ย การประมาณจากข้อมูลนั้นไม่ใช่เรื่องไร้สาระ แต่มีวิธีการสองสามวิธี (ดูThompson …

1
Kolmogorov-Smirnov ที่มีข้อมูลไม่ต่อเนื่อง: การใช้ dgof :: ks.test ใน R คืออะไร
คำถามเริ่มต้น: ฉันต้องการทดสอบว่าชุดข้อมูลที่แยกกันสองชุดนั้นมาจากการแจกแจงแบบเดียวกันหรือไม่ แนะนำให้ทำการทดสอบ Kolmogorov-Smirnov กับฉัน Conover ( สถิติ nonparametric ในทางปฏิบัติ , 3d) ดูเหมือนจะบอกว่าการทดสอบ Kolmogorov-Smirnov สามารถนำมาใช้เพื่อจุดประสงค์นี้ได้ แต่พฤติกรรมของมันคือ "อนุรักษ์นิยม" ด้วยการแจกแจงแบบแยกส่วนและฉันไม่แน่ใจว่าสิ่งที่นี่หมายถึงอะไร ความคิดเห็นของ DavidR สำหรับคำถามอื่นกล่าวว่า "... คุณยังสามารถทำการทดสอบระดับαตามสถิติ KS แต่คุณจะต้องค้นหาวิธีอื่นเพื่อให้ได้ค่าวิกฤตเช่นการจำลอง" รุ่นของ ks.test () ในแพคเกจ dgof การ R ( บทความ , Cran ) เพิ่มความสามารถบางอย่างที่ไม่ได้อยู่ในรุ่นเริ่มต้นของ ks.test () ในแพคเกจสถิติ เหนือสิ่งอื่นใด dgof :: ks.test รวมถึงพารามิเตอร์นี้: simulate.p.value: ตรรกะที่ระบุว่าจะคำนวณค่า p โดยการจำลอง …

4
การกำหนดค่าที่ขาดหายไปสำหรับ PCA
ฉันใช้prcomp()ฟังก์ชั่นเพื่อทำการ PCA (การวิเคราะห์องค์ประกอบหลัก) ใน R อย่างไรก็ตามมีข้อผิดพลาดในฟังก์ชั่นดังกล่าวว่าna.actionพารามิเตอร์ไม่ทำงาน ผมขอความช่วยเหลือใน StackOverflow ; สองผู้ใช้มีการเสนอสองวิธีที่แตกต่างกันในการจัดการกับNAค่า อย่างไรก็ตามปัญหาของทั้งสองวิธีคือเมื่อมีNAค่าแถวนั้นจะถูกดร็อปและไม่ถูกพิจารณาในการวิเคราะห์ PCA ชุดข้อมูลจริงของฉันคือเมทริกซ์ 100 x 100 และฉันไม่ต้องการเสียทั้งแถวเพียงเพราะมันมีNAค่าเดียว ตัวอย่างต่อไปนี้แสดงให้เห็นว่าprcomp()ฟังก์ชั่นไม่ได้คืนองค์ประกอบหลักใด ๆ สำหรับแถว 5 เนื่องจากมันมีNAค่า d &lt;- data.frame(V1 = sample(1:100, 10), V2 = sample(1:100, 10), V3 = sample(1:100, 10)) result &lt;- prcomp(d, center = TRUE, scale = TRUE, na.action = na.omit) result$x # …

1
การตั้งค่านอตในลูกบาศก์ลูกบาศก์ธรรมชาติใน R
ฉันมีข้อมูลที่มีฟีเจอร์ที่สัมพันธ์กันมากมายและฉันต้องการเริ่มต้นด้วยการลดฟีเจอร์ด้วยฟังก์ชั่นพื้นฐานที่ราบรื่นก่อนใช้ LDA ฉันพยายามใช้ลูกบาศก์ธรรมชาติในsplinesแพคเกจกับnsฟังก์ชัน ฉันจะไปเกี่ยวกับการกำหนดปมได้อย่างไร นี่คือรหัส R พื้นฐาน: library(splines) lda.pred &lt;- lda(y ~ ns(x, knots=5)) nsแต่ผมมีความคิดเกี่ยวกับวิธีการเลือกนอตไม่มี
23 r  splines 

7
การประมาณการแจกแจงโดยพิจารณาจากเปอร์เซนต์ไทล์
ฉันสามารถใช้วิธีการใดในการอนุมานการกระจายหากฉันรู้ว่ามีเปอร์เซนต์สามเปอร์เซ็นต์เท่านั้น ตัวอย่างเช่นฉันรู้ว่าในชุดข้อมูลหนึ่งเปอร์เซนต์ไทล์ที่ห้าคือ 8,135 เปอร์เซ็นไทล์ที่ 50 คือ 11,259 และเปอร์เซ็นไทล์ 95 ที่ 23,611 ฉันต้องการที่จะไปจากจำนวนอื่นใดที่จะเป็นเปอร์เซ็นต์ของมัน ไม่ใช่ข้อมูลของฉันและเป็นสถิติทั้งหมดที่ฉันมี เป็นที่ชัดเจนว่าการกระจายไม่ปกติ ข้อมูลอื่นที่ฉันมีเพียงอย่างเดียวคือข้อมูลนี้แสดงถึงเงินทุนรัฐบาลต่อหัวสำหรับเขตการศึกษาต่างๆ ฉันรู้เพียงพอเกี่ยวกับสถิติที่จะรู้ว่าปัญหานี้ไม่มีวิธีการแก้ปัญหาที่ชัดเจน แต่ไม่เพียงพอที่จะรู้ว่าจะค้นหาการคาดเดาที่ดีได้อย่างไร การแจกแจงแบบบันทึกปกติจะเหมาะสมหรือไม่? เครื่องมือใดที่ฉันสามารถใช้เพื่อทำการถดถอย (หรือฉันต้องทำเอง)

2
การคำนวณพีชคณิตเชิงเส้นอย่างน้อยกำลังสองน้อยที่สุด
เพื่อเป็นการตอบคำถามเกี่ยวกับโมเดลเชิงเส้นผสมใน R และเพื่อเป็นการอ้างอิงสำหรับผู้สนใจรักการเริ่มต้น / ขั้นกลางทางสถิติฉันตัดสินใจที่จะโพสต์ในฐานะ "Q &amp; A-style" อิสระขั้นตอนที่เกี่ยวข้องกับการคำนวณ "คู่มือ" ของ ค่าสัมประสิทธิ์และค่าทำนายของการถดถอยเชิงเส้นอย่างง่าย ตัวอย่างคือชุดข้อมูล R ที่สร้างขึ้นmtcarsและจะถูกตั้งค่าเป็นไมล์ต่อแกลลอนที่ใช้โดยยานพาหนะที่ทำหน้าที่เป็นตัวแปรอิสระซึ่งควบคุมน้ำหนักของรถ (ตัวแปรต่อเนื่อง) และจำนวนกระบอกสูบเป็น ปัจจัยที่มีสามระดับ (4, 6 หรือ 8) โดยไม่มีการโต้ตอบ แก้ไข: ถ้าคุณมีความสนใจในคำถามนี้แน่นอนคุณจะพบคำตอบที่มีรายละเอียดและความพึงพอใจในเรื่องนี้โพสต์โดยแมทธิว Drury นอก CV

3
ฉันจะรวมเอฟเฟกต์แบบสุ่ม (หรือการวัดซ้ำ) ลงในป่าสุ่มได้อย่างไร
ฉันไม่แน่ใจด้วยซ้ำว่าคำถามนี้สมเหตุสมผลดี แต่ฉันคิดว่าฉันเห็นชื่อหนังสือสองเล่มที่พวกเขาเสนอป่าสุ่มโดยมีเอฟเฟกต์แบบสุ่ม เป็นไปได้ใน R?

3
ฉันจะตรวจสอบได้อย่างไรว่าข้อมูลของฉันตรงกับการแจกแจงแบบเลขชี้กำลังหรือไม่
ฉันจะตรวจสอบได้อย่างไรว่าข้อมูลของฉันเช่นเงินเดือนมาจากการแจกแจงเลขชี้กำลังแบบต่อเนื่องใน R หรือไม่? นี่คือฮิสโตแกรมของตัวอย่างของฉัน: . ความช่วยเหลือใด ๆ จะได้รับการชื่นชมอย่างมาก!

2
bootstrapping ใน R ทำงานอย่างไร
ฉันได้ดูแพ็คเกจการบูตใน R และในขณะที่ฉันพบไพรเมอร์จำนวนมากเกี่ยวกับวิธีใช้มันฉันยังไม่พบสิ่งใดที่อธิบายสิ่งที่เกิดขึ้น "เบื้องหลัง" ตัวอย่างเช่นในตัวอย่างนี้คู่มือแสดงวิธีการใช้สัมประสิทธิ์การถดถอยมาตรฐานเป็นจุดเริ่มต้นสำหรับการถดถอย bootstrap แต่ไม่ได้อธิบายว่าขั้นตอนการ bootstrap กำลังทำอยู่เพื่อให้ได้สัมประสิทธิ์การถดถอย bootstrap ดูเหมือนว่ามีกระบวนการวนซ้ำบางอย่างที่เกิดขึ้น แต่ฉันไม่สามารถเข้าใจได้อย่างชัดเจนว่าเกิดอะไรขึ้น

2
เครื่อง Boltzmann ที่ถูก จำกัด เทียบกับเครือข่ายประสาทหลายชั้น
ฉันต้องการทดลองกับเครือข่ายประสาทเทียมสำหรับปัญหาการจำแนกประเภทที่ฉันกำลังเผชิญอยู่ ฉันพบเอกสารที่พูดถึง RBM แต่จากสิ่งที่ฉันเข้าใจได้พวกเขาไม่ต่างจากการมีเครือข่ายประสาทหลายชั้น ถูกต้องหรือไม่ ยิ่งไปกว่านั้นฉันทำงานกับ R และฉันไม่เห็นแพ็คเกจใด ๆ สำหรับ RBM ฉันพบเจอวรรณกรรมที่พูดถึงเครือข่ายการเรียนรู้ลึกซึ่งมี RBM แบบเรียงซ้อนโดยทั่วไป แต่ไม่แน่ใจว่ามันคุ้มค่ากับความพยายามที่จะนำไปใช้ในอาร์หรือเปล่าใครจะมีพอยน์เตอร์ได้บ้าง? ขอบคุณ

5
ป่าสุ่มของ R ไม่สามารถจัดการได้มากกว่า 32 ระดับ วิธีแก้ปัญหาคืออะไร
แพ็คเกจสุ่มป่าของ R ไม่สามารถจัดการกับปัจจัยที่มีมากกว่า 32 ระดับ เมื่อได้รับมากกว่า 32 ระดับจะส่งข้อความแจ้งข้อผิดพลาด: ไม่สามารถจัดการตัวทำนายเชิงหมวดหมู่ที่มีมากกว่า 32 หมวดหมู่ แต่ข้อมูลที่ฉันมีมีหลายปัจจัย บางอันมี 1,000+ ระดับและบางอันมี 100+ ระดับ มันยังมี 'สถานะ' ของสหรัฐอเมริกาซึ่งก็คือ 52 ดังนั้นนี่คือคำถามของฉัน ทำไมถึงมีข้อ จำกัด เช่นนี้? RandomForest ปฏิเสธที่จะเรียกใช้แม้ในกรณีง่าย ๆ &gt; d &lt;- data.frame(x=factor(1:50), y=1:50) &gt; randomForest(y ~ x, data=d) Error in randomForest.default(m, y, ...) : Can not handle categorical predictors with …

2
การถดถอยสำหรับรูปแบบของ ?
ฉันมีชุดข้อมูลซึ่งเป็นสถิติจากฟอรัมสนทนาทางเว็บ ฉันกำลังดูจำนวนการตอบกลับที่คาดว่าจะมี โดยเฉพาะฉันได้สร้างชุดข้อมูลที่มีรายการของการตอบหัวข้อแล้วจำนวนของหัวข้อที่มีการตอบกลับจำนวนนั้น "num_replies","count" 0,627568 1,156371 2,151670 3,79094 4,59473 5,39895 6,30947 7,23329 8,18726 หากฉันพล็อตชุดข้อมูลบนพล็อตการบันทึกล็อกฉันจะได้รับสิ่งที่เป็นเส้นตรง: (นี่คือการกระจาย Zipfian ) วิกิพีเดียบอกว่าเส้นตรงในแปลงเข้าสู่ระบบเข้าสู่ระบบบ่งบอกถึงฟังก์ชั่นที่สามารถสร้างแบบจำลองโดย monomial ของแบบฟอร์มที่ k และในความเป็นจริงฉันได้ฟังฟังก์ชั่นดังกล่าว:Y= a xkY=axky = ax^k lines(data$num_replies, 480000 * data$num_replies ^ -1.62, col="green") เห็นได้ชัดว่าดวงตาของฉันไม่แม่นยำเท่ากับอาร์ดังนั้นฉันจะได้ R เพื่อให้พอดีกับพารามิเตอร์ของโมเดลนี้สำหรับฉันได้อย่างแม่นยำมากขึ้นได้อย่างไร? ฉันลองการถดถอยพหุนาม แต่ฉันไม่คิดว่า R พยายามปรับเลขชี้กำลังเป็นพารามิเตอร์ - ชื่อที่เหมาะสมสำหรับรุ่นที่ฉันต้องการคืออะไร แก้ไข: ขอบคุณสำหรับคำตอบทุกคน ตามที่แนะนำตอนนี้ฉันได้จัดวางโมเดลเชิงเส้นตรงกับบันทึกของข้อมูลอินพุตโดยใช้สูตรนี้: data &lt;- read.csv(file="result.txt") # Avoid …

3
แบบจำลองการถดถอยที่มีความแปรปรวนไม่เท่ากัน
ฉันต้องการให้พอดีกับโมเดลเชิงเส้น (lm) ซึ่งความแปรปรวนของค่าคงที่นั้นขึ้นอยู่กับตัวแปรอธิบายอย่างชัดเจน วิธีที่ฉันรู้ว่าการทำเช่นนี้คือการใช้ GLM กับครอบครัวแกมมาในการจำลองความแปรปรวนและแล้วใส่ลงไปในสิ่งที่ตรงกันข้ามน้ำหนักในการทำงาน LM (ตัวอย่าง: http://nitro.biosci.arizona.edu/r/chapter31 .pdf ) ฉันสงสัยว่า: นี่เป็นเทคนิคเดียวหรือไม่ วิธีการอื่นใดที่เกี่ยวข้อง? แพ็คเกจ / ฟังก์ชัน R ใดที่เกี่ยวข้องกับการสร้างแบบจำลองนี้? (อื่น ๆ แล้ว glm, lm)

1
ใน R ให้ผลลัพธ์จากออพติไมซ์ด้วยเมทริกซ์แบบ Hessian วิธีการคำนวณช่วงความเชื่อมั่นของพารามิเตอร์โดยใช้เมทริกซ์เฮสเซียน?
ให้ผลลัพธ์จากออพติไมซ์ด้วยเมทริกซ์แบบ Hessian จะคำนวณช่วงความเชื่อมั่นของพารามิเตอร์โดยใช้เมทริกซ์แบบเฮสเซียนได้อย่างไร fit&lt;-optim(..., hessian=T) hessian&lt;-fit$hessian ฉันส่วนใหญ่สนใจในบริบทของการวิเคราะห์ความน่าจะเป็นสูงสุด แต่ฉันอยากรู้ว่าวิธีการนั้นสามารถขยายออกไปได้หรือไม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.