คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

3
การแจกแจง t ที่เหมาะสมใน R: พารามิเตอร์การปรับ
ฉันจะพอดีกับพารามิเตอร์ของการแจกแจงแบบทีคือพารามิเตอร์ที่สอดคล้องกับ 'เฉลี่ย' และ 'ส่วนเบี่ยงเบนมาตรฐาน' ของการแจกแจงแบบปกติ ฉันคิดว่าพวกมันถูกเรียกว่า 'mean' และ 'scaling / degrees of freedom' สำหรับการแจกแจงแบบ t? รหัสต่อไปนี้มักส่งผลให้เกิดข้อผิดพลาด 'การเพิ่มประสิทธิภาพล้มเหลว' library(MASS) fitdistr(x, "t") ฉันต้องปรับขนาด x ก่อนหรือแปลงเป็นความน่าจะเป็นหรือไม่? วิธีที่ดีที่สุดที่จะทำเช่นนั้น?

5
วิธีการระบุการกระจาย lognormal ในการโต้แย้งตระกูล glm ใน R?
คำถามง่าย ๆ : จะระบุการกระจายแบบ lognormal ในอาร์กิวเมนต์ตระกูล GLM ใน R ได้อย่างไร? ฉันไม่สามารถค้นหาวิธีการนี้สามารถทำได้ เหตุใด lognormal (หรือ exponential) จึงไม่มีตัวเลือกในการโต้แย้งครอบครัว? ที่ไหนสักแห่งใน R-Archives ฉันอ่านว่ามีการใช้ log-link สำหรับครอบครัวที่ตั้งค่าเป็น gaussian ใน GLM เพื่อระบุ lognormal อย่างไรก็ตามนี่เป็นเรื่องไร้สาระเพราะมันจะพอดีกับการถดถอยเชิงเส้นและ R เริ่มขอค่าเริ่มต้น มีใครทราบวิธีตั้งค่าการกระจาย lognormal (หรือเลขชี้กำลัง) สำหรับ GLM หรือไม่

3
เหมาะสมหลายตัวแปรลูกบาศก์ธรรมชาติ
หมายเหตุ: หากไม่มีคำตอบที่ถูกต้องหลังจากผ่านไปหนึ่งเดือนฉันได้โพสต์ข้อความใหม่เป็นSO พื้นหลัง ฉันมีแบบจำลองที่Y = f ( X )fffY=f(X)Y=f(X)Y=f(\textbf{X}) คือเมทริกซ์ n × mของตัวอย่างจากพารามิเตอร์ mและ Yคือ n × 1XX\textbf{X}n×mn×mn \times mmmmYYYn×1n×1n \times 1เวกเตอร์ของเอาต์พุตโมเดล มีการคำนวณอย่างเข้มข้นดังนั้นฉันจึงต้องการประมาณ fโดยใช้ลูกบาศก์หลายตัวแปรผ่านจุด ( X , Y )เพื่อให้ฉันสามารถประเมิน Yที่จุดจำนวนมากffffff(X,Y)(X,Y)(X,Y)YYY คำถาม มีฟังก์ชั่น R ที่จะคำนวณความสัมพันธ์โดยพลการระหว่าง X และ Y หรือไม่? โดยเฉพาะฉันกำลังมองหารุ่นหลายตัวแปรของsplinefunฟังก์ชั่นซึ่งสร้างฟังก์ชั่น spline สำหรับกรณี univariate เช่นนี้เป็นวิธีการsplinefunทำงานสำหรับกรณี univariate x <- 1:10 y <- runif(10) …

2
การคำนวณเปอร์เซ็นต์ไทล์ 95: การเปรียบเทียบการแจกแจงแบบปกติ, R Quantile และ Excel
ฉันพยายามคำนวณเปอร์เซ็นต์ไทล์ไทล์ที่ 95 บนชุดข้อมูลต่อไปนี้ ฉันเจอการอ้างอิงทางออนไลน์ไม่กี่แห่ง วิธีที่ 1: อ้างอิงจากข้อมูลตัวอย่าง แรกบอกฉันจะได้รับTOP 95 Percentของชุดข้อมูลและจากนั้นเลือกMINหรือAVGของชุดผลลัพธ์ การทำเช่นนั้นสำหรับชุดข้อมูลต่อไปนี้ให้ฉัน: AVG: 29162 MIN: 0 วิธีที่ 2: สมมติว่าการแจกแจงแบบปกติ อันที่สองบอกว่าเปอร์เซ็นไทล์ที่ 95 นั้นประมาณสองส่วนเบี่ยงเบนมาตรฐานเหนือค่าเฉลี่ย (ซึ่งฉันเข้าใจ) และฉันแสดง: AVG(Column) + STDEV(Column)*1.65: 67128.542697973 วิธีที่ 3: R Quantile ฉันเคยRได้รับ 95 เปอร์เซ็นต์: > quantile(data$V1, 0.95) 79515.2 วิธีที่ 4: วิธีการของ Excel ในที่สุดฉันก็เจอสิ่งนี้ซึ่งอธิบายว่า Excel ทำได้อย่างไร สรุปวิธีการดังต่อไปนี้: รับชุดของNค่าที่สั่ง{v[1], v[2], ...}และข้อกำหนดในการคำนวณpthเปอร์เซ็นต์ไทล์ให้ทำดังต่อไปนี้: คำนวณ …
17 r  dataset  quantiles  sql 

5
สำหรับการจำแนกประเภทด้วยป่าสุ่มใน R เราควรปรับขนาดคลาสที่ไม่สมดุลได้อย่างไร
ฉันกำลังสำรวจวิธีการจำแนกประเภทที่แตกต่างกันสำหรับโครงการที่ฉันกำลังดำเนินการอยู่และสนใจลองใช้การสุ่มป่า ฉันพยายามที่จะให้การศึกษาตัวเองในขณะที่ฉันไปตามและจะขอบคุณความช่วยเหลือจากชุมชน CV ฉันแบ่งข้อมูลของฉันออกเป็นชุดฝึกอบรม / ทดสอบ จากการทดลองกับป่าสุ่มใน R (โดยใช้แพ็คเกจแบบสุ่มป่าไม้) ฉันมีปัญหากับอัตราการจำแนกผิดพลาดสูงสำหรับชั้นเรียนขนาดเล็กของฉัน ฉันได้อ่านบทความนี้เกี่ยวกับประสิทธิภาพของป่าสุ่มบนข้อมูลที่ไม่สมดุลและผู้เขียนเสนอวิธีการสองวิธีในการจัดการกับความไม่สมดุลของระดับเมื่อใช้ป่าสุ่ม 1. ป่าไม้แบบถ่วงน้ำหนัก 2. ป่าไม้แบบสมดุล แพคเกจ R ไม่อนุญาตให้มีน้ำหนักของคลาส (จากฟอรัมช่วยเหลือ R ฉันได้อ่านพารามิเตอร์ classwt ทำงานไม่ถูกต้องและกำหนดเวลาเป็นการแก้ไขข้อบกพร่องในอนาคต) ดังนั้นฉันจึงเหลือตัวเลือก 2 ฉันสามารถระบุได้ จำนวนวัตถุที่สุ่มตัวอย่างจากแต่ละคลาสสำหรับการวนซ้ำแต่ละครั้งของฟอเรสต์แบบสุ่ม ฉันรู้สึกไม่สบายใจเกี่ยวกับการตั้งค่าขนาดตัวอย่างที่เท่ากันสำหรับป่าแบบสุ่มเนื่องจากฉันรู้สึกว่าฉันจะสูญเสียข้อมูลมากเกินไปเกี่ยวกับชั้นเรียนขนาดใหญ่ที่นำไปสู่ประสิทธิภาพที่ไม่ดีกับข้อมูลในอนาคต อัตราการจำแนกประเภทเมื่อลดขนาดกลุ่มที่ใหญ่กว่าได้แสดงให้เห็นว่าดีขึ้น แต่ฉันสงสัยว่ามีวิธีอื่นในการจัดการกับขนาดชั้นเรียนที่ไม่สมดุลในป่าสุ่มหรือไม่

1
การใช้ HMM ในด้านการเงินเชิงปริมาณ ตัวอย่างของ HMM ที่ทำงานเพื่อตรวจจับเทรนด์ / จุดเปลี่ยน?
ฉันกำลังค้นหาโลกมหัศจรรย์ของ "Hidden Markov Models" ที่เรียกว่า "ระบอบการปกครองแบบจำลองการสลับ" ฉันต้องการปรับ HMM ใน R เพื่อตรวจหาแนวโน้มและจุดเปลี่ยน ฉันต้องการสร้างแบบจำลองทั่วไปให้ได้มากที่สุดเพื่อให้สามารถทดสอบได้ในหลาย ๆ ราคา ใครช่วยแนะนำกระดาษได้บ้าง ฉันได้เห็น (และอ่าน) (มากกว่า) น้อย แต่ฉันกำลังมองหารูปแบบเรียบง่ายที่ใช้งานง่าย ยังแนะนำแพ็คเกจ R อะไรอีกบ้าง? ฉันเห็นว่ามีคนจำนวนมากกำลังทำอืม ฉันซื้อหนังสือ "Hidden Markov models สำหรับซีรี่ส์เวลา: บทนำโดยใช้ R" มาดูกันว่ามีอะไรอยู่ในนั้น;) เฟร็ด

2
LDA สัมประสิทธิ์เชิงเส้นคืออะไรใน LDA
ในRฉันใช้ldaฟังก์ชั่นจากห้องสมุดMASSเพื่อจัดหมวดหมู่ ตามที่ฉันเข้าใจ LDA แล้วอินพุตxxxจะได้รับการกำหนดเลเบลyyyซึ่งเพิ่มp(y|x)p(y|x)p(y|x)ได้สูงสุดใช่ไหม แต่เมื่อผมเหมาะสมกับรูปแบบซึ่งในx=(Lag1,Lag2)x=(Lag1,Lag2)x=(Lag1,Lag2)y=Direction,y=Direction,y=Direction,ฉันไม่เข้าใจเอาท์พุทจากlda, แก้ไข:เพื่อทำซ้ำผลลัพธ์ด้านล่างให้เรียกใช้ครั้งแรก: library(MASS) library(ISLR) train = subset(Smarket, Year < 2005) lda.fit = lda(Direction ~ Lag1 + Lag2, data = train) > lda.fit Call: lda(Direction ~ Lag1 + Lag2, data = train) Prior probabilities of groups: Down Up 0.491984 0.508016 Group means: Lag1 Lag2 Down 0.04279022 0.03389409 …

2
มันเหมาะสมหรือไม่ที่จะใช้ตัวแปรวันที่ในการถดถอย
ฉันไม่คุ้นเคยกับการใช้ตัวแปรในรูปแบบวันที่ในอาร์ฉันแค่สงสัยว่ามันเป็นไปได้ที่จะเพิ่มตัวแปรวันที่เป็นตัวแปรอธิบายในรูปแบบการถดถอยเชิงเส้น ถ้าเป็นไปได้เราจะตีความค่าสัมประสิทธิ์ได้อย่างไร มันเป็นผลของหนึ่งวันกับตัวแปรผลลัพธ์หรือไม่? ดูของฉันเค้าด้วยตัวอย่างสิ่งที่ฉันพยายามที่จะทำ

2
วิธีการใช้การถดถอยโลจิสติกอันดับที่มีผลแบบสุ่ม?
ในการศึกษาของฉันฉันจะวัดปริมาณงานด้วยหลายเมตริก ด้วยความแปรปรวนของอัตราการเต้นของหัวใจ (HRV), กิจกรรมอิเล็กโทรเดอร์มัล (EDA) และสเกลอัตนัย (IWS) หลังจากการทำให้เป็นมาตรฐาน IWS มีสามค่า: ปริมาณงานต่ำกว่าปกติ ปริมาณงานโดยเฉลี่ย ปริมาณงานสูงกว่าปกติ ฉันต้องการดูว่ามาตรการทางสรีรวิทยาสามารถทำนายปริมาณงานที่กระทำได้หรือไม่ ดังนั้นฉันต้องการใช้ข้อมูลอัตราส่วนเพื่อทำนายค่าลำดับ ตาม: ฉันจะรันการวิเคราะห์การถดถอยโลจิสติกแบบ Ordinal ใน R ด้วยค่าตัวเลข / หมวดหมู่ได้อย่างไร สิ่งนี้ทำได้ง่ายโดยใช้MASS:polrฟังก์ชั่น อย่างไรก็ตามฉันต้องการบัญชีสำหรับเอฟเฟ็กต์แบบสุ่มเช่นความแตกต่างระหว่างเรื่องเพศการสูบบุหรี่ ฯลฯ เมื่อดูที่บทช่วยสอนนี้ฉันไม่เห็นว่าฉันจะเพิ่มเอฟเฟกต์แบบสุ่มMASS:polrได้อย่างไร อีกทางเลือกหนึ่งlme4:glmerจะเป็นตัวเลือก แต่ฟังก์ชั่นนี้จะช่วยให้การคาดการณ์ของข้อมูลไบนารี เป็นไปได้หรือไม่ที่จะเพิ่มเอฟเฟกต์แบบสุ่มลงในการถดถอยโลจิสติกอันดับ

1
วิธีค้นหา / ประมาณความหนาแน่นของความน่าจะเป็นจากฟังก์ชันความหนาแน่นใน R
สมมติว่าฉันมีตัวแปรเช่นเดียวXกับการกระจายที่ไม่รู้จัก ใน Mathematica โดยใช้SmoothKernelDensityฟังก์ชั่นที่เราสามารถมีประมาณ function.This ความหนาแน่นของฟังก์ชั่นความหนาแน่นประมาณสามารถนำมาใช้ควบคู่ไปกับPDFฟังก์ชั่นฟังก์ชั่นความหนาแน่นของการคำนวณความน่าจะเป็นของมีค่าเช่นXในรูปแบบของPDF[density,X]สมมติว่า "ความหนาแน่น" SmoothKernelDensityเป็นผลมาจาก มันจะดีถ้ามีคุณสมบัติดังกล่าวใน R นี่คือวิธีการทำงานใน Mathematica http://reference.wolfram.com/mathematica/ref/SmoothKernelDistribution.html เป็นตัวอย่าง (ขึ้นอยู่กับฟังก์ชั่น Mathematica): data = RandomVariate[NormalDistribution[], 100]; #generates 100 values from N(0,1) density= SmoothKernelDistribution[data]; #estimated density PDF[density, 2.345] returns 0.0588784 คุณสามารถหาข้อมูลเพิ่มเติมเกี่ยวกับ PDF ได้ที่นี่ http://reference.wolfram.com/mathematica/ref/PDF.html ฉันรู้ว่าฉันสามารถวางแผนฟังก์ชั่นความหนาแน่นของมันโดยใช้density(X)ใน R และโดยการใช้ecdf(X)ฉันสามารถได้รับฟังก์ชั่นการแจกแจงสะสมเชิงประจักษ์มันเป็นไปได้ที่จะทำสิ่งเดียวกันใน R ตามสิ่งที่ฉันอธิบายเกี่ยวกับ Mathematica? ความช่วยเหลือและความคิดใด ๆ ที่ชื่นชม
17 r  pdf  cdf 

2
วิธีจัดการกับข้อผิดพลาดเช่น“ ค่าสัมประสิทธิ์: 14 ไม่ได้ถูกนิยามเนื่องจากภาวะเอกฐาน” ใน R?
เมื่อทำ GLM และคุณได้รับข้อผิดพลาด "ไม่ได้ถูกกำหนดเนื่องจากภาวะเอกฐาน" ในผลลัพธ์ anova หนึ่งจะตอบโต้ข้อผิดพลาดนี้ได้อย่างไร บางคนบอกว่าเป็นเพราะ collinearity ระหว่าง covariates หรือว่าหนึ่งในระดับที่ไม่ได้อยู่ในชุดข้อมูล (ดู: การตีความ "ไม่ได้กำหนดไว้เพราะเอกภาวะ" ใน lm ) ถ้าผมอยากจะดูว่า "การรักษาโดยเฉพาะอย่างยิ่ง" คือการขับรถรูปแบบและฉันมี 4 ระดับของการรักษา: Treat 1, Treat 2, Treat 3และTreat 4ซึ่งได้รับการบันทึกไว้ในสเปรดชีตของฉันเป็น: เมื่อTreat 11 ส่วนที่เหลือเป็นศูนย์เมื่อTreat 21 ส่วนที่เหลือเป็นศูนย์ เป็นต้นฉันต้องทำอย่างไร

2
จะเกิดอะไรขึ้นที่นี่เมื่อฉันใช้การสูญเสียกำลังสองในการตั้งค่าการถดถอยโลจิสติก
ฉันกำลังพยายามใช้การสูญเสียกำลังสองเพื่อทำการจำแนกเลขฐานสองบนชุดข้อมูลของเล่น ฉันกำลังใช้mtcarsชุดข้อมูลใช้ไมล์ต่อแกลลอนและน้ำหนักเพื่อทำนายประเภทการส่ง เนื้อเรื่องด้านล่างแสดงข้อมูลประเภทการส่งข้อมูลสองชนิดในสีที่ต่างกันและขอบเขตการตัดสินใจที่สร้างขึ้นโดยฟังก์ชั่นการสูญเสียที่แตกต่างกัน การสูญเสียกำลังสองคือ ∑i(yi−pi)2∑i(yi−pi)2\sum_i (y_i-p_i)^2โดยที่yiyiy_iคือเลเยอร์ความจริงพื้นดิน (0 หรือ 1) และpipip_iคือความน่าจะเป็นที่คาดการณ์pi=Logit−1(βTxi)pi=Logit−1(βTxi)p_i=\text{Logit}^{-1}(\beta^Tx_i). กล่าวคือฉันแทนที่การสูญเสียโลจิสติกด้วยการสูญเสียกำลังสองในการตั้งค่าการจัดหมวดหมู่ส่วนอื่น ๆ เหมือนกัน สำหรับตัวอย่างของเล่นที่มีmtcarsข้อมูลในหลาย ๆ กรณีฉันได้แบบจำลอง "คล้ายกัน" กับการถดถอยโลจิสติก (ดูรูปต่อไปนี้โดยมีเมล็ดสุ่ม 0) แต่ในบางสิ่ง (ถ้าเราทำset.seed(1)) การสูญเสียกำลังสองดูเหมือนจะไม่ได้ผล เกิดอะไรขึ้นที่นี่ การเพิ่มประสิทธิภาพไม่ได้มาบรรจบกัน? การสูญเสียโลจิสติกส์นั้นง่ายกว่าเมื่อเทียบกับการสูญเสียกำลังสอง? ความช่วยเหลือใด ๆ ที่จะได้รับการชื่นชม รหัส d=mtcars[,c("am","mpg","wt")] plot(d$mpg,d$wt,col=factor(d$am)) lg_fit=glm(am~.,d, family = binomial()) abline(-lg_fit$coefficients[1]/lg_fit$coefficients[3], -lg_fit$coefficients[2]/lg_fit$coefficients[3]) grid() # sq loss lossSqOnBinary<-function(x,y,w){ p=plogis(x %*% w) return(sum((y-p)^2)) } # ---------------------------------------------------------------- …

1
ต้นกำเนิดของสัญกรณ์สไตล์วิลกินสันเช่น (1 | id) สำหรับเอฟเฟกต์แบบสุ่มในสูตรโมเดลผสมใน R
สูตรโมเดลใน R เช่น y ~ x + a*b + c:d จะขึ้นอยู่กับที่เรียกว่าสัญกรณ์วิลกินสัน : วิลกินสันและโรเจอร์ส 1973 สัญลักษณ์คำอธิบายของปัจจัยรุ่นสำหรับการวิเคราะห์ความแปรปรวน บทความนี้ไม่ได้กล่าวถึงสัญลักษณ์สำหรับรุ่นผสม (ซึ่งอาจไม่มีอยู่ในตอนนั้น) ดังนั้นสูตรผสมโมเดลที่ใช้ในlme4และแพ็คเกจที่เกี่ยวข้องใน R เช่น y ~ x + a*b + c:d + (1|school) + (a*b||town) มาจาก? ใครแนะนำพวกเขาเป็นครั้งแรกและเมื่อไหร่ มีข้อตกลงใด ๆ เช่นคำว่า "สัญกรณ์วิลกินสัน" สำหรับพวกเขาหรือไม่? ฉันหมายถึงเฉพาะเงื่อนไขเช่น (model formula | grouping variable) (model formula || grouping variable)

2
ข้อผิดพลาดมาตรฐานที่เหลือแตกต่างระหว่างการเพิ่มประสิทธิภาพและ glm
ฉันพยายามที่จะทำซ้ำกับoptimผลลัพธ์จากการถดถอยเชิงเส้นอย่างง่ายที่พอดีกับglmหรือแม้แต่nlsฟังก์ชั่น R การประมาณพารามิเตอร์เหมือนกัน แต่การประมาณค่าความแปรปรวนที่เหลือและข้อผิดพลาดมาตรฐานของพารามิเตอร์อื่นจะไม่เหมือนกันโดยเฉพาะเมื่อขนาดตัวอย่างต่ำ ฉันคิดว่านี่เป็นความแตกต่างเนื่องจากวิธีการคำนวณข้อผิดพลาดมาตรฐานที่เหลือระหว่างความน่าจะเป็นสูงสุดและวิธีกำลังสองน้อยที่สุด (หารด้วย n หรือโดย n-k + 1 ดูการร้องในตัวอย่าง) ผมเข้าใจจากการอ่านของฉันบนเว็บที่เพิ่มประสิทธิภาพไม่ได้เป็นงานที่ง่าย แต่ผมสงสัยว่าถ้ามันจะเป็นไปได้ที่จะทำซ้ำในวิธีที่ง่ายประมาณการจากข้อผิดพลาดมาตรฐานในขณะที่ใช้glmoptim จำลองชุดข้อมูลขนาดเล็ก set.seed(1) n = 4 # very small sample size ! b0 <- 5 b1 <- 2 sigma <- 5 x <- runif(n, 1, 100) y = b0 + b1*x + rnorm(n, 0, sigma) ประเมินด้วยประสิทธิภาพ negLL …

2
วิธีการพยากรณ์กับการตรวจจับค่าผิดปกติใน R - ขั้นตอนและวิธีการวิเคราะห์อนุกรมเวลา
ฉันมีข้อมูลอนุกรมเวลารายเดือนและต้องการคาดการณ์ด้วยการตรวจจับค่าผิดปกติ นี่คือตัวอย่างของชุดข้อมูลของฉัน: Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2006 7.55 7.63 7.62 7.50 7.47 7.53 7.55 7.47 7.65 7.72 7.78 7.81 2007 7.71 7.67 7.85 7.82 7.91 7.91 8.00 7.82 7.90 7.93 7.99 7.93 2008 8.46 8.48 9.03 9.43 11.58 12.19 12.23 11.98 12.26 …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.