คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

3
การกระจายตัวมีเสถียรภาพเป็นบวกใน R
การแจกแจงที่เสถียรในเชิงบวกถูกอธิบายโดยพารามิเตอร์สี่ตัว ได้แก่ พารามิเตอร์ skewness , พารามิเตอร์ของมาตราส่วน\ sigma&gt; 0 , พารามิเตอร์ตำแหน่ง\ mu \ in (- \ infty, \ infty)และอื่น ๆ เรียกว่าพารามิเตอร์ดัชนี\ alpha \ in (0,2]เมื่อ\ betaเป็นศูนย์การกระจายจะสมมาตรรอบ\ muเมื่อมันเป็นบวก (การตอบสนองเชิงลบ) การกระจายจะเบ้ไปทางขวา (ไปทางซ้าย) . การกระจายที่เสถียรช่วยให้ไขมันหางเมื่อ\ alphaลดลงβ∈[−1,1]β∈[−1,1]\beta\in[-1,1]σ&gt;0σ&gt;0\sigma>0μ∈(−∞,∞)μ∈(−∞,∞)\mu\in(-\infty,\infty)α∈(0,2]α∈(0,2]\alpha\in(0,2]ββ\betaμμ\muαα\alpha เมื่อαα\alphaเป็นอย่างเคร่งครัดน้อยกว่าหนึ่งและβ=1β=1\beta=1การสนับสนุนของข้อกำหนดด้านการจัดจำหน่ายไปยัง(μ,∞)(μ,∞)(\mu,\infty)infty) ฟังก์ชั่นความหนาแน่นมีเพียงนิพจน์แบบปิดสำหรับการรวมค่าพารามิเตอร์ เมื่อμ=0μ=0\mu=0 , α&lt;1α&lt;1\alpha<1 , β=1β=1\beta=1 , และσ=ασ=α\sigma=\alphaมันคือ (ดูสูตร (4.4) ที่นี่ ): f(y)=−1πy∑∞k=1Γ(kα+1)k!(−y−α)ksin(αkπ)f(y)=−1πy∑k=1∞Γ(kα+1)k!(−y−α)ksin⁡(αkπ)f(y) = -\frac{1}{\pi y} \sum_{k=1}^{\infty} …

2
เป็นไปได้ไหมที่จะใช้ kernel PCA สำหรับการเลือกคุณสมบัติ?
เป็นไปได้หรือไม่ที่จะใช้การวิเคราะห์องค์ประกอบหลักของเคอร์เนล (kPCA) สำหรับ Latent Semantic Indexing (LSI) ในลักษณะเดียวกับที่ใช้ PCA ฉันดำเนินการ LSI ใน R โดยใช้prcompฟังก์ชั่น PCA และแยกคุณสมบัติด้วยการโหลดสูงสุดจากองค์ประกอบแรก โดยที่ฉันได้รับคุณสมบัติการอธิบายองค์ประกอบที่ดีที่สุดkkk ฉันพยายามใช้kpcaฟังก์ชั่น (จากkernlibแพ็คเกจ) แต่ไม่สามารถดูวิธีการเข้าถึงน้ำหนักของคุณสมบัติไปยังส่วนประกอบหลัก เป็นไปได้โดยรวมเมื่อใช้วิธีเคอร์เนล?

1
การใช้สัมประสิทธิ์การกำหนดบางส่วน
ใครบ้างมีคำแนะนำหรือแพ็คเกจที่จะคำนวณค่าสัมประสิทธิ์ของการตัดสินใจบางส่วน? สัมประสิทธิ์ของการตัดสินใจบางส่วนสามารถกำหนดเป็นร้อยละของการเปลี่ยนแปลงที่ไม่สามารถอธิบายได้ในรูปแบบที่ลดลง แต่สามารถอธิบายได้โดยตัวทำนายที่ระบุไว้ในแบบจำลอง (เอ้อ) สัมประสิทธิ์นี้ใช้เพื่อให้เข้าใจว่าตัวทำนายเพิ่มเติมหนึ่งตัวหรือมากกว่านั้นอาจมีประโยชน์ในตัวแบบการถดถอยที่ระบุอย่างสมบูรณ์ การคำนวณสำหรับ r ^ 2 บางส่วนนั้นค่อนข้างตรงไปตรงมาหลังจากการประเมินสองโมเดลของคุณและสร้างตาราง ANOVA สำหรับพวกเขา การคำนวณสำหรับ r ^ 2 บางส่วนคือ: (SSEreduced - SSEfull) / SSEreduced ฉันได้เขียนฟังก์ชันที่ค่อนข้างง่ายซึ่งจะคำนวณสิ่งนี้สำหรับตัวแบบถดถอยเชิงเส้นหลายแบบ ฉันไม่คุ้นเคยกับโครงสร้างรุ่นอื่น ๆ ใน R ที่ฟังก์ชั่นนี้อาจทำงานได้ไม่ดี: partialR2 &lt;- function(model.full, model.reduced){ anova.full &lt;- anova(model.full) anova.reduced &lt;- anova(model.reduced) sse.full &lt;- tail(anova.full$"Sum Sq", 1) sse.reduced &lt;- tail(anova.reduced$"Sum Sq", 1) pR2 &lt;- …
9 r  regression  anova 

2
ฉันระบุรุ่น lmer ของฉันถูกต้องหรือไม่
ฉัน scoured Google และเว็บไซต์นี้และฉันยังคงสับสนเกี่ยวกับฟังก์ชัน lmer ในไลบรารี lme4 ฉันมีข้อมูลบางอย่างที่เก็บรวบรวมจากหอผู้ป่วยจิตเวชที่แตกต่างกันซึ่งมีโครงสร้างหลายระดับ เพื่อให้ง่ายขึ้นฉันจะเลือกตัวแปรสองระดับ 2 และสองระดับ 1 แม้ว่าฉันจะมีอีกไม่กี่ตัว Level 2- WardSize [นี่คือจำนวนผู้คนในวอร์ด] &amp; WAS [นี่คือการวัดความดี "วอร์ด" ของวอร์ด] ตัวแปรการจัดกลุ่มที่บอก R ว่าใครในวอร์ดเรียกว่า "วอร์ด" ระดับหนึ่ง - เพศ [นี่คือเพศชัดเจน] &amp; BSITotal [นี่คือการวัดความรุนแรงของอาการ] ผลลัพธ์คือ Selfreject ซึ่งอีกครั้งคือสิ่งที่ดูเหมือน ฉันมีสูตรนี้: ความช่วยเหลือ = lmer (สูตร = Selfreject ~ WardSize + WAS + เพศ + …

1
ผลของขอบเขตในการวิเคราะห์ความละเอียดแบบหลายเวฟเล็ต
วิธีการลดผลกระทบของขอบเขตในการย่อยสลายเวฟเล็ตคืออะไร? ผมใช้ R และแพคเกจwaveslim ฉันได้พบเช่นฟังก์ชั่น ?brick.wall แต่ ฉันไม่ได้ใช้วิธีการใช้เช่นกัน ฉันไม่แน่ใจว่าทางออกที่ดีที่สุดคือการลบค่าสัมประสิทธิ์ ฉันเคยอ่านที่ไหนสักแห่งว่ามันมีเวฟเล็ตบางตัวที่ไม่เหมือนกันทุกหนทุกแห่ง ความคิดใด ๆ

4
จะค้นหาขั้นตอนทางสถิติใน R ได้อย่างไร
มีแพ็คเกจเว็บไซต์หรือคำสั่ง R ที่จะอนุญาตให้หนึ่งค้นหาขั้นตอนทางสถิติเฉพาะที่ต้องการหรือไม่ ตัวอย่างเช่นหากฉันต้องการค้นหาแพ็คเกจที่มีการแปลง Box-Cox เว็บไซต์ / แพ็คเกจ / คำสั่งอาจส่งคืน "MASS" และแนะนำฉันไปที่boxcox()ฟังก์ชัน มันค่อนข้างตรงไปตรงมากับบางสิ่งบางอย่างเช่น Box-Cox แต่ฉันหวังว่ามันจะช่วยให้ฉันค้นหาขั้นตอนที่ยากขึ้นหรือค้นหาสิ่งที่ฟังก์ชันทำ ("การต่อคอลัมน์เข้ากับเฟรมข้อมูล" อาจปรากฏขึ้นcbind()) สิ่งนี้มีอยู่จริงหรือไม่?
9 r 

7
วิธีการคำนวณการวัดจากศูนย์กลางในเครือข่าย 4 ล้าน edge โดยใช้ R?
ฉันมีไฟล์ CSV กับ 4 ล้านขอบของเครือข่ายผู้กำกับที่เป็นตัวแทนของคนสื่อสารกับแต่ละอื่น ๆ (เช่นจอห์นส่งข้อความไปยังแมรี่แมรี่ส่งข้อความไปยังแอนจอห์นส่งอีกข้อความถึงแมรี่, ฯลฯ ) ฉันต้องการทำสองสิ่ง: ค้นหาการศึกษาระดับปริญญา, ระหว่างและ (อาจ) มาตรการศูนย์กลาง eigenvector สำหรับแต่ละคน รับภาพของเครือข่าย ฉันต้องการทำสิ่งนี้ในบรรทัดคำสั่งบนเซิร์ฟเวอร์ Linux เนื่องจากแล็ปท็อปของฉันมีพลังงานไม่มาก ฉันได้ติดตั้ง R ไว้บนเซิร์ฟเวอร์นั้นและไลบรารี statnet ฉันพบโพสต์ของคนที่มีความสามารถมากกว่าฉันที่พยายามทำสิ่งเดียวกันและมีปัญหา ดังนั้นฉันจึงสงสัยว่าถ้ามีคนอื่นที่มีพอยน์เตอร์เกี่ยวกับวิธีการทำเช่นนี้โดยเฉพาะอย่างยิ่งพาฉันทีละขั้นตอนเพราะฉันรู้วิธีการโหลดไฟล์ CSV และไม่มีอะไรอื่น เพียงให้แนวคิดแก่คุณนี่คือลักษณะของไฟล์ CSV ของฉัน: $ head comments.csv "src","dest" "6493","139" "406705","369798" $ wc -l comments.csv 4210369 comments.csv

1
รหัสตัวแปรในฟังก์ชั่น nlm ()
ใน R มีฟังก์ชั่นnlm ()ซึ่งดำเนินการย่อขนาดของฟังก์ชั่น f โดยใช้อัลกอริทึม Newton-Raphson โดยเฉพาะอย่างยิ่งฟังก์ชั่นที่ส่งออกค่าของรหัสตัวแปรที่กำหนดไว้ดังต่อไปนี้: รหัสจำนวนเต็มระบุว่าทำไมกระบวนการปรับให้เหมาะสมสิ้นสุดลง 1: การไล่ระดับสีสัมพัทธ์ใกล้กับศูนย์การวนซ้ำในปัจจุบันอาจเป็นวิธีแก้ปัญหา 2: ต่อเนื่องซ้ำภายในความอดทนกระแสซ้ำอาจเป็นวิธีแก้ปัญหา 3: ขั้นตอนส่วนกลางครั้งสุดท้ายล้มเหลวในการค้นหาจุดที่ต่ำกว่าค่าประมาณ การประมาณเป็นค่าต่ำสุดในท้องถิ่นโดยประมาณของฟังก์ชันหรือ steptol นั้นเล็กเกินไป 4: เกินขีด จำกัด การทำซ้ำ 5: stepmax ขนาดขั้นตอนสูงสุดเกินห้าครั้งติดต่อกัน ฟังก์ชันไม่ได้ถูก จำกัด ด้านล่างกลายเป็น asymptotic เป็นค่า จำกัด จากด้านบนในบางทิศทางหรือ stepmax มีขนาดเล็กเกินไป ใครสามารถอธิบายฉันได้ (อาจใช้ภาพประกอบง่าย ๆ ที่มีฟังก์ชั่นของตัวแปรเพียงตัวเดียว) กับสถานการณ์ที่ 1-5? ตัวอย่างเช่นสถานการณ์ 1 อาจสอดคล้องกับภาพต่อไปนี้: ขอบคุณล่วงหน้า!
9 r  minimum 

1
การทดสอบ Tukey HSD จะเป็นสัญญาณได้อย่างไรมากกว่าค่า P ที่ไม่ถูกต้องของ t.test
ฉันมาโดยโพสต์ " การเปรียบเทียบ Pairwise แบบโพสต์ทูของ ANOVA สองทาง " (ตอบกลับโพสต์นี้ ) ซึ่งแสดงสิ่งต่อไปนี้: dataTwoWayComparisons &lt;- read.csv("http://www.dailyi.org/blogFiles/RTutorialSeries/dataset_ANOVA_TwoWayComparisons.csv") model1 &lt;- aov(StressReduction~Treatment+Age, data =dataTwoWayComparisons) summary(model1) # Treatment is signif pairwise.t.test(dataTwoWayComparisons$StressReduction, dataTwoWayComparisons$Treatment, p.adj = "none") # no signif pair TukeyHSD(model1, "Treatment") # mental-medical is the signif pair. (เอาท์พุทที่แนบมาร้อง) ใครช่วยอธิบายหน่อยได้ไหมว่าทำไม Tukey HSD ถึงสามารถจับคู่ที่สำคัญได้ในขณะที่ t-test ที่จับคู่ (ปรับค่าไม่ได้) ไม่สามารถทำเช่นนั้นได้? …

3
ฉันจะเพิ่มความเร็วในการคำนวณผลกระทบคงที่ใน GLMM ได้อย่างไร
ฉันกำลังทำการศึกษาแบบจำลองที่ต้องใช้การประเมินการบูตแบบจำลองที่ได้จากโมเดลเชิงเส้นเชิงเส้นแบบทั่วไป ในการทำการศึกษาให้ดีนั้นจะต้องใช้แบบจำลองประมาณ 1,000 ครั้งโดยมี 1,000 หรือ 1,500 บูตสแตรปแบบจำลองในแต่ละครั้ง คอมพิวเตอร์ของฉันใช้เวลานานพอสมควร (หลายวัน) How can I speed up the computation of these fixed effects? โดยเฉพาะอย่างยิ่งฉันมีวิชาที่วัดซ้ำ ๆ ในสามวิธีก่อให้เกิดตัวแปร X, M, และ Y โดยที่ X และ M ต่อเนื่องและ Y เป็นเลขฐานสอง เรามีสมการการถดถอยสองตัว Y ^ * = \ beta_0 + \ beta_1X + \ beta_2M + \ …
9 r  mixed-model 

1
การใช้การสลายตัวของค่าเอกฐานเพื่อคำนวณความแปรปรวนร่วมแปรปรวนเมทริกซ์จากตัวแบบการถดถอยเชิงเส้น
ฉันมีเมทริกซ์การออกแบบของ p regressors, การสังเกต n และฉันพยายามคำนวณเมทริกซ์ความแปรปรวนร่วม - ความแปรปรวนร่วมตัวอย่างของพารามิเตอร์ ฉันพยายามคำนวณโดยตรงโดยใช้ svd ฉันใช้ R เมื่อฉันใช้เมทริกซ์การออกแบบฉันจะได้สามองค์ประกอบ: เมทริกซ์ ยูUU ซึ่งเป็น n × pn×pn \times pเมทริกซ์ DDD ซึ่งเป็น 1 × 31×31\times 3 (ค่าลักษณะเฉพาะน่าจะเป็น) และเมทริกซ์ VVV ซึ่งเป็น 3 × 33×33\times 3. ฉันทแยงมุมDDDทำให้มันเป็น 3 × 33×33\times 3 เมทริกซ์ที่มี 0 อยู่ในแนวทแยงมุม คาดคะเนสูตรการแปรปรวนร่วมคือ: VD2V'VD2V′V D^2 V'แต่เมทริกซ์ไม่ตรงและไม่เป็นมันได้ใกล้เคียงกับ R vcovที่สร้างขึ้นในฟังก์ชั่น ใครบ้างมีคำแนะนำ …
9 r  regression 

2
R: อัปเดตกราฟแบบไดนามิก [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน8 เดือนที่ผ่านมา นี่เป็นคำถามการสร้างภาพข้อมูล ฉันมีฐานข้อมูลที่มีข้อมูลบางอย่างที่มีการแก้ไขอย่างต่อเนื่อง (อัพเดตออนไลน์) อะไรคือวิธีที่ดีที่สุดใน R ในการอัปเดตกราฟทุกครั้งที่บอกว่า 5 หรือ 10 วินาที (โดยไม่ต้องวางแผนใหม่ทุกสิ่งเป็นไปได้)? เฟร็ด

1
อะไรคือความแตกต่างในทางปฏิบัติและการตีความระหว่างทางเลือกและการถดถอยโลจิสติก?
คำถามล่าสุดเกี่ยวกับทางเลือกในการถดถอยโลจิสติกใน Rให้ผลหลากหลายของคำตอบรวมถึง randomForest, gbm, rpart, bayesglm และโมเดลเสริมทั่วไป อะไรคือความแตกต่างในทางปฏิบัติและการตีความระหว่างวิธีการเหล่านี้กับการถดถอยโลจิสติก พวกเขาตั้งสมมติฐานอะไรบ้าง (หรือไม่ทำให้) สัมพันธ์กับการถดถอยโลจิสติกส์? เหมาะสำหรับการทดสอบสมมติฐานหรือไม่? เป็นต้น

3
วิธีการสุ่มตัวอย่างอนุกรมเวลา XTS ใน R ได้อย่างไร
ฉันมีXTSอนุกรมเวลาที่เว้นระยะผิดปกติ(มีPOSIXctค่าเป็นประเภทดัชนี) ฉันจะสร้างซีรีย์เวลาใหม่ที่สุ่มตัวอย่างในช่วงเวลา 10 นาทีได้อย่างไร แต่แต่ละช่วงเวลาตัวอย่างจะถูกจัดให้สอดคล้องกับรอบเวลา (13:00:00, 13:10:00, 13:20:00, ... ) . หากช่วงเวลาการสุ่มตัวอย่างไม่ตรงกับค่าซีรี่ส์ดั้งเดิมฉันต้องการใช้ช่วงเวลาก่อนหน้า

2
คำนวณ ROC curve สำหรับข้อมูล
ดังนั้นฉันมีการทดลอง 16 ครั้งที่ฉันพยายามพิสูจน์ตัวตนบุคคลจากลักษณะทางชีวภาพโดยใช้ Hamming Distance เกณฑ์ของฉันถูกตั้งไว้ที่ 3.5 ข้อมูลของฉันอยู่ด้านล่างและเฉพาะการทดลองใช้ 1 เท่านั้นคือ True Positive: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 จุดสับสนของฉันคือฉันไม่แน่ใจจริงๆเกี่ยวกับวิธีสร้าง ROC curve …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.