คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

1
การตีความการทดสอบจุ่มของ Hartigans
ฉันอยากจะหาวิธีที่จะบอกปริมาณความเข้มของความ bimodality ของการแจกแจงบางอย่างที่ฉันได้รับสังเกตุ จากสิ่งที่ฉันอ่านยังคงมีการถกเถียงกันเกี่ยวกับวิธีการหาปริมาณ bimodality ฉันเลือกที่จะใช้การทดสอบการจุ่มของ Hartigans ซึ่งน่าจะเป็นสิ่งเดียวที่มีอยู่ใน R (กระดาษต้นฉบับ: http://www.stat.washington.edu/wxs/Stat593-s03/Literature/hartigan85a.pdf ) ทดสอบจุ่ม Hartigans' หมายถึง: 'จุ่มมาตรการทดสอบ multimodality ในกลุ่มตัวอย่างโดยการแตกต่างสูงสุดที่มากกว่าจุดตัวอย่างทั้งหมดระหว่างฟังก์ชั่นการกระจายเชิงประจักษ์และฟังก์ชั่นการกระจายรูปแบบเดียวที่ช่วยลดความแตกต่างสูงสุด' ฉันต้องการที่จะเข้าใจอย่างถ่องแท้ว่าฉันควรตีความสถิตินี้อย่างไรก่อนที่จะใช้ ฉันคาดหวังว่าการทดสอบการจุ่มจะเพิ่มขึ้นหากการแจกแจงนั้นต่อเนื่องหลายรูปแบบ (เนื่องจากมันถูกกำหนดเป็น "ความแตกต่างสูงสุดจากการกระจายตัวแบบเดียว") แต่ : คุณสามารถอ่านได้ในหน้าวิกิพีเดียเกี่ยวกับการกระจายแบบ multimodal ว่า"ค่าน้อยกว่า 0.05 บ่งบอกถึงความคุ้มค่าและความสำคัญของ bimodality มากกว่า 0.05 แต่น้อยกว่า 0.10 แสดงให้เห็นถึงความแตกต่างที่มีนัยสำคัญเล็กน้อย" . ข้อความดังกล่าวมาจากบทความนี้(รูปที่ 2) ตามบทความนี้ดัชนีทดสอบการจุ่มอยู่ใกล้กับ 0 เมื่อการแจกแจงแบบ bimodal มันทำให้ฉันสับสน ในการแปลความหมายอย่างถูกต้องของการทดสอบการจุ่มของ Hartigans ฉันได้สร้างการแจกแจงบางส่วน (รหัสต้นฉบับมาจากที่นี่ ) และฉันเพิ่มมูลค่าของ exp …
18 r  distributions 

5
การตรวจจับการเปลี่ยนแปลงในอนุกรมเวลา (ตัวอย่าง R)
ฉันต้องการตรวจจับการเปลี่ยนแปลงในข้อมูลอนุกรมเวลาซึ่งมักจะมีรูปร่างเหมือนกัน จนถึงตอนนี้ฉันได้ทำงานกับchangepointแพ็คเกจสำหรับ R และcpt.mean(), cpt.var()และcpt.meanvar()ฟังก์ชั่น cpt.mean()ด้วยวิธี PELT จะทำงานได้ดีเมื่อข้อมูลอยู่ในระดับเดียว อย่างไรก็ตามฉันต้องการตรวจจับการเปลี่ยนแปลงในระหว่างการแทรก ตัวอย่างของการเปลี่ยนแปลงที่ฉันต้องการตรวจสอบคือส่วนที่เส้นโค้งสีดำลดลงอย่างกระทันหันในขณะที่จริงควรทำตามเส้นประสีแดงแบบตัวอย่าง ฉันได้ทดลองกับฟังก์ชัน cpt.var () แต่ฉันไม่ได้ผลลัพธ์ที่ดี คุณได้รับคำแนะนำ (ที่ไม่จำเป็นต้องใช้ R) หรือไม่? นี่คือข้อมูลที่มีการเปลี่ยนแปลง (เป็นวัตถุ R): dat.change <- c(12.013995263488, 11.8460207231808, 11.2845153487846, 11.7884417180764, 11.6865425802022, 11.4703118125303, 11.4677576899063, 11.0227199625084, 11.274775836817, 11.03073498338, 10.7771805591742, 10.7383206158923, 10.5847230134625, 10.2479315651441, 10.4196381241735, 10.467607842288, 10.3682422713283, 9.7834431752935, 9.76649842404295, 9.78257968297228, 9.87817694914062, 9.3449034905713, 9.56400153361727, 9.78120084558148, 9.3445162813738, 9.36767436354887, 9.12070987223648, …

1
การใช้ bootstrap ภายใต้ H0 เพื่อทำการทดสอบความแตกต่างของสองวิธี: การเปลี่ยนภายในกลุ่มหรือภายในกลุ่มตัวอย่าง
สมมติว่าฉันมีข้อมูลที่มีสองกลุ่มอิสระ: g1.lengths <- c (112.64, 97.10, 84.18, 106.96, 98.42, 101.66) g2.lengths <- c (84.44, 82.10, 83.26, 81.02, 81.86, 86.80, 85.84, 97.08, 79.64, 83.32, 91.04, 85.92, 73.52, 85.58, 97.70, 89.72, 88.92, 103.72, 105.02, 99.48, 89.50, 81.74) group = rep (c ("g1", "g2"), c (length (g1.lengths), length (g2.lengths))) lengths = data.frame( lengths …

3
Negative-binomial GLM เทียบกับการเปลี่ยนแปลงการบันทึกสำหรับข้อมูลนับ: เพิ่มอัตราความผิดพลาด Type I
คุณบางคนอาจจะอ่านบทความนี้ดี: O'Hara RB, Kotze DJ (2010) อย่าบันทึกข้อมูลการนับการแปลง วิธีการทางนิเวศวิทยาและวิวัฒนาการ 1: 118–122 Klick ในสาขาการวิจัยของฉัน (นิเวศน์วิทยา) เรากำลังจัดการกับการทดลองที่ทำซ้ำแบบไม่ดีและ GLM ไม่ได้ใช้กันอย่างแพร่หลาย ดังนั้นฉันจึงทำการจำลองที่คล้ายกันกับ O'Hara & Kotze (2010) แต่เลียนแบบข้อมูลนิเวศน์วิทยา พลังงานจำลอง : ฉันจำลองข้อมูลจากการออกแบบแบบแฟกทอเรียลด้วยกลุ่มควบคุมหนึ่งกลุ่ม ( ) และกลุ่มการรักษา 5 กลุ่ม ( ) ความอุดมสมบูรณ์ในการรักษา 1 เหมือนกับการควบคุม ( ) ความอุดมสมบูรณ์ในการรักษา 2-5 คือครึ่งหนึ่งของความอุดมสมบูรณ์ในการควบคุม ( \ mu_ {2-5} = 0.5 \ mu_c ) สำหรับแบบจำลองฉันเปลี่ยนขนาดตัวอย่าง …

1
อัลกอริธึมการทำคลัสเตอร์ที่ทำงานกับข้อมูลที่กระจัดกระจาย [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน5 ปีที่ผ่านมา ฉันพยายามรวบรวมรายการอัลกอริทึมการจัดกลุ่มที่: ดำเนินการใน R ดำเนินการกับเมทริกซ์การกระจัดกระจายข้อมูล (ไม่ใช่ (dis) เมทริกซ์ความเหมือนกัน) เช่นที่สร้างขึ้นโดยฟังก์ชันsparseMatrix มีคำถามอื่น ๆ อีกมากมายเกี่ยวกับประวัติย่อที่กล่าวถึงแนวคิดนี้ แต่ไม่มีคำถามใดที่เชื่อมโยงกับแพ็คเกจ R ที่สามารถใช้งานได้โดยตรงกับการฝึกอบรมแบบกระจัดกระจาย: การทำคลัสเตอร์ชุดข้อมูลขนาดใหญ่และกระจัดกระจาย การทำคลัสเตอร์ข้อมูลไบนารีหร็อมแหร็มมิติสูง กำลังมองหาการใช้การจัดกลุ่มแบบกระจัดกระจายและมิติสูง การจัดกลุ่มที่ประหยัดพื้นที่ จนถึงตอนนี้ฉันพบฟังก์ชันหนึ่งฟังก์ชันใน R ที่สามารถจัดกลุ่มเมทริกซ์กระจัดกระจาย: skmeans : kmeans ทรงกลม จากแพคเกจ skmeans kmeans ใช้ระยะโคไซน์ ทำงานบนวัตถุ dgTMatrix จัดเตรียมอินเตอร์เฟสกับอัลกอริทึม k-mean, pclust, CLUTO, gmeans และ kmndirs ตัวอย่าง: library(Matrix) set.seed(42) nrow <- …
18 r  clustering  sparse 

3
ความสัมพันธ์ระหว่างความน่าจะเป็นของโปรไฟล์และช่วงความมั่นใจคืออะไร
ในการทำให้แผนภูมินี้ฉันสร้างตัวอย่างสุ่มขนาดแตกต่างจากการแจกแจงแบบปกติด้วยค่าเฉลี่ย = 0 และ sd = 1 ช่วงเวลาความเชื่อมั่นถูกคำนวณโดยใช้การตัดอัลฟาตั้งแต่. 001 ถึง. 999 (เส้นสีแดง) ด้วยฟังก์ชั่น t.test () ความน่าจะเป็นของโปรไฟล์ถูกคำนวณโดยใช้รหัสด้านล่างซึ่งฉันพบในบันทึกการบรรยายที่ใส่ไว้ในบรรทัด ไม่พบลิงค์ในขณะนี้แก้ไข: พบเลย ) นี่จะแสดงเป็นเส้นสีฟ้า เส้นสีเขียวแสดงความหนาแน่นปกติโดยใช้ฟังก์ชั่นความหนาแน่น R () และข้อมูลจะแสดงโดยกล่องสี่เหลี่ยมที่ด้านล่างของแต่ละแผนภูมิ ด้านขวาเป็นโครงเรื่องของช่วงความเชื่อมั่น 95% (สีแดง) และ 1/20 ของช่วงเวลาความน่าจะเป็นสูงสุด (สีน้ำเงิน) รหัส R ที่ใช้สำหรับความเป็นไปได้ของโปรไฟล์: #mn=mean(dat) muVals <- seq(low,high, length = 1000) likVals <- sapply(muVals, function(mu){ (sum((dat - mu)^2) / sum((dat …

9
ระยะทาง Mahalanobis Pairwise
ฉันจำเป็นต้องคำนวณตัวอย่างระยะทาง Mahalanobis ใน R ระหว่างการสังเกตทุกคู่ในเมทริกซ์n×pn×pn \times pของ covariates ฉันต้องการวิธีแก้ปัญหาที่มีประสิทธิภาพเช่นคำนวณระยะทางn(n−1)/2n(n−1)/2n(n-1)/2เท่านั้นและนำไปใช้ใน C / RCpp / Fortran เป็นต้นฉันคิดว่าเมทริกซ์ความแปรปรวนร่วมของประชากรไม่เป็นที่รู้จักและใช้ตัวอย่าง เมทริกซ์ความแปรปรวนร่วมในสถานที่ΣΣ\Sigma ฉันสนใจเป็นพิเศษในคำถามนี้เนื่องจากดูเหมือนจะไม่มีวิธี "ฉันทามติ" สำหรับการคำนวณระยะทาง Mahalanobis ในระดับ R แบบ pairwiseนั่นคือมันไม่ได้ใช้งานในdistฟังก์ชั่นหรือในcluster::daisyฟังก์ชั่น mahalanobisฟังก์ชั่นไม่ได้คำนวณระยะทางจากจำนวนโดยไม่ต้องทำงานเพิ่มขึ้นจากโปรแกรมเมอร์ นี่ถูกถามแล้วที่นี่ระยะทาง Pairwise Mahalanobis ใน Rแต่การแก้ปัญหาที่นั่นดูเหมือนไม่ถูกต้อง นี่คือที่ถูกต้อง แต่ไม่มีประสิทธิภาพชะมัด (ตั้งแต่n×nn×nn \times nระยะทางคำนวณ) วิธีการ: set.seed(0) x0 <- MASS::mvrnorm(33,1:10,diag(c(seq(1,1/2,l=10)),10)) dM = as.dist(apply(x0, 1, function(i) mahalanobis(x0, i, cov = cov(x0)))) …
18 r  algorithms  distance 

4
การถดถอยเชิงเส้นพร้อมข้อ จำกัด ความชัน
Rฉันต้องการที่จะดำเนินการถดถอยเชิงเส้นง่ายมากในการ สูตรง่ายเหมือนB อย่างไรก็ตามฉันอยากให้ความชัน ( ) อยู่ในช่วงเวลาสมมติว่าระหว่าง 1.4 ถึง 1.6y=ax+by=ax+by = ax + baaa สิ่งนี้สามารถทำได้?

3
เมทริกซ์ความแปรปรวนร่วม - ความแปรปรวนร่วมใน lmer
ฉันรู้ว่าข้อดีอย่างหนึ่งของแบบผสมคือพวกมันอนุญาตให้ระบุเมทริกซ์ความแปรปรวนร่วม - ความแปรปรวนร่วมสำหรับข้อมูล (สมมาตรผสม, อัตชีวประวัติ, ไม่มีโครงสร้าง, ฯลฯ ) อย่างไรก็ตามlmerฟังก์ชันใน R ไม่อนุญาตสเปคง่ายของเมทริกซ์นี้ ไม่มีใครรู้ว่าโครงสร้างที่lmerใช้โดยค่าเริ่มต้นและทำไมไม่มีวิธีการระบุได้อย่างง่ายดาย?

1
ป่าสุ่มสุดขั้วแตกต่างจากป่าสุ่มอย่างไร
การใช้ ER มีประสิทธิภาพมากขึ้นหรือไม่ (เหมือนกันExtreme Gradient Boostingคือการเพิ่มระดับความลาดชัน) - ความแตกต่างสำคัญจากมุมมองของภาคปฏิบัติหรือไม่? มีแพ็คเกจ R ซึ่งใช้งานได้ มันเป็นอัลกอริธึมใหม่ที่เอาชนะการใช้งานแบบ "ทั่วไป" (แพคเกจ RandomForest จาก R) ไม่เพียง แต่ในแง่ของประสิทธิภาพหรือในบางพื้นที่เท่านั้น? Extreme Random Forest http://link.springer.com/article/10.1007%2Fs10994-006-6226-1

6
ตัวเลือกการวิเคราะห์ข้อมูลนอกหลัก
ฉันใช้ SAS อย่างมืออาชีพมาเกือบ 5 ปีแล้ว ฉันติดตั้งไว้ในแล็ปท็อปของฉันและต้องวิเคราะห์ชุดข้อมูลด้วยตัวแปร 1,000-2,000 ชุดและการสังเกตนับแสนครั้ง ฉันกำลังมองหาทางเลือกอื่นสำหรับ SAS ที่ให้ฉันทำการวิเคราะห์ในชุดข้อมูลขนาดใกล้เคียงกัน ฉันอยากรู้ว่าคนอื่นใช้อะไรในสถานการณ์เช่นนี้ นี่ไม่ใช่ "ข้อมูลขนาดใหญ่" ในลักษณะที่ใช้ในปัจจุบัน หรือชุดข้อมูลของฉันมีขนาดเล็กพอที่จะเก็บไว้ในหน่วยความจำ ฉันต้องการโซลูชันที่สามารถใช้อัลกอริทึมกับข้อมูลที่เก็บไว้ในฮาร์ดไดรฟ์ นี่คือสิ่งที่ฉันได้ตรวจสอบเพื่อประโยชน์: R - BigMemory สามารถสร้างเมทริกซ์ที่เก็บไว้นอกหน่วยความจำได้ แต่องค์ประกอบจะต้องเป็นโหมดเดียวกัน ฉันทำงานกับข้อมูลที่เกือบ 50/50 แยกระหว่างตัวละครและตัวเลข แพ็คเกจ FF เข้าใกล้สิ่งที่ฉันต้องการ แต่ฉันไม่เข้าใจเลยว่าขั้นตอนใดบ้างที่เข้ากันได้ ฉันคิดว่าการสนับสนุนค่อนข้าง จำกัด Pandas - ฉันตื่นเต้นมากเกี่ยวกับทางเลือก Pythonic กับ R อย่างไรก็ตามมันก็ต้องเก็บข้อมูลทั้งหมดไว้ในหน่วยความจำด้วย Revolution R - อันนี้แสดงค่อนข้างสัญญา ฉันมีสำเนาบนคอมพิวเตอร์ที่บ้านของฉัน (ฟรีหากคุณสมัคร Kaggle) และยังไม่ได้ทดสอบว่าเป็นทางเลือกที่ทำงานได้กับ SAS ความคิดเห็นเกี่ยวกับ Revolution …
18 r  sas  large-data 

2
อะไรคือค่า“
อะไรคือค่า ให้ไว้ในบทสรุปของโมเดล coxph ใน R ตัวอย่างเช่น,R2R2R^2 Rsquare= 0.186 (max possible= 0.991 ) ฉันรวมบทความต้นฉบับอย่างโง่เขลาเป็นค่าและผู้ตรวจสอบเพิ่มขึ้นโดยบอกว่าเขาไม่ได้ตระหนักถึงอนาล็อกของ สถิติจากการถดถอยเชิงเส้นแบบคลาสสิกที่พัฒนาขึ้นสำหรับโมเดล Cox และหากมีสิ่งใดสิ่งหนึ่งโปรด ให้การอ้างอิง ความช่วยเหลือใด ๆ จะดีมาก!R 2R2R2R^2R2R2R^2

5
วิธีการสหสัมพันธ์ที่แข็งแกร่งแบบใดที่ใช้จริง
ฉันวางแผนที่จะทำการศึกษาแบบจำลองที่ฉันเปรียบเทียบประสิทธิภาพของเทคนิคความสัมพันธ์ที่แข็งแกร่งหลายอย่างกับการแจกแจงที่ต่างกัน (เบ้กับค่าผิดปกติ ฯลฯ ) ด้วยความแข็งแกร่งฉันหมายถึงกรณีในอุดมคติของการมีความแข็งแกร่งต่อก) การแจกแจงแบบเบ้, b) ค่าผิดปกติและ c) ก้อยที่หนัก นอกจากความสัมพันธ์ของเพียร์สันในฐานะที่เป็นพื้นฐานแล้วฉันยังคิดที่จะรวมมาตรการที่แข็งแกร่งกว่านี้ไว้ด้วย: Spearman's ρρ\rho เปอร์เซ็นต์ความสัมพันธ์โค้ง (Wilcox, 1994, [1]) รูปไข่ปริมาณต่ำสุด, ปัจจัยแปรปรวนร่วมขั้นต่ำ ( cov.mve/ cov.mcdพร้อมกับcor=TRUEตัวเลือก) อาจจะเป็นความสัมพันธ์ที่ได้รับรางวัล แน่นอนมีตัวเลือกมากมาย (โดยเฉพาะถ้าคุณรวมเทคนิคการถดถอยที่แข็งแกร่งเช่นกัน) แต่ฉันต้องการ จำกัด ตัวเองกับวิธีที่ใช้ส่วนใหญ่ / เป็นแนวโน้ม ตอนนี้ฉันมีสามคำถาม (อย่าลังเลที่จะตอบคำถามเดียวเท่านั้น): มีวิธีสหสัมพันธ์ที่แข็งแกร่งอื่น ๆ ที่ฉันสามารถ / ควรรวมไว้หรือไม่ เทคนิคการสหสัมพันธ์ที่แข็งแกร่งแบบใดที่ใช้ จริง ในสาขาของคุณ (การพูดเพื่อการวิจัยทางจิตวิทยายกเว้นสเปียร์แมนผมไม่เคยเห็นใด ๆ ที่แข็งแกร่งนอกเทคนิคความสัมพันธ์ของกระดาษเทคนิคร่วมมือจะได้รับความนิยมมากขึ้น แต่สถิติที่แข็งแกร่งอื่น ๆ มีมากหรือน้อยไม่ได้มีอยู่เพื่อให้ห่างไกล.)ρρ\rho มีการเปรียบเทียบเชิงเทคนิคของเทคนิคสหสัมพันธ์ที่คุณรู้จักหรือไม่? นอกจากนี้โปรดแสดงความคิดเห็นรายการวิธีการที่ระบุด้านบน [1] Wilcox, …


1
ควรคำนวณข้อผิดพลาดมาตรฐานสำหรับการประมาณตัวแบบผสมผลกระทบอย่างไร
โดยเฉพาะอย่างยิ่งควรคำนวณข้อผิดพลาดมาตรฐานของเอฟเฟกต์คงที่ในรูปแบบเอฟเฟกต์แบบผสมเชิงเส้นอย่างไร (ในแง่ที่ใช้บ่อย) ฉันได้รับนำไปสู่การเชื่อว่าประมาณการทั่วไป ( ) เช่นผู้ที่นำเสนอในสกอตแลนด์และสุขภัณฑ์ [1982] จะให้ SE ของที่ได้รับการประเมินในขนาดเพราะ องค์ประกอบความแปรปรวนโดยประมาณได้รับการปฏิบัติเสมือนเป็นค่าที่แท้จริงVar(β^)=(X′VX)−1Var(β^)=(X′VX)−1{\rm Var}(\hat\beta)=(X'VX)^{-1} ฉันสังเกตเห็นว่า SE ที่ผลิตโดยlmeและsummaryฟังก์ชันในnlmeแพ็คเกจสำหรับ R ไม่เท่ากับรากที่สองของเส้นทแยงมุมของเมทริกซ์แปรปรวน - ความแปรปรวนร่วมแปรปรวนที่ให้ไว้ข้างต้น พวกเขาคำนวณอย่างไร ฉันยังอยู่ภายใต้การแสดงผลที่ Bayesians ใช้ inverse gamma priors สำหรับการประเมินส่วนประกอบความแปรปรวน สิ่งเหล่านี้ให้ผลลัพธ์ที่เหมือนกัน (ในการตั้งค่าที่ถูกต้อง) เช่นเดียวกับlme?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.