คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

1
ช่วงความมั่นใจถูกคำนวณสำหรับฟังก์ชัน ACF อย่างไร
ตัวอย่างเช่นใน R ถ้าคุณเรียกใช้acf()ฟังก์ชันมันจะทำการคำนวณ correlogram ตามค่าเริ่มต้นและดึงช่วงความมั่นใจ 95% ดูรหัสถ้าคุณโทรplot(acf_object, ci.type="white")คุณจะเห็น: qnorm((1 + ci)/2)/sqrt(x$n.used) เป็นขีด จำกัด สูงสุดของประเภทสัญญาณรบกวนสีขาว บางคนสามารถอธิบายทฤษฎีเบื้องหลังวิธีนี้ได้หรือไม่? ทำไมเราถึงได้ค่า qnorm เท่ากับ 1 + 0.95 แล้วหารด้วย 2 และหลังจากนั้นหารด้วยจำนวนการสังเกต

4
ตรวจจับจำนวนของจุดสูงสุดในการบันทึกเสียง
ฉันกำลังพยายามหาวิธีตรวจสอบจำนวนพยางค์ในคลังเสียงของการบันทึกเสียง ฉันคิดว่าพร็อกซีที่ดีอาจเป็นจุดสูงสุดในไฟล์ wave นี่คือสิ่งที่ฉันลองด้วยไฟล์ที่ฉันพูดเป็นภาษาอังกฤษ (กรณีการใช้งานจริงของฉันคือ Kiswahili) หลักฐานของการบันทึกตัวอย่างนี้คือ: "นี่คือฉันพยายามใช้ฟังก์ชั่นตัวตั้งเวลาฉันกำลังดูหยุดชั่วคราวการเปล่งเสียง" ในบทนี้มีทั้งหมด 22 พยางค์ ไฟล์ wav: https://www.dropbox.com/s/koqyfeaqge8t9iw/test.wav?dl=0 seewaveแพคเกจในการวิจัยเป็นสิ่งที่ดีและมีฟังก์ชั่นที่มีศักยภาพหลาย ก่อนอื่นให้นำเข้าไฟล์คลื่น library(seewave) library(tuneR) w <- readWave("YOURPATHHERE/test.wav") w # Wave Object # Number of Samples: 278528 # Duration (seconds): 6.32 # Samplingrate (Hertz): 44100 # Channels (Mono/Stereo): Stereo # PCM (integer format): TRUE # Bit (8/16/24/32/64): …

2
การถดถอยเมื่อแต่ละจุดมีความไม่แน่นอนใน
ฉันทำวัดสองตัวแปรxและy ที่ พวกเขาทั้งสองได้รู้จักความไม่แน่นอนσ xและσ y ที่เกี่ยวข้องกับพวกเขา ฉันอยากพบความสัมพันธ์ระหว่างxและy ที่ ฉันจะทำมันได้อย่างไรnnnxxxYyyσxσx\sigma_xσYσy\sigma_yxxxYyy แก้ไข : แต่ละมีที่แตกต่างกันσ x , ฉันที่เกี่ยวข้องกับมันและเช่นเดียวกันกับปีฉันxผมxix_iσx , iσx,i\sigma_{x,i}Yผมyiy_i ตัวอย่าง R ที่ทำซ้ำได้: ## pick some real x and y values true_x <- 1:100 true_y <- 2*true_x+1 ## pick the uncertainty on them sigma_x <- runif(length(true_x), 1, 10) # 10 sigma_y <- runif(length(true_y), …

1
วิธีที่เหมาะสมที่สุดในการแปลงสัดส่วนเมื่อเป็นตัวแปรอิสระคืออะไร
ฉันคิดว่าฉันเข้าใจปัญหานี้ แต่ตอนนี้ฉันไม่แน่ใจและฉันต้องการตรวจสอบกับผู้อื่นก่อนที่ฉันจะดำเนินการต่อ ฉันมีสองตัวแปรXและY. Yเป็นอัตราส่วนและไม่ได้ล้อมรอบด้วย 0 และ 1 และโดยทั่วไปแล้วจะกระจาย Xเป็นสัดส่วนและมันถูกล้อมรอบด้วย 0 และ 1 (มันวิ่งจาก 0.0 ถึง 0.6) เมื่อฉันเรียกใช้การถดถอยเชิงเส้นของY ~ Xและฉันพบว่าXและYมีความสัมพันธ์เชิงเส้นอย่างมีนัยสำคัญ จนถึงตอนนี้ดีมาก แต่แล้วผมตรวจสอบต่อไปและผมก็เริ่มคิดว่าบางทีXและY'ความสัมพันธ์อาจจะโค้งมากกว่าเชิงเส้น ให้ฉันดูเหมือนความสัมพันธ์ของXและYอาจจะใกล้ชิดกับY ~ log(X), Y ~ sqrt(X)หรือY ~ X + X^2, หรือสิ่งที่ต้องการ ฉันมีเหตุผลเชิงประจักษ์ที่จะถือว่าความสัมพันธ์นั้นอาจเป็นเส้นโค้ง แต่ไม่ใช่เหตุผลที่จะถือว่าความสัมพันธ์ที่ไม่ใช่เชิงเส้นใด ๆ อาจดีกว่าความสัมพันธ์อื่น ฉันมีคำถามที่เกี่ยวข้องสองสามข้อจากที่นี่ ก่อนอื่นXตัวแปรของฉันรับค่าสี่ค่า: 0, 0.2, 0.4 และ 0.6 เมื่อฉันล็อก - หรือสแควร์รูท - แปลงข้อมูลเหล่านี้ระยะห่างระหว่างค่าเหล่านี้จะผิดเพี้ยนเพื่อให้ค่า 0 อยู่ห่างจากค่าอื่นทั้งหมดมาก …

1
ค่าสัมประสิทธิ์ที่เหมือนกันประมาณในรูปแบบปัวซอง vs ควอซี - ปัวซอง
ในการสร้างแบบจำลองข้อมูลการนับการเรียกร้องในสภาพแวดล้อมการประกันภัยฉันเริ่มต้นด้วย Poisson แต่แล้วสังเกตเห็นการทับซ้อนกัน Quasi-Poisson เป็นแบบอย่างที่ดีกว่าความสัมพันธ์แปรปรวนที่ดีกว่า Poisson พื้นฐาน แต่ฉันสังเกตเห็นว่าสัมประสิทธิ์เป็นเหมือนกันทั้งใน Poisson และ Quasi-Poisson หากนี่ไม่ใช่ข้อผิดพลาดเหตุใดจึงเป็นเช่นนี้ การใช้ Quasi-Poisson บน Poisson มีประโยชน์อย่างไร สิ่งที่ควรทราบ: การสูญเสียที่อยู่ภายใต้พื้นฐานส่วนเกินซึ่ง (ฉันเชื่อว่า) ป้องกัน Tweedie จากการทำงาน - แต่มันเป็นการกระจายครั้งแรกที่ฉันพยายาม ฉันยังตรวจสอบรุ่นของ NB, ZIP, ZINB และ Hurdle แต่ก็ยังพบว่า Quasi-Poisson นั้นเหมาะสมที่สุด ฉันทดสอบการกระจายตัวเกินขนาดผ่านการทดสอบการกระจายในแพ็คเกจ AER พารามิเตอร์การกระจายของฉันอยู่ที่ประมาณ 8.4 โดยมีค่า p อยู่ที่ขนาด 10 ^ -16 ฉันกำลังใช้ glm () กับ family = …

2
วิธีแปลงค่าลบเป็นลอการิทึม
ฉันต้องการทราบวิธีแปลงค่าลบให้Log()เป็นเพราะฉันมีข้อมูลแบบเฮเทอโรเซด ฉันอ่านว่ามันใช้งานได้กับสูตรLog(x+1)แต่มันใช้ไม่ได้กับฐานข้อมูลของฉันและฉันได้รับ NaNs อย่างต่อเนื่อง เช่นฉันได้รับข้อความเตือนนี้ (ฉันไม่ได้ใส่ฐานข้อมูลที่สมบูรณ์เพราะฉันคิดว่าหนึ่งในค่าลบของฉันก็เพียงพอที่จะแสดงตัวอย่าง): > log(-1.27+1) [1] NaN Warning message: In log(-1.27 + 1) : NaNs produced > ขอบคุณล่วงหน้า UPDATE: นี่คือฮิสโตแกรมของข้อมูลของฉัน ฉันทำงานกับอนุกรมเวลาของการตรวจวัดสารเคมีในยุค palaeontological เช่นความแตกต่างระหว่างตัวแปรอย่าง Ca และ Zn นั้นใหญ่เกินไปจากนั้นฉันต้องการมาตรฐานข้อมูลบางประเภทนั่นคือเหตุผลที่ฉันกำลังทดสอบlog()ฟังก์ชั่น นี่คือข้อมูลดิบของฉัน
12 r  logarithm 

1
อะไรคือชื่อของวิธีการประมาณความหนาแน่นที่คู่ที่เป็นไปได้ทั้งหมดถูกใช้เพื่อสร้างการกระจายแบบผสมปกติ?
ฉันแค่คิดถึงวิธีที่เป็นระเบียบเรียบร้อย (ไม่จำเป็นต้องดี) ในการสร้างความหนาแน่นมิติหนึ่งและคำถามของฉันคือ: วิธีการประมาณความหนาแน่นนี้มีชื่อหรือไม่? ถ้าไม่ใช่มันเป็นกรณีพิเศษของวิธีอื่นในวรรณคดีหรือไม่? นี่คือวิธีการที่เรามีเวกเตอร์ซึ่งเราสันนิษฐานว่ามาจากการแจกแจงที่ไม่รู้จักที่เราต้องการประเมิน วิธีการทำเช่นนี้คือการใช้ค่าที่เป็นไปได้ทั้งหมดในXและสำหรับแต่ละคู่[ x i , x j ] i ≠ jเหมาะสมกับการแจกแจงแบบปกติโดยใช้โอกาสสูงสุด การประมาณความหนาแน่นของผลลัพธ์คือการกระจายตัวของส่วนผสมที่ประกอบด้วย Normals ที่ได้ทั้งหมดซึ่งแต่ละ Normal จะได้รับน้ำหนักเท่ากันX= [ x1, x2, . . . , xn]X=[x1,x2,...,xn]X = [x_1,x_2,...,x_n]XXX[ xผม, xJ]ฉัน≠ j[xi,xj]i≠j[x_i,x_j]_{i \neq j} รูปด้านล่างแสดงให้เห็นถึงการใช้วิธีนี้ในเวกเตอร์ ] ที่นี่วงกลมคือ datapoints, Normals สีคือการแจกแจงความน่าจะเป็นสูงสุดที่ประมาณโดยใช้แต่ละคู่ที่เป็นไปได้และเส้นสีดำหนาแสดงการประมาณความหนาแน่นที่เกิดขึ้น (นั่นคือการกระจายตัวของผสม)[ - 1.3 , 0.15 , 0.73 , …

1
เครื่องมือเพิ่มประสิทธิภาพ lme4 เริ่มต้นต้องการการวนซ้ำจำนวนมากสำหรับข้อมูลมิติสูง
TL; DR: lme4การเพิ่มประสิทธิภาพที่ดูเหมือนจะเป็นเชิงเส้นในจำนวนของพารามิเตอร์แบบโดยค่าเริ่มต้นและเป็นวิธีที่ช้ากว่าเทียบเท่าglmรุ่นด้วยตัวแปรดัมมี่สำหรับกลุ่ม มีอะไรที่ฉันสามารถทำได้เพื่อเร่งความเร็วหรือไม่ ฉันพยายามจัดวางโมเดล logit แบบลำดับชั้นที่ค่อนข้างใหญ่ (ประมาณ 50k แถว, 100 คอลัมน์, 50 กลุ่ม) การปรับโมเดล logit ปกติให้เข้ากับข้อมูล (ด้วยตัวแปรดัมมี่สำหรับกลุ่ม) ทำงานได้ดี แต่โมเดลลำดับชั้นดูเหมือนจะติดขัด: ขั้นตอนการปรับให้เหมาะสมครั้งแรกจะเสร็จสมบูรณ์ดี แต่ครั้งที่สองผ่านการทำซ้ำจำนวนมาก . แก้ไข:ฉันสงสัยว่าปัญหาส่วนใหญ่คือฉันมีพารามิเตอร์มากมายเพราะเมื่อฉันพยายามตั้งค่าmaxfnที่ต่ำกว่าจะให้คำเตือน: Warning message: In commonArgs(par, fn, control, environment()) : maxfun < 10 * length(par)^2 is not recommended. อย่างไรก็ตามการประมาณพารามิเตอร์ไม่ได้เปลี่ยนแปลงตลอดเวลาของการปรับให้เหมาะสมดังนั้นฉันยังคงสับสนเกี่ยวกับสิ่งที่ต้องทำ เมื่อฉันพยายามตั้งค่าmaxfnในตัวควบคุมเครื่องมือเพิ่มประสิทธิภาพ (แม้จะมีคำเตือน) ดูเหมือนว่าจะหยุดทำงานหลังจากการปรับให้เหมาะสมเสร็จแล้ว นี่คือรหัสบางส่วนที่สร้างปัญหาให้กับข้อมูลสุ่ม: library(lme4) set.seed(1) SIZE <- 50000 …

1
จะอ่านผลการทดสอบของ Dunn ได้อย่างไร?
ฉันจะอ่านผลลัพธ์จากการ ทดสอบของ Dunn ได้อย่างไร โดยเฉพาะค่าในตารางด้านล่างบอกอะไรฉัน ฉันมีข้อมูลที่ไม่ใช่พารามิเตอร์ใน 4 กลุ่มและฉันทำการทดสอบ Kruskal-Wallis ก่อนเพื่อยืนยันว่าการแจกแจงของกลุ่มแตกต่างจากชุดข้อมูลอื่นและชุดข้อมูลรวม จากนั้นฉันใช้การทดสอบของ Dunn เพื่อดูว่ากลุ่มใดแตกต่างกันซึ่งไม่ได้เป็นกลุ่ม library(dunn.test) dunn.test(data, g=area, kw=TRUE) Kruskal-Wallis rank sum test data: x and area Kruskal-Wallis chi-squared = 1730.4401, df = 3, p-value = 0 Comparison of x by area (No adjustment) Row Mean-| Col Mean | A B C …

3
ตัวเลือกยอดนิยมสำหรับการแสดงข้อมูล 4 มิติเป็นอย่างไร
สมมติว่าฉันมีข้อมูลสี่มิติต่อไปนี้ซึ่งสามอันดับแรกสามารถพิจารณาเป็นพิกัดได้และข้อมูลสุดท้ายถือเป็นค่าได้ c1, c2, c3, value 1, 2, 6, 0.456 34, 34, 12 0.27 12, 1, 66 0.95 ทำอย่างไรถึงจะเห็นภาพผลกระทบของสามพิกัดแรกที่ดีกว่าในค่าสุดท้ายได้อย่างไร ฉันตระหนักถึงสามวิธี หนึ่งคือพล็อต 3 มิติสำหรับสามพิกัดแรกที่มีขนาดของคะแนนเป็นค่าสี่ค่า แต่มันไม่ง่ายที่จะเห็นแนวโน้มในข้อมูล อีกอันหนึ่งคือการใช้ชุดข้อมูลพล็อต 3 มิติซึ่งแต่ละรายการมีการแก้ไขพิกัด อีกอันหนึ่งอาจจะเป็น "กราฟโครงสร้างบังตาที่เป็นช่อง" ในตาข่ายของ R. ไม่ใช่ sur eif สำหรับวัตถุประสงค์นี้ แต่ดูเหมือนเป็นเช่นนั้น

1
การถดถอยแบบลอจิสติกพร้อมเส้นโค้งการถดถอยใน R
ฉันพัฒนารูปแบบการถดถอยโลจิสติกส์โดยใช้ข้อมูลย้อนหลังจากฐานข้อมูลการบาดเจ็บระดับชาติของการบาดเจ็บที่ศีรษะในสหราชอาณาจักร ผลลัพธ์ที่สำคัญคืออัตราการเสียชีวิต 30 วัน (แสดงเป็นมาตรการ "เอาตัวรอด") มาตรการอื่น ๆ ที่มีหลักฐานที่ตีพิมพ์ว่ามีผลกระทบอย่างมีนัยสำคัญต่อผลลัพธ์ในการศึกษาก่อนหน้า ได้แก่ Year - Year of procedure = 1994-2013 Age - Age of patient = 16.0-101.5 ISS - Injury Severity Score = 0-75 Sex - Gender of patient = Male or Female inctoCran - Time from head injury to craniotomy in minutes …

1
t.test ส่งคืนข้อผิดพลาด“ data เป็นค่าคงที่”
R version 3.1.1 (2014-07-10) -- "Sock it to Me" > bl <- c(140, 138, 150, 148, 135) > fu <- c(138, 136, 148, 146, 133) > t.test(fu, bl, alternative = "two.sided", paired = TRUE) Error in t.test.default(fu, bl, alternative = "two.sided", paired = TRUE) : data are essentially constant จากนั้นฉันเปลี่ยนอักขระเพียงชุดเดียวในชุดข้อมูลของฉัน: …
12 r  t-test 

2
เหตุใด SAS PROC GLIMMIX จึงให้ความชันแบบสุ่มที่แตกต่างกันมากกว่า glmer (lme4) สำหรับ binomial glmm
ฉันเป็นผู้ใช้ที่คุ้นเคยกับ R มากขึ้นและพยายามประเมินความลาดแบบสุ่ม (ค่าสัมประสิทธิ์การเลือก) ประมาณ 35 คนตลอด 5 ปีสำหรับตัวแปรที่อยู่อาศัยสี่ตัว ตัวแปรการตอบสนองคือที่อยู่อาศัย "ที่ใช้" (1) หรือ "พร้อมใช้งาน" (0) ที่อยู่อาศัย ("ใช้" ด้านล่าง) ฉันใช้คอมพิวเตอร์ Windows 64 บิต ในรุ่น R 3.1.0 ฉันใช้ข้อมูลและการแสดงออกด้านล่าง PS, TH, RS และ HW เป็นเอฟเฟกต์คงที่ (มาตรฐานระยะทางที่วัดได้กับประเภทที่อยู่อาศัย) lme4 V 1.1-7 str(dat) 'data.frame': 359756 obs. of 7 variables: $ use : num 1 1 1 …

3
ทดสอบสัมประสิทธิ์การถดถอยโลจิสติกโดยใช้
เรื่องย่อ:มีทฤษฎีทางสถิติใดบ้างที่สนับสนุนการใช้การแจกแจงแบบ (มีองศาอิสระตามส่วนเบี่ยงเบนส่วนที่เหลือ) สำหรับการทดสอบสัมประสิทธิ์การถดถอยโลจิสติกมากกว่าการแจกแจงแบบปกติมาตรฐานหรือไม่?ttt บางเวลาที่ผ่านมาฉันค้นพบว่าเมื่อปรับโมเดลการถดถอยโลจิสติกใน SAS PROC GLIMMIX ภายใต้การตั้งค่าเริ่มต้นสัมประสิทธิ์การถดถอยโลจิสติกจะถูกทดสอบโดยใช้การแจกแจงแบบแทนการแจกแจงแบบปกติมาตรฐาน 1นั่นคือ GLIMMIX รายงานคอลัมน์ที่มีอัตราส่วนβ 1 / √ttt11^1 (ซึ่งผมจะเรียกZในส่วนที่เหลือของคำถามนี้) แต่ยังมีรายงานว่า "องศาความเป็นอิสระ" คอลัมน์เช่นเดียวกับP-value ขึ้นอยู่กับสมมติฐานทีจัดจำหน่ายสำหรับZกับองศาอิสระ ขึ้นอยู่กับการเบี่ยงเบนที่เหลือ - นั่นคือองศาอิสระ = จำนวนการสังเกตทั้งหมดลบด้วยจำนวนพารามิเตอร์ ที่ด้านล่างของคำถามนี้ฉันให้รหัสและผลลัพธ์ใน R และ SAS สำหรับการสาธิตและการเปรียบเทียบ 2β^1/var(β^1)−−−−−−√β^1/var(β^1)\hat{\beta}_1/\sqrt{\text{var}(\hat{\beta}_1)}zzzppptttzzz22^2 สิ่งนี้ทำให้ฉันสับสนเนื่องจากฉันคิดว่าสำหรับโมเดลเชิงเส้นแบบทั่วไปเช่นการถดถอยโลจิสติกไม่มีทฤษฎีทางสถิติที่จะสนับสนุนการใช้ -distribution ในกรณีนี้ แต่ฉันคิดว่าสิ่งที่เรารู้เกี่ยวกับกรณีนี้คือttt คือ "ปกติ" กระจายโดยปกติ;zzz การประมาณนี้อาจไม่ดีสำหรับตัวอย่างขนาดเล็ก อย่างไรก็ตามมันไม่สามารถสันนิษฐานได้ว่ามีการแจกแจงแบบtเราสามารถสมมติในกรณีของการถดถอยปกติzzzttt zzzttttttttt zzzttt ttt โดยทั่วไปมีการสนับสนุนจริง ๆ สำหรับสิ่งที่ GLIMMIX กำลังทำที่นี่นอกเหนือจากสัญชาตญาณที่อาจสมเหตุสมผลโดยทั่วไปหรือไม่ รหัส R: summary(glm(y …

1
การทำความเข้าใจผลลัพธ์จากการวิเคราะห์การไกล่เกลี่ยใน R
ฉันพยายามที่จะนำหัวของฉันไปรอบ ๆ แพคเกจสื่อกลางใน R โดยใช้บทความสั้นสำหรับแพคเกจ ฉันพยายามที่จะเข้าใจผลลัพธ์ของmediate()ฟังก์ชัน require("mediation") require("sandwich") data("framing") med.fit <- lm(emo ~ treat + age + educ + gender + income, data = framing) out.fit <- glm(cong_mesg ~ emo + treat + age + educ + gender + income, data = framing, family = binomial("probit")) summary(out.fit) # OR for …
12 r  mediation 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.