สถิติและข้อมูลขนาดใหญ่ r

3

ฉันมีปัญหาในการใช้งานcor()และcor.test()ฟังก์ชั่น ฉันมีเมทริกซ์สองตัว (เฉพาะค่าตัวเลขและจำนวนแถวและคอลัมน์เดียวกัน) และฉันต้องการให้มีจำนวนสหสัมพันธ์และค่า p ที่สอดคล้องกัน เมื่อฉันใช้cor(matrix1, matrix2)ฉันได้รับค่าสัมประสิทธิ์สหสัมพันธ์สำหรับเซลล์ทั้งหมด ฉันแค่ต้องการตัวเลขเดียวเป็นผลมาจากคร นอกจากนี้เมื่อฉันcor.test(matrix1, matrix2)ฉันได้รับข้อผิดพลาดต่อไปนี้ Error in cor.test.default(matrix1, matrix2) : 'x' must be a numeric vector ฉันจะรับค่า p สำหรับเมทริกซ์ได้อย่างไร คุณพบตารางง่ายๆที่ฉันต้องการเชื่อมโยงที่นี่: http://dl.dropbox.com/u/3288659/table_exp1_offline_MEANS.csv http://dl.dropbox.com/u/3288659/table_exp2_offline_MEANS.csv

9 r correlation

2

วิธีการเลือกตัวแปรทางพันธุกรรมขั้นตอนวิธีใน R สำหรับตัวแปรอินพุต SVM?

ฉันใช้แพคเกจkernlabใน R เพื่อสร้าง SVM สำหรับการจำแนกข้อมูล SVM ทำงานได้อย่างดีในการให้ 'คาดการณ์' ของความแม่นยำที่เหมาะสมอย่างไรก็ตามรายการตัวแปรอินพุตของฉันมีขนาดใหญ่กว่าที่ฉันต้องการและฉันไม่แน่ใจว่ามีความสำคัญสัมพัทธ์ของตัวแปรที่แตกต่างกันอย่างไร ฉันต้องการใช้อัลกอริธึมทางพันธุกรรมเพื่อเลือกชุดย่อยของตัวแปรอินพุตที่สร้าง SVM ที่ได้รับการฝึกอบรม / เหมาะสมที่สุด ฉันต้องการความช่วยเหลือในการเลือกแพ็กเกจ R ที่จะใช้เมื่อพยายามใช้งาน GA นี้ (และอาจเป็นตัวอย่างสั้น ๆ ของ psuedo) ฉันดูแพ็คเกจ R GA / P ส่วนใหญ่อยู่ที่นั่น ( RGP , genalg , subselect , GALGO ) แต่ฉันกำลังดิ้นรนในเชิงแนวคิดเพื่อดูว่าฉันจะส่งผ่านฟังก์ชัน ksvm ของฉันเป็นส่วนหนึ่งของฟังก์ชั่นการออกกำลังกายและใส่ข้อมูลของฉันได้อย่างไร อาเรย์ตัวแปรเป็นกลุ่มประชากร ... ความช่วยเหลือความคิดหรือการผลักไปในทิศทางที่ถูกต้องได้รับสุดซึ้ง ขอบคุณ รหัสที่แก้ปัญหานี้เพิ่มด้านล่างในการแก้ไขในภายหลัง # Prediction function to …

9 r machine-learning svm genetic-algorithms

1

ปรับการเติบโตตามฤดูกาลในแต่ละเดือนโดยอิงตามฤดูกาลรายสัปดาห์

เป็นงานอดิเรกด้านฉันได้รับการสำรวจชุดเวลาการพยากรณ์ (โดยเฉพาะอย่างยิ่งการใช้ R) สำหรับข้อมูลของฉันฉันมีจำนวนการเข้าชมต่อวันสำหรับทุกวันย้อนกลับไปเกือบ 4 ปี ในข้อมูลนี้มีรูปแบบที่แตกต่างกัน: วันจันทร์ถึงวันศุกร์มีการเข้าชมจำนวนมาก (สูงสุดในวันจันทร์ / อังคาร) แต่มีน้อยกว่าในวันเสาร์ - อาทิตย์ บางครั้งของปีลดลง (เช่นการเข้าชมน้อยกว่ามากในช่วงวันหยุดของสหรัฐอเมริกาในช่วงฤดูร้อนแสดงการเติบโตน้อยลง) การเติบโตที่สำคัญปีต่อปี มันเป็นเรื่องดีที่จะสามารถคาดการณ์ปีที่จะมาถึงของข้อมูลนี้และใช้เพื่อปรับปรุงการเติบโตแบบเดือนต่อเดือน สิ่งสำคัญที่ทำให้ฉันมีมุมมองรายเดือนคือ: บางเดือนจะมีจันทร์ / อังคารมากกว่าเดือนอื่น ๆ (ซึ่งไม่สอดคล้องกันในช่วงหลายปีที่ผ่านมา) ดังนั้นเดือนที่เกิดขึ้นกับวันธรรมดาจะต้องมีการปรับตาม การสำรวจสัปดาห์ก็ดูเหมือนยากเนื่องจากระบบการกำหนดหมายเลขสัปดาห์เปลี่ยนจาก 52-53 ขึ้นอยู่กับปีและดูเหมือนว่าtsจะไม่จัดการเรื่องนั้น ฉันไตร่ตรองโดยเฉลี่ยในวันธรรมดาของเดือน แต่หน่วยผลลัพธ์นั้นค่อนข้างแปลก (การเติบโตในอัตราเฉลี่ยการเข้าชมวันทำงาน) และนั่นจะเป็นการทิ้งข้อมูลที่ถูกต้อง ฉันรู้สึกว่าข้อมูลประเภทนี้จะเป็นเรื่องธรรมดาในอนุกรมเวลา (เช่นการใช้ไฟฟ้าในอาคารสำนักงานอาจเป็นแบบนี้) ทุกคนมีคำแนะนำเกี่ยวกับวิธีการสร้างแบบจำลองโดยเฉพาะใน R? ข้อมูลที่ฉันทำงานด้วยนั้นค่อนข้างตรงไปตรงมามันเริ่มต้นจาก: [,1] 2008-10-05 17607 2008-10-06 36368 2008-10-07 40250 2008-10-08 39631 2008-10-09 40870 2008-10-10 35706 …

9 r time-series seasonality forecasting

2

จะทำการทดสอบ Wilcoxon ได้รับการจัดอันดับสำหรับข้อมูลการอยู่รอดใน R ได้อย่างไร?

สมมติว่าคุณมีข้อมูลการอยู่รอดเช่นนี้: obs <- data.frame( time = c(floor(runif(100) * 30), floor((runif(100)^2) * 30)), status = c(rbinom(100, 1, 0.2), rbinom(100, 1, 0.7)), group = gl(2,100) ) ในการทำการทดสอบการจัดอันดับบันทึกมาตรฐานหนึ่งสามารถใช้ survdiff(Surv(time, status) ~ group, data = obs, rho = 0) ขวา? แต่แล้วการทดสอบอื่น ๆ ล่ะ? คุณจะทำการทดสอบระดับเซ็นชื่อของวิลคอกซัน, การทดสอบเปโตหรือการทดสอบเฟลมิง - แฮร์ริงตันได้อย่างไร R มีความเป็นไปได้ที่จะทำการทดสอบ Wilcoxonแต่ฉันไม่พบวิธีที่จะให้การตรวจสอบมีการพิจารณา นอกจากนี้หมอระบุว่าการตั้งค่าrho = 1จะทำให้การทดสอบ "การเปลี่ยนแปลง …

9 r survival wilcoxon-signed-rank

4

คำสั่งที่มีประสิทธิภาพที่สุดในการเรียนรู้ LaTeX, Sweave, Beamer? [ปิด]

ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน3 ปีที่ผ่านมา ฉันสนใจที่จะเรียนรู้วิธีสร้างรายงานซ้ำจากรหัส R ของฉันและการสร้างภาพข้อมูล ggplot2 ฉันเข้าใจว่า LaTeX ดูเหมือนจะเป็นคำตอบที่เป็นไปได้และใช้กับ R ส่วนใหญ่ใช้ Sweave และสำหรับการนำเสนอจากผู้ใช้ R ถึง LaTeX ก็ใช้ Beamer คำถามของฉันคือสิ่งที่ฉันควรเรียนรู้ก่อนหรือสิ่งที่ฉันควรเรียนรู้พร้อมกัน? ฉันไม่รู้จัก Sweave หรือ LaTeX ฉันควรเรียนรู้ LaTeX (อย่างน้อยสักครู่) แล้วเรียนรู้ Sweave หรือคุณจะแนะนำให้เรียนรู้พวกเขาในเวลาเดียวกัน? ลิงก์ไปยังบทเรียนที่สนับสนุนคำตอบของคุณชื่นชมอย่างมาก

9 r

1

ตัวกรองอนุภาคในตัวอย่างโค้ดเล็ก ๆ น้อย ๆ

ฉันกำลังมองหาตัวอย่างรหัสง่ายๆของวิธีการเรียกใช้ตัวกรองอนุภาคในอาร์แพคเกจ pomp ปรากฏขึ้นเพื่อสนับสนุนบิตสเปซทางคณิตศาสตร์ของรัฐ แต่ตัวอย่างนั้นค่อนข้างยุ่งยากที่จะติดตามโดยทางโปรแกรม วิธีการโหลดข้อมูลที่สังเกตลงในวัตถุเอิกเกริก ตัวอย่างที่นี่: http://cran.r-project.org/web/packages/pomp/vignettes/intro_to_pomp.pdf ให้บอกว่าฉันมีไฟล์ csv ที่มี 1 คอลัมน์ของข้อมูลที่มีเสียงดังเป็นอินพุตและฉันต้องการเรียกใช้ผ่านตัวกรองอนุภาคเพื่อหวังว่าจะทำความสะอาดมันด้วยผลลัพธ์ที่ถูกประเมินไปยังไฟล์ csv อื่น y <- read.csv("C:/Dev/VeryCleverStatArb/inputData.csv", header=FALSE) #CSV to Pomp object ??? #Run Particle Filter #Write estimates to csv. ปัญหาหลักของตัวอย่างคือการโหลดข้อมูล csv ลงในวัตถุเอิกเกริก แบบจำลองอวกาศของรัฐที่ง่ายมากน่าจะเพียงพอสำหรับตอนนี้ ความคิดใด ๆ สำหรับ R- อยากรู้อยากเห็น?

9 r

1

พล็อตการทำนายที่แตกต่างจาก coxph การอยู่รอดและ rms cph

ฉันได้สร้างตัวเองรุ่นของฉันเพิ่มขึ้นเล็กน้อยจาก termplot ที่ฉันใช้ในตัวอย่างนี้คุณสามารถค้นหาได้ที่นี่ ฉันโพสต์ก่อนหน้านี้บนSOแต่ยิ่งฉันคิดเกี่ยวกับมันมากขึ้นฉันเชื่อว่านี่อาจเกี่ยวข้องกับการตีความของโมเดลอันตราย Cox Proportional มากกว่าการเข้ารหัสจริง ปัญหา เมื่อฉันมองไปที่พล็อตอัตราส่วนอันตรายผมคาดว่าจะมีจุดอ้างอิงที่ช่วงความเชื่อมั่นตามธรรมชาติคือ 0 และเป็นกรณีนี้เมื่อฉันใช้ CPH () จากrms packageแต่ไม่เมื่อฉันใช้ coxph (ที่) survival packageจาก พฤติกรรมที่ถูกต้องโดย coxph () และถ้าเป็นเช่นนั้นจุดอ้างอิงคืออะไร? นอกจากนี้ตัวแปรดัมมี่ใน coxph () มีช่วงเวลาและค่าอื่นที่ไม่ใช่e0e0e^0? ตัวอย่าง นี่คือรหัสทดสอบของฉัน: # Load libs library(survival) library(rms) # Regular survival survobj <- with(lung, Surv(time,status)) # Prepare the variables lung$sex <- factor(lung$sex, levels=1:2, labels=c("Male", …

9 r survival cox-model

2

เกิดข้อผิดพลาดเมื่อเรียกใช้ glmnet ใน multinomial [ปิด]

ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน9 เดือนที่ผ่านมา ปัญหาที่กล่าวถึงในคำถามนี้ได้รับการแก้ไขในรุ่น 1.7.3 ของแพ็คเกจ glmnet ฉันมีปัญหาบางอย่างในการใช้ glmnet กับ family = multinomial และสงสัยว่าได้พบสิ่งที่คล้ายกันหรืออาจบอกฉันได้ว่าฉันทำอะไรผิด เมื่อฉันใส่ข้อมูลจำลองของฉันเองข้อผิดพลาด "ข้อผิดพลาดในการใช้งาน (nz, 1, ค่ามัธยฐาน): สลัว (X) ต้องมีความยาวเป็นบวก" ได้รับรายงานเมื่อฉันทำงานcv.glmnetซึ่งนอกเหนือจากการพูดว่า "มันไม่ทำงาน" ไม่ได้ให้ข้อมูลกับฉันอย่างมหาศาล y=rep(1:3,20) #=> 60 element vector set.seed(1011) x=matrix(y+rnorm(20*3*10,sd=0.4),nrow=60) # 60*10 element matrix glm = glmnet(x,y,family="multinomial") #=> returns without error crossval = cv.glmnet(x,y,family="multinomial") …

9 r multinomial glmnet

2

วิธีปรับให้พอดีกับการถดถอยเช่นใน R?

ฉันมีข้อมูลอนุกรมเวลาที่ตัวแปรที่วัดได้นั้นเป็นจำนวนเต็มบวกแบบไม่ต่อเนื่อง (นับ) ฉันต้องการทดสอบว่ามีแนวโน้มสูงขึ้นเมื่อเวลาผ่านไป (หรือไม่) ตัวแปรอิสระ (x) อยู่ในช่วง 0-500 และตัวแปรที่ขึ้นต่อกัน (y) อยู่ในช่วง 0-8 ฉันคิดว่าฉันตอบคำถามนี้โดยปรับการถดถอยของแบบฟอร์มy = floor(a*x + b)โดยใช้กำลังสองน้อยที่สุดธรรมดา (OLS) ฉันจะทำสิ่งนี้โดยใช้ R (หรือ Python) ได้อย่างไร มีแพ็คเกจที่มีอยู่สำหรับมันหรือฉันดีกว่าที่จะเขียนอัลกอริทึมของตัวเอง? PS: ฉันรู้ว่านี่ไม่ใช่เทคนิคในอุดมคติ แต่ฉันต้องทำการวิเคราะห์ที่ค่อนข้างง่ายที่ฉันสามารถเข้าใจได้จริง - พื้นหลังของฉันคือชีววิทยาไม่ใช่คณิตศาสตร์ ฉันรู้ว่าฉันกำลังละเมิดสมมติฐานเกี่ยวกับข้อผิดพลาดในตัวแปรที่วัดได้และความเป็นอิสระของการวัดเมื่อเวลาผ่านไป

9 r regression python

4

วิธีการใช้ตัวแปรจำลองโดยใช้ตัวแปร n-1

ถ้าฉันมีตัวแปรที่มี 4 ระดับในทางทฤษฎีฉันต้องใช้ตัวแปร 3 ตัว ในทางปฏิบัติสิ่งนี้เกิดขึ้นจริงได้อย่างไร? ฉันจะใช้ 0-3 ฉันจะใช้ 1-3 และปล่อยว่างไว้ที่ 4 หรือไม่? ข้อเสนอแนะใด ๆ หมายเหตุ: ฉันจะทำงานในอาร์ UPDATE: จะเกิดอะไรขึ้นถ้าฉันใช้คอลัมน์เดียวที่ใช้ 1-4 สอดคล้องกับโฆษณา มันจะทำงานหรือแนะนำปัญหาหรือไม่

9 r regression categorical-data categorical-encoding

1

การแสดงสัดส่วนอย่างต่อเนื่อง

ฉันพยายามที่จะเห็นภาพข้อมูลผู้บริโภคบางส่วนซึ่งมี 4 หมวดหมู่ ผู้ใช้สามารถสลับไปมาระหว่างหมวดหมู่ต่างๆได้ฟรี ฉันต้องการเห็นสวิตช์สามหรือสี่อันล่าสุดสำหรับแต่ละคน ดังนั้นเราจะเริ่มต้นด้วยพล็อตที่มีคอลัมน์ที่มีสัดส่วน 4 แบบซ้อนกัน หลังจากนั้นเราก็จะได้ 16 เพราะแต่ละหมวดหมู่แบ่งออกเป็นสิ่งที่คนทำในครั้งก่อนแล้ว 64 และต่อ ๆ ไปจนกว่าถังขยะจะเล็กเกินไปที่จะเป็นประโยชน์ ฉันกำลังคิดว่าจะอยู่ระหว่างแผนภูมิ marimekko กับ barchart ที่ซ้อนกันหรือ dendro กรัมควรทำงานได้ แต่ฉันไม่รู้ด้วยซ้ำว่าจะเรียกว่าอะไร! หากใครสามารถช่วยกับประเภทของพล็อตที่ฉันควรจะใช้และถ้าคุณต้องการที่จะดีเป็นพิเศษวิธีการใช้ใน R แล้วฉันจะขอบคุณมาก

9 r data-visualization sankey-diagram

1

การคำนวณความน่าเชื่อถือระหว่างผู้ใช้ใน R พร้อมกับจำนวนเรตติ้งที่หลากหลาย?

วิกิพีเดียแสดงให้เห็นว่าวิธีหนึ่งที่จะดูที่ความน่าเชื่อถือระหว่างผู้ประเมินคือการใช้แบบจำลองผลกระทบแบบสุ่มเพื่อคำนวณintraclass สัมพันธ์ ตัวอย่างของความสัมพันธ์ภายใน intraclass พูดถึงการมอง σ2ασ2α+σ2ϵσα2σα2+σϵ2\frac{\sigma_\alpha^2}{\sigma_\alpha^2+\sigma_\epsilon^2} จากแบบจำลอง Yij=μ+αi+ϵijYij=μ+αi+ϵijY_{ij} = \mu + \alpha_i + \epsilon_{ij} "ที่ Y IJเป็นเจTHสังเกตในฉันTHกลุ่มμเป็นค่าเฉลี่ยโดยรวมไม่มีใครสังเกต, α ฉันเป็นผลสุ่มสังเกตร่วมกันโดยค่าทั้งหมดในกลุ่ม i และε IJเป็นคำที่ไม่มีใครสังเกตเสียง." นี่เป็นรูปแบบที่น่าสนใจโดยเฉพาะอย่างยิ่งเพราะในข้อมูลของฉันไม่มีผู้ให้คะแนนทุกสิ่ง (แม้ว่าส่วนใหญ่จะได้อันดับ 20+) และสิ่งต่าง ๆ ได้รับการจัดอันดับเป็นจำนวนตัวแปรหลายครั้ง (โดยปกติ 3-4) คำถาม # 0: "group i" ในตัวอย่างนั้น ("group i") เป็นการจัดกลุ่มสิ่งต่าง ๆ หรือไม่ คำถาม # 1: ถ้าฉันกำลังมองหาความน่าเชื่อถือระหว่างผู้ประเมินฉันไม่จำเป็นต้องมีโมเดลเอฟเฟกต์แบบสุ่มที่มีสองคำหนึ่งคำสำหรับผู้ประเมินและอีกหนึ่งสำหรับสิ่งที่ได้รับการจัดอันดับ ท้ายที่สุดแล้วทั้งคู่มีรูปแบบที่เป็นไปได้ คำถาม # 2: ฉันจะแสดงโมเดลนี้ใน …

9 r reliability random-effects-model agreement-statistics

4

ค้นหาช่วงความหนาแน่นของความน่าจะเป็น

ฉันมีเวกเตอร์ x <- c(1,2,3,4,5,5,5,6,6,6,6, 7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7, 7,7,7,7,7,7,7,7,8,8,8,8,9,9,9,10) (เวกเตอร์ที่แท้จริงของฉันมีความยาว> 10,000) และฉันต้องการหาช่วงเวลาที่ 90% ของความหนาแน่นอยู่ คือquantile(x, probs=c(0.05,0.95), type=5)ที่เหมาะสมที่สุดหรือมีวิธีอื่น ๆ ?

9 r

1

เส้นประในพล็อต ACF ใน R

ฉันกำลังอ่านหนังสือ 'Introductory Time Series with R' โดย Cowpertwait และ Metcalfe ในหน้า 36 ของมันกล่าวว่าเส้นอยู่ที่:{n} ผมเคยอ่านที่นี่ฟอรั่ม Rว่าสายอยู่ที่{n} - 1 / n ± 2 /n--√−1/n±2/n-1/n \pm 2/\sqrt{n}± 1.96 /n--√±1.96/n\pm 1.96/\sqrt{n} ฉันรันรหัสต่อไปนี้: b = c(3,1,4,1) acf(b) และผมเห็นว่าเส้นที่มีลักษณะที่จะปรากฏเป็นที่{4} เห็นได้ชัดว่าหนังสือผิด หรือฉันกำลังอ่านสิ่งที่เขียนผิด? ผู้เขียนกำลังพูดถึงสิ่งที่แตกต่างกันเล็กน้อยหรือไม่?± 1.96 /4-√±1.96/4\pm 1.96/\sqrt{4} * หมายเหตุฉันไม่สนใจข้อแตกต่างของรายละเอียดเล็กน้อย 1.96 กับ 2 ฉันคิดว่านี่เป็นเพียงผู้เขียนที่ใช้กฏของ thumb ของ 2 sd เทียบกับ …

9 r time-series

6

จะจัดกลุ่มตัวแปรให้เป็นมาตรฐาน / มาตรฐานใน R ได้อย่างไร?

ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ฟังก์ชั่นที่ฉันคุ้นเคยกับขนาดสเกลจากฐาน R, rescaleจาก ARM บางทีวิธีที่ดีที่สุดคือการใช้ตัวแปรบางส่วนของการใช้งานโดยระบุตัวแปรอย่างน้อยหนึ่งตัวเพื่อใช้เป็นตัวแปรการจัดกลุ่ม

9 r standardization centering

คำถามติดแท็ก r