คำถามติดแท็ก ties

4
การวิเคราะห์การอยู่รอด: เวลาต่อเนื่องเทียบกับไม่ต่อเนื่อง
ฉันสับสนเกี่ยวกับวิธีการตัดสินใจว่าจะรักษาเวลาอย่างต่อเนื่องหรือไม่ต่อเนื่องในการวิเคราะห์การอยู่รอด โดยเฉพาะฉันต้องการใช้การวิเคราะห์การอยู่รอดเพื่อระบุตัวแปรระดับเด็กและครัวเรือนที่มีความคลาดเคลื่อนมากที่สุดในผลกระทบต่อการอยู่รอดของเด็กผู้ชายกับเด็กผู้หญิง (อายุไม่เกิน 5 ปี) ฉันมีชุดข้อมูลของอายุเด็ก (เป็นเดือน) พร้อมตัวบ่งชี้ว่าเด็กยังมีชีวิตอยู่อายุที่ตาย (เป็นเดือน) และตัวแปรระดับเด็กและครัวเรือนอื่น ๆ เนื่องจากเวลาถูกบันทึกไว้ในเดือนและเด็กทุกคนอายุต่ำกว่า 5 ปีจึงมีเวลาอยู่รอดหลายครั้ง (มักจะอยู่ในช่วงครึ่งปี: 0mos, 6mos, 12mos ฯลฯ ) จากสิ่งที่ฉันได้อ่านเกี่ยวกับการวิเคราะห์การอยู่รอดการมีเวลารอดหลายครั้งทำให้ฉันคิดว่าฉันควรจะรักษาเวลาโดยไม่ต่อเนื่อง อย่างไรก็ตามฉันได้อ่านการศึกษาอื่น ๆ หลายครั้งที่มีเวลาอยู่รอดเช่นบุคคลปี (และแน่นอนว่ามีเวลารอดชีวิตผูก) และวิธีการต่อเนื่องเช่น Cox สัดส่วนอันตรายที่ใช้ ฉันควรใช้เกณฑ์อะไรในการตัดสินใจว่าจะรักษาเวลาเป็นแบบต่อเนื่องหรือไม่ต่อเนื่อง สำหรับข้อมูลและคำถามของฉันการใช้แบบจำลองเวลาต่อเนื่อง (Cox, Weibull และอื่น ๆ ) ทำให้เข้าใจได้ง่ายสำหรับฉัน แต่ลักษณะที่ไม่ต่อเนื่องของข้อมูลของฉัน
20 survival  ties 

1
มีทางเลือกอื่นสำหรับการทดสอบ Kolmogorov-Smirnov สำหรับข้อมูลที่เชื่อมโยงกับการแก้ไขหรือไม่?
ฉันได้รับข้อมูลจำนวนมากจากตัวอย่างสองตัวอย่าง (ควบคุมและจัดการ) แต่ละค่ามีหลายพันค่าซึ่งต้องผ่านการทดสอบที่สำคัญใน R. ตามทฤษฎีค่าควรจะต่อเนื่อง แต่เนื่องจากการปัดเศษทำโดยซอฟต์แวร์การวัดที่พวกเขาไม่ได้ ' และพวกเขามีความผูกพัน การแจกแจงไม่เป็นที่รู้จักและรูปร่างของการควบคุมและการแจกแจงที่ได้รับการรักษาอาจแตกต่างกันดังนั้นฉันต้องการใช้การทดสอบแบบไม่อิงพารามิเตอร์เพื่อเปรียบเทียบว่าความแตกต่างระหว่างตัวอย่างมีความสำคัญสำหรับ 10 ปัจจัยที่แตกต่างกันหรือไม่ ฉันคิดว่าจะใช้การทดสอบ Kolmogorov-Smirnov แต่มันไม่เหมาะสำหรับความสัมพันธ์ ฉันเพิ่งสะดุดกับห้องสมุด R ใหม่ที่เรียกว่าการจับคู่ที่ดำเนินการทดสอบรุ่น bootstrap ของ KS และยอมรับความสัมพันธ์ ตอนนี้เป็นความคิดที่ดีจริง ๆ หรือฉันควรใช้การทดสอบอื่นแทนหรือไม่ และฉันจำเป็นต้องปรับค่า p หรือไม่?

4
การจัดการกับความสัมพันธ์น้ำหนักและการลงคะแนนเสียงใน kNN
ฉันกำลังเขียนโปรแกรมอัลกอริทึม kNN และต้องการทราบต่อไปนี้: ผูกแบ่ง: จะเกิดอะไรขึ้นหากไม่มีผู้ชนะอย่างชัดเจนในการลงคะแนนเสียงข้างมาก เช่นเพื่อนบ้านที่ใกล้ที่สุดทั้งหมดมาจากคลาสที่ต่างกันหรือสำหรับ k = 4 มี 2 เพื่อนบ้านจากคลาส A และ 2 เพื่อนบ้านจากคลาส B ใช่หรือไม่ จะเกิดอะไรขึ้นหากไม่สามารถระบุเพื่อนบ้านที่ใกล้ที่สุดได้อย่างแน่นอนเพราะมีเพื่อนบ้านที่มีระยะทางเท่ากัน? เช่นสำหรับรายการของระยะทาง(x1;2), (x2;3.5), (x3;4.8), (x4;4.8), (x5;4.8), (x6;9.2)มันเป็นไปไม่ได้ที่จะกำหนด k = 3 หรือ k = 4 เพื่อนบ้านที่ใกล้ที่สุดเพราะเพื่อนบ้านที่ 3 ถึงที่ 5 มีระยะห่างเท่ากัน น้ำหนัก: ฉันอ่านว่าเป็นการดีที่จะยกน้ำหนักเพื่อนบ้านที่ใกล้ที่สุด k- ก่อนที่จะเลือกชั้นเรียนที่ชนะ มันทำงานอย่างไร คือน้ำหนักของเพื่อนบ้านเป็นอย่างไรและชั้นเรียนจะถูกกำหนดอย่างไร? ทางเลือกโหวตเสียงข้างมาก: มีกฎ / กลยุทธ์อื่น ๆ ในการพิจารณาระดับที่ชนะนอกเหนือจากการลงคะแนนเสียงข้างมากหรือไม่?

1
ทำไมความสัมพันธ์จึงยากนักในสถิติที่ไม่มีพารามิเตอร์
ข้อความที่ไม่ใช่พารามิเตอร์ของฉัน, สถิติ Nonparametric เชิงปฏิบัติของฉันมักจะให้สูตรที่สะอาดสำหรับการคาดหวังความแปรปรวนสถิติการทดสอบและสิ่งที่คล้ายกัน แต่รวมถึงข้อแม้ที่ใช้งานได้เฉพาะถ้าเราไม่สนใจความสัมพันธ์ เมื่อทำการคำนวณสถิติ Mann-Whitney U ขอแนะนำให้คุณโยนคู่ที่ผูกเมื่อเปรียบเทียบซึ่งใหญ่กว่า ฉันได้รับความสัมพันธ์นั้นไม่ได้บอกอะไรเราจริงๆเกี่ยวกับประชากรที่ใหญ่กว่า (ถ้านั่นคือสิ่งที่เราสนใจ) เนื่องจากไม่มีกลุ่มใดที่ใหญ่กว่ากลุ่มอื่น ๆ แต่ดูเหมือนว่ามันจะไม่สำคัญสำหรับการพัฒนาการแจกแจงแบบเชิงกำกับ ทำไมจึงเป็นเช่นนี้ความไม่แน่นอนในการจัดการความสัมพันธ์ในขั้นตอนที่ไม่ใช่พารามิเตอร์บางอย่าง? มีวิธีการดึงข้อมูลที่เป็นประโยชน์ใด ๆ จากความสัมพันธ์มากกว่าเพียงแค่ทิ้งพวกเขาไปหรือไม่? แก้ไข: ในส่วนที่เกี่ยวกับความเห็นของ @ whuber ฉันได้ตรวจสอบแหล่งที่มาของฉันอีกครั้งและบางขั้นตอนใช้ค่าเฉลี่ยของอันดับแทนที่จะลดค่าที่ผูกไว้อย่างสมบูรณ์ ในขณะนี้ดูเหมือนจะมีเหตุผลมากขึ้นในการอ้างอิงถึงการเก็บรักษาข้อมูล แต่สำหรับฉันแล้วมันก็ยังขาดความแม่นยำเช่นกัน อย่างไรก็ตามจิตวิญญาณของคำถามยังคงอยู่

2
“ ไม่ควรมีความสัมพันธ์” ในการทดสอบ Kolmgorov-Smirnov หนึ่งตัวอย่างใน R
ฉันจะใช้การทดสอบ Kolmogorov-Smirnov เพื่อทดสอบความปกติของ MYDATA ใน R นี่เป็นตัวอย่างของสิ่งที่ฉันทำ ks.test(MYDATA,"pnorm",mean(MYDATA),sd(MYDATA)) นี่คือผลลัพธ์ R ให้ฉัน: data: MYDATA D = 0.13527, p-value = 0.1721 alternative hypothesis: two-sided Warning message: In ks.test(MYDATA, "pnorm", mean(MYDATA), sd(MYDATA)) : ties should not be present for the Kolmogorov-Smirnov test ฉันคิดว่ามีปัญหา "ความสัมพันธ์" หมายถึงอะไรในคำเตือนนี้

1
ความไม่สอดคล้องกันเล็กน้อยระหว่างฟังก์ชัน R ในตัว Kruskal-Wallis และการคำนวณด้วยตนเอง
ฉันสับสนในเรื่องต่อไปนี้และฉันไม่สามารถหาคำตอบที่อื่นได้ ฉันพยายามเรียนรู้ R ในขณะที่ทำสถิติและในการออกกำลังกายฉันพยายามตรวจสอบผลลัพธ์ของฟังก์ชั่น R ในตัวอีกครั้งโดยทำสิ่งเหล่านี้ 'ด้วยมือ' ตามที่เป็นอยู่ในอาร์อย่างไรก็ตาม สำหรับการทดสอบ Kruskal-Wallis ฉันได้รับผลลัพธ์ที่แตกต่างกันไปและฉันไม่สามารถหาสาเหตุได้ ตัวอย่างเช่นฉันกำลังดูข้อมูลต่อไปนี้ที่แจกในแบบฝึกหัด activity <- c(2, 4, 3, 2, 3, 3, 4, 0, 4, 3, 4, 0, 0, 1, 3, 1, 2, 0, 3, 1, 0, 3, 4, 0, 1, 2, 2, 2, 3, 2) group <- c(rep("A", 11), rep("B", 10), …

3
ผิดหรือไม่ที่จะกระวนกระวายใจก่อนที่จะทำการทดสอบ Wilcoxon?
ฉันเขียนสคริปต์ทดสอบข้อมูลโดยใช้wilcox.testแต่เมื่อฉันได้ผลลัพธ์ผลลัพธ์ค่า p ทั้งหมดที่เท่ากับ 1 ฉันอ่านในบางเว็บไซต์ที่คุณสามารถใช้ jitter ก่อนทดสอบข้อมูล (เพื่อหลีกเลี่ยงความสัมพันธ์ตามที่กล่าวไว้) ฉันทำสิ่งนี้และตอนนี้ฉันมีผลลัพธ์ที่ยอมรับได้ การทำเช่นนี้ผิดหรือเปล่า? test<- function(column,datacol){ library(ggplot2) t=read.table("data.txt", stringsAsFactors=FALSE) uni=unique(c(t$V9)) for (xp in uni) { for(yp in uni) { testx <- subset(t, V9==xp) testy <- subset(t, V9==yp) zz <- wilcox.test(testx[[datacol]],jitter(testy[[datacol]])) p.value <- zz$p.value } } } นี่คือผลลัพธ์ของ dput(head(t)) structure(list(V1 = c(0.268912, 0.314681, 0.347078, 0.286945, …
9 r  nonparametric  ties 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.