คำถามติดแท็ก binary-data

ตัวแปรไบนารีรับหนึ่งในสองค่าโดยทั่วไปจะมีรหัสเป็น "0" และ "1"

1
วิธีการตีความสัมประสิทธิ์ระยะที่สองในการถดถอยตัวแปรเครื่องมือด้วยเครื่องมือไบนารีและตัวแปรภายนอกไบนารี?
(โพสต์ค่อนข้างยาวขออภัยมีข้อมูลพื้นหลังมากมายดังนั้นโปรดข้ามไปที่คำถามด้านล่าง) Intro:ฉันกำลังทำงานในโครงการที่เรากำลังพยายามที่จะระบุผลกระทบของตัวแปรภายนอกไบนารีบนผลอย่างต่อเนื่องปีเราได้สร้างเครื่องมือขึ้นมาซึ่งเราเชื่อมั่นอย่างยิ่งว่าจะได้รับการมอบหมายแบบสุ่มx1x1x_1YyyZ1z1z_1 ข้อมูล:ข้อมูลอยู่ในโครงสร้างแผงซึ่งมีการสังเกตการณ์ประมาณ 34,000 ครั้งกระจายไปทั่ว 1,000 หน่วยและประมาณ 56 ช่วงเวลา ใช้ค่า 1 สำหรับการสังเกตประมาณ 700 (2%) และทำประมาณ 3000 (9%) 111 (0.33%) สังเกตคะแนน 1 ทั้งและและมันก็เป็นสองเท่าแนวโน้มสำหรับข้อสังเกตที่จะทำคะแนน 1ถ้ามันยังคะแนน 1 z_1x1x1x_1Z1z1z_1Z1z1z_1x1x1x_1x1x1x_1Z1z1z_1 การประมาณ:เราประเมินโมเดล 2SLS ต่อไปนี้ผ่านขั้นตอน ivreg2 ของ Stata: x1=π0+π1Z1+ Z π+ vx1=π0+π1z1+Zπ+vx_1 = \pi_0 + \pi_1z_1 + \mathbf{Z}\mathbf{\pi} + v Y=β0+β1x* * * *1+ Z β+ uy=β0+β1x1∗+Zβ+uy …

3
ตัวแปรตัวบ่งชี้สำหรับข้อมูลไบนารี: {-1,1} vs {0,1}
ฉันสนใจในการโต้ตอบการรักษาตัวแปรร่วมในบริบทของการทดลอง / ทดลองควบคุมแบบสุ่มกับการรักษาแบบไบนารีตัวบ่งชี้ที่ได้รับมอบหมายTTTT ฉันได้เห็นทั้งและทั้งนี้ขึ้นอยู่กับวิธี / แหล่งที่มาที่เฉพาะเจาะจงสำหรับอาสาสมัครที่ได้รับการรักษาและไม่ได้รับการรักษาตามลำดับT={1,0}T={1,0}T=\{1,0\}T={1,−1}T={1,−1}T=\{1, -1\} มีกฎของหัวแม่มือเมื่อใช้หรือหรือไม่?{1,0}{1,0}\{1,0\}{1,−1}{1,−1}\{1, -1\} การตีความแตกต่างกันอย่างไร

1
การสร้างแบบจำลองอนุกรมเวลาไบนารีที่สัมพันธ์กันโดยอัตโนมัติ
อะไรคือวิธีปกติในการสร้างแบบจำลองอนุกรมเวลาไบนารี? มีกระดาษหรือหนังสือที่มีการรักษาไหม? ฉันคิดว่ากระบวนการแบบไบนารีที่มีความสัมพันธ์แบบอัตโนมัติที่แข็งแกร่ง บางอย่างเช่นสัญลักษณ์ของกระบวนการ AR (1) เริ่มต้นที่ศูนย์ Sayและ มีสัญญาณรบกวนสีขาว\ epsilon_t จากนั้นอนุกรมเวลาแบบไบนารี่(Y_t) _ {t \ ge 0} ที่กำหนดโดย Y_t = \ text {sign} (X_t) จะแสดงความสัมพันธ์อัตโนมัติซึ่งฉันต้องการแสดงด้วยรหัสต่อไปนี้X0= 0X0=0X_0 = 0Xt + 1= β1Xเสื้อ+ ϵเสื้อ,Xt+1=β1Xt+ϵt, X_{t+1} = \beta_1 X_t + \epsilon_t, εเสื้อϵt\epsilon_t( Yเสื้อ)t ≥ 0(Yt)t≥0(Y_t)_{t \ge 0}Yเสื้อ= sign ( Xเสื้อ)Yt=sign(Xt) Y_t = \text{sign}(X_t) set.seed(1) …

1
เป็นความคิดที่ดีหรือไม่ที่จะให้ "เครดิตบางส่วน" (ผลอย่างต่อเนื่อง) ในการฝึกอบรมการถดถอยโลจิสติก?
ฉันกำลังฝึกอบรมการถดถอยโลจิสติกส์เพื่อคาดการณ์ว่านักวิ่งคนใดที่มีแนวโน้มที่จะจบการแข่งขันที่ทรหด นักวิ่งน้อยมากที่จะเสร็จสิ้นการแข่งขันนี้ดังนั้นฉันจึงมีความไม่สมดุลระดับรุนแรงและเป็นตัวอย่างเล็ก ๆ ของความสำเร็จ ฉันรู้สึกเหมือนฉันจะได้รับบางดี "สัญญาณ" จากหลายสิบของนักวิ่งใครเกือบจะทำให้มัน (ข้อมูลการฝึกอบรมของฉันไม่เพียง แต่ทำให้เสร็จ แต่ยังรวมถึงข้อมูลที่ไม่เสร็จสมบูรณ์ด้วย) ฉันจึงสงสัยว่ามันเป็นความคิดที่น่ากลัวหรือไม่ที่จะรวมบางส่วนของ "เครดิตบางส่วน" ฉันมาพร้อมกับฟังก์ชั่นคู่สำหรับเครดิตบางส่วนทางลาดและโค้งโลจิสติกซึ่งอาจได้รับพารามิเตอร์ต่างๆ ความแตกต่างเพียงอย่างเดียวกับการถดถอยคือฉันจะใช้ข้อมูลการฝึกอบรมเพื่อทำนายผลลัพธ์ที่ได้รับการแก้ไขและต่อเนื่องแทนที่จะเป็นผลลัพธ์ไบนารี การเปรียบเทียบการคาดการณ์ของพวกเขาในชุดทดสอบ (โดยใช้การตอบกลับแบบไบนารี่) ฉันได้ผลลัพธ์ที่สรุปไม่ได้ - เครดิตบางส่วนของโลจิสติกดูเหมือนจะปรับปรุง R-squared, AUC, P / R เล็กน้อย แต่นี่เป็นเพียงความพยายามครั้งเดียว ตัวอย่างเล็ก ๆ ฉันไม่สนใจเกี่ยวกับการคาดการณ์ที่มีอคติอย่างสม่ำเสมอไปสู่ความสมบูรณ์ - สิ่งที่ฉันสนใจคือการจัดอันดับผู้เข้าแข่งขันให้ถูกต้องตามความเป็นไปได้ที่จะเสร็จหรืออาจประเมินความน่าจะเป็นของการทำ ฉันเข้าใจว่าการถดถอยโลจิสติกถือว่าความสัมพันธ์เชิงเส้นระหว่างตัวทำนายและบันทึกของอัตราต่อรองและเห็นได้ชัดว่าอัตราส่วนนี้ไม่มีการตีความที่แท้จริงถ้าฉันเริ่มยุ่งกับผลลัพธ์ ฉันแน่ใจว่านี่ไม่ใช่สมาร์ทจากมุมมองทางทฤษฎี แต่มันอาจช่วยให้ได้รับสัญญาณเพิ่มเติมและป้องกันการ overfitting (ฉันมีตัวทำนายเกือบเท่าความสำเร็จดังนั้นมันอาจเป็นประโยชน์ในการใช้ความสัมพันธ์กับการทำให้สมบูรณ์บางส่วนเป็นการตรวจสอบความสัมพันธ์กับการทำให้สมบูรณ์) วิธีนี้เคยใช้ในการฝึกอย่างรับผิดชอบหรือไม่? ไม่ว่าจะด้วยวิธีใดมีรุ่นอื่น ๆ ออกมาบ้างหรือบางทีอาจเป็นสิ่งที่จำลองแบบอัตราการเกิดอันตรายอย่างชัดเจนใช้ระยะทางมากกว่าระยะเวลาแทนซึ่งอาจเหมาะกว่าสำหรับการวิเคราะห์ประเภทนี้

1
อะไรคืออันตรายของการคำนวณสหสัมพันธ์ของเพียร์สัน (แทนที่จะเป็น tetrachoric) สำหรับตัวแปรไบนารีในการวิเคราะห์ปัจจัย?
ฉันทำการวิจัยเกี่ยวกับเกมเพื่อการศึกษาและบางโครงการในปัจจุบันของฉันเกี่ยวข้องกับการใช้ข้อมูลจากBoardGameGeek (BGG) และVideoGameGeek (VGG) เพื่อตรวจสอบความสัมพันธ์ระหว่างองค์ประกอบการออกแบบของเกม (เช่น "ตั้งอยู่ในสงครามโลกครั้งที่สอง", "เกี่ยวข้องกับลูกเต๋ากลิ้ง" ) และการจัดอันดับผู้เล่นของเกมเหล่านั้น (เช่นคะแนนจาก 10) องค์ประกอบการออกแบบเหล่านี้แต่ละรายการสอดคล้องกับแท็กในระบบ BGG หรือ VGG ดังนั้นองค์ประกอบแต่ละรายการจึงเป็นตัวแปรแบบแยกส่วน เกมมี 1 สำหรับทุกแท็กที่มีอยู่ในฐานข้อมูลของมันและ 0 สำหรับทุกแท็กที่ไม่มีอยู่ มีแท็กเหล่านี้อยู่หลายสิบแท็กดังนั้นฉันต้องการใช้การวิเคราะห์ปัจจัยเชิงสำรวจ (EFA) เพื่อสร้าง "แนว" จำนวนที่จัดการได้ซึ่งจับรูปแบบในการออกแบบเกม ให้คำปรึกษากับแหล่งข้อมูลหลายแห่งฉันเข้าใจว่าเนื่องจากฉันทำงานกับตัวแปรแบบแบ่งขั้วฉันควรใช้ความสัมพันธ์แบบpolychoric ( tetrachoricโดยเฉพาะที่นี่) แทนที่จะเป็นแบบเพียร์สันเมื่อมากับปัจจัยของฉัน (มีตัวเลือกอื่น ๆ เช่นการวิเคราะห์ลักษณะแฝง ออกไปข้างนอก แต่นี่คือสิ่งที่ฉันกำลังสำรวจ) จากความอยากรู้ฉันได้รับปัจจัยสองชุดหนึ่งชุดโดยใช้สหสัมพันธ์ของเพียร์สันและอีกชุดหนึ่งที่ใช้สหสัมพันธ์พอลิคอซิค (ปัจจัยจำนวนเดียวกันในแต่ละครั้ง) ปัญหาของฉันคือปัจจัยที่คำนวณโดยใช้สหสัมพันธ์ของเพียร์สันทำให้เข้าใจได้ง่ายขึ้นและตีความได้ง่ายกว่าปัจจัยที่คำนวณโดยใช้สหสัมพันธ์ของพอลิคอริก กล่าวอีกนัยหนึ่ง "ประเภท" จากชุดแรกของปัจจัยทำให้เข้าใจง่ายและสอดคล้องกับความเข้าใจของฉันเกี่ยวกับวิธีการออกแบบเกมโดยทั่วไป นั่นไม่ใช่กรณีสำหรับปัจจัยชุดที่สอง ในอีกด้านหนึ่งฉันต้องการตรวจสอบให้แน่ใจว่าฉันทำตามข้อสันนิษฐานของการทดสอบที่ฉันใช้อยู่แม้ว่ามันจะทำให้ผลลัพธ์ของฉันออกมาสวยน้อยลง ในอีกด้านหนึ่งฉันรู้สึกว่าส่วนหนึ่งของเป้าหมายของการวิเคราะห์ปัจจัยและการสร้างแบบจำลอง (กว้างขึ้น) คือการหาสิ่งที่มีประโยชน์และข้อมูลที่เป็นประโยชน์มากขึ้นก็จะปรากฏขึ้นเมื่อฉัน "ผิดกฎ" จำเป็นต้องมีแบบจำลองที่มีประโยชน์เพียงพอที่จะเกินดุลที่ละเมิดสมมติฐานของการทดสอบนี้หรือไม่? อะไรคือผลที่ตามมาจากการใช้เพียร์สันสหสัมพันธ์แทนที่จะเป็นพอลิคอร์ติก?

3
วิธีการเห็นภาพความดีแบบเบย์ของความเหมาะสมสำหรับการถดถอยโลจิสติก
สำหรับปัญหาการถดถอยแบบลอจิสติกแบบเบย์ฉันได้สร้างการแจกแจงการคาดการณ์หลัง ฉันสุ่มตัวอย่างจากการแจกแจงแบบคาดการณ์และได้รับตัวอย่างจำนวนมาก (0,1) สำหรับการสังเกตแต่ละครั้งที่ฉันมี การแสดงให้เห็นถึงความดีงามของพอดีนั้นน้อยกว่าที่น่าสนใจตัวอย่างเช่น พล็อตนี้แสดงตัวอย่าง 10,000 ตัวอย่าง + จุดข้อมูลที่สังเกตได้ (วิธีทางซ้ายสามารถสร้างเส้นสีแดงได้: ใช่แล้วนั่นคือการสังเกต) ปัญหาคือว่าพล็อตนี้ไม่ค่อยให้ข้อมูลและฉันจะมี 23 อันหนึ่งอันสำหรับแต่ละจุดข้อมูล มีวิธีที่ดีกว่าในการมองเห็นจุดข้อมูล 23 จุดพร้อมตัวอย่างหลังหรือไม่ ความพยายามอื่น: ความพยายามอื่นขึ้นอยู่กับกระดาษที่นี่

2
ขั้นตอนที่แนะนำสำหรับการวิเคราะห์ปัจจัยเกี่ยวกับข้อมูลแบบแบ่งขั้วด้วย R
ฉันต้องเรียกใช้การวิเคราะห์ปัจจัยบนชุดข้อมูลที่สร้างขึ้นจากตัวแปร dichotomous (0 = ใช่, 1 = ไม่) และฉันไม่รู้ว่าฉันกำลังอยู่ในเส้นทางที่ถูกต้องหรือไม่ ใช้ฉันจะสร้างเมทริกซ์ความสัมพันธ์ซึ่งผมทำงานtetrachoric() fa(data,factors=1)ผลลัพธ์ค่อนข้างใกล้เคียงกับผลลัพธ์ที่ฉันได้รับเมื่อใช้MixFactorแต่ไม่เหมือนกัน ไม่เป็นไรหรือคุณจะแนะนำขั้นตอนอื่นหรือไม่ เหตุใดจึงfa()ทำงานและfactanal()สร้างข้อผิดพลาด ( Fehler in solve.default(cv) : System ist für den Rechner singulär: reziproke Konditionszahl = 4.22612e-18)

1
R ตัวแปรเชิงเส้นถดถอยหมวดหมู่ "ซ่อน" ค่า
นี่เป็นเพียงตัวอย่างที่ฉันเจอหลายครั้งดังนั้นฉันจึงไม่มีข้อมูลตัวอย่าง ใช้แบบจำลองการถดถอยเชิงเส้นใน R: a.lm = lm(Y ~ x1 + x2) x1เป็นตัวแปรต่อเนื่อง x2เป็นหมวดหมู่และมีสามค่าเช่น "ต่ำ", "ปานกลาง" และ "สูง" อย่างไรก็ตามเอาต์พุตที่กำหนดโดย R จะเป็นดังนี้: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 ฉันเข้าใจว่า R แนะนำการเข้ารหัสแบบหลอกบางอย่างเกี่ยวกับปัจจัยดังกล่าว ( …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

3
สำหรับปัญหาการจำแนกถ้าตัวแปรคลาสมีการกระจายที่ไม่เท่ากันเราควรใช้เทคนิคใด?
สำหรับเช่น ถ้าฉันมีการให้คะแนนเครดิตระดับตัวแปรโดยมีสองคลาสดีและไม่ดีโดยที่ # (ดี) = 700 และ # (ไม่ดี) = 300 ฉันไม่ต้องการย่อข้อมูลของฉันให้สั้นลง ฉันควรใช้เทคนิคใด ฉันใช้ SVM แต่มันให้ผลดีกับการคาดการณ์ทั้งหมด

4
ฉันจะแก้ไขปัญหาการทำนายแบบไบนารีนี้ได้อย่างไร
ฉันมีชุดข้อมูลที่มีรูปแบบต่อไปนี้ มีมะเร็งผลไบนารี / ไม่มีมะเร็ง แพทย์ทุกคนในชุดข้อมูลได้เห็นผู้ป่วยทุกรายและตัดสินอย่างอิสระว่าผู้ป่วยเป็นมะเร็งหรือไม่ จากนั้นแพทย์จะให้ระดับความเชื่อมั่นของพวกเขาจาก 5 ที่การวินิจฉัยของพวกเขาถูกต้องและระดับความมั่นใจจะปรากฏในวงเล็บ ฉันได้ลองหลายวิธีเพื่อให้ได้การคาดการณ์ที่ดีจากชุดข้อมูลนี้ มันใช้งานได้ดีสำหรับฉันโดยเฉลี่ยทั่วทั้งหมอโดยไม่สนใจระดับความมั่นใจ ในตารางด้านบนที่มีการวินิจฉัยที่ถูกต้องสำหรับผู้ป่วย 1 และผู้ป่วย 2 แม้ว่าจะมีการกล่าวอย่างไม่ถูกต้องว่าผู้ป่วย 3 เป็นมะเร็งตั้งแต่ 2-1 คนส่วนใหญ่แพทย์คิดว่าผู้ป่วย 3 เป็นมะเร็ง ฉันยังลองวิธีที่เราสุ่มตัวอย่างหมอสองคนและถ้าพวกเขาไม่เห็นด้วยกันการลงคะแนนการตัดสินใจจะขึ้นอยู่กับว่าหมอคนไหนมีความมั่นใจมากขึ้น วิธีการนี้ประหยัดได้โดยที่เราไม่ต้องปรึกษาแพทย์จำนวนมาก แต่มันก็ช่วยเพิ่มอัตราความผิดพลาดได้อีกเล็กน้อย ฉันลองวิธีการที่เกี่ยวข้องซึ่งเราสุ่มเลือกหมอสองคนและถ้าพวกเขาไม่เห็นด้วยกันเราสุ่มเลือกอีกสองคน หากการวินิจฉัยอย่างใดอย่างหนึ่งข้างหน้าอย่างน้อยสองคะแนนโหวตแล้วเราจะแก้ไขสิ่งที่เป็นประโยชน์ในการวินิจฉัยว่า ถ้าไม่เราจะสุ่มตัวอย่างแพทย์เพิ่มขึ้นเรื่อย ๆ วิธีนี้ค่อนข้างประหยัดและไม่ทำผิดพลาดมากเกินไป ฉันไม่สามารถรู้สึกได้ว่าฉันขาดวิธีการที่ซับซ้อนกว่านี้ในการทำสิ่งต่าง ๆ ตัวอย่างเช่นฉันสงสัยว่ามีวิธีใดบ้างที่ฉันสามารถแบ่งชุดข้อมูลออกเป็นชุดฝึกอบรมและชุดทดสอบและหาวิธีที่เหมาะสมที่สุดในการรวมการวินิจฉัยและดูว่าน้ำหนักเหล่านั้นทำงานบนชุดทดสอบอย่างไร ความเป็นไปได้อย่างหนึ่งคือวิธีการบางอย่างที่ทำให้ฉันมีน้ำหนักตัวลดลงที่ทำผิดพลาดในชุดทดลองและอาจมีการวินิจฉัยที่มีความมั่นใจสูง (ความเชื่อมั่นมีความสัมพันธ์กับความถูกต้องในชุดข้อมูลนี้) ฉันมีชุดข้อมูลหลายชุดที่ตรงกับคำอธิบายทั่วไปนี้ดังนั้นขนาดของกลุ่มตัวอย่างจึงแตกต่างกันไปและชุดข้อมูลทั้งหมดไม่เกี่ยวข้องกับแพทย์ / ผู้ป่วย อย่างไรก็ตามในชุดข้อมูลนี้มีแพทย์ 40 คนที่แต่ละคนเห็นผู้ป่วย 108 คน แก้ไข: นี่คือลิงค์ไปยังน้ำหนักบางส่วนที่เป็นผลมาจากการอ่านคำตอบของ @ jeremy-miles ของฉัน ผลลัพธ์ที่ไม่ได้ถ่วงน้ำหนักอยู่ในคอลัมน์แรก จริงๆแล้วในชุดข้อมูลนี้ค่าความเชื่อมั่นสูงสุดคือ 4 …

5
วิธีการวัดประสิทธิภาพของลักษณนามเมื่อใกล้ถึง 100% ของเลเบลคลาสเป็นของคลาสเดียว?
ในข้อมูลของฉันฉันมีตัวแปรคลาสแสดงเป็นCค่าตัวแปรคลาสนี้คือ (ไบนารี) การสำรวจเกือบทั้งหมดเป็น 0 (ใกล้ 100% แม่นยำยิ่งขึ้น 97%) ฉันต้องการทดสอบ "ประสิทธิภาพ" สำหรับแบบจำลองการจำแนกประเภทที่แตกต่างกัน (อาจเป็นความแม่นยำ) สิ่งที่ฉันกลัวว่าจะเกิดขึ้นคือถ้าฉันมีรูปแบบการจำแนกที่จำแนกประเภทการสังเกตใด ๆ ในคลาส 0 เสมอโมเดลนั้นจะมีความแม่นยำ 97% (แม้ว่ามันจะไม่เคยพิจารณาตัวแปรอื่น ๆ ก็ตาม)คCC0 , 10,1{0, 1}คCC มีการทดสอบประสิทธิภาพที่รู้จักกันดีสำหรับแบบจำลองการจำแนกประเภทในการจัดการข้อมูลกับเหตุการณ์ที่เกิดขึ้นน้อยมากหรือไม่?

3
การคำนวณ Jaccard หรือสัมประสิทธิ์การเชื่อมโยงอื่น ๆ สำหรับข้อมูลไบนารีโดยใช้การคูณเมทริกซ์
ฉันต้องการทราบว่ามีวิธีใดที่เป็นไปได้ในการคำนวณสัมประสิทธิ์ Jaccard โดยใช้การคูณเมทริกซ์ ฉันใช้รหัสนี้ jaccard_sim <- function(x) { # initialize similarity matrix m <- matrix(NA, nrow=ncol(x),ncol=ncol(x),dimnames=list(colnames(x),colnames(x))) jaccard <- as.data.frame(m) for(i in 1:ncol(x)) { for(j in i:ncol(x)) { jaccard[i,j]= length(which(x[,i] & x[,j])) / length(which(x[,i] | x[,j])) jaccard[j,i]=jaccard[i,j] } } มันค่อนข้างโอเคที่จะนำไปใช้ในอาร์ฉันได้ทำลูกเต๋าที่มีความคล้ายคลึงกัน แต่ติดกับ Tanimoto / Jaccard ใครช่วยได้บ้าง

2
คำนวณ ROC curve สำหรับข้อมูล
ดังนั้นฉันมีการทดลอง 16 ครั้งที่ฉันพยายามพิสูจน์ตัวตนบุคคลจากลักษณะทางชีวภาพโดยใช้ Hamming Distance เกณฑ์ของฉันถูกตั้งไว้ที่ 3.5 ข้อมูลของฉันอยู่ด้านล่างและเฉพาะการทดลองใช้ 1 เท่านั้นคือ True Positive: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 จุดสับสนของฉันคือฉันไม่แน่ใจจริงๆเกี่ยวกับวิธีสร้าง ROC curve …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.