คำถามติดแท็ก binary-data

ตัวแปรไบนารีรับหนึ่งในสองค่าโดยทั่วไปจะมีรหัสเป็น "0" และ "1"

1
สัญชาตญาณของตัวอย่างที่แลกเปลี่ยนได้ภายใต้สมมติฐานว่างคืออะไร
การทดสอบการเปลี่ยนรูป (เรียกอีกอย่างว่าการทดสอบแบบสุ่มการทดสอบแบบสุ่มอีกครั้งหรือการทดสอบที่แน่นอน) มีประโยชน์มากและมีประโยชน์เมื่อสมมติฐานของการแจกแจงปกติที่ต้องการโดยตัวอย่างเช่นt-testไม่พบและเมื่อการเปลี่ยนแปลงของค่าโดยการจัดอันดับ การทดสอบแบบไม่มีพารามิเตอร์Mann-Whitney-U-testจะนำไปสู่การสูญเสียข้อมูลมากขึ้น อย่างไรก็ตามไม่ควรมองข้ามสมมุติฐานข้อเดียวและข้อเดียวเพียงข้อเดียวเมื่อใช้การทดสอบชนิดนี้คือข้อสมมติฐานของความสามารถแลกเปลี่ยนได้ของตัวอย่างภายใต้สมมติฐานว่าง เป็นที่น่าสังเกตว่าวิธีการแบบนี้สามารถใช้ได้เมื่อมีตัวอย่างมากกว่าสองตัวอย่างเช่นสิ่งที่นำไปใช้ในcoinแพ็คเกจ R คุณช่วยกรุณาใช้ภาษาที่เป็นรูปเป็นร่างหรือปรีชาเชิงแนวคิดในภาษาอังกฤษธรรมดาเพื่อแสดงสมมติฐานนี้ได้หรือไม่? นี่จะมีประโยชน์มากในการอธิบายปัญหาที่ถูกมองข้ามในหมู่ผู้ที่ไม่ใช่นักสถิติเช่นฉัน หมายเหตุ: จะเป็นประโยชน์อย่างมากหากพูดถึงกรณีที่การใช้การทดสอบการเปลี่ยนแปลงไม่ถือหรือไม่ถูกต้องภายใต้สมมติฐานเดียวกัน ปรับปรุง: สมมติว่าฉันมี 50 วิชาที่รวบรวมจากคลินิกท้องถิ่นในเขตของฉันโดยการสุ่ม พวกเขาถูกสุ่มให้รับยาหรือยาหลอกในอัตราส่วน 1: 1 พวกเขาทั้งหมดถูกวัดสำหรับ Paramerter 1 Par1ที่ V1 (พื้นฐาน), V2 (3 เดือนต่อมา) และ V3 (1 ปีต่อมา) วิชาทั้งหมด 50 กลุ่มสามารถแบ่งเป็น 2 กลุ่มตามคุณสมบัติ A; ค่าบวก = 20 และค่าลบ = 30 นอกจากนี้ยังสามารถจัดกลุ่มย่อยได้อีก 2 กลุ่มตามคุณลักษณะ B; B positive = …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

5
การจำแนกข้อความแบบชั้นเดียวทำอย่างไร?
ฉันต้องจัดการกับปัญหาการจำแนกข้อความ โปรแกรมรวบรวมข้อมูลเว็บรวบรวมข้อมูลหน้าเว็บของโดเมนบางโดเมนและสำหรับแต่ละหน้าเว็บฉันต้องการทราบว่าเป็นของชั้นเรียนเฉพาะหรือไม่ นั่นคือถ้าผมเรียกชั้นนี้บวกแต่ละหน้าเว็บรวบรวมข้อมูลเป็นอย่างใดอย่างหนึ่งในชั้นเรียนในเชิงบวกหรือไปเรียนไม่ใช่ในเชิงบวก ฉันมีการฝึกอบรมชุดใหญ่ของหน้าเว็บสำหรับการเรียนในเชิงบวก แต่จะสร้างชุดการฝึกอบรมสำหรับชั้นเรียนNon-Positiveซึ่งเป็นตัวแทนได้อย่างไร ฉันหมายความว่าฉันสามารถใช้ทุกอย่างโดยพื้นฐานสำหรับชั้นเรียนนั้นได้ ฉันสามารถรวบรวมหน้าเว็บตามอำเภอใจบางอย่างที่ไม่ได้เป็นของPositive Positiveหรือไม่? ฉันแน่ใจว่าประสิทธิภาพของอัลกอริทึมการจัดหมวดหมู่ข้อความ (ฉันต้องการใช้อัลกอริทึม Naive Bayes) ขึ้นอยู่กับว่าฉันเลือกเว็บเพจแบบไหนสำหรับคลาสที่ไม่เป็นบวก แล้วฉันจะทำยังไงดี? ใครช่วยกรุณาให้คำแนะนำกับฉันได้ไหม ขอบคุณมาก!

1
กำลังมองหาขั้นตอนผ่านตัวอย่างของการวิเคราะห์ปัจจัยเกี่ยวกับข้อมูลแบบแบ่งขั้ว (ตัวแปรไบนารี) โดยใช้ R
ฉันมีข้อมูลแบบแบ่งขั้วมีเพียงตัวแปรไบนารีเท่านั้นและเจ้านายของฉันขอให้ฉันทำการวิเคราะห์ปัจจัยโดยใช้เมทริกซ์สหสัมพันธ์ tetrachoric ก่อนหน้านี้ฉันสามารถสอนตัวเองถึงวิธีการวิเคราะห์ที่แตกต่างกันตามตัวอย่างที่นี่และที่เว็บไซต์สถิติของ UCLAและเว็บไซต์อื่น ๆ เช่นนี้ แต่ฉันไม่สามารถหาขั้นตอนผ่านตัวอย่างของการวิเคราะห์ปัจจัยบน dichotomous ข้อมูล (ตัวแปรไบนารี) โดยใช้ R ฉันเห็นการตอบสนองของ chl ต่อคำถามที่ค่อนข้างคล้ายคลึงกันและฉันก็เห็นคำตอบของ ttnphnsด้วย แต่ฉันกำลังมองหาบางสิ่งที่สะกดได้มากกว่านี้อีกขั้นจากตัวอย่างที่ฉันสามารถใช้งานได้ ไม่มีใครที่นี่รู้ขั้นตอนดังกล่าวผ่านตัวอย่างของการวิเคราะห์ปัจจัยในตัวแปรไบนารีโดยใช้ R หรือไม่? อัปเดต 2012-07-11 22: 03: 35Z ฉันควรเพิ่มว่าฉันกำลังทำงานกับเครื่องมือที่กำหนดขึ้นซึ่งมีสามมิติซึ่งเราได้เพิ่มคำถามเพิ่มเติมและตอนนี้เราหวังว่าจะพบสี่มิติที่แตกต่างกัน นอกจากนี้ขนาดตัวอย่างของเรามีเพียงและขณะนี้เรามี19รายการ ฉันเปรียบเทียบขนาดตัวอย่างและจำนวนรายการของเรากับบทความจิตวิทยาจำนวนหนึ่งและเราอยู่ในระดับล่างสุด แต่เราต้องการลองต่อไป แม้ว่านี่จะไม่สำคัญสำหรับขั้นตอนในตัวอย่างที่ฉันกำลังมองหาและตัวอย่างของ caracal ด้านล่างดูน่าทึ่งจริงๆ ฉันจะใช้วิธีของฉันผ่านมันโดยใช้ข้อมูลของฉันเป็นสิ่งแรกในตอนเช้าn = 153n=153n=153191919

1
การแบ่งความแปรปรวนและการเปลี่ยนแปลงตามยาวที่สัมพันธ์กับข้อมูลไบนารี
ฉันกำลังวิเคราะห์ข้อมูลเกี่ยวกับนักเรียน 300,000 คนใน 175 โรงเรียนที่มีรูปแบบเอฟเฟกต์แบบผสมเชิงเส้นเชิงโลจิสติก (การสกัดแบบสุ่ม) นักเรียนแต่ละคนเกิดขึ้นเพียงครั้งเดียวและข้อมูลมีระยะเวลา 6 ปี ฉันจะแบ่งความแตกต่างระหว่างระดับโรงเรียนและระดับนักเรียนได้อย่างไรในทำนองเดียวกันกับ VPC / ICC สำหรับผลลัพธ์อย่างต่อเนื่อง ฉันได้เห็นนี้บทความซึ่งนำเสนอ 4 วิธีการที่ A และ B ปรากฏที่น่าสนใจกับผม แต่ผมอยากจะรู้ว่าสิ่งที่ข้อดี / ข้อเสียอาจจะมีการใช้ทั้งสองเหล่านี้และแน่นอนว่ามีวิธีอื่น ๆ ที่จะทำ มัน. ฉันจะเปรียบเทียบความแปรปรวนของระดับที่เหลือของโรงเรียนในแต่ละปีได้อย่างไร (หรือช่วงเวลาอื่น) เพื่อให้ห่างไกลฉันได้กระทำนี้โดยการหารข้อมูลโดยปีและทำงานกับรูปแบบในแต่ละปีของข้อมูล แต่ฉันคิดว่านี่เป็นข้อบกพร่องเนื่องจาก i) ไม่มีเหตุผลที่ชัดเจนว่าทำไมฉันควรจะแยกจากปี ; และ ii) เนื่องจากการประเมินผลคงที่แตกต่างกันไปในแต่ละปีการเปรียบเทียบผลกระทบแบบสุ่มทุกปีอาจไม่สมเหตุสมผล (นี่เป็นเพียงสัญชาตญาณของฉันมันจะดีมากถ้ามีใครสามารถอธิบายเรื่องนี้ได้อย่างเป็นทางการถ้ามันถูกต้อง) หมายเหตุ: ฉันเขียนคำถามนี้อีกครั้งหลังจากการสนทนาใน metaกับ whuber และ Macro


2
มีแพ็คเกจ R สำหรับการตอบสนองแบบไบนารีตามยาวหรือไม่?
bildแพคเกจที่ดูเหมือนจะเป็นแพคเกจที่ยอดเยี่ยมสำหรับการตอบสนองไบนารีแบบอนุกรม แต่มันเป็นเวลาที่ไม่ต่อเนื่อง ฉันต้องการระบุฟังก์ชั่นที่ราบรื่นของเวลาสำหรับการเชื่อมต่ออัตราส่วนอัตราต่อรองของการตอบสนองปัจจุบัน Y ด้วยการตอบสนองแบบไบนารีที่วัดได้ในเวลาก่อนหน้าหรืออย่างน้อยรุ่นมาร์คอฟอันดับหนึ่งของสิ่งนี้ ฉันเชื่อว่าสิ่งนี้เรียกว่าการถดถอยโลจิสติกสำรอง ไม่มีใครรู้ว่าแพคเกจ R ที่จัดการเวลาอย่างต่อเนื่องคือเวลาการวัดสามารถติดตามเวลาใด ๆ ? ฉันไม่ต้องการเอฟเฟกต์แบบสุ่มในโมเดล

1
LARS เทียบกับโคตรของโคตร
ข้อดีและข้อเสียของการใช้ LARS [1] เมื่อเทียบกับการใช้โคตรของพิกัดสำหรับการถดถอยเชิงเส้นแบบ L1 ที่เหมาะสมคืออะไร ฉันสนใจในเรื่องของประสิทธิภาพเป็นหลัก (ปัญหาของฉันมักจะNอยู่ในหลักแสนและp<20) อย่างไรก็ตามข้อมูลเชิงลึกอื่น ๆ ก็จะได้รับการชื่นชมเช่นกัน แก้ไข: เนื่องจากฉันได้โพสต์คำถาม, chl ได้ชี้ให้เห็นกระดาษ [2] โดย Friedman และคณะที่พิกัดโคตรถูกแสดงว่าเร็วกว่าวิธีอื่นมาก หากเป็นกรณีนี้ฉันควรเป็นผู้ประกอบการเพียงแค่ลืมเกี่ยวกับ LARS ในความโปรดปรานของการสืบเชื้อสายมาประสานงาน? [1] Efron, Bradley; Hastie เทรเวอร์; Johnstone, Iain และ Tibshirani, Robert (2004) "การถดถอยมุมน้อยที่สุด" พงศาวดารของสถิติ 32 (2): pp 407–499 [2] Jerome H. Friedman, Trevor Hastie, Rob Tibshirani, "เส้นทางการทำให้เป็นมาตรฐานสำหรับตัวแบบเชิงเส้นทั่วไปผ่านพิกัดโคตร", วารสารซอฟท์แวร์สถิติ, อัตรา …

2
วิธีการเลือกความกว้างถังที่ดีที่สุดในขณะที่การสอบเทียบโมเดลความน่าจะเป็นเป็นอย่างไร
ความเป็นมา:มีคำถาม / คำตอบที่ดีเกี่ยวกับวิธีการปรับเทียบแบบจำลองซึ่งทำนายความน่าจะเป็นของผลลัพธ์ที่เกิดขึ้น ตัวอย่างเช่น คะแนนหนาม , และการสลายตัวของมันเข้าไปในความละเอียดของความไม่แน่นอนและความน่าเชื่อถือ แผนการสอบเทียบและการถดถอยแบบไอโซโทนิก วิธีการเหล่านี้มักจะต้องใช้วิธีการ binning กับความน่าจะเป็นที่คาดการณ์ดังนั้นพฤติกรรมของผลลัพธ์ (0, 1) จะถูกทำให้ราบเรียบเหนือถังขยะโดยรับผลลัพธ์ที่เป็นค่าเฉลี่ย ปัญหา: อย่างไรก็ตามฉันไม่พบสิ่งใดที่แนะนำให้ฉันทราบเกี่ยวกับวิธีเลือกความกว้างของถังขยะ คำถาม:ฉันจะเลือกความกว้างของถังที่เหมาะสมได้อย่างไร ความพยายาม:มีความกว้างถังขยะทั่วไปสองแห่งที่ใช้งานอยู่: ความกว้างเท่ากัน binning เช่น 10 bins ละครอบคลุม 10% ของช่วงเวลา [0, 1] วิธี Binning ของ Tukey กล่าวถึงที่นี่ แต่ตัวเลือกเหล่านี้ของถังขยะจะเหมาะสมที่สุดหากมีใครสนใจที่จะค้นหาช่วงเวลาในความน่าจะเป็นที่คาดการณ์ซึ่งคาดการณ์ผิดมากที่สุด?

4
การพยากรณ์อนุกรมเวลาไบนารี
ฉันมีซีรี่ย์เวลาแบบไบนารี่ด้วย 1 เมื่อรถไม่เคลื่อนที่และ 0 เมื่อรถเคลื่อนที่ ฉันต้องการพยากรณ์ล่วงหน้าเป็นเวลานานถึง 36 ชั่วโมงและทุกชั่วโมง วิธีแรกของฉันคือใช้ Naive Bayes โดยใช้ข้อมูลต่อไปนี้: t-24 (ทุกวันตามฤดูกาล), t-48 (ฤดูกาลประจำสัปดาห์), ชั่วโมงของวัน อย่างไรก็ตามผลลัพธ์ไม่ดีมาก คุณแนะนำบทความหรือซอฟต์แวร์ใดสำหรับปัญหานี้

2
เพิ่มประสิทธิภาพ auc vs logloss ในปัญหาการจำแนกประเภทไบนารี
ฉันกำลังทำงานการจำแนกประเภทแบบไบนารีที่ความน่าจะเป็นผลลัพธ์อยู่ในระดับต่ำ (ไม่เกิน 3%) ฉันกำลังพยายามตัดสินใจว่าจะเพิ่มประสิทธิภาพโดย AUC หรือบันทึกการสูญเสีย เท่าที่ฉันเข้าใจ AUC จะเพิ่มความสามารถของโมเดลในการแยกแยะระหว่างคลาสขณะที่ logloss จะลงโทษความแตกต่างระหว่างความน่าจะเป็นจริงและประมาณ ในงานของฉันเป็นสิ่งสำคัญอย่างยิ่งในการสอบเทียบความถูกต้องแม่นยำ ดังนั้นฉันจะเลือก logloss แต่ฉันสงสัยว่ารูปแบบการบันทึกที่ดีที่สุดควรเป็น AUC / GINI ที่ดีที่สุดหรือไม่

2
Probit กำลังสองน้อยที่สุดสองขั้นตอน (2SLS)
ฉันได้รับการบอกว่าเป็นไปได้ที่จะเรียกใช้การถดถอย IV แบบสองขั้นตอนโดยขั้นตอนแรกเป็น probit และขั้นตอนที่สองคือ OLS เป็นไปได้ไหมที่จะใช้ 2SLS หากระยะแรกเป็น probit แต่ขั้นตอนที่สองเป็นแบบ probit / poisson?

3
ฉันจะทดสอบได้อย่างไรว่าการจัดกลุ่มข้อมูลไบนารีของฉันมีความสำคัญ
ฉันกำลังทำตะกร้าสินค้าวิเคราะห์ชุดข้อมูลของฉันคือชุดของเวกเตอร์ธุรกรรมพร้อมรายการสินค้าที่ซื้อ เมื่อใช้ K-วิธีการในการทำธุรกรรมที่ฉันมักจะได้รับบางผล เมทริกซ์แบบสุ่มอาจแสดงกลุ่มบางส่วนเช่นกัน มีวิธีทดสอบว่าการจัดกลุ่มที่ฉันพบนั้นสำคัญหรือไม่หรืออาจเป็นเรื่องบังเอิญ ถ้าใช่ฉันจะทำอย่างไร

4
การถดถอยโลจิสติกและจุดโรคติดเชื้อ
เรามีข้อมูลที่มีผลลัพธ์เป็นเลขฐานสองและเพื่อนร่วมทุนบางคน ฉันใช้การถดถอยโลจิสติกเพื่อทำแบบจำลองข้อมูล แค่การวิเคราะห์อย่างง่ายไม่มีอะไรพิเศษ ผลลัพธ์สุดท้ายควรจะเป็นเส้นโค้งการตอบสนองต่อปริมาณที่เราแสดงให้เห็นว่าความน่าจะเป็นเปลี่ยนแปลงสำหรับ covariate ที่เฉพาะเจาะจงอย่างไร บางสิ่งเช่นนี้ เราได้รับคำวิจารณ์จากผู้ตรวจสอบภายใน (ไม่ใช่นักสถิติบริสุทธิ์) สำหรับการเลือกการถดถอยโลจิสติก การถดถอยโลจิสติกถือว่า (หรือกำหนด) ว่าจุดผันของเส้นโค้งรูปตัว S ในระดับความน่าจะเป็นอยู่ที่ความน่าจะเป็น 0.5 เขาแย้งว่าจะไม่มีเหตุผลที่จะคิดว่าจุดเปลี่ยนความเว้าเป็นจริงที่ความน่าจะเป็น 0.5 และเราควรเลือกรูปแบบการถดถอยที่แตกต่างกันซึ่งช่วยให้จุดเปลี่ยนความเว้าแตกต่างกันไปตามตำแหน่งที่เกิดขึ้นจริง ในตอนแรกฉันถูกจับโดยการโต้แย้งของเขาตั้งแต่ฉันไม่เคยคิดเกี่ยวกับประเด็นนี้ ฉันไม่มีข้อโต้แย้งใด ๆ ว่าทำไมจึงสมควรที่จะสันนิษฐานว่าจุดโรคติดเชื้ออยู่ที่ 0.5 หลังจากทำวิจัยแล้วฉันยังไม่มีคำตอบสำหรับคำถามนี้ ฉันเจอการถดถอยโลจิสติก 5 พารามิเตอร์ซึ่งจุดเปลี่ยนเป็นพารามิเตอร์เพิ่มเติม แต่ดูเหมือนว่ารูปแบบการถดถอยนี้มักจะใช้เมื่อสร้างเส้นโค้งการตอบสนองต่อปริมาณด้วยผลลัพธ์ที่ต่อเนื่อง ฉันไม่แน่ใจว่าสามารถขยายไปยังตัวแปรตอบกลับแบบไบนารี่ได้หรือไม่ ฉันเดาคำถามหลักของฉันคือทำไมหรือเมื่อไรที่สมมติว่าจุดเปลี่ยนของการถดถอยโลจิสติกอยู่ที่ 0.5 มันสำคัญหรือไม่ ฉันไม่เคยเห็นใครเหมาะกับโมเดลการถดถอยแบบโลจิสติกส์และพูดคุยอย่างชัดเจนในประเด็นของจุดโรคติดเชื้อ มีทางเลือกอื่นในการสร้างเส้นโค้งการตอบสนองปริมาณรังสีที่จุดผันน้ำไม่จำเป็นต้องอยู่ที่ 0.5 หรือไม่? เพื่อความสมบูรณ์รหัส R สำหรับสร้างภาพด้านบน: dat <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") dat$rank <- factor(dat$rank) logit <- glm(admit ~ …

1
R / mgcv: เพราะเหตุใดผลิตภัณฑ์ te () และ ti () เทนเซอร์จึงให้พื้นผิวที่แตกต่างกัน
mgcvแพคเกจสำหรับการRมีสองฟังก์ชั่นสำหรับการปฏิสัมพันธ์กระชับเมตริกซ์ผลิตภัณฑ์: และte() ti()ฉันเข้าใจการแบ่งขั้นพื้นฐานของการใช้แรงงานระหว่างคนทั้งสอง (ปรับให้เหมาะสมกับการทำงานแบบไม่เป็นเชิงเส้นเปรียบเทียบกับการย่อยสลายการโต้ตอบนี้เป็นผลกระทบหลักและการโต้ตอบ) สิ่งที่ฉันไม่เข้าใจคือสาเหตุte(x1, x2)และti(x1) + ti(x2) + ti(x1, x2)อาจให้ผลลัพธ์ที่แตกต่าง (เล็กน้อย) MWE (ดัดแปลงมาจาก?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

3
อัลกอริทึมใดที่ฉันควรใช้เพื่อจัดกลุ่มชุดข้อมูลไบนารีขนาดใหญ่เป็นไม่กี่หมวดหมู่
ฉันมีเมทริกซ์ขนาดใหญ่ (650K แถว * 62 คอลัมน์) ของข้อมูลไบนารี (รายการ 0-1 เท่านั้น) เมทริกซ์ส่วนใหญ่จะกระจัดกระจาย: เติมประมาณ 8% ฉันต้องการจัดกลุ่มเป็น 5 กลุ่ม - พูดชื่อตั้งแต่ 1 ถึง 5 ฉันได้ลองจัดกลุ่มแบบลำดับชั้นและไม่สามารถจัดการขนาดได้ ฉันยังใช้อัลกอริทึมการจัดกลุ่ม k - หมายถึงการคำนวณระยะทางด้วยการคำนึงถึงเวกเตอร์บิต 650K ที่มีความยาว 62 ฉันไม่ได้ผลลัพธ์ที่เหมาะสมกับสิ่งเหล่านี้ กรุณาช่วย.

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.