คำถามติดแท็ก binary-data

ตัวแปรไบนารีรับหนึ่งในสองค่าโดยทั่วไปจะมีรหัสเป็น "0" และ "1"

9
การวัดเอนโทรปี / ข้อมูล / รูปแบบของเมทริกซ์ไบนารี 2d
ฉันต้องการวัดความหนาแน่นของข้อมูลเอนโทรปี / ข้อมูล / รูปแบบความคล้ายคลึงของเมทริกซ์ไบนารีสองมิติ ให้ฉันแสดงภาพเพื่อความกระจ่าง: จอแสดงผลนี้ควรมีเอนโทรปีค่อนข้างสูง: A) สิ่งนี้ควรมีเอนโทรปีปานกลาง: B) ในที่สุดภาพเหล่านี้ทั้งหมดควรมีค่าใกล้ศูนย์ - เอนโทรปี: C) D) E) มีดัชนีที่จับเอนโทรปีหรือไม่ "รูปแบบเหมือนกัน" ของจอแสดงผลเหล่านี้คืออะไร? แน่นอนว่าอัลกอริทึมแต่ละตัว (เช่นอัลกอริธึมการบีบอัดหรืออัลกอริทึมการหมุนที่เสนอโดย ttnphns ) นั้นไวต่อคุณสมบัติอื่น ๆ ของจอแสดงผล ฉันกำลังมองหาอัลกอริทึมที่พยายามจับภาพคุณสมบัติต่อไปนี้: สมมาตรการหมุนและแกน ปริมาณของการทำคลัสเตอร์ ซ้ำ อาจจะซับซ้อนกว่านี้อัลกอริทึมอาจมีความอ่อนไหวต่อคุณสมบัติของจิตวิทยา " หลักการเกสตัลต์ " โดยเฉพาะ: กฎหมายของความใกล้ชิด: กฎแห่งความสมมาตร: ภาพสมมาตรถูกรับรู้ร่วมกันแม้จะอยู่ในระยะไกล: แสดงด้วยคุณสมบัติเหล่านี้ควรได้รับการกำหนด "ค่าเอนโทรปีต่ำ"; จอแสดงผลที่มีคะแนนค่อนข้างสุ่ม / ไม่มีโครงสร้างควรได้รับการกำหนด "ค่าเอนโทรปีสูง" ฉันทราบว่าอาจไม่มีอัลกอริทึมเดียวที่จะจับภาพคุณลักษณะเหล่านี้ทั้งหมด ดังนั้นคำแนะนำสำหรับอัลกอริทึมที่กล่าวถึงเพียงคุณลักษณะบางอย่างหรือแม้แต่คุณสมบัติเดียวก็ยินดีต้อนรับเช่นกัน โดยเฉพาะอย่างยิ่งฉันกำลังมองหาที่เป็นรูปธรรมอัลกอริทึมที่มีอยู่หรือความคิดที่นำไปใช้เฉพาะ (และฉันจะให้รางวัลตามเกณฑ์เหล่านี้)

6
การจำแนกไบนารีด้วยคลาสที่ไม่สมดุลอย่างยิ่ง
ฉันมีชุดข้อมูลในรูปแบบของ (ฟีเจอร์, เอาต์พุตไบนารี 0 หรือ 1), แต่ 1 เกิดขึ้นน้อยมาก, ดังนั้นโดยการคาดการณ์เสมอ 0, ฉันได้รับความแม่นยำระหว่าง 70% ถึง 90% (ขึ้นอยู่กับข้อมูลเฉพาะที่ฉันดู ) วิธีการ ML ให้ความถูกต้องเหมือนกันและฉันรู้สึกว่าควรมีวิธีมาตรฐานที่จะใช้ในสถานการณ์นี้ซึ่งจะปรับปรุงความแม่นยำมากกว่ากฎการทำนายที่ชัดเจน

4
เกณฑ์ความน่าจะเป็นการจำแนกประเภท
ฉันมีคำถามเกี่ยวกับการจำแนกประเภทโดยทั่วไป ให้ f เป็นตัวจําแนกซึ่งส่งออกชุดของความน่าจะเป็นที่ให้ข้อมูลบางตัว D โดยปกติเราจะบอกว่า: ดีถ้า P (c | D)> 0.5 เราจะกำหนด class 1 มิฉะนั้น 0 (ปล่อยให้นี่เป็นเลขฐานสอง การจำแนกประเภท). คำถามของฉันคือถ้าฉันพบว่าถ้าฉันจำแนกเป็น 1 ยังมีความน่าจะเป็นที่ใหญ่กว่า: เช่น 0.2 ตัวแยกประเภทจะทำงานได้ดีขึ้น การใช้เกณฑ์ใหม่นี้ถูกต้องตามกฎหมายหรือไม่เมื่อทำการจัดประเภท ฉันจะตีความความจำเป็นสำหรับการจำแนกประเภทที่ต่ำกว่าที่ถูกผูกไว้ในบริบทของข้อมูลที่เปล่งสัญญาณขนาดเล็ก แต่ยังคงมีความสำคัญสำหรับปัญหาการจำแนก ฉันรู้ว่านี่เป็นวิธีหนึ่งที่จะทำ แต่ถ้านี่ไม่ใช่การคิดที่ถูกต้องอะไรจะเป็นการแปลงข้อมูลบางอย่างซึ่งเน้นคุณลักษณะของแต่ละบุคคลในลักษณะที่คล้ายคลึงกัน

3
การคำนวณสหสัมพันธ์ของเพียร์สันหรือสเปียร์แมนนั้นมีความหมายหรือไม่ระหว่างสองเวกเตอร์บูลีน
มีเวกเตอร์บูลีนสองตัวซึ่งมี 0 และ 1 เท่านั้น หากฉันคำนวณความสัมพันธ์ของ Pearson หรือ Spearman พวกเขามีความหมายหรือสมเหตุสมผลหรือไม่

3
PCA จะทำงานกับชนิดข้อมูลบูลีน (ไบนารี) หรือไม่
ฉันต้องการลดมิติของระบบการสั่งซื้อที่สูงขึ้นและจับความแปรปรวนส่วนใหญ่ในฟิลด์ 2 มิติหรือ 1 มิติ ฉันเข้าใจว่าสามารถทำได้ผ่านการวิเคราะห์องค์ประกอบหลักและฉันใช้ PCA ในหลาย ๆ สถานการณ์ อย่างไรก็ตามฉันไม่เคยใช้กับชนิดข้อมูลบูลีนและฉันสงสัยว่ามันมีความหมายที่จะทำ PCA กับชุดนี้หรือไม่ ตัวอย่างเช่นสมมติว่าฉันมีตัวชี้วัดเชิงคุณภาพหรือเชิงพรรณนาและฉันกำหนด "1" หากการวัดนั้นใช้ได้สำหรับมิตินั้นและ "0" หากไม่ใช่ (ข้อมูลไบนารี) ตัวอย่างเช่นสมมติว่าคุณกำลังพยายามเปรียบเทียบคนแคระทั้งเจ็ดในสโนว์ไวท์ เรามี: Doc, Dopey, Bashful, Grumpy, Sneezy, Sleepy และ Happy และคุณต้องการจัดเรียงตามคุณสมบัติและทำตามที่: ⎛⎝⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜DocDopeyBashfulGrumpySneezySleepyHappyLactose Intolerant1011011A Honor Roll0001101Athletic1011100Wealthy1011000⎞⎠⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟(Lactose IntolerantA Honor RollAthleticWealthyDoc1011Dopey0000Bashful1011Grumpy1111Sneezy0110Sleepy1000Happy1100)\begin{pmatrix} & Lactose\ Intolerant & A \ Honor\ Roll & Athletic & Wealthy \\ …

1
ทำการวิเคราะห์องค์ประกอบหลักหรือการวิเคราะห์ปัจจัยกับข้อมูลไบนารี
ฉันมีชุดข้อมูลที่มีคำตอบใช่ / ไม่ใช่จำนวนมาก ฉันสามารถใช้ส่วนประกอบหลัก (PCA) หรือการวิเคราะห์การลดข้อมูลอื่น ๆ (เช่นการวิเคราะห์ปัจจัย) สำหรับข้อมูลประเภทนี้ได้หรือไม่ โปรดแนะนำวิธีการใช้ SPSS

1
มีการวิเคราะห์ปัจจัยหรือ PCA สำหรับข้อมูลลำดับหรือข้อมูลไบนารีหรือไม่
ฉันเสร็จสิ้นการวิเคราะห์องค์ประกอบหลัก (PCA), การวิเคราะห์ปัจจัยเชิงสำรวจ (EFA) และการวิเคราะห์ปัจจัยยืนยัน (CFA), การจัดการข้อมูลด้วยสเกล likert (การตอบสนอง 5 ระดับ: ไม่มี, น้อย, บาง, .. ) อย่างต่อเนื่อง ตัวแปร. จากนั้นใช้ Lavaan ฉันทำซ้ำ CFA ที่กำหนดตัวแปรเป็นหมวดหมู่ ฉันต้องการทราบว่าการวิเคราะห์ประเภทใดที่เหมาะสมและจะเทียบเท่ากับ PCA และ EFA เมื่อข้อมูลมีลำดับตามธรรมชาติ และเมื่อไบนารี ฉันขอขอบคุณข้อเสนอแนะสำหรับแพ็คเกจหรือซอฟต์แวร์เฉพาะที่สามารถนำไปใช้ในการวิเคราะห์ได้อย่างง่ายดาย

2
วิธีการใช้ทั้งไบนารีและตัวแปรต่อเนื่องร่วมกันในการจัดกลุ่ม?
ฉันต้องการใช้ตัวแปรไบนารี (ค่า 0 & 1) ใน k-mean แต่ k-mean ใช้งานได้กับตัวแปรต่อเนื่องเท่านั้น ฉันรู้ว่าบางคนยังคงใช้ตัวแปรไบนารีเหล่านี้ใน k-mean โดยไม่สนใจข้อเท็จจริงที่ว่า k-หมายความว่าถูกออกแบบมาสำหรับตัวแปรต่อเนื่องเท่านั้น นี่เป็นสิ่งที่ฉันยอมรับไม่ได้ คำถาม: ดังนั้นวิธีที่ถูกต้องทางสถิติ / ทางคณิตศาสตร์ของการใช้ตัวแปรไบนารีในการจัดกลุ่ม k- หมายถึง / ลำดับชั้นคืออะไร? วิธีการนำโซลูชันไปใช้ใน SAS / R

7
เหตุใดจึงมีการเข้ารหัสรหัสเพศ 0/1 แทนที่จะเป็น 1/2
ฉันเข้าใจตรรกะของการเข้ารหัสสำหรับการวิเคราะห์ข้อมูล คำถามของฉันด้านล่างเป็นการใช้รหัสเฉพาะ มีเหตุผลใดที่รหัสเพศมักจะเป็น 0 สำหรับผู้หญิงและ 1 สำหรับผู้ชาย? ทำไมการเข้ารหัสนี้จึงถือเป็น 'มาตรฐาน' เปรียบเทียบสิ่งนี้กับหญิง = 1 และชาย = 2 มีปัญหากับการเข้ารหัสนี้หรือไม่?

5
คุณควรสร้างมาตรฐานให้กับตัวแปรไบนารีหรือไม่?
ฉันมีชุดข้อมูลที่มีชุดคุณสมบัติ บางคนก็มีไบนารีใช้งานหรือไล่ออกใช้งานหรืออยู่เฉยๆ) และส่วนที่เหลือจะมีมูลค่าที่แท้จริงเช่น4564.342( 1 =(1=(1=0 =0=0=4564.3424564.3424564.342 ฉันต้องการที่จะเลี้ยงข้อมูลนี้ไปยังขั้นตอนวิธีการเรียนรู้ของเครื่องดังนั้นฉัน -score คุณสมบัติมูลค่าจริงทั้งหมด ฉันได้พวกมันมาระหว่างช่วงและโดยประมาณ ตอนนี้ค่าไบนารีนอกจากนี้ยังมี -scored ดังนั้นศูนย์กลายเป็นและคนที่กลายเป็น0.5555ZZz333- 2-2-2ZZz- 0.222-0.222-0.2220.55550.55550.5555 การทำให้เป็นมาตรฐานตัวแปรไบนารีเช่นนี้เหมาะสมหรือไม่

3
การแสดงภาพการสอบเทียบความน่าจะเป็นที่คาดการณ์ของแบบจำลอง
สมมติว่าฉันมีรูปแบบการทำนายที่สร้างความน่าจะเป็นสำหรับแต่ละคลาส ตอนนี้ฉันรู้แล้วว่ามีหลายวิธีในการประเมินโมเดลดังกล่าวหากฉันต้องการใช้ความน่าจะเป็นเหล่านั้นสำหรับการจัดหมวดหมู่ (ความแม่นยำการเรียกคืนและอื่น ๆ ) ฉันยังจำได้ว่าเส้นโค้ง ROC และพื้นที่ใต้นั้นสามารถใช้เพื่อกำหนดว่าแบบจำลองแตกต่างกันอย่างไรระหว่างคลาส นั่นไม่ใช่สิ่งที่ฉันถาม ฉันสนใจที่จะประเมินการสอบเทียบโมเดล ฉันรู้ว่ากฎการให้คะแนนเช่นคะแนน Brierจะมีประโยชน์สำหรับงานนี้ ไม่เป็นไรและฉันจะรวมบางสิ่งบางอย่างไว้ในบรรทัดเหล่านั้น แต่ฉันไม่แน่ใจว่าการวัดที่ใช้งานง่ายเช่นนี้จะใช้กับบุคคลทั่วไปได้อย่างไร ฉันกำลังมองหาบางสิ่งที่มองเห็นได้ชัดเจนขึ้น ฉันต้องการให้บุคคลตีความผลลัพธ์เพื่อให้สามารถเห็นว่าแบบจำลองทำนายบางสิ่งบางอย่าง 70% มีแนวโน้มที่จะเกิดขึ้นจริงหรือไม่ว่าจะเกิดขึ้นจริง ~ 70% ของเวลาเป็นต้น ฉันได้ยินเรื่องแผนการ QQ (แต่ไม่เคยใช้) และในตอนแรกฉันคิดว่านี่คือสิ่งที่ฉันกำลังมองหา แต่ก็ดูเหมือนว่ามีความหมายจริงๆสำหรับการเปรียบเทียบสองการแจกแจงความน่าจะเป็น นั่นไม่ใช่สิ่งที่ฉันมี ฉันมีความน่าจะเป็นที่คาดการณ์ของฉันจากหลาย ๆ กรณีและไม่ว่าจะเกิดขึ้นจริงหรือไม่: Index P(Heads) Actual Result 1 .4 Heads 2 .3 Tails 3 .7 Heads 4 .65 Tails ... ... ... พล็อต …

3
สร้างข้อมูลที่มีความสัมพันธ์แบบสุ่มระหว่างไบนารีและตัวแปรต่อเนื่อง
ฉันต้องการสร้างตัวแปรสองตัว หนึ่งคือตัวแปรผลลัพธ์ไบนารี (พูดว่าสำเร็จ / ล้มเหลว) และอีกอันคืออายุในปีที่ผ่านมา ฉันต้องการอายุมีความสัมพันธ์เชิงบวกกับความสำเร็จ ตัวอย่างเช่นควรมีความสำเร็จมากกว่าในกลุ่มอายุที่สูงกว่าต่ำกว่า เป็นการดีที่ฉันควรอยู่ในตำแหน่งที่จะควบคุมระดับความสัมพันธ์ ฉันจะทำอย่างไร ขอบคุณ

2
การทำคลัสเตอร์เมทริกซ์ไบนารี
ฉันมีเมทริกซ์กึ่งกึ่งกลางของคุณสมบัติไบนารีของมิติ 250k x 100 แต่ละแถวเป็นผู้ใช้และคอลัมน์เป็น "แท็ก" แบบไบนารีของพฤติกรรมผู้ใช้บางอย่างเช่น "Likes_cats" user 1 2 3 4 5 ... ------------------------- A 1 0 1 0 1 B 0 1 0 1 0 C 1 0 0 1 0 ฉันต้องการให้ผู้ใช้พอดีกับ 5-10 คลัสเตอร์และวิเคราะห์การโหลดเพื่อดูว่าฉันสามารถตีความกลุ่มพฤติกรรมของผู้ใช้ได้หรือไม่ ดูเหมือนจะมีวิธีการค่อนข้างน้อยในการปรับคลัสเตอร์ให้เหมาะสมกับข้อมูลไบนารี - เราคิดว่าอะไรอาจเป็นกลยุทธ์ที่ดีที่สุดสำหรับข้อมูลนี้ PCA การสร้างเมทริกซ์ความคล้ายคลึงกันของ Jaccardติดตั้งคลัสเตอร์แบบลำดับขั้นจากนั้นใช้ "โหนด" ด้านบน K-มีเดีย K-medoids พร็อกซิมัส ? แอกเนส …

2
ค่าสัมประสิทธิ์ความคล้ายคลึงกันสำหรับข้อมูลไบนารี: ทำไมต้องเลือก Jaccard เหนือ Russell และ Rao
จากสารานุกรมวิทยาศาสตร์สถิติฉันเข้าใจว่าได้รับ dichotomous (binary: 1 = ปัจจุบัน; 0 = ขาด) แอตทริบิวต์ (ตัวแปร) เราสามารถสร้างตารางฉุกเฉินสำหรับวัตถุสองชนิดที่ฉันและjของตัวอย่าง:พีพีp j 1 0 ------- 1 | a | b | i ------- 0 | c | d | ------- a = number of variables on which both objects i and j are 1 b = number of variables …

4
การเพิ่มความแม่นยำของเครื่องไล่ระดับสีจะลดลงเมื่อจำนวนการทำซ้ำเพิ่มขึ้น
ฉันกำลังทดลองกับอัลกอริทึมของเครื่องเร่งการไล่ระดับสีผ่านcaretแพ็คเกจใน R ใช้ชุดข้อมูลการรับสมัครวิทยาลัยขนาดเล็กฉันใช้รหัสต่อไปนี้: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.