คำถามติดแท็ก categorical-data

ข้อมูลหมวดหมู่ (เรียกอีกอย่างว่าเล็กน้อย) สามารถใช้ค่าที่เป็นไปได้จำนวน จำกัด ที่เรียกว่าหมวดหมู่ ค่าหมวดหมู่ "ป้ายกำกับ" จะไม่ "วัด" โปรดใช้แท็ก [ลำดับข้อมูล] สำหรับประเภทข้อมูลที่แยก แต่สั่งซื้อ

3
ฉันสามารถใช้การถดถอยแบบหลายครั้งได้หรือไม่เมื่อฉันมีตัวทำนายที่เป็นหมวดหมู่และแบบต่อเนื่องผสมกัน?
ดูเหมือนว่าคุณสามารถใช้การเข้ารหัสสำหรับตัวแปรเด็ดขาดหนึ่งตัว แต่ฉันมีตัวแปรเด็ดขาดสองตัวและตัวแปรทำนายต่อเนื่องหนึ่งตัว ฉันสามารถใช้การถดถอยแบบหลายครั้งใน SPSS ได้หรือไม่และอย่างไร? ขอบคุณ!

3
ขั้นตอนวิธีใดที่ต้องใช้การเข้ารหัสแบบร้อนแรง
ฉันไม่เคยแน่ใจว่าจะใช้การเข้ารหัสแบบร้อนแรงหนึ่งครั้งสำหรับตัวแปรเด็ดขาดที่ไม่มีการเรียงลำดับและเมื่อใด ฉันใช้ทุกครั้งที่อัลกอริทึมใช้การวัดระยะทางเพื่อคำนวณความคล้ายคลึงกัน ทุกคนสามารถให้กฎทั่วไปเกี่ยวกับประเภทของอัลกอริทึมที่ต้องใช้คุณลักษณะที่ไม่มีการจัดประเภทเพื่อเข้ารหัสแบบร้อนแรงและแบบใดที่จะไม่

2
เหตุใด R ใช้เวลานานในการปรับให้พอดีกับโมเดลด้วยปัจจัยหลายระดับ
ฉันพอดีกับโมเดลที่มีหลายระดับและใช้เวลานาน R เพื่อให้พอดีกับโมเดลนั้น ทำไมนี้ ตัวอย่างเช่นถ้าฉันพอดีกับการถดถอยเพื่อทำนายเงินเดือนของผู้เล่นและรวมถึงตัวทำนายปัจจัยสำหรับเชื้อชาติของผู้เล่นทุกคนนั่นจะใช้เวลานานกว่าการปรับแบบจำลองให้เหมาะกับเงินเดือนของผู้เล่นด้วยตัวทำนายต่อเนื่องเช่นผู้เล่น ความสูง

2
ค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างตัวแปรที่กำหนด (ที่ไม่เป็นคู่) และเป็นตัวเลข (ช่วงเวลา) หรือตัวแปรลำดับ
ฉันได้อ่านทุกหน้าในเว็บไซต์นี้แล้วพยายามหาคำตอบสำหรับปัญหาของฉันแล้ว แต่ดูเหมือนว่าไม่มีใครที่เหมาะสมกับฉัน ... ก่อนอื่นฉันจะอธิบายให้คุณทราบถึงข้อมูลที่ฉันใช้กับ ... สมมติว่าฉันมีเวกเตอร์อาร์เรย์ที่มีชื่อเมืองหลายแห่งหนึ่งแห่งสำหรับผู้ใช้ 300 คน ฉันยังมีเวกเตอร์อาร์เรย์อีกชุดหนึ่งที่มีคะแนนตอบสนองต่อการสำรวจของผู้ใช้แต่ละคนหรือค่าต่อเนื่องสำหรับผู้ใช้แต่ละคน ฉันต้องการที่จะทราบว่ามีค่าสัมประสิทธิ์สหสัมพันธ์ที่คำนวณความสัมพันธ์ระหว่างตัวแปรทั้งสองนี้ดังนั้นระหว่างตัวแปรที่ระบุและตัวแปรที่เป็นตัวเลข / ต่อเนื่องหรือลำดับ ฉันค้นหาบนอินเทอร์เน็ตและในบางหน้าพวกเขาแนะนำให้ใช้ค่าสัมประสิทธิ์ฉุกเฉินหรือ Cramer's V หรือ Lambda สัมประสิทธิ์หรือ Eta สำหรับแต่ละวัดนี้เพียงแค่บอกว่าพวกเขาสามารถนำไปใช้กับข้อมูลดังกล่าวซึ่งเรามีตัวแปรที่ระบุและช่วงเวลาหรือตัวแปรที่เป็นตัวเลข สิ่งคือการค้นหาและการค้นหาพยายามที่จะทำความเข้าใจกับทุกคนบางครั้งมีการเขียนหรือดูตัวอย่างที่พวกเขามีเหตุผลที่จะใช้พวกเขาหากคุณมีตัวแปรที่ระบุไว้แยกออกเป็นสองส่วนยกเว้น Cramer's V เวลาอื่นไม่ได้เขียนข้อกำหนดใด ๆ ประเภทของข้อมูล มีอีกหลายหน้าที่บอกว่าถูกต้องที่จะใช้การถดถอยแทนนั่นคือถูกต้อง แต่ฉันแค่อยากจะรู้ว่ามีสัมประสิทธิ์เช่น pearson / spearman สำหรับข้อมูลประเภทนี้หรือไม่ ฉันยังคิดว่ามันไม่ถูกต้องที่จะใช้ Spearman Correlation coeff เนื่องจากเมืองต่างๆไม่สามารถจัดเรียงได้ ฉันได้สร้างฟังก์ชันของ Cramer'sV และ Eta ด้วยตัวเอง (ฉันทำงานกับ Matlab) แต่สำหรับ Eta พวกเขาไม่ได้พูดถึง p-value ใด ๆ …

1
ฟังก์ชั่นระยะทางที่ดีที่สุดสำหรับบุคคลคืออะไรเมื่อมีการระบุคุณสมบัติ?
ฉันไม่ทราบว่าฟังก์ชั่นระยะทางระหว่างบุคคลที่จะใช้ในกรณีที่มีคุณสมบัติระบุ (unordered เด็ดขาด) ฉันกำลังอ่านหนังสือเรียนและพวกเขาแนะนำฟังก์ชั่นการจับคู่อย่างง่ายแต่หนังสือบางเล่มแนะนำว่าฉันควรเปลี่ยนชื่อเป็นแอตทริบิวต์ไบนารีและใช้ค่าสัมประสิทธิ์Jaccard อย่างไรก็ตามจะเกิดอะไรขึ้นถ้าค่าของแอตทริบิวต์ที่ระบุไม่ใช่ 2 เกิดอะไรขึ้นถ้ามีค่าสามหรือสี่ค่าในแอตทริบิวต์นั้น ฉันควรใช้ฟังก์ชันระยะทางใดสำหรับคุณลักษณะที่ระบุ

2
glmnet: วิธีทำให้ความรู้สึกของการกำหนดพารามิเตอร์แบบหลายส่วน?
ปัญหาต่อไปนี้: ฉันต้องการทำนายตัวแปรการตอบสนองอย่างเด็ดขาดด้วยตัวแปรเด็ดขาดหนึ่งตัว (หรือมากกว่า) โดยใช้ glmnet () อย่างไรก็ตามฉันไม่สามารถรับรู้ถึงผลลัพธ์ที่ glmnet มอบให้ฉันได้ ตกลงก่อนอื่นเรามาสร้างตัวแปรเด็ดขาดสองตัวที่เกี่ยวข้องกัน: สร้างข้อมูล p <- 2 #number variables mu <- rep(0,p) sigma <- matrix(rep(0,p^2), ncol=p) sigma[1,2] <- .8 #some relationship .. diag(sigma) <- 1 sigma <- pmax(sigma, t(sigma)) n <- 100 set.seed(1) library(MASS) dat <- mvrnorm(n, mu, sigma) #discretize k <- 3 …

2
ฉันจะค้นหาการวัดความสัมพันธ์ระหว่างตัวแปรสองรายการได้อย่างไร
มีการสำรวจเมื่อผู้คนเลือกสิ่งที่พวกเขาใช้ยิ้มเพื่อเป็นตัวแทนและเข้าสู่ประเทศต้นกำเนิด ฉันเขียนข้อความตอบกลับไปเป็นตัวเลขแล้ว การวิเคราะห์รูปแบบใดที่ควรใช้ (โดยเฉพาะอย่างยิ่งใน SPSS) เพื่อตรวจสอบระดับความสัมพันธ์ระหว่างสิ่งที่ผู้คนมาจากและการเป็นตัวแทนที่พวกเขาเลือก?

2
การถดถอยจะขึ้นอยู่กับวันของสัปดาห์
ฉันต้องการความช่วยเหลือเล็กน้อยเพื่อไปในทิศทางที่ถูกต้อง เป็นเวลานานแล้วที่ฉันได้ศึกษาสถิติและดูเหมือนว่าศัพท์แสงจะเปลี่ยนไป ลองนึกภาพว่าฉันมีชุดข้อมูลที่เกี่ยวข้องกับรถยนต์เช่น เวลาเดินทางจากเมือง A ถึงเมือง B ระยะทางจากเมือง A ถึงเมือง B ขนาดเครื่องยนต์ ขนาดรองเท้าของคนขับ ยี่ห้อและรุ่นของรถ วันของสัปดาห์ ฉันต้องการที่จะทำนายเวลาการเดินทาง ฉันคิดว่ามันมีความสัมพันธ์ที่แน่นแฟ้นระหว่างเวลาและระยะทางและอาจเป็นเรื่องที่อ่อนแอกว่าสำหรับขนาดเครื่องยนต์ (และไม่มีขนาดรองเท้า) การวิเคราะห์การถดถอยพหุคูณ / ANOVA น่าจะเป็นเครื่องมือที่ใช้ แต่ฉันจะรวมวันในสัปดาห์ได้อย่างไรเนื่องจากเพิ่งเขียนโค้ดเป็นวันอาทิตย์ = 1 วันจันทร์ = 2 ฯลฯ รู้สึกผิดอย่างมาก การใช้เครื่องมือการถดถอยของ Excel เช่นฉันจะตีความผลลัพธ์ได้อย่างไร สันนิษฐานว่าถ้า R ใกล้เคียงกับ 1 ถือว่าดี แต่บางแหล่งข้อมูลอ้างถึง r-squared ซึ่งน่าจะเป็น SD ดังนั้นค่าใกล้เคียงกับศูนย์จึงเป็นสิ่งที่ดี นอกจากนี้ยังแสดง t Stat, P-value, F และ Significance …

2
ความสัมพันธ์ระหว่างตัวแปรเด็ดขาด
มีจำนวนมากเกี่ยวกับ collinearity ที่เกี่ยวกับการทำนายแบบต่อเนื่อง แต่ไม่มากนักที่ฉันสามารถค้นหาในตัวทำนายแบบหมวดหมู่ ฉันมีข้อมูลประเภทนี้แสดงไว้ด้านล่าง ปัจจัยแรกคือตัวแปรทางพันธุกรรม (นับอัลลีล) ปัจจัยที่สองคือประเภทของโรค เห็นได้ชัดว่ายีนนำหน้าโรคและเป็นปัจจัยในการแสดงอาการที่นำไปสู่การวินิจฉัย อย่างไรก็ตามการวิเคราะห์อย่างสม่ำเสมอโดยใช้ผลบวกของสี่เหลี่ยมจัตุรัสที่มีประเภท II หรือ III ดังเช่นที่ใช้กันทั่วไปในทางจิตวิทยากับ SPSS คิดถึงผลกระทบที่เกิดขึ้น การวิเคราะห์สแควร์สจำนวนหนึ่งเป็นการวิเคราะห์แบบหยิบมันขึ้นมาเมื่อป้อนคำสั่งที่เหมาะสมเพราะมันขึ้นอยู่กับลำดับ นอกจากนี้มีแนวโน้มว่าจะมีส่วนประกอบเพิ่มเติมในกระบวนการของโรคซึ่งไม่เกี่ยวข้องกับยีนที่ไม่ได้ระบุอย่างดีกับประเภท II หรือ III ดูanova (lm1)ด้านล่าง vs lm2 หรือ Anova ข้อมูลตัวอย่าง: set.seed(69) iv1 <- sample(c(0,1,2), 150, replace=T) iv2 <- round(iv1 + rnorm(150, 0, 1), 0) iv2 <- ifelse(iv2<0, 0, iv2) iv2 <- ifelse(iv2>2, …

2
ฉันควรรันการถดถอยแบบแยกกันสำหรับทุกชุมชนหรือชุมชนสามารถเป็นตัวแปรควบคุมในรูปแบบรวมได้หรือไม่
ฉันใช้โมเดล OLS พร้อมตัวแปรดัชนีสินทรัพย์อย่างต่อเนื่องในฐานะ DV ข้อมูลของฉันถูกรวบรวมจากชุมชนที่คล้ายกันสามแห่งในพื้นที่ใกล้เคียงทางภูมิศาสตร์ใกล้กัน อย่างไรก็ตามเรื่องนี้ฉันคิดว่ามันสำคัญที่จะต้องใช้ชุมชนเป็นตัวแปรควบคุม ชุมชนกลายเป็นสิ่งสำคัญในระดับ 1% (คะแนน t--4.52) ชุมชนเป็นตัวแปรที่ระบุ / หมวดหมู่ที่เข้ารหัสเป็น 1,2,3 สำหรับ 1 ใน 3 ชุมชนที่แตกต่างกัน คำถามของฉันคือถ้าความสำคัญระดับสูงนี้หมายความว่าฉันควรทำการถดถอยในชุมชนทีละรายการแทนที่จะเป็นการรวมตัว มิฉะนั้นการใช้ชุมชนเป็นตัวแปรควบคุมเป็นหลักทำเช่นนั้น?

2
ประเมินความสัมพันธ์ (มองเห็น) อย่างรวดเร็วระหว่างข้อมูลหมวดหมู่ที่ได้รับคำสั่งใน R หรือไม่
ฉันกำลังมองหาความสัมพันธ์ระหว่างคำตอบของคำถามต่าง ๆ ในแบบสำรวจ ("อืมลองดูว่าคำตอบของคำถาม 11 มีความสัมพันธ์กับคำถาม 78 หรือไม่" คำตอบทั้งหมดเป็นหมวดหมู่ (ส่วนใหญ่มีตั้งแต่ "ไม่มีความสุขมาก" ถึง "มีความสุขมาก") แต่มีคำตอบไม่กี่ชุด ส่วนใหญ่สามารถพิจารณาลำดับที่ดังนั้นลองพิจารณากรณีนี้ที่นี่ เนื่องจากฉันไม่สามารถเข้าถึงโปรแกรมสถิติเชิงพาณิชย์ได้ฉันต้องใช้ R ฉันลองRattle (แพ็คเกจการขุดข้อมูลฟรีแวร์สำหรับ R ดีมาก) แต่น่าเสียดายที่มันไม่รองรับข้อมูลที่เป็นหมวดหมู่ แฮ็คหนึ่งที่ฉันสามารถใช้ได้คือการนำเข้าในแบบสำรวจที่เขียนโค้ดซึ่งมีตัวเลข (1..5) แทนที่จะเป็น "ไม่มีความสุขมาก" ... "มีความสุข" และปล่อยให้ Rattle เชื่อว่าเป็นข้อมูลตัวเลข ฉันกำลังคิดที่จะพล็อตกระจายและมีขนาดจุดตามสัดส่วนของตัวเลขสำหรับแต่ละคู่ หลังจาก googling ฉันพบhttp://www.r-statistics.com/2010/04/correlation-scatter-plot-matrix-for-ordered-categorical-data/แต่ดูเหมือนว่าซับซ้อนมาก (สำหรับฉัน) ฉันไม่ใช่นักสถิติ (แต่เป็นโปรแกรมเมอร์) แต่มีการอ่านบางอย่างในเรื่องนี้และถ้าฉันเข้าใจอย่างถูกต้องRho ของ Spearmanจะเหมาะสมที่นี่ ดังนั้นคำถามสั้น ๆ สำหรับผู้ที่รีบร้อน: มีวิธีที่จะทำแบบ Rho ของ Spearman ใน Rหรือไม่? …

6
วิธีค้นหาสถิติสรุปสำหรับชุดค่าผสมที่ไม่ซ้ำกันทั้งหมดใน data.frame ใน R [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน2 ปีที่ผ่านมา ฉันต้องการคำนวณสรุปของตัวแปรใน data.frame สำหรับชุดค่าผสมแต่ละตัวที่ไม่ซ้ำกันของปัจจัยใน data.frame ฉันควรใช้ plyr เพื่อทำสิ่งนี้หรือไม่? ฉันตกลงกับการใช้ลูปแทนการใช้ (); ดังนั้นการหาชุดค่าผสมที่ไม่ซ้ำกันแต่ละชุดจะเพียงพอ

4
การทดสอบ Chi-Squared หลายรายการ
ฉันมีข้อมูลข้ามประเภทในตาราง 2 x 2 x 6 ขอเรียกมิติresponse, และA ฉันพอดีกับการถดถอยโลจิสติกข้อมูลกับรูปแบบB response ~ A * Bการวิเคราะห์ความเบี่ยงเบนของโมเดลนั้นบอกว่าทั้งคำศัพท์และปฏิสัมพันธ์ของพวกมันมีความสำคัญ อย่างไรก็ตามเมื่อดูสัดส่วนของข้อมูลดูเหมือนว่ามีเพียง 2 หรือมากกว่านั้นBเท่านั้นที่รับผิดชอบต่อผลกระทบที่สำคัญเหล่านี้ ฉันต้องการทดสอบเพื่อดูว่าระดับใดเป็นต้นเหตุ ตอนนี้แนวทางของฉันคือทำการทดสอบแบบไคสแควร์จำนวน 6 ครั้งบนตารางขนาด 2x2 ตารางresponse ~ Aแล้วจึงปรับค่า p จากการทดสอบเหล่านั้นสำหรับการเปรียบเทียบหลาย ๆ แบบ (โดยใช้การปรับแบบโฮล์ม) คำถามของฉันคือว่ามีวิธีการที่ดีกว่าในการแก้ไขปัญหานี้หรือไม่ มีวิธีการสร้างแบบจำลองหลักการมากขึ้นหรือวิธีการเปรียบเทียบการทดสอบแบบไคสแควร์หลายวิธีหรือไม่

1
R / mgcv: เพราะเหตุใดผลิตภัณฑ์ te () และ ti () เทนเซอร์จึงให้พื้นผิวที่แตกต่างกัน
mgcvแพคเกจสำหรับการRมีสองฟังก์ชั่นสำหรับการปฏิสัมพันธ์กระชับเมตริกซ์ผลิตภัณฑ์: และte() ti()ฉันเข้าใจการแบ่งขั้นพื้นฐานของการใช้แรงงานระหว่างคนทั้งสอง (ปรับให้เหมาะสมกับการทำงานแบบไม่เป็นเชิงเส้นเปรียบเทียบกับการย่อยสลายการโต้ตอบนี้เป็นผลกระทบหลักและการโต้ตอบ) สิ่งที่ฉันไม่เข้าใจคือสาเหตุte(x1, x2)และti(x1) + ti(x2) + ti(x1, x2)อาจให้ผลลัพธ์ที่แตกต่าง (เล็กน้อย) MWE (ดัดแปลงมาจาก?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
จะทำการวิเคราะห์ส่วนที่เหลือสำหรับตัวทำนายอิสระไบนารี / คู่ในการถดถอยเชิงเส้นได้อย่างไร?
ฉันกำลังดำเนินการถดถอยเชิงเส้นหลายครั้งด้านล่างใน R เพื่อทำนายผลตอบแทนของกองทุนที่จัดการ reg <- lm(formula=RET~GRI+SAT+MBA+AGE+TEN, data=rawdata) GRI & MBA เท่านั้นที่นี่เป็นตัวทำนายแบบไบนารี / สองขั้ว ตัวพยากรณ์ที่เหลืออยู่จะต่อเนื่อง ฉันใช้รหัสนี้เพื่อสร้างแปลงที่เหลือสำหรับตัวแปรไบนารี plot(rawdata$GRI, reg$residuals) abline(lm(reg$residuals~rawdata$GRI, data=rawdata), col="red") # regression line (y~x) plot(rawdata$MBA, reg$residuals) abline(lm(reg$residuals~rawdata$MBA, data=rawdata), col="red") # regression line (y~x) คำถามของฉัน: ฉันรู้วิธีตรวจพล็อตที่เหลือสำหรับตัวทำนายอย่างต่อเนื่อง แต่คุณจะทดสอบสมมติฐานของการถดถอยเชิงเส้นเช่น homoscedasticity อย่างไรเมื่อตัวแปรอิสระเป็นไบนารี แปลงที่เหลือ:

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.