ความหลากหลายทางชีวภาพเป็นนัยในตัวแปรเด็ดขาดหรือไม่?


10

ฉันสังเกตว่าในขณะที่ tinkering กับแบบจำลองการถดถอยหลายตัวแปรมีผลกระทบความสัมพันธ์แบบหลายค่าขนาดเล็ก แต่เห็นได้ชัดซึ่งวัดจากปัจจัยเงินเฟ้อความแปรปรวนภายในหมวดหมู่ของตัวแปรเด็ดขาด (หลังจากไม่รวมหมวดหมู่อ้างอิงแน่นอน)

ตัวอย่างเช่นสมมติว่าเรามีชุดข้อมูลที่มีตัวแปรต่อเนื่อง y และตัวแปรเด็ดขาดหนึ่งชุด x ซึ่งมีค่า k ที่ไม่เหมือนกันซึ่งเป็นไปได้ เรารหัสผู้ค่าที่เป็นไปตามที่ 0/1 ตัวแปรหุ่นdots, แล้วเราจะเรียกใช้ตัวแบบการถดถอย{k-1} คะแนน VIF สำหรับตัวแปรจำลองกลายเป็นไม่ใช่ศูนย์ ในความเป็นจริงเมื่อจำนวนหมวดหมู่เพิ่มขึ้น VIF ก็เพิ่มขึ้น การจัดกึ่งกลางของตัวแปรจำลองจะไม่เปลี่ยน VIFskx1,x2,,xky=b0+b1x1+b2x2++bk1xk1k1

คำอธิบายที่เข้าใจง่ายดูเหมือนว่าสภาพที่ไม่เกิดร่วมกันของหมวดหมู่ภายในตัวแปรเด็ดขาดนั้นทำให้เกิดความหลากหลายทางสัณฐานวิทยาเล็กน้อย นี่เป็นการค้นพบที่ไม่สำคัญหรือเป็นปัญหาที่ควรพิจารณาเมื่อสร้างแบบจำลองการถดถอยด้วยตัวแปรเชิงหมวดหมู่หรือไม่

คำตอบ:


8

ฉันไม่สามารถทำซ้ำว่าปรากฏการณ์นี้ แต่ฉันสามารถแสดงให้เห็นว่าVIF ไม่จำเป็นต้องเพิ่มขึ้นตามจำนวนของประเภทที่เพิ่มขึ้น

สัญชาตญาณง่าย: ตัวแปรเด็ดขาดสามารถทำมุมฉากได้โดยการออกแบบการทดลองที่เหมาะสม ดังนั้นโดยทั่วไปไม่ควรมีความสัมพันธ์ระหว่างจำนวนหมวดหมู่กับความสัมพันธ์หลายระดับ

นี่คือRฟังก์ชั่นในการสร้างชุดข้อมูลเด็ดขาดด้วยจำนวนหมวดหมู่ที่ระบุได้ (สำหรับตัวแปรอิสระสองตัว) และจำนวนการจำลองแบบที่ระบุได้สำหรับแต่ละหมวดหมู่ มันแสดงให้เห็นถึงการศึกษาที่มีความสมดุลซึ่งการรวมกันของหมวดหมู่ทุกครั้งมีจำนวนเท่ากัน :n

trial <- function(n, k1=2, k2=2) {
  df <- expand.grid(1:k1, 1:k2)
  df <- do.call(rbind, lapply(1:n, function(i) df))
  df$y <- rnorm(k1*k2*n)
  fit <- lm(y ~ Var1+Var2, data=df)
  vif(fit)
}

เมื่อใช้มันฉันพบว่า VIFs มักจะมีค่าต่ำสุดที่เป็นไปได้เสมอซึ่งสะท้อนถึงการทรงตัว (ซึ่งแปลเป็นคอลัมน์มุมฉากในเมทริกซ์การออกแบบ) ตัวอย่างบางส่วน:1

sapply(1:5, trial) # Two binary categories, 1-5 replicates per combination
sapply(1:5, function(i) trial(i, 10, 3)) # 30 categories, 1-5 replicates

นี้แสดงให้เห็นพหุอาจจะเพิ่มขึ้นเรื่อย ๆ เนื่องจากความไม่สมดุลของการเติบโตในการออกแบบ เพื่อทดสอบสิ่งนี้ให้ใส่บรรทัด

  df <- subset(df, subset=(y < 0))

ก่อนที่จะสายในfit trialสิ่งนี้จะลบข้อมูลครึ่งหนึ่งโดยการสุ่ม Re-ทำงาน

sapply(1:5, function(i) trial(i, 10, 3))

แสดงให้เห็นว่า VIFs ไม่เท่ากับ (แต่จะยังคงอยู่ใกล้กับมันแบบสุ่ม) พวกเขายังไม่เพิ่มขึ้นตามหมวดหมู่อื่น ๆ : สร้างค่าที่เปรียบเทียบได้1sapply(1:5, function(i) trial(i, 10, 10))


2

คุณมีข้อ จำกัด ที่คุณสามารถดูเป็นธรรมชาติในการแจกแจงพหุนามคือว่าเพียงหนึ่งเดียวและของ s จะเป็นที่ 1 และส่วนที่เหลือทั้งหมดจะเป็น 0 เพื่อให้คุณมีข้อ จำกัด เชิงเส้น 1 นั่นหมายถึงการพูด ที่ผลรวมจะได้รับมากกว่า1 นี่คือเอฟเฟกต์ความเป็นคู่ที่คุณสังเกตเห็น ไม่มีอะไรผิดปกติหรือรบกวนเกี่ยวกับเรื่องนี้xixi=1x1=1xii1


ฉันไม่เข้าใจว่าการกระจายพหุคูณเกี่ยวข้องกับสถานการณ์นี้อย่างไร คุณอธิบายได้ไหม
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.