วิธีการสร้างข้อมูลที่ไม่สัมพันธ์กัน


14

ฉันสนใจที่จะหาวิธีในการสร้างข้อมูลที่มีความสัมพันธ์และไม่ปกติ ดังนั้นการกระจายบางอย่างที่ใช้ในเมทริกซ์ความแปรปรวนร่วม (หรือสหสัมพันธ์) เป็นพารามิเตอร์และสร้างข้อมูลที่ใกล้เคียงกับมัน แต่นี่คือสิ่งที่จับได้: วิธีที่ฉันพยายามค้นหาควรมีความยืดหยุ่นในการควบคุมความเบ้และ / หรือ kurtosis หลายตัวแปรด้วย

ฉันคุ้นเคยกับวิธีของเฟลชแมนและวิธีการใช้พลังงานของตัวแปรปกติ แต่ฉันเชื่อว่าส่วนขยายเหล่านั้นส่วนใหญ่อนุญาตให้ผู้ใช้ใช้การรวมกันของความเบ้เล็กน้อยและความโด่งเท่านั้นทำให้เหลือความเบ้ / ความหลายหลาก สิ่งที่ฉันสงสัยคือถ้ามีวิธีที่ช่วยระบุความเบ้หลายตัวแปรและ / หรือ kurtosis พร้อมกับโครงสร้างความสัมพันธ์ / ความแปรปรวนร่วมบางอย่าง

ประมาณหนึ่งปีที่ผ่านมาฉันได้สัมมนาเกี่ยวกับการแจกแจงแบบโคคูล่าและฉันจำได้ว่าศาสตราจารย์กล่าวอย่างไม่ตั้งใจว่าผ่านการใช้เถาวัลย์โคโพลีสเราสามารถสร้างข้อมูลซึ่งกล่าวคือสมมาตรในระยะขอบ 1-D แต่ร่วมกันเบ้ -versa หรือยิ่งไปกว่านั้นอัตรากำไรขั้นต้นที่ต่ำกว่าอาจมีความเบ้หรือความโด่งในขณะที่ยังคงมีขนาดสมมาตรสูงสุด (หรือไม่) ฉันประหลาดใจกับความคิดที่ว่ามีความยืดหยุ่นเช่นนี้ฉันพยายามค้นหาบทความหรือเอกสารการประชุมที่อธิบายวิธีการดังกล่าว แต่ฉันไม่ประสบความสำเร็จ :( มันไม่จำเป็นต้องผ่านการใช้ copulas ฉันเปิดรับทุกอย่างที่ใช้ได้

แก้ไข: ฉันได้เพิ่มรหัส R เพื่อพยายามแสดงสิ่งที่ฉันหมายถึง จนถึงตอนนี้ฉันคุ้นเคยกับคำจำกัดความของความเบ้หลายตัวแปรและความโด่งของ Mardia เท่านั้น เมื่อฉันเข้าหาปัญหาของฉันครั้งแรกฉันคิดอย่างไร้เดียงสาว่าถ้าฉันใช้ copula symmetric (Gaussian ในกรณีนี้) กับ marginals ที่เบ้ (เบต้าในตัวอย่างนี้) การทดสอบ univariate บน margin จะให้ความสำคัญ แต่การทดสอบของ Mardia สำหรับ multivarite skewness / kurtosis ไม่สำคัญ ฉันลองแล้วไม่ได้ออกมาอย่างที่ฉันคาดไว้:

library(copula)
library(psych)
set.seed(101)

cop1 <- {mvdc(normalCopula(c(0.5), dim=2, dispstr="un"), 
            c("beta", "beta"),list(list(shape1=0.5, shape2=5), 
            list(shape1=0.5, shape2=5)))}

            Q1 <- rmvdc(cop1, 1000)
            x1 <- Q1[,1]
            y1 <- Q1[,2]


cop2 <- {mvdc(normalCopula(c(0.5), dim=2, dispstr="un"), 
            c("norm", "norm"),list(list(mean=0, sd=1), 
            list(mean = 0, sd=1)))}

            Q2 <- rmvdc(cop2, 1000)
            x2 <- Q2[,1]
            y2 <- Q2[,2]

mardia(Q1)  

Call: mardia(x = Q1)

Mardia tests of multivariate skew and kurtosis
Use describe(x) the to get univariate tests
n.obs = 1000   num.vars =  2 
b1p =  10.33   skew =  1720.98  with probability =  0
small sample skew =  1729.6  with probability =  0
b2p =  22.59   kurtosis =  57.68  with probability =  0

mardia(Q2)
Call: mardia(x = Q2)

Mardia tests of multivariate skew and kurtosis
Use describe(x) the to get univariate tests
n.obs = 1000   num.vars =  2 
b1p =  0.01   skew =  0.92  with probability =  0.92
 small sample skew =  0.92  with probability =  0.92
b2p =  7.8   kurtosis =  -0.79  with probability =  0.43

จากการตรวจสอบรูปทรงของ 'cop1' VS 'cop2' เช่นเดียวกับพล็อตความหนาแน่นของบีวาริเอตเชิงประจักษ์ฉันก็สามารถเห็นได้ว่าไม่มีใครดูสมมาตรเลย นั่นคือเมื่อฉันตระหนักว่านี่อาจซับซ้อนกว่าที่ฉันคิดเล็กน้อย

ฉันรู้ว่า Mardia ไม่ได้เป็นคำจำกัดความเพียงอย่างเดียวของความเบ้หลายตัวแปร / kurtosis ดังนั้นฉันจึงไม่ จำกัด ตัวเองในการค้นหาวิธีการที่สอดคล้องกับคำจำกัดความของ Mardia เท่านั้น

ขอขอบคุณ!


+1 คำถามที่น่าสนใจที่สุด คุณจะเจาะจงมากขึ้นเกี่ยวกับความหมายที่ 'ร่วมกันเบ้' ในบริบทนี้ได้อย่างไร ในขณะที่ฉันสามารถจินตนาการรูปแบบของการแจกแจงแบบร่วมที่มีความรู้สึก "แตกต่าง" ในสี่ด้าน (เกี่ยวกับแกนที่วางไว้ตามวิธีพูด) ฉันไม่คุ้นเคยกับสิ่งที่
Glen_b -Reinstate Monica

ประสบการณ์XX

สวัสดี. ขอบคุณมากที่สนใจคำถามของฉัน นี่เป็นครั้งแรกที่ฉันโพสต์ที่นี่ดังนั้นฉันหวังว่าฉันจะทำสิ่งต่าง ๆ ได้อย่างถูกต้อง ฉันจะอธิบายรายละเอียดเพิ่มเติมในส่วนความคิดเห็นเนื่องจากจำนวนอักขระ จำกัด ฉันไม่ให้ใช้รหัส R เพื่อลองและถ่ายทอดสิ่งที่ฉันกำลังทำอยู่
S. Punky

ใช่ฉันเพิ่งรู้และเพิ่มรายละเอียดเพิ่มเติม ฉันขอขอบคุณที่คุณสละเวลาแนะนำฉันเท่าที่จะใช้บอร์ดนี้ ขอบคุณ!
S. Punky

" ไม่ จำกัด ตัวเองในการค้นหาวิธีการที่เป็นไปตามคำจำกัดความของ Mardia เท่านั้น " - วิธีการทำอะไร
Glen_b -Reinstate Monica

คำตอบ:


3

หลังจากการค้นหามากกระโดดฟอรั่มออนไลน์ทั่วให้คำปรึกษากับอาจารย์และทำมากของการทบทวนวรรณกรรมที่ฉันได้มาสรุปว่าอาจวิธีเดียวที่จะแก้ไขปัญหานี้คือการใช้ copulas เถาแน่นอน มันช่วยให้คุณสามารถควบคุมความเบ้และความโด่ง (หรือช่วงเวลาที่สูงกว่า) - สำหรับเวกเตอร์สุ่ม p-variate และอิสระในการระบุ copulas p-1 คู่และ p * 1 ที่เหลือ (p-1) / 2 - ( p-1) มิติสามารถระบุได้ในชนิดของเงื่อนไขบางอย่าง

ฉันยินดีต้อนรับวิธีอื่น ๆ ที่ผู้คนอาจเคยเจอ แต่อย่างน้อยฉันก็ปล่อยให้ตัวชี้ไปทางคำตอบเพราะฉันไม่สามารถหาวิธีอื่น ๆ เพื่อจัดการกับสิ่งนี้ได้


2
เถาเชื่อมคืออะไร?
Sextus Empiricus

1

คุณอาจสามารถแก้ปัญหานี้ได้ด้วยการปรับเปลี่ยนอัลกอริทึมของ Ruscio และ Kaczetow (2008) กระดาษของพวกเขามีอัลกอริทึมซ้ำ (พร้อมรหัส R) ที่ช่วยลดความแตกต่างระหว่างรูปร่างที่แท้จริงและขอบที่ตั้งใจ คุณอาจสามารถแก้ไขได้เพื่อให้สามารถกำหนดช่วงเวลาแบบหลายตัวแปร (แทนระยะขอบ) ได้

Ruscio, J. , & Kaczetow, W. (2008) การจำลองข้อมูลที่ไม่แปรหลายตัวแปรโดยใช้อัลกอริทึมซ้ำ การวิจัยพฤติกรรมหลายตัวแปร, 43 (3), 355‐381 ดอย: 10.1080 / 00273170802285693


พระเจ้าช่วย! ขอขอบคุณ! ฉันคิดว่าสักครู่ที่คำถามนี้จะถูกกลืนหายไปในการให้อภัย
S. Punky

1
ดี ... ฉันได้อ่านบทความ Ruscio & Kaczetow (2008) แล้ว น่าเศร้าที่มันเป็นเพียงอีกหนึ่ง (ยังมีความยืดหยุ่นมากกว่า) การใช้งานของตระกูลอัลกอริทึมของ NORTA (NORmal To Anything) ซึ่งเป็นที่ทราบกันดีว่าทำงานได้ไม่ดีกับช่วงเวลาที่ 3 และ 4 แบบหลายตัวแปร ฉันเดาว่าฉันกลับไปที่ตารางหนึ่งบนอันนี้
S. Punky

0

คุณอาจต้องการตรวจสอบการกระจายรูปไข่ทั่วไปซึ่งช่วยให้เมทริกซ์รูปร่าง "คลาสสิก" ที่มีความยืดหยุ่นสำหรับคุณสมบัติอื่น ๆ


ขอขอบคุณ! ฉันจะให้แน่ใจว่าได้ตรวจสอบลิงก์นี้ออก ทีนี้, การแจกแจงไข่ไม่ใช่สมมาตรเหรอ? ดังนั้นใครสามารถควบคุมความโด่งได้ แต่ความเบ้ต้องอยู่ที่ 0?
S. Punky

แน่นอน แต่ GE ไม่ได้หมายถึงรูปไข่ สำหรับความแปรปรวนเชิงวงรีบางรูปแบบลองดูที่นี่: stat.tamu.edu/~genton/STAT689/TAMU2009SE.pdf
ผลึก

0

ฉันได้วิธีง่ายๆในการทำสิ่งนี้ที่ไม่เกี่ยวข้องกับ coplas และการออกแบบที่ซับซ้อนอื่น ๆ ฉันเกรงว่าฉันจะไม่มีการอ้างอิงที่เป็นทางการแม้ว่าวิธีนี้จะมีประสิทธิภาพสูง

ความคิดนั้นง่าย 1. วาดจำนวนของตัวแปรใด ๆ จากการแจกแจงปกติร่วม 2. ใช้ตัวแปร CDF ปกติที่ไม่แปรเพื่อหาความน่าจะเป็นของตัวแปรแต่ละตัว 3. ใช้ CDF ผกผันของการแจกแจงใด ๆ เพื่อจำลองการดึงจากการแจกแจงนั้น

ฉันมาด้วยวิธีนี้ในปี 2012 และแสดงให้เห็นถึงการใช้Stata ฉันยังได้เขียนโพสต์ล่าสุดแสดงให้เห็นวิธีการเดียวกันโดยใช้R


(1) "การกระจายทั่วไป Spearman" คืออะไร? (2) คุณมีความแตกต่างอะไรระหว่าง CDF กับ "CDF ปกติ" (3) คุณสามารถอธิบายได้ว่าวิธีนี้นำเสนอความสัมพันธ์ใด ๆ ได้อย่างไร? ฉันกลัวว่าการใช้ "ตัวแปร" และ "การกระจาย" โดยทั่วไปของคุณจะทำให้คำอธิบายของคุณค่อนข้างคลุมเครือดังนั้นจึงเป็นการยากที่จะบอกได้ว่าสิ่งใดที่ทำอยู่จริง คุณช่วยให้คำตอบของคุณแม่นยำยิ่งขึ้นได้ไหม?
whuber

ขอบคุณสำหรับการโพสต์ของคุณ! โดยทำตามลิงค์ที่สามารถดูข้อมูลเพิ่มเติมเกี่ยวกับวิธีการ มันไม่ได้ทำสิ่งที่ฉันหวังว่าจะบรรลุ (เช่นควบคุมช่วงเวลาที่สูงกว่าลำดับสูงกว่ามิติของการกระจาย) แต่ก็ยังเป็นวิธีที่มีค่ามาก
S. Punky

1
น่าแปลกใจที่ฉันไม่ได้คิดวิธีใหม่ดู: Cario, Marne C. และ Barry L. Nelson การสร้างแบบจำลองและการสร้างเวกเตอร์สุ่มด้วยการแจกแจงส่วนเพิ่มและเมทริกซ์สหสัมพันธ์ รายงานทางเทคนิคภาควิชาวิศวกรรมอุตสาหการและวิทยาศาสตร์การจัดการมหาวิทยาลัย Northwestern University, Evanston, Illinois, 1997. Yahav, Inbal และ Galit Shmueli "ในการสร้างข้อมูลพัวซองหลายตัวแปรในแอปพลิเคชั่นวิทยาศาสตร์การจัดการ" Robert H. Smith รายงานการวิจัยของโรงเรียนหมายเลข RHS (2009): 06-085
ฟรานซิสสมาร์ท

แม้ว่าจะไม่ใช่ 'วิธีการใหม่' ฉันยังคงขอขอบคุณสำหรับการสละเวลาในการตรวจสอบคำถามของฉันและเพิ่มสิ่งที่ชาญฉลาด :)
S. Punky

0

ฉันเชื่อว่าวิธีที่นำเสนอในเอกสารต่อไปนี้อนุญาตให้มีการสุ่มหลายตัวแปรด้วยการรวมกันของค่าเฉลี่ยความแปรปรวนความเบ้และความโด่ง

  1. Stanfield, PM, Wilson, JR, และ Mirka, GA 1996 แบบจำลองการป้อนข้อมูลหลายตัวแปรด้วยการแจกแจงแบบ Johnson, การดำเนินการประชุมการจำลองสถานการณ์ฤดูหนาวปี 1996 , สหพันธ์ Charnes, JM, Morrice, DJ, Brunner, DT, และ Swain, JJ, 1457-1464
  2. Stanfield, PM, Wilson, JR, และ King, RE 2004 การสร้างแบบจำลองที่ยืดหยุ่นของเวลาการทำงานที่สัมพันธ์กับการใช้งานในสิ่งอำนวยความสะดวกการใช้ซ้ำผลิตภัณฑ์วารสารการวิจัยระหว่างประเทศของการผลิตปีที่ 42 ฉบับที่ 11, 2179-2196

คำเตือน: ฉันไม่ได้เป็นหนึ่งในผู้เขียน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.