kurtosis ขนาดมหึมา?


10

ฉันกำลังทำสถิติเชิงพรรณนาของผลตอบแทนรายวันจากดัชนีหุ้น คือถ้าและP 2เป็นระดับของดัชนีในวันที่ 1 และวันที่ 2 ตามลำดับจากนั้นl o g e ( P 2P1P2คือผลตอบแทนที่ฉันใช้ (มาตรฐานสมบูรณ์ในวรรณกรรม)loge(P2P1)

ดังนั้นความโด่งจึงมีมากในบางส่วนของสิ่งเหล่านี้ ฉันกำลังดูข้อมูลรายวันประมาณ 15 ปี (ประมาณการสังเกตอนุกรมเวลา)26015

                      means     sds     mins    maxs     skews     kurts
ARGENTINA          -0.00031 0.00965 -0.33647 0.13976 -15.17454 499.20532
AUSTRIA             0.00003 0.00640 -0.03845 0.04621   0.19614   2.36104
CZECH.REPUBLIC      0.00008 0.00800 -0.08289 0.05236  -0.16920   5.73205
FINLAND             0.00005 0.00639 -0.03845 0.04622   0.19038   2.37008
HUNGARY            -0.00019 0.00880 -0.06301 0.05208  -0.10580   4.20463
IRELAND             0.00003 0.00641 -0.03842 0.04621   0.18937   2.35043
ROMANIA            -0.00041 0.00789 -0.14877 0.09353  -1.73314  44.87401
SWEDEN              0.00004 0.00766 -0.03552 0.05537   0.22299   3.52373
UNITED.KINGDOM      0.00001 0.00587 -0.03918 0.04473  -0.03052   4.23236
                   -0.00007 0.00745 -0.09124 0.06405  -1.82381  63.20596
AUSTRALIA           0.00009 0.00861 -0.08831 0.06702  -0.74937  11.80784
CHINA              -0.00002 0.00072 -0.40623 0.02031   6.26896 175.49667
HONG.KONG           0.00000 0.00031 -0.00237 0.00627   2.73415  56.18331
INDIA              -0.00011 0.00336 -0.03613 0.03063  -0.22301  10.12893
INDONESIA          -0.00031 0.01672 -0.24295 0.19268  -2.09577  54.57710
JAPAN               0.00008 0.00709 -0.03563 0.06591   0.57126   5.16182
MALAYSIA           -0.00003 0.00861 -0.35694 0.13379 -16.48773 809.07665

คำถามของฉันคือ: มีปัญหาอะไรบ้าง?

ฉันต้องการทำการวิเคราะห์อนุกรมเวลาแบบครอบคลุมกับข้อมูลนี้ - การวิเคราะห์การถดถอย OLS และ Quantile และ Granger Causality

ทั้งการตอบสนองของฉัน (ขึ้นอยู่กับ) และตัวทำนาย (regressor) จะมีคุณสมบัติของ kurtosis ขนาดยักษ์นี้ ดังนั้นฉันจะมีกระบวนการส่งคืนเหล่านี้ที่ด้านใดด้านหนึ่งของสมการการถดถอย หากความไม่ปกตินั้นเกิดขึ้นกับความวุ่นวายที่จะทำให้ข้อผิดพลาดมาตรฐานของฉันแปรปรวนสูงใช่ไหม?

(บางทีฉันต้องการ bootstrap ที่มีความเบ้มาก)


3
1) คุณอาจต้องการย้ายสิ่งนี้ไปยังเว็บไซต์ quant.stackexchange.com 2) คุณหมายถึงปัญหาอะไร มีทั้งวรรณกรรมเกี่ยวกับผลกระทบของผู้ผิดกฎหมายในช่วงเวลา มันมักจะเป็นศิลปะมากกว่าวิทยาศาสตร์
จอห์น

2
"มีปัญหาอะไรเหรอ?" คลุมเครือเกินไป คุณต้องการทำอะไรกับข้อมูลเหล่านี้ เคิร์ตใหญ่ของคุณเกี่ยวข้องกับการเอียงซ้ายขนาดใหญ่ เนื่องจาก log (p2 / p1) = log p2 - log p1 ความเบ้ซ้ายขนาดใหญ่บ่งชี้ว่ามีไม่กี่ครั้งเมื่อค่าต่ำมากนั่นคือ p1 สูงกว่า p2 มากเมื่อเทียบกับกรณีปกติ อาจเป็น บริษัท ที่ล้มละลายหรืออะไรทำนองนั้น
Peter Flom

ขออภัยเกี่ยวกับสิ่งนี้ - ฉันได้แก้ไข OP ของฉันแล้ว

1
ผลตอบแทนบันทึกมักจะเบ้และหนักเทลด์ ด้วยเหตุผลนี้จึงควรพิจารณาการกระจายแบบยืดหยุ่นที่สามารถจับภาพพฤติกรรมนี้ได้ ดูตัวอย่างที่ 1และ2

คุณควรจะดูที่การวัด kutosis ตาม L-ครู่
kjetil b halvorsen

คำตอบ:


2

ลองดูLambert W x Fที่ดูหนักหางหรือลองบิดเบือน Lambert W x Fลองดูสิ (ข้อจำกัดความรับผิดชอบ: ฉันเป็นผู้เขียน) ใน R จะมีการใช้งานในแพ็คเกจLambertW

กระทู้ที่เกี่ยวข้อง:

yX

นี่คือตัวอย่างของการประมาณการ Lambert W x Gaussian ที่นำไปใช้กับผลตอบแทนกองทุนหุ้น

library(fEcofin)
ret <- ts(equityFunds[, -1] * 100)
plot(ret)

กองทุนหุ้นแบบอนุกรมเวลา

ตัวชี้วัดสรุปของการส่งคืนสินค้ามีความคล้ายคลึงกัน (ไม่รุนแรงมาก) เหมือนกับในโพสต์ของ OP

data_metrics <- function(x) {
  c(mean = mean(x), sd = sd(x), min = min(x), max = max(x), 
    skewness = skewness(x), kurtosis = kurtosis(x))
}
ret.metrics <- t(apply(ret, 2, data_metrics))
ret.metrics

##          mean    sd    min   max skewness kurtosis
## EASTEU 0.1300 1.538 -18.42 12.38   -1.855    28.95
## LATAM  0.1206 1.468  -6.06  5.66   -0.434     4.21
## CHINA  0.0864 0.911  -4.71  4.27   -0.322     5.42
## INDIA  0.1515 1.502 -12.72 14.05   -0.505    15.22
## ENERGY 0.0997 1.187  -5.00  5.02   -0.271     4.48
## MINING 0.1315 1.394  -7.72  5.69   -0.692     5.64
## GOLD   0.1098 1.855 -10.14  6.99   -0.350     5.11
## WATER  0.0628 0.748  -5.07  3.72   -0.405     6.08

ซีรีย์ส่วนใหญ่แสดงให้เห็นถึงลักษณะที่ไม่ปกติอย่างชัดเจน (ความเบ้แรงและ / หรือความโด่งมาก) ให้ Gaussianize แต่ละชุดโดยใช้การแจกแจง Lambert W x เกาส์เซียนอย่างหนัก (= h ของ Tukey) โดยใช้วิธีประมาณค่าโมเมนต์ ( IGMM)

library(LambertW)
ret.gauss <- Gaussianize(ret, type = "h", method = "IGMM")
colnames(ret.gauss) <- gsub(".X", "", colnames(ret.gauss))

plot(ts(ret.gauss))

พล็อตอนุกรมเวลาของการคืน Gaussianized

พล็อตอนุกรมเวลาแสดงก้อยน้อยลงและการเปลี่ยนแปลงที่เสถียรมากขึ้นเมื่อเวลาผ่านไป (ไม่คงที่) การคำนวณตัวชี้วัดอีกครั้งในอนุกรมเวลา Gaussianized ทำให้ได้ผลลัพธ์:

ret.gauss.metrics <- t(apply(ret.gauss, 2, data_metrics))
ret.gauss.metrics

##          mean    sd   min  max skewness kurtosis
## EASTEU 0.1663 0.962 -3.50 3.46   -0.193        3
## LATAM  0.1371 1.279 -3.91 3.93   -0.253        3
## CHINA  0.0933 0.734 -2.32 2.36   -0.102        3
## INDIA  0.1819 1.002 -3.35 3.78   -0.193        3
## ENERGY 0.1088 1.006 -3.03 3.18   -0.144        3
## MINING 0.1610 1.109 -3.55 3.34   -0.298        3
## GOLD   0.1241 1.537 -5.15 4.48   -0.123        3
## WATER  0.0704 0.607 -2.17 2.02   -0.157        3

IGMM3Gaussianize()scale()

การถดถอยไบวาเรียแบบง่าย

rEASTEU,trINDIA,t

layout(matrix(1:2, ncol = 2, byrow = TRUE))
plot(ret[, "INDIA"], ret[, "EASTEU"])
grid()
plot(ret.gauss[, "INDIA"], ret.gauss[, "EASTEU"])
grid()

scatterplot อินเดียและ EASTEU

ช่องว่างด้านซ้ายของซีรี่ส์ดั้งเดิมแสดงให้เห็นว่าค่าผิดปกติที่แข็งแกร่งไม่เกิดขึ้นในวันเดียวกัน แต่ในเวลาต่างกันในอินเดียและยุโรป นอกเหนือจากนั้นจะไม่ชัดเจนหากระบบคลาวด์ข้อมูลในศูนย์ไม่สนับสนุนความสัมพันธ์หรือการพึ่งพาเชิงลบ / เชิงบวก เนื่องจากค่าผิดปกติมีผลกระทบอย่างมากต่อความแปรปรวนและการประมาณค่าสหสัมพันธ์จึงควรดูที่การพึ่งพาโดยการเอาหางหนาออก ที่นี่รูปแบบมีความชัดเจนมากขึ้นและความสัมพันธ์เชิงบวกระหว่างอินเดียและตลาดยุโรปตะวันออกจะชัดเจน

# try these models on your own
mod <- lm(EASTEU ~ INDIA * CHINA, data = ret)
mod.robust <- rlm(EASTEU ~ INDIA, data = ret)
mod.gauss <- lm(EASTEU ~ INDIA, data = ret.gauss)

summary(mod)
summary(mod.robust)
summary(mod.gauss)

สาเหตุเวร

VAR(5)p=5

library(vars)  
mod.vars <- vars::VAR(ret[, c("EASTEU", "INDIA")], p = 5)
causality(mod.vars, "INDIA")$Granger


## 
##  Granger causality H0: INDIA do not Granger-cause EASTEU
## 
## data:  VAR object mod.vars
## F-Test = 3, df1 = 5, df2 = 3000, p-value = 0.02

causality(mod.vars, "EASTEU")$Granger
## 
##  Granger causality H0: EASTEU do not Granger-cause INDIA
## 
## data:  VAR object mod.vars
## F-Test = 4, df1 = 5, df2 = 3000, p-value = 0.003

อย่างไรก็ตามสำหรับข้อมูล Gaussianized คำตอบนั้นแตกต่างกัน! ที่นี่การทดสอบไม่สามารถปฏิเสธ H0 ที่ "อินเดียไม่ได้เป็น Granger-สาเหตุ EASTEU" แต่ก็ยังปฏิเสธว่า "EASTEU ไม่ได้เป็น Granger-สาเหตุอินเดีย" ดังนั้นข้อมูล Gaussianized สนับสนุนสมมติฐานที่ตลาดยุโรปผลักดันตลาดในอินเดียในวันรุ่งขึ้น

mod.vars.gauss <- vars::VAR(ret.gauss[, c("EASTEU", "INDIA")], p = 5)
causality(mod.vars.gauss, "INDIA")$Granger

## 
##  Granger causality H0: INDIA do not Granger-cause EASTEU
## 
## data:  VAR object mod.vars.gauss
## F-Test = 0.8, df1 = 5, df2 = 3000, p-value = 0.5

causality(mod.vars.gauss, "EASTEU")$Granger

## 
##  Granger causality H0: EASTEU do not Granger-cause INDIA
## 
## data:  VAR object mod.vars.gauss
## F-Test = 2, df1 = 5, df2 = 3000, p-value = 0.06

VAR(5)


1

สิ่งที่จำเป็นคือโมเดลการกระจายความน่าจะเป็นที่เหมาะกับข้อมูลมากขึ้น บางครั้งไม่มีช่วงเวลาที่กำหนด หนึ่งในนั้นคือการกระจาย Cauchy กระจาย แม้ว่าการแจกแจงของ Cauchy จะมีค่ามัธยฐานเป็นค่าที่คาดหวัง แต่ก็ไม่มีค่าเฉลี่ยที่มั่นคงและไม่มีช่วงเวลาที่สูงขึ้นที่มั่นคง สิ่งนี้หมายความว่าเมื่อมีการรวบรวมข้อมูลการวัดที่เกิดขึ้นจริงนั้นจะดูเหมือนค่าผิดปกติ แต่เป็นการวัดจริง ตัวอย่างเช่นหากมีสองการแจกแจงปกติ F และ G ที่มีค่าเฉลี่ยเป็นศูนย์และหนึ่งแบ่ง F / G ผลลัพธ์จะไม่มีช่วงเวลาแรกและเป็นการกระจาย Cauchy ดังนั้นเราจึงรวบรวมข้อมูลอย่างมีความสุขและดูเหมือนตกลง 5,3,9,6,2,4 และเราคำนวณค่าเฉลี่ยที่ดูเสถียรแล้วทันใดนั้นเราก็ได้ค่า -32739876 และค่าเฉลี่ยของเรากลายเป็นความหมาย แต่ทราบว่าค่ามัธยฐานคือ 4 มีเสถียรภาพ มันเป็นแบบหางยาว

แก้ไข: คุณอาจลองใช้การแจกแจงแบบ t ด้วยความอิสระ 2 องศา การแจกแจงนั้นมีหางยาวกว่าการแจกแจงแบบปกติความเบ้และความไม่เสถียร ( Sicไม่มีอยู่) แต่ค่าเฉลี่ยและความแปรปรวนถูกกำหนดนั่นคือเสถียร

การแก้ไขต่อไป: ความเป็นไปได้ทางหนึ่งคือการใช้ Theil regression อย่างไรก็ตามมันเป็นความคิดเพราะ Theil จะทำงานได้ดีไม่ว่าหางจะมีลักษณะอย่างไร Theil สามารถทำได้ MLR (การถดถอยเชิงเส้นหลายเส้นโดยใช้ค่ามัธยฐานความชัน) ฉันไม่เคยทำ Theil สำหรับการปรับข้อมูลฮิสโตแกรม แต่ฉันได้ทำ Theil ด้วยตัวแปร Jackknife เพื่อสร้างช่วงความมั่นใจ ข้อดีของการทำเช่นนั้นคือ Theil ไม่สนใจว่ารูปร่างการกระจายคืออะไรและโดยทั่วไปคำตอบนั้นมีความลำเอียงน้อยกว่า OLS เพราะโดยทั่วไปแล้ว OLS จะใช้เมื่อมีความแปรปรวนของแกนอิสระที่เป็นปัญหา ไม่ใช่ว่า Theil นั้นไม่มีความรู้สึกใด ๆ เลยมันเป็นความชันเฉลี่ย คำตอบนั้นมีความหมายแตกต่างกันเช่นกันค้นหาข้อตกลงที่ดีขึ้นระหว่างตัวแปรที่ขึ้นกับอิสระซึ่ง OLS ค้นหาตัวทำนายข้อผิดพลาดน้อยที่สุดของตัวแปรตาม


2
ข้อมูลที่ดีขอบคุณ คุณรู้แหล่งข้อมูลบางส่วน (ค่อนข้างเล็ก) เพื่ออ่านเพิ่มเติมหรือไม่ ฉันมีปัญหาที่แตกต่างอย่างสิ้นเชิงกับหางยาว แต่ฉันคิดว่าข้อมูลของฉันเป็นเพียงการกระจายตัวของสถานการณ์ต่างๆ
flaschenpost

ฉันใช้ Mathematica และการแจกแจงที่เหมาะสมรวมถึงการกำหนดการแจกแจงแบบกระจายเสียงนั้นไม่ยากในภาษานั้น ยกตัวอย่างเช่นดูที่นี้ โดยทั่วไปแล้วตัวแปรสุ่มเพิ่มโดยการเพิ่มความชัดเจน แต่ในทางปฏิบัติการเพิ่มความหนาแน่นของฟังก์ชั่นความหนาแน่นเป็นสิ่งที่ท้าทาย บางคนเพียงกำหนดฟังก์ชันความหนาแน่นสำหรับการผสมตัวแปรอย่างชาญฉลาดเช่นการเพิ่มหางแบบเอ็กซ์โปเนนเชียลแบบแสงให้กับการแจกแจงแกมม่าที่หนักกว่าที่ถูกเซ็นเซอร์หลังจากค่าสูงสุดถึงความถี่การเกิดแผ่นดินไหวแบบจำลอง @flaschenpost
Carl
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.