คำถามติดแท็ก skewness

มาตรการความเบ้ (หรืออ้างถึง) ระดับของความไม่สมดุลในการกระจายตัวของตัวแปร

3
การแปลความหมายของตัวทำนายการแปลงสภาพบันทึกและ / หรือการตอบสนอง
ฉันสงสัยว่ามันจะสร้างความแตกต่างในการตีความไม่ว่าจะเป็นเพียงขึ้นอยู่กับทั้งขึ้นอยู่กับและเป็นอิสระหรือตัวแปรอิสระเท่านั้นที่ถูกเปลี่ยนเข้าสู่ระบบ พิจารณากรณีของ log(DV) = Intercept + B1*IV + Error ฉันสามารถตีความ IV เป็นเปอร์เซ็นต์เพิ่มขึ้น แต่จะเปลี่ยนแปลงได้อย่างไรเมื่อฉันมี log(DV) = Intercept + B1*log(IV) + Error หรือเมื่อฉันมี DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

3
ค่าเบี่ยงเบนมาตรฐานบอกอะไรเราในการแจกแจงแบบไม่ปกติ
ในการแจกแจงแบบปกติกฎ 68-95-99.7ให้ค่าความเบี่ยงเบนมาตรฐานมีความหมายมากมาย แต่ค่าเบี่ยงเบนมาตรฐานจะมีความหมายอย่างไรในการแจกแจงแบบไม่ปกติ (Multimodal หรือเบ้) ค่าข้อมูลทั้งหมดจะยังคงอยู่ภายใน 3 ส่วนเบี่ยงเบนมาตรฐานหรือไม่ เรามีกฎเช่น 68-95-99.7 สำหรับการแจกแจงแบบไม่ปกติหรือไม่?

6
ใครบางคนสามารถเสนอตัวอย่างของการแจกแจงแบบ unimodal ที่มีความเบ้ของศูนย์ แต่ที่ไม่สมมาตร?
ในเดือนพฤษภาคม 2553 ผู้ใช้วิกิพีเดีย Mcorazao เพิ่มประโยคหนึ่งในบทความความเบ้ว่า "ค่าศูนย์ระบุว่าค่านั้นมีการกระจายอย่างเท่าเทียมกันทั้งสองด้านของค่าเฉลี่ยซึ่งโดยทั่วไปแล้ว อย่างไรก็ตามหน้าวิกิไม่มีตัวอย่างจริงของการแจกแจงที่ทำลายกฎนี้ Googling "ตัวอย่างการแจกแจงแบบอสมมาตรที่มีความเบ้เป็นศูนย์" ยังไม่มีตัวอย่างจริงอย่างน้อยในผลลัพธ์ 20 รายการแรก การใช้คำจำกัดความที่คำนวณความเอียงโดยE[(X−μσ)3]E⁡[(X−μσ)3] \operatorname{E}\Big[\big(\tfrac{X-\mu}{\sigma}\big)^{\!3}\, \Big]และสูตร R sum((x-mean(x))^3)/(length(x) * sd(x)^3) ฉันสามารถสร้างการกระจายตัวเล็ก ๆ ตามอำเภอใจเพื่อทำให้ความเบ้ต่ำ ตัวอย่างเช่นการกระจาย x = c(1, 3.122, 5, 4, 1.1) อัตราผลตอบแทนเอียงของ5} แต่นี่คือตัวอย่างเล็ก ๆ และยิ่งกว่านั้นความเบี่ยงเบนจากสมมาตรก็ไม่ใหญ่ ดังนั้นเป็นไปได้หรือไม่ที่จะสร้างการกระจายตัวที่ใหญ่ขึ้นด้วยจุดสูงสุดที่มีความไม่สมดุลสูง แต่ก็ยังมีความเบ้ของศูนย์เกือบอยู่หรือ−5.64947⋅10−5−5.64947⋅10−5-5.64947\cdot10^{-5}

4
หมายความว่าโหมด = แปลว่าการกระจายแบบสมมาตรหรือไม่?
ฉันรู้ว่าคำถามนี้ถูกถามด้วย case Mean = มัธยฐาน แต่ฉันไม่พบสิ่งใดที่เกี่ยวข้องกับโหมด Mean = หากโหมดเท่ากับค่าเฉลี่ยฉันสามารถสรุปได้ว่านี่คือการแจกแจงแบบสมมาตรหรือไม่? ฉันจะถูกบังคับให้รู้ค่ามัธยฐานด้วยวิธีนี้หรือไม่?

3
R: การสุ่มฟอเรสต์การโยน NaN / Inf ในข้อผิดพลาด“ การเรียกฟังก์ชันต่างประเทศ” แม้จะไม่มีชุดข้อมูลของ NaN [ปิด]
ฉันใช้คาเร็ตเพื่อรันฟอเรสต์แบบสุ่มที่ผ่านการตรวจสอบความถูกต้องข้ามชุดข้อมูล ตัวแปร Y เป็นปัจจัย ไม่มีชุดข้อมูลของ NaN, Inf's หรือ NA ในชุดข้อมูลของฉัน อย่างไรก็ตามเมื่อใช้ป่าสุ่มฉันได้รับ Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs …

3
การตรวจสอบก่อนหน้านี้เกี่ยวกับการแจกแจงแบบเบ้
ภายใต้นิยามคลาสสิกของค่าผิดปกติเป็นจุดข้อมูลที่อยู่ด้านนอก 1.5 * IQR จากควอไทล์ชั้นบนหรือล่างมีการสันนิษฐานของการแจกแจงแบบไม่เอียง สำหรับการแจกแจงแบบเบ้ (เอกซ์โพเนนเชียลปัวซองเรขาคณิต ฯลฯ ) เป็นวิธีที่ดีที่สุดในการตรวจหาค่าผิดปกติโดยการวิเคราะห์การแปลงฟังก์ชันดั้งเดิมหรือไม่? ตัวอย่างเช่นการแจกแจงแบบกระจายที่ควบคุมโดยการแจกแจงแบบเอ็กซ์โพเนนเชียลสามารถถูกแปลงด้วยฟังก์ชันบันทึก - ณ จุดไหนที่สามารถยอมรับค่าผิดปกติตามนิยาม IQR เดียวกันได้หรือไม่?

2
จะจัดการกับความแตกต่างระหว่างการกระจายตัวของชุดทดสอบและชุดฝึกอบรมอย่างไร?
ฉันคิดว่าสมมติฐานพื้นฐานหนึ่งของการเรียนรู้ของเครื่องหรือการประมาณค่าพารามิเตอร์คือข้อมูลที่มองไม่เห็นมาจากการแจกแจงแบบเดียวกับชุดการฝึกอบรม อย่างไรก็ตามในบางกรณีการกระจายชุดทดสอบเกือบจะแตกต่างจากชุดฝึกอบรม พูดสำหรับปัญหาการจัดหมวดหมู่หลากหลายขนาดใหญ่ที่พยายามแบ่งคำอธิบายผลิตภัณฑ์ออกเป็นประมาณ 17,000 คลาส ชุดการฝึกอบรมจะมีนักบวชชั้นสูงอย่างมากบางชั้นอาจมีตัวอย่างการฝึกอบรมมากมาย แต่บางคนอาจมีเพียงไม่กี่คน สมมติว่าเราได้รับชุดทดสอบที่มีเลเบลคลาสที่ไม่รู้จักจากลูกค้า เราพยายามจัดประเภทผลิตภัณฑ์แต่ละชิ้นในชุดทดสอบเป็นหนึ่งใน 17,000 คลาสโดยใช้ตัวจําแนกที่ฝึกในชุดฝึกอบรม ชุดทดสอบอาจมีการแจกแจงแบบเบ้ แต่อาจแตกต่างจากชุดการฝึกอบรมเนื่องจากอาจเกี่ยวข้องกับธุรกิจที่แตกต่างกัน หากการแจกแจงสองระดับแตกต่างกันมากลักษณนามที่ผ่านการฝึกอบรมอาจทำงานได้ไม่ดีในชุดทดสอบ เรื่องนี้ดูเหมือนชัดเจนโดยเฉพาะกับตัวจําแนก Naive Bayes มีวิธีใดที่สามารถจัดการความแตกต่างระหว่างชุดการฝึกอบรมและชุดทดสอบที่กำหนดสำหรับตัวแยกประเภทความน่าจะเป็นหรือไม่ ฉันได้ยินเกี่ยวกับการที่ "transductive SVM" ทำสิ่งที่คล้ายกันใน SVM มีเทคนิคที่คล้ายกันในการเรียนรู้ลักษณนามที่มีประสิทธิภาพดีที่สุดในชุดการทดสอบที่กำหนดหรือไม่? จากนั้นเราสามารถฝึกตัวจําแนกใหม่สําหรับชุดการทดสอบที่แตกต่างกันตามที่ได้รับอนุญาตในสถานการณ์จริงนี้

4
จะทราบได้อย่างไรว่าการกระจายข้อมูลของฉันสมมาตร
ฉันรู้ว่าถ้าค่ามัธยฐานและค่าเฉลี่ยเท่ากันโดยประมาณนี่หมายความว่ามีการกระจายแบบสมมาตร แต่ในกรณีนี้ฉันไม่แน่ใจ ค่าเฉลี่ยและค่ามัธยฐานค่อนข้างใกล้เคียง (เพียง 0.487m / ความแตกต่างของถุงน้ำดี) ซึ่งจะทำให้ฉันบอกว่ามีการกระจายแบบสมมาตร แต่เมื่อมองที่กล่องสี่เหลี่ยมดูเหมือนว่ามันจะเป็นเชิงบวกเล็กน้อย (ค่ามัธยฐานนั้นใกล้เคียงกับไตรมาสที่ 1 โดยค่า) (ฉันใช้ Minitab หากคุณมีคำแนะนำเฉพาะสำหรับซอฟต์แวร์ชิ้นนี้)

12
ตัวอย่างชีวิตจริงของการแจกแจงที่มีความเบ้เชิงลบ
โดยได้รับแรงบันดาลใจจาก " ตัวอย่างชีวิตจริงของการแจกแจงร่วมกัน " ฉันสงสัยว่าตัวอย่างแบบสอนที่ผู้คนใช้เพื่อแสดงความเบ้เชิงลบคืออะไร มีตัวอย่างมากมาย "บัญญัติ" ของการแจกแจงแบบสมมาตรหรือปกติที่ใช้ในการสอน - แม้ว่าคนที่ชอบความสูงและน้ำหนักจะไม่รอดจากการตรวจสอบทางชีวภาพอย่างใกล้ชิด! ความดันโลหิตอาจสูงกว่าปกติ ฉันชอบข้อผิดพลาดในการวัดทางดาราศาสตร์ - ที่น่าสนใจในประวัติศาสตร์พวกมันไม่น่าจะโกหกในทิศทางเดียวมากกว่าอีกทิศทางหนึ่งโดยมีข้อผิดพลาดเล็ก ๆ น่าจะมีขนาดใหญ่กว่ามาก ตัวอย่างการสอนทั่วไปสำหรับความเบ้เชิงบวก ได้แก่ รายได้ของผู้คน ไมล์สะสมสำหรับรถยนต์มือสองเพื่อขาย เวลาปฏิกิริยาในการทดลองทางจิตวิทยา ราคาบ้าน; จำนวนการเคลมอุบัติเหตุจากลูกค้าประกัน จำนวนเด็กในครอบครัว ความมีเหตุผลทางกายภาพของพวกเขามักจะเกิดจากการถูก จำกัด ที่ด้านล่าง (โดยปกติเป็นศูนย์), ด้วยค่าต่ำที่เป็นไปได้, แม้เป็นเรื่องธรรมดา, แต่มีขนาดใหญ่มาก สำหรับความเบ้เชิงลบฉันพบว่ามันยากที่จะให้ตัวอย่างที่ชัดเจนและชัดเจนที่ผู้ชมอายุน้อย (schoolers สูง) สามารถเข้าใจได้อย่างสังหรณ์ใจบางทีอาจเป็นเพราะการแจกแจงชีวิตจริงน้อยลงมีขอบเขตบนที่ชัดเจน ตัวอย่างที่ไม่ดีที่ฉันสอนที่โรงเรียนคือ "จำนวนนิ้ว" ชาวบ้านส่วนใหญ่มีสิบ แต่บางคนสูญเสียหนึ่งอุบัติเหตุหรือมากกว่านั้น ผลที่สุดคือ "99% ของผู้คนมีจำนวนนิ้วที่สูงกว่าค่าเฉลี่ย"! Polydactylyทำให้ปัญหาซับซ้อนเนื่องจากสิบไม่ใช่ขอบเขตบนที่เข้มงวด เนื่องจากทั้งนิ้วที่หายไปและนิ้วเสริมเป็นเหตุการณ์ที่หายากมันอาจไม่ชัดเจนสำหรับนักเรียนที่มีผลกระทบมากกว่า ผมมักจะใช้การกระจายทวินามสูงพีแต่นักเรียนมักจะพบว่า "จำนวนองค์ประกอบที่น่าพอใจในแบตช์นั้นเบ้ในทางลบ" น้อยกว่าความจริงที่ว่า "จำนวนองค์ประกอบที่ผิดพลาดในแบตช์นั้นเบ้เชิงบวก" (หนังสือเป็นชุดรูปแบบอุตสาหกรรมฉันชอบไข่ที่ร้าวและไม่บุบสลายในกล่องสิบสอง) บางทีนักเรียนอาจรู้สึกว่า …

4
การเปลี่ยนรูปเพื่อเพิ่มความโด่งและความเบ้ของค่าปกติ
ฉันกำลังทำงานกับอัลกอริทึมที่อาศัยข้อเท็จจริงที่ว่าการสังเกตของนั้นได้รับการแจกแจงตามปกติและฉันต้องการที่จะทดสอบความทนทานของอัลกอริทึมกับสมมติฐานนี้โดยประจักษ์YYY การทำเช่นนี้ผมกำลังมองหาลำดับของการเปลี่ยนแปลงที่จะมีความก้าวหน้าทำลายปกติของYตัวอย่างเช่นถ้าเป็นเรื่องปกติพวกเขาจะมีความเบ้และ kurtosisและมันจะเป็นการดีที่จะหาลำดับของการเปลี่ยนแปลงที่เพิ่มขึ้นอย่างต่อเนื่องY Y = 0 = 3T1( ) , … , Tn( )T1(),…,Tn()T_1(), \dots, T_n()YYYYYY= 0=0= 0= 3=3= 3 ความคิดของฉันคือการจำลองข้อมูลที่กระจายโดยประมาณประมาณและทดสอบอัลกอริทึมในนั้น กว่าอัลกอริธึมการทดสอบในชุดข้อมูลที่ถูกแปลงแต่ละชุดเพื่อดูว่าเอาต์พุตมีการเปลี่ยนแปลงมากน้อยเพียงใดYYYT1( Y) , … , Tn( y)T1(Y),…,Tn(y)T_1(Y), \dots, T_n(y) โปรดสังเกตว่าฉันไม่ได้ควบคุมการกระจายตัวของจำลองดังนั้นฉันไม่สามารถจำลองพวกมันโดยใช้การแจกแจงที่วางตัวแบบปกติ (เช่นการกระจายข้อผิดพลาดทั่วไปแบบเบ้)YYY

3
จะประเมินความเบ้จาก boxplot ได้อย่างไร?
วิธีการตัดสินใจความเบ้โดยดูที่ boxplot ที่สร้างจากข้อมูลนี้: 340, 300, 520, 340, 320, 290, 260, 330 หนังสือเล่มหนึ่งบอกว่า "ถ้าควอไทล์ต่ำกว่าห่างจากค่ามัธยฐานมากกว่าควอไทล์ตอนบนแล้วการแจกแจงจะเบ้ในทางลบ" แหล่งข้อมูลอื่นหลายแห่งกล่าวว่าเหมือนกันมากหรือน้อย ฉันสร้าง boxplot โดยใช้ R มันเหมือนดังต่อไปนี้: ฉันคิดว่ามันเอียงเชิงลบเพราะควอไทล์ต่ำกว่าห่างจากค่ามัธยฐานมากกว่าควอไทล์ตอนบน แต่ปัญหาคือเมื่อฉันใช้วิธีอื่นเพื่อกำหนดความเบ้: หมายถึง (337.5)> ค่ามัธยฐาน (325) นี้แสดงให้เห็นข้อมูลเป็นเบ้บวก ฉันพลาดอะไรไปหรือเปล่า?

3
ฉันจะคำนวณช่วงความมั่นใจของค่าเฉลี่ยในตัวอย่างที่ไม่ได้กระจายแบบทั่วไปได้อย่างไร
ฉันจะคำนวณช่วงความมั่นใจของค่าเฉลี่ยในตัวอย่างที่ไม่ได้กระจายแบบทั่วไปได้อย่างไร ฉันเข้าใจว่าวิธีการ bootstrap มักใช้ที่นี่ แต่ฉันเปิดให้ตัวเลือกอื่น ๆ ในขณะที่ฉันกำลังมองหาตัวเลือกที่ไม่ใช่พารามิเตอร์หากใครบางคนสามารถโน้มน้าวใจฉันได้ว่าการแก้ปัญหาแบบพารามิเตอร์นั้นใช้ได้อย่างถูกต้อง ขนาดตัวอย่างคือ> 400 ถ้าใครสามารถให้ตัวอย่างใน R มันจะได้รับการชื่นชมมาก

2
การแจกแจงแบบไม่ปกติที่มีความเบ้เป็นศูนย์และไม่มีความโด่งเกินศูนย์?
คำถามเชิงทฤษฎีเป็นส่วนใหญ่ มีตัวอย่างของการแจกแจงแบบไม่ปกติที่มีช่วงเวลาสี่ช่วงแรกเท่ากับช่วงเวลาปกติหรือไม่? พวกมันมีอยู่ในทฤษฎีหรือไม่?

3
t-test กับข้อมูลที่บิดเบือนสูง
ฉันมีชุดข้อมูลที่มีการตรวจสอบข้อมูลค่ารักษาพยาบาลนับหมื่น ข้อมูลนี้เอียงไปทางขวาอย่างมากและมีศูนย์จำนวนมาก ดูเหมือนว่าสำหรับคนสองชุด (ในกรณีนี้มีวงดนตรีสองวงที่มี> 3000 obs ต่อคน): Min. 1st Qu. Median Mean 3rd Qu. Max. 0.0 0.0 0.0 4536.0 302.6 395300.0 Min. 1st Qu. Median Mean 3rd Qu. Max. 0.0 0.0 0.0 4964.0 423.8 721700.0 ถ้าฉันทำการทดสอบ t ของ Welch กับข้อมูลนี้ฉันจะได้ผลลัพธ์กลับมา: Welch Two Sample t-test data: x and y t = …

5
อะไรคือเหตุผลที่การเปลี่ยนแปลงการบันทึกใช้กับการแจกแจงแบบเบ้ขวา?
ฉันเคยได้ยินว่า การแปลงท่อนซุงเป็นที่นิยมกันมากที่สุดสำหรับการแจกแจงแบบเบ้ด้านขวาในการถดถอยเชิงเส้นหรือการถดถอยเชิงปริมาณ ฉันต้องการทราบว่ามีเหตุผลใดบ้างที่อยู่ภายใต้ข้อความนี้? ทำไมการแปลงบันทึกจึงเหมาะสมสำหรับการแจกแจงเบ้ที่ถูกต้อง วิธีการกระจายซ้ายเอียง?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.