คำถามติดแท็ก skewness

มาตรการความเบ้ (หรืออ้างถึง) ระดับของความไม่สมดุลในการกระจายตัวของตัวแปร

2
ความเบ้ของลอการิทึมของตัวแปรสุ่มแกมม่า
พิจารณาแกมมาตัวแปรสุ่ม X∼Γ(α,θ)X∼Γ(α,θ)X\sim\Gamma(\alpha, \theta) ) มีสูตรเรียบร้อยสำหรับค่าเฉลี่ยความแปรปรวนและความเบ้: E[X]Var[X]Skewness[X]=αθ=αθ2=1/α⋅E[X]2=2/α−−√E[X]=αθVar⁡[X]=αθ2=1/α⋅E[X]2Skewness⁡[X]=2/α\begin{align} \mathbb E[X]&=\alpha\theta\\ \operatorname{Var}[X]&=\alpha\theta^2=1/\alpha\cdot\mathbb E[X]^2\\ \operatorname{Skewness}[X]&=2/\sqrt{\alpha} \end{align} พิจารณาในขณะนี้เข้าสู่ระบบเปลี่ยนตัวแปรสุ่มY=log(X)Y=log⁡(X)Y=\log(X) ) Wikipedia ให้สูตรสำหรับค่าเฉลี่ยและความแปรปรวน: E[Y]Var[Y]=ψ(α)+log(θ)=ψ1(α)E[Y]=ψ(α)+log⁡(θ)Var⁡[Y]=ψ1(α)\begin{align} \mathbb E[Y]&=\psi(\alpha)+\log(\theta)\\ \operatorname{Var}[Y]&=\psi_1(\alpha)\\ \end{align} ผ่านฟังก์ชัน digamma และ trigamma ซึ่งถูกกำหนดให้เป็นอนุพันธ์อันดับหนึ่งและสองของลอการิทึมของฟังก์ชันแกมมา สูตรสำหรับความเบ้คืออะไร? ฟังก์ชัน tetragamma จะปรากฏขึ้นหรือไม่ (สิ่งที่ทำให้ฉันสงสัยเกี่ยวกับสิ่งนี้คือตัวเลือกระหว่างการแจกแจงแบบปกติและแกมม่าดูการแจกแจงแบบแกมม่าและแบบลอบันปกติในสิ่งอื่น ๆ พวกเขาต่างกันในคุณสมบัติความเบ้ของพวกเขาโดยเฉพาะความเบ้ของบันทึกการ ความเบ้ของบันทึกของแกมม่าเป็นลบ แต่เป็นลบอย่างไร .. )

7
ทำไมข้อมูลที่เอียงจึงไม่เหมาะสำหรับการสร้างแบบจำลอง?
ส่วนใหญ่เวลาที่ผู้คนพูดถึงการเปลี่ยนแปลงของตัวแปร (สำหรับทั้งตัวทำนายและตัวแปรตอบกลับ) พวกเขาคุยกันถึงวิธีการรักษาความเบ้ของข้อมูล สิ่งที่ฉันไม่สามารถเข้าใจได้คือทำไมการลบความเบ้จึงถือเป็นวิธีปฏิบัติที่ดีที่สุด ความเบ้นั้นส่งผลกระทบต่อประสิทธิภาพการทำงานของแบบจำลองประเภทต่าง ๆ เช่นแบบจำลองที่ใช้แบบต้นไม้แบบเชิงเส้นและแบบที่ไม่ใช่เชิงเส้นได้อย่างไร แบบจำลองประเภทใดที่ได้รับผลกระทบมากขึ้นจากความเบ้และทำไม

1
ฉันควรใช้ t-test กับข้อมูลที่มีการบิดเบือนสูงหรือไม่ ขอหลักฐานทางวิทยาศาสตร์
ฉันมีตัวอย่างจากชุดข้อมูลที่มีการบิดเบือนสูง (ดูคล้ายการแจกแจงแบบเอ็กซ์โปเนนเชียล) เกี่ยวกับการมีส่วนร่วมของผู้ใช้ (เช่น: จำนวนโพสต์) ที่มีขนาดต่างกัน (แต่ไม่น้อยกว่า 200) และฉันต้องการเปรียบเทียบค่าเฉลี่ย สำหรับสิ่งนั้นฉันใช้การทดสอบ t สองแบบที่ไม่มีการจับคู่ (และการทดสอบ t กับปัจจัยของ Welch เมื่อตัวอย่างมีความแปรปรวนต่างกัน) อย่างที่ฉันได้ยินมาว่าสำหรับกลุ่มตัวอย่างที่มีขนาดใหญ่จริง ๆ มันไม่สำคัญว่ากลุ่มตัวอย่างจะไม่แจกแจงแบบปกติ มีคนกำลังตรวจสอบสิ่งที่ฉันทำบอกว่าการทดสอบที่ฉันใช้ไม่เหมาะกับข้อมูลของฉัน พวกเขาแนะนำให้บันทึกการแปลงตัวอย่างของฉันก่อนใช้การทดสอบ t ฉันเป็นผู้เริ่มต้นดังนั้นฉันจึงสับสนในการตอบคำถามการวิจัยของฉันด้วย "บันทึกการเข้าร่วมการวัด" พวกเขาผิดหรือเปล่า? ฉันผิดหรือเปล่า? หากพวกเขาคิดผิดมีหนังสือหรือเอกสารทางวิทยาศาสตร์ที่ฉันสามารถอ้างอิง / แสดงได้หรือไม่? หากฉันผิดฉันควรใช้การทดสอบแบบใด

5
วิธีการสร้างข้อมูลที่ไม่สัมพันธ์กัน
ฉันสนใจที่จะหาวิธีในการสร้างข้อมูลที่มีความสัมพันธ์และไม่ปกติ ดังนั้นการกระจายบางอย่างที่ใช้ในเมทริกซ์ความแปรปรวนร่วม (หรือสหสัมพันธ์) เป็นพารามิเตอร์และสร้างข้อมูลที่ใกล้เคียงกับมัน แต่นี่คือสิ่งที่จับได้: วิธีที่ฉันพยายามค้นหาควรมีความยืดหยุ่นในการควบคุมความเบ้และ / หรือ kurtosis หลายตัวแปรด้วย ฉันคุ้นเคยกับวิธีของเฟลชแมนและวิธีการใช้พลังงานของตัวแปรปกติ แต่ฉันเชื่อว่าส่วนขยายเหล่านั้นส่วนใหญ่อนุญาตให้ผู้ใช้ใช้การรวมกันของความเบ้เล็กน้อยและความโด่งเท่านั้นทำให้เหลือความเบ้ / ความหลายหลาก สิ่งที่ฉันสงสัยคือถ้ามีวิธีที่ช่วยระบุความเบ้หลายตัวแปรและ / หรือ kurtosis พร้อมกับโครงสร้างความสัมพันธ์ / ความแปรปรวนร่วมบางอย่าง ประมาณหนึ่งปีที่ผ่านมาฉันได้สัมมนาเกี่ยวกับการแจกแจงแบบโคคูล่าและฉันจำได้ว่าศาสตราจารย์กล่าวอย่างไม่ตั้งใจว่าผ่านการใช้เถาวัลย์โคโพลีสเราสามารถสร้างข้อมูลซึ่งกล่าวคือสมมาตรในระยะขอบ 1-D แต่ร่วมกันเบ้ -versa หรือยิ่งไปกว่านั้นอัตรากำไรขั้นต้นที่ต่ำกว่าอาจมีความเบ้หรือความโด่งในขณะที่ยังคงมีขนาดสมมาตรสูงสุด (หรือไม่) ฉันประหลาดใจกับความคิดที่ว่ามีความยืดหยุ่นเช่นนี้ฉันพยายามค้นหาบทความหรือเอกสารการประชุมที่อธิบายวิธีการดังกล่าว แต่ฉันไม่ประสบความสำเร็จ :( มันไม่จำเป็นต้องผ่านการใช้ copulas ฉันเปิดรับทุกอย่างที่ใช้ได้ แก้ไข: ฉันได้เพิ่มรหัส R เพื่อพยายามแสดงสิ่งที่ฉันหมายถึง จนถึงตอนนี้ฉันคุ้นเคยกับคำจำกัดความของความเบ้หลายตัวแปรและความโด่งของ Mardia เท่านั้น เมื่อฉันเข้าหาปัญหาของฉันครั้งแรกฉันคิดอย่างไร้เดียงสาว่าถ้าฉันใช้ copula symmetric (Gaussian ในกรณีนี้) กับ marginals ที่เบ้ (เบต้าในตัวอย่างนี้) การทดสอบ …

4
ควรใช้ค่าเฉลี่ยเมื่อข้อมูลเบี่ยงเบนหรือไม่
บ่อยครั้งที่ตำราสถิติประยุกต์ที่นำมาใช้แยกแยะความแตกต่างของค่าเฉลี่ยจากค่ามัธยฐาน (มักจะอยู่ในบริบทของสถิติเชิงพรรณนาและกระตุ้นการสรุปแนวโน้มกลางโดยใช้ค่าเฉลี่ยมัธยฐานและโหมด) โดยอธิบายว่าค่าเฉลี่ยนั้นอ่อนไหวต่อค่าผิดปกติในข้อมูลตัวอย่างและ / หรือ เพื่อการแจกแจงแบบเบ้ของประชากรและนี่ใช้เป็นข้ออ้างสำหรับการยืนยันว่าค่ามัธยฐานจะเป็นที่ต้องการเมื่อข้อมูลไม่สมมาตร ตัวอย่างเช่น: การวัดแนวโน้มศูนย์กลางที่ดีที่สุดสำหรับชุดข้อมูลที่กำหนดมักขึ้นอยู่กับวิธีการกระจายค่า ... เมื่อข้อมูลไม่สมมาตรค่ามัธยฐานมักเป็นตัวชี้วัดที่ดีที่สุดของแนวโน้มกลาง เพราะหมายถึงการมีความไวต่อการสังเกตมากก็จะถูกดึงไปในทิศทางของค่าข้อมูลที่ห่างไกลและเป็นผลจะจบลงที่สูงเกินจริงมากเกินไปหรือมากเกินไปกิ่ว." -Pagano และ Gauvreau, (2000) หลักการชีวสถิติ 2 เอ็ด (พีแอนด์จีอยู่ในมือ BTW ไม่แยกพวกเขาออกต่อกัน) ผู้เขียนกำหนด "แนวโน้มกลาง" ดังนี้: "ลักษณะการตรวจสอบที่พบบ่อยที่สุดของชุดข้อมูลคือศูนย์กลางของมันหรือจุดที่การสังเกตมักจะรวมกลุ่มกัน" สิ่งนี้ทำให้ฉันเป็นวิธีที่ตรงไปตรงมาน้อยกว่าการพูดเพียงใช้ค่ามัธยฐานระยะเวลาเพราะใช้ค่าเฉลี่ยเมื่อข้อมูล / การแจกแจงสมมาตรเป็นสิ่งเดียวกับที่บอกว่าใช้ค่าเฉลี่ยเมื่อเท่ากับค่ามัธยฐาน แก้ไข: whuber ชี้ให้เห็นอย่างถูกต้องว่าฉันกำลังพูดถึงมาตรการที่แข็งแกร่งของแนวโน้มกลางกับค่ามัธยฐาน ดังนั้นจึงเป็นสิ่งสำคัญที่จะต้องจำไว้ว่าฉันกำลังพูดถึงกรอบเฉพาะของค่าเฉลี่ยเลขคณิตเทียบกับค่ามัธยฐานในสถิติประยุกต์เบื้องต้น (ที่, โหมดกัน, มาตรการอื่น ๆ ของแนวโน้มกลางไม่ได้รับแรงจูงใจ) แทนที่จะตัดสินว่าค่าเฉลี่ยของยูทิลิตี้ลดลงเท่าใดจากพฤติกรรมของค่ามัธยฐานเราไม่ควรเข้าใจสิ่งเหล่านี้ว่าเป็นมาตรการสองอย่างที่แตกต่างกันของการเป็นศูนย์กลาง? ในคำอื่น ๆ ที่มีความไวต่อความเบ้เป็นคุณสมบัติของค่าเฉลี่ย เราสามารถโต้แย้งได้อย่างถูกต้องว่า "ค่ามัธยฐานนั้นไม่ดีเพราะส่วนใหญ่ไม่ไวต่อความเบ้ดังนั้นควรใช้เมื่อมันเท่ากับค่าเฉลี่ยเท่านั้น" (โหมดค่อนข้างสมเหตุสมผลไม่ได้เกี่ยวข้องกับคำถามนี้)

2
ปรีชาสักครู่เกี่ยวกับความหมายของการแจกแจงหรือไม่?
ใครสามารถให้สัญชาตญาณว่าทำไมช่วงเวลาที่สูงขึ้นของการแจกแจงความน่าจะเป็นเช่นช่วงเวลาที่สามและสี่สอดคล้องกับความเบ้และความโด่งตามลำดับ? ทำไมค่าเบี่ยงเบนเกี่ยวกับค่าเฉลี่ยยกกำลังสามหรือสี่จึงแปลเป็นตัวชี้วัดความเบ้และความโด่ง มีวิธีที่เกี่ยวข้องกับสิ่งนี้กับอนุพันธ์อันดับสามหรือสี่ของฟังก์ชันหรือไม่?pXpXp_X พิจารณาคำจำกัดความของความเบ้และความโด่ง: Skewness(X)=E[(X−μX)3]/σ3,Kurtosis(X)=E[(X−μX)4]/σ4.Skewness(X)=E[(X−μX)3]/σ3,Kurtosis(X)=E[(X−μX)4]/σ4.\begin{matrix} \text{Skewness}(X) = \mathbb{E}[(X - \mu_{X})^3] / \sigma^3, \\[6pt] \text{Kurtosis}(X) = \mathbb{E}[(X - \mu_{X})^4] / \sigma^4. \\[6pt] \end{matrix} ในสมการเหล่านี้เราเพิ่มค่าปกติเป็นพลังงานและนำค่าที่คาดไว้ ไม่ชัดเจนสำหรับฉันว่าทำไมการเพิ่มตัวแปรสุ่มให้เป็นกำลังสี่ให้ "ความแหลม" หรือทำไมการเพิ่มตัวแปรสุ่มให้เป็นกำลังสามควรให้ "ความเบ้" ดูเหมือนว่ามหัศจรรย์และลึกลับ!(X−μ)/σ(X−μ)/σ(X-\mu)/\sigma

3
กำลังแปลงการแจกแจงเบ้อย่างมาก
สมมติว่าฉันมีตัวแปรที่มีการแจกแจงเบ้บวกในระดับสูงมากเช่นการบันทึกจะไม่เพียงพอเพื่อที่จะนำมันอยู่ในช่วงของความเบ้สำหรับการแจกแจงแบบปกติ ตัวเลือกของฉันมีอะไรบ้างในตอนนี้ ฉันจะทำอย่างไรเพื่อแปลงตัวแปรเป็นการกระจายตัวแบบปกติ

3
สูตรฟอร์มปิดสำหรับฟังก์ชั่นการกระจายรวมถึงความเบ้และความโด่ง
มีสูตรเช่นนี้หรือไม่? มีชุดของข้อมูลที่ทราบค่าเฉลี่ยความแปรปรวนความเบ้และความโด่งหรือสามารถวัดได้มีสูตรเดียวที่สามารถใช้ในการคำนวณความหนาแน่นของความน่าจะเป็นของค่าที่สันนิษฐานว่ามาจากข้อมูลข้างต้นหรือไม่

11
การแจกแจงนั้นเป็นเรื่องปกติ แต่ก็ถือว่าเบียนเสียนอย่างมากหรือเปล่า?
ฉันมีคำถามนี้คุณคิดว่าการกระจายเวลาที่ใช้ไปกับ YouTube ในแต่ละวันเป็นอย่างไร คำตอบของฉันคือมันอาจกระจายตามปกติและเอียงไปทางซ้ายสูง ฉันคาดหวังว่าจะมีโหมดเดียวที่ผู้ใช้ส่วนใหญ่ใช้เวลาเฉลี่ยและจากนั้นก็ใช้เวลานานพอสมควรเนื่องจากผู้ใช้บางคนมีพลังที่ครอบงำ นั่นเป็นคำตอบที่ยุติธรรมหรือไม่? มีคำพูดที่ดีกว่าสำหรับการแจกแจงแบบนั้นหรือไม่?

2
ออกเดินทางจากสมมติฐานปกติใน ANOVA: kurtosis หรือความเบ้สำคัญกว่าหรือไม่?
ประยุกต์แบบจำลองเชิงสถิติเชิงเส้นโดย Kutner และคณะ ระบุเกี่ยวกับการออกเดินทางต่อไปนี้จากสมมติฐานปกติของแบบจำลอง ANOVA: ความโด่งของการกระจายข้อผิดพลาด (อย่างใดอย่างหนึ่งมากหรือน้อยกว่ายอดการกระจายปกติ) มีความสำคัญมากกว่าเบ้ของการกระจายในแง่ของผลกระทบต่อการวินิจฉัย ฉันรู้สึกสับสนนิดหน่อยจากคำแถลงนี้และไม่สามารถหาข้อมูลที่เกี่ยวข้องได้ทั้งในหนังสือหรือออนไลน์ ฉันสับสนเพราะฉันยังได้เรียนรู้ว่าแผนการ QQ ที่มีหางหนาเป็นข้อบ่งชี้ว่าสมมติฐานเชิงบรรทัดฐานคือ "ดีพอ" สำหรับโมเดลการถดถอยเชิงเส้นในขณะที่ QQ แปลงที่เบ้เป็นเรื่องที่น่าเป็นห่วงมากกว่า (เช่นการเปลี่ยนแปลงอาจเหมาะสม) . ฉันถูกต้องหรือไม่ว่าการใช้เหตุผลเดียวกันสำหรับ ANOVA และการเลือกคำศัพท์ของพวกเขา ( สำคัญกว่าในแง่ของผลกระทบที่มีต่อการอนุมาน ) ได้รับการคัดเลือกไม่ดี? นั่นคือการแจกแจงแบบเบ้มีผลกระทบที่รุนแรงกว่าและควรหลีกเลี่ยงในขณะที่ปริมาณเคิร์ตซีสปริมาณเล็กน้อยสามารถยอมรับ แก้ไข: ตามที่ได้รับการยอมรับจาก rolando2 มันยากที่จะกล่าวว่าสิ่งหนึ่งสำคัญกว่าอีกกรณีในทุกกรณี แต่ฉันแค่มองหาข้อมูลเชิงลึกทั่วไป ปัญหาหลักของฉันคือฉันได้รับการสอนว่าในการถดถอยเชิงเส้นอย่างง่าย QQ-plot ที่มีหางที่หนักกว่า (= kurtosis?) ก็โอเคเนื่องจากการทดสอบ F นั้นค่อนข้างแข็งแกร่งเทียบกับเรื่องนี้ ในทางกลับกัน QQ-แผนการแปลง (รูปทรงพาราโบลา) มักเป็นปัญหาที่ใหญ่กว่า สิ่งนี้ดูเหมือนจะขัดแย้งกับแนวทางที่ตำราเรียนของฉันให้ ANOVA แม้ว่าแบบจำลอง ANOVA สามารถแปลงเป็นแบบจำลองการถดถอยและควรมีสมมติฐานเดียวกัน ฉันเชื่อว่าฉันมองอะไรบางอย่างหรือมีสมมติฐานที่ผิดพลาด แต่ฉันไม่สามารถเข้าใจได้ว่ามันจะเป็นอะไร


2
จะทำอย่างไรเมื่อบางเวลามีการตอบสนองที่เบ้อย่างหนักและบางคนไม่ได้ทำการศึกษาซ้ำหลายครั้ง?
โดยทั่วไปเมื่อมีการวัดผลอย่างต่อเนื่อง แต่เบ้ในการออกแบบระยะยาว (พูดด้วยผลระหว่างวิชาหนึ่ง) วิธีการทั่วไปคือการเปลี่ยนผลลัพธ์ให้เป็นปกติ หากสถานการณ์นั้นรุนแรงเช่นด้วยการสังเกตที่ถูกตัดทอนอย่างใดอย่างหนึ่งอาจจะมีจินตนาการและใช้โมเดลการเติบโตของ Tobit หรือบางอย่าง แต่ฉันกำลังสูญเสียเมื่อฉันเห็นผลลัพธ์ที่กระจายตามปกติในบางช่วงเวลาและจากนั้นก็เบ้อย่างหนักที่คนอื่น ๆ ; การแปลงอาจเสียบการรั่วไหลหนึ่ง แต่ฤดูใบไม้ผลิอื่น คุณจะแนะนำอะไรในกรณีเช่นนี้? มีโมเดลมิกซ์เอฟเฟ็กต์รุ่นที่ไม่ใช่พารามิเตอร์ที่ฉันไม่ทราบหรือไม่ หมายเหตุ: ตัวอย่างที่ใช้จะเป็นคะแนนการทดสอบความรู้ก่อน / โพสต์ชุดของการแทรกแซงการศึกษา คะแนนเริ่มต้นตามปกติ แต่จากนั้นจัดกลุ่มที่ระดับสูงสุดของระดับต่อไป


3
ช่วงของค่าความเบ้และความโด่งสำหรับการแจกแจงแบบปกติ
ฉันต้องการที่จะรู้ว่าอะไรคือช่วงของค่าความเบ้และความโด่งซึ่งข้อมูลถูกพิจารณาว่ามีการแจกจ่ายตามปกติ ฉันได้อ่านข้อโต้แย้งมากมายและส่วนใหญ่ฉันได้คำตอบที่หลากหลาย บางคนบอกว่าสำหรับความเบ้และสำหรับ kurtosis เป็นช่วงที่ยอมรับได้สำหรับการกระจายตามปกติ บางคนบอกว่า(-1.96,1.96)สำหรับความเบ้เป็นช่วงที่ยอมรับได้ ฉันพบการสนทนาอย่างละเอียดที่นี่: อะไรคือช่วงของความเบ้และ kurtosis ที่ยอมรับได้สำหรับการกระจายข้อมูลปกติเกี่ยวกับปัญหานี้ แต่ฉันไม่พบคำสั่งเด็ดขาดใด ๆ( - 2 , 2 )(−1,1)(−1,1)(-1,1)(−2,2)(−2,2)(-2,2)(−1.96,1.96)(−1.96,1.96)(-1.96,1.96) พื้นฐานสำหรับการตัดสินใจช่วงเวลาดังกล่าวคืออะไร? นี่เป็นตัวเลือกส่วนตัวหรือไม่? หรือมีคำอธิบายทางคณิตศาสตร์เบื้องหลังช่วงเวลาเหล่านี้หรือไม่?

5
“ Peakedness” ของฟังก์ชันความหนาแน่นของความน่าจะเป็นแบบเบ้
ฉันต้องการอธิบาย "ความแหลม" และ "ความหนักเบา" ของฟังก์ชันความหนาแน่นของความน่าจะเป็นแบบเบ้ คุณสมบัติที่ฉันต้องการจะอธิบายพวกเขาจะถูกเรียกว่า "kurtosis" หรือไม่? ฉันเคยเห็นเพียงคำว่า "kurtosis" ใช้สำหรับการแจกแจงแบบสมมาตรหรือไม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.