"มีคำพูดที่ดีกว่าสำหรับการแจกจ่ายนั้นหรือไม่?
มีความแตกต่างที่คุ้มค่าที่นี่ระหว่างการใช้คำเพื่ออธิบายคุณสมบัติของการแจกแจงแทนที่จะพยายามหา "ชื่อ" สำหรับการแจกจ่ายเพื่อให้คุณสามารถระบุว่าเป็น (โดยประมาณ) ตัวอย่างของการแจกแจงมาตรฐานที่เฉพาะเจาะจง: หนึ่งสูตร หรือตารางสถิติอาจมีอยู่สำหรับฟังก์ชันการแจกแจงและคุณสามารถประมาณค่าพารามิเตอร์ได้ ในกรณีหลังนี้คุณมีแนวโน้มที่จะใช้การแจกแจงแบบระบุชื่อเช่น "ปกติ / เกาส์เซียน" (โดยทั่วไปคือคำสองคำที่มีความหมายเหมือนกัน) เป็นแบบจำลองที่รวบรวมคุณลักษณะที่สำคัญบางอย่างของข้อมูลของคุณแทนที่จะอ้างสิทธิ์ประชากร ดึงออกมาจากตรงตามที่กระจายทฤษฎี หากต้องการหลอกลวง George Box เล็กน้อยทุกรุ่นเป็น "ผิด" แต่บางรุ่นก็มีประโยชน์ หากคุณกำลังคิดเกี่ยวกับวิธีการสร้างแบบจำลองมันมีความคุ้มค่าที่จะพิจารณาว่าคุณลักษณะใดที่คุณต้องการรวมเข้าด้วยกัน
เป็นเบ้บวกเป็นตัวอย่างของการอธิบายทรัพย์สินที่จัดจำหน่ายมี แต่ไม่ได้มาใกล้กับที่ระบุซึ่งปิด -the-shelf กระจายคือ "" รูปแบบที่เหมาะสม มันจะแยกผู้สมัครบางคนออกตัวอย่างเช่นการแจกแจงแบบเกาส์ (เช่นปกติ) มีศูนย์เอียงดังนั้นจะไม่เหมาะสมที่จะสร้างแบบจำลองข้อมูลของคุณหากการเอียงเป็นคุณลักษณะที่สำคัญ อาจมีคุณสมบัติอื่น ๆ ของข้อมูลที่มีความสำคัญต่อคุณเช่นกันว่าunimodal (มีเพียงจุดสูงสุดเดียว) หรือว่ามีขอบเขตระหว่าง 0 ถึง 24 ชั่วโมง (หรือระหว่าง 0 และ 1 หากคุณเขียนเป็นเศษส่วน ของวัน) หรือว่ามีความน่าจะเป็นไปได้ที่จะมีสมาธิอยู่ที่ศูนย์ (เนื่องจากมีคนที่ไม่ได้ดู YouTube เลยในวันที่กำหนด)โด่ง และควรจำไว้ว่าแม้ว่าการกระจายของคุณจะมีรูปร่าง "โคก" หรือ "เส้นโค้งเบลล์" และมีความลาดเอียงเป็นศูนย์หรือใกล้เคียงศูนย์ แต่ก็ไม่ได้ปฏิบัติตามโดยอัตโนมัติว่าการกระจายปกตินั้น "ถูกต้อง" สำหรับมัน! ในทางกลับกันแม้ว่าจำนวนประชากรที่ข้อมูลของคุณถูกดึงมาจากการใช้งานจริงจะมีการกระจายที่แม่นยำเนื่องจากข้อผิดพลาดในการสุ่มตัวอย่างชุดข้อมูลของคุณอาจไม่คล้ายกับมันมากนัก ชุดข้อมูลขนาดเล็กมีแนวโน้มที่จะ "รบกวน" และอาจไม่ชัดเจนว่าคุณลักษณะบางอย่างที่คุณสามารถดูได้เช่นฮัมตัวเล็ก ๆ เพิ่มเติมหรือหางอสมมาตรเป็นคุณสมบัติของประชากรพื้นฐานที่ข้อมูลถูกดึงมาจาก (และอาจจะรวมอยู่ด้วย ในแบบจำลองของคุณ) หรือไม่ว่าสิ่งเหล่านั้นเป็นเพียงสิ่งประดิษฐ์จากตัวอย่างเฉพาะของคุณ (และเพื่อจุดประสงค์ในการสร้างแบบจำลองควรถูกละเว้น) หากคุณมีชุดข้อมูลขนาดเล็กและความลาดเอียงอยู่ใกล้กับศูนย์แสดงว่าการแจกแจงต้นแบบนั้นมีความสมมาตร ยิ่งชุดข้อมูลของคุณมีขนาดใหญ่ขึ้นและมีความเบ้มากเท่าไหร่ก็ยิ่งมีความน่าเชื่อถือน้อยลงเท่านั้น แต่ในขณะที่คุณสามารถทำการทดสอบที่สำคัญเพื่อดูว่าหลักฐานที่คุณเชื่อถือนั้นเป็นข้อมูลที่คุณได้รับจากความเบ้สิ่งนี้อาจหายไปจากจุดที่ว่าการแจกแจงแบบปกติ (หรือศูนย์เอียงอื่น ๆ ) มีความเหมาะสมเป็นแบบจำลอง ...
คุณสมบัติของข้อมูลใดมีความสำคัญต่อวัตถุประสงค์ที่คุณตั้งใจจะทำโมเดลจริงหรือไม่ โปรดทราบว่าหากความเบ้มีขนาดเล็กพอสมควรและคุณไม่สนใจมันมากนักแม้ว่าประชากรที่อยู่เบื้องล่างจะเบ้อย่างแท้จริงคุณก็อาจพบว่าการกระจายแบบปกติเป็นแบบจำลองที่มีประโยชน์เพื่อประมาณเวลาการกระจายที่แท้จริงของการรับชม แต่คุณควรตรวจสอบว่าสิ่งนี้ไม่ได้จบลงด้วยการทำนายโง่ ๆ เนื่องจากการแจกแจงแบบปกติไม่มีค่าสูงสุดหรือต่ำสุดที่เป็นไปได้ถึงแม้ว่าค่าสูงหรือต่ำสุดจะไม่น่าเป็นไปได้มากขึ้นคุณจะพบว่าแบบจำลองของคุณทำนายว่ามีบางอย่างความน่าจะเป็นที่จะรับชมเป็นจำนวนชั่วโมงติดลบต่อวันหรือมากกว่า 24 ชั่วโมง สิ่งนี้จะเป็นปัญหามากขึ้นสำหรับคุณถ้าความน่าจะเป็นที่คาดการณ์ของเหตุการณ์ที่เป็นไปไม่ได้นั้นสูง การกระจายแบบสมมาตรเช่นปกติจะทำนายได้ว่าผู้คนจำนวนมากจะมองดูเป็นระยะเวลานานกว่าเช่นค่าเฉลี่ยสูงกว่าค่าเฉลี่ย 50% และดูต่ำกว่าค่าเฉลี่ยน้อยกว่า 50% หากเวลาในการดูนั้นเบ้อย่างมากการคาดคะเนแบบนี้อาจเป็นไปไม่ได้ที่จะโง่และให้ผลลัพธ์ที่ทำให้เข้าใจผิดหากคุณใช้ผลลัพธ์ของแบบจำลองของคุณและใช้เป็นข้อมูลเพื่อวัตถุประสงค์อื่น (เช่นคุณ ใช้การจำลองเวลาดูเพื่อคำนวณการตั้งเวลาโฆษณาที่ดีที่สุด) หากความเบ้นั้นเป็นสิ่งที่น่าสังเกตมากคุณต้องการที่จะเก็บมันไว้เป็นส่วนหนึ่งของแบบจำลองของคุณการแจกแจงแบบเบ้ปกติอาจเหมาะสมกว่า หากคุณต้องการที่จะจับภาพทั้งเบ้และความโด่งแล้วพิจารณาเบ้เสื้อ หากคุณต้องการรวมขอบเขตบนและล่างที่เป็นไปได้ทางร่างกายไว้ให้พิจารณาใช้การแจกแจงแบบตัดทอนของรุ่นเหล่านี้ มีการแจกแจงความน่าจะเป็นอื่น ๆ อีกมากมายที่สามารถบิดเบือนและ unimodal (สำหรับตัวเลือกพารามิเตอร์ที่เหมาะสม) เช่นการแจกแจงแบบFหรือแกมม่าและคุณสามารถตัดส่วนเหล่านี้อีกครั้งเพื่อให้พวกเขาไม่คาดการณ์เวลาในการรับชมสูง การแจกแจงแบบเบต้าอาจเป็นทางเลือกที่ดีถ้าคุณกำลังสร้างโมเดลส่วนของวันที่ดูอยู่เนื่องจากจะมีขอบเขตระหว่าง 0 ถึง 1 เสมอโดยไม่จำเป็นต้องตัดทอนอีก หากคุณต้องการที่จะรวมความเข้มข้นของความน่าจะเป็นที่ตรงศูนย์เนื่องจากไม่ใช่นักดู-แล้วพิจารณาสร้างในรูปแบบกีดขวาง
แต่ ณ จุดที่คุณพยายามจะโยนในทุกคุณสมบัติที่คุณสามารถระบุจากข้อมูลของคุณและสร้างแบบจำลองที่ซับซ้อนมากขึ้นบางทีคุณควรถามตัวเองว่าทำไมคุณถึงทำเช่นนี้? จะมีข้อได้เปรียบสำหรับแบบจำลองที่ง่ายกว่าหรือไม่ตัวอย่างเช่นการทำงานกับคณิตศาสตร์ง่ายกว่าหรือมีพารามิเตอร์น้อยลงในการประมาณค่าหรือไม่ หากคุณกังวลว่าการทำให้เข้าใจง่ายเช่นนี้จะทำให้คุณไม่สามารถรวบรวมคุณสมบัติทั้งหมดที่คุณสนใจได้อาจเป็นไปได้ว่าการแจกจ่ายแบบ "ไม่อยู่ในชั้นวางสินค้า" นั้นเป็นสิ่งที่คุณต้องการ อย่างไรก็ตามเราไม่ได้ จำกัด การทำงานกับการแจกแจงที่มีชื่อซึ่งคุณสมบัติทางคณิตศาสตร์ได้รับการอธิบายก่อนหน้านี้ ให้พิจารณาใช้ข้อมูลของคุณเพื่อสร้างฟังก์ชันการกระจายเชิงประจักษ์. สิ่งนี้จะดักจับพฤติกรรมทั้งหมดที่มีอยู่ในข้อมูลของคุณ แต่คุณไม่สามารถตั้งชื่อเช่น "ปกติ" หรือ "แกมม่า" ได้อีกต่อไปและคุณไม่สามารถใช้คุณสมบัติทางคณิตศาสตร์ที่เกี่ยวข้องกับการแจกจ่ายเฉพาะ ตัวอย่างเช่นกฎ "95% ของข้อมูลอยู่ภายใน 1.96 ส่วนเบี่ยงเบนมาตรฐานของค่าเฉลี่ย" สำหรับการกระจายข้อมูลตามปกติและอาจไม่ใช้กับการแจกจ่ายของคุณ แม้ว่าโปรดทราบว่ากฎบางข้อบังคับใช้กับการแจกแจงทั้งหมดเช่นความไม่เท่าเทียมของ Chebyshevรับประกันอย่างน้อย75% ของข้อมูลของคุณต้องอยู่ภายในค่าเบี่ยงเบนมาตรฐานสองค่าโดยไม่คำนึงถึงความเบ้ น่าเสียดายที่การกระจายเชิงประจักษ์จะสืบทอดคุณสมบัติเหล่านั้นทั้งหมดของชุดข้อมูลของคุณที่เกิดขึ้นอย่างหมดจดโดยการสุ่มตัวอย่างข้อผิดพลาดไม่ใช่แค่การครอบครองโดยประชากรพื้นฐานดังนั้นคุณอาจพบฮิสโตแกรมของการกระจายเชิงประจักษ์ของคุณมี humps และ dips . คุณอาจต้องการตรวจสอบฟังก์ชันการกระจายเชิงประจักษ์ที่ราบรื่นขึ้นหรือดีขึ้นเพื่อเพิ่มขนาดตัวอย่างของคุณ
กล่าวโดยสรุป: แม้ว่าการแจกแจงแบบปกติจะมีศูนย์เบ้ แต่ความจริงแล้วข้อมูลของคุณเบ้ไม่ได้ตัดการแจกแจงแบบปกติเป็นแบบจำลองที่มีประโยชน์แม้ว่ามันจะแนะนำการกระจายแบบอื่น ๆ ที่เหมาะสมกว่าก็ตาม คุณควรพิจารณาคุณสมบัติอื่น ๆ ของข้อมูลเมื่อเลือกแบบจำลองของคุณนอกเหนือจากความเบ้และพิจารณาวัตถุประสงค์ที่คุณจะใช้แบบจำลองด้วยเช่นกัน มันปลอดภัยที่จะบอกว่าประชากรที่แท้จริงของคุณในการดูเวลาไม่ได้ปฏิบัติตามการกระจายชื่อที่มีชื่อเสียงบางชื่อ แต่นี่ไม่ได้หมายความว่าการเผยแพร่ดังกล่าวจะต้องไร้ประโยชน์เป็นแบบอย่าง อย่างไรก็ตามสำหรับวัตถุประสงค์บางอย่างคุณอาจต้องการใช้การกระจายเชิงประจักษ์เองแทนที่จะลองใช้การกระจายแบบมาตรฐาน