เมื่อแก้ปัญหาทางธุรกิจโดยใช้ข้อมูลเป็นเรื่องธรรมดาที่มีสมมติฐานอย่างน้อยหนึ่งข้อที่ว่าสถิติแบบดั้งเดิมไม่ถูกต้อง ส่วนใหญ่ไม่มีใครมารบกวนการตรวจสอบสมมติฐานเหล่านั้นเพื่อให้คุณไม่เคยรู้จริง
ตัวอย่างเช่นเมตริกเว็บทั่วไปจำนวนมากจึงเป็น "แบบหางยาว" (สัมพันธ์กับการแจกแจงแบบปกติ) คือตอนนี้มีการบันทึกไว้เป็นอย่างดีเพื่อให้เราได้รับอนุญาต อีกตัวอย่างหนึ่งชุมชนออนไลน์ - แม้ในชุมชนที่มีสมาชิกนับพันก็มีเอกสารครบถ้วนว่าส่วนแบ่งที่ใหญ่ที่สุดของการมีส่วนร่วมในการมีส่วนร่วมในชุมชนเหล่านี้ส่วนใหญ่เป็นของกลุ่มผู้มีอิทธิพลน้อย (เช่นไม่กี่เดือนที่ผ่านมาหลังจากที่ SO API ให้บริการในรุ่นเบต้าสมาชิกStackOverflowเผยแพร่การวิเคราะห์สั้น ๆ จากข้อมูลที่เขาเก็บรวบรวมผ่านทาง API ข้อสรุปของเขา - น้อยกว่าร้อยละหนึ่งของบัญชีสมาชิก SO ส่วนใหญ่ กิจกรรมบน SO (สมมุติว่าถามคำถามและตอบคำถาม) อีก 1-2% คิดเป็นสัดส่วนที่เหลือและสมาชิกส่วนใหญ่ที่ไม่ทำอะไรเลย)
การแจกแจงของการเรียงลำดับนั้น - บ่อยครั้งมากกว่ากฎแทนที่จะเป็นข้อยกเว้น - มักถูกสร้างแบบจำลองที่ดีที่สุดด้วยฟังก์ชันความหนาแน่นของกฎกำลังไฟฟ้า สำหรับการแจกแจงแบบนี้แม้แต่ทฤษฎีบทขีด จำกัด กลางก็เป็นปัญหาที่จะนำมาใช้
ดังนั้นเมื่อมีประชากรจำนวนมากเช่นนี้เป็นที่สนใจของนักวิเคราะห์และเนื่องจากรูปแบบคลาสสิกนั้นมีประสิทธิภาพในการแสดงข้อมูลเหล่านี้ได้ไม่ดีนักและเนื่องจากวิธีการที่แข็งแกร่งและทนทานได้เกิดขึ้นมาระยะหนึ่งแล้ว (อย่างน้อย 20 ปี) พวกเขาไม่ได้ใช้บ่อยขึ้นหรือไม่ (ฉันยังสงสัยว่าทำไมฉันไม่ใช้บ่อยขึ้น แต่นั่นไม่ใช่คำถามสำหรับCrossValidated )
ใช่ฉันรู้ว่ามีบทตำราที่อุทิศให้กับสถิติที่มีประสิทธิภาพและฉันรู้ว่ามี (ไม่กี่) R แพ็คเกจ ( robustbaseเป็นสิ่งที่ฉันคุ้นเคยและใช้) เป็นต้น
และด้วยข้อได้เปรียบที่เห็นได้ชัดของเทคนิคเหล่านี้พวกเขามักจะเป็นเครื่องมือที่ดีกว่าสำหรับงานอย่างชัดเจน - ทำไมพวกเขาถึงไม่ใช้บ่อยกว่านี้อีก ? เราไม่ควรคาดหวังว่าจะเห็นสถิติที่แข็งแกร่ง (และทนทาน) ที่ใช้บ่อยกว่า (อาจสันนิษฐานได้) เทียบกับ analogs แบบคลาสสิก
คำอธิบายที่เป็นสาระสำคัญ (เช่นเทคนิค) ที่ฉันเคยได้ยินคือเทคนิคที่แข็งแกร่ง (เช่นกันสำหรับวิธีการดื้อยา) ขาดพลังงาน / ความไวของเทคนิคแบบดั้งเดิม ฉันไม่รู้ว่านี่เป็นเรื่องจริงในบางกรณีหรือไม่ แต่ฉันรู้ว่ามันไม่จริงในหลายกรณี
คำสุดท้ายของการจอง: ใช่ฉันรู้ว่าคำถามนี้ไม่มีคำตอบที่ถูกต้องที่พิสูจน์ได้ มีคำถามน้อยมากในเว็บไซต์นี้ ยิ่งไปกว่านั้นคำถามนี้เป็นคำถามที่แท้จริง มันไม่ใช่ข้ออ้างที่จะพัฒนามุมมอง - ฉันไม่มีมุมมองที่นี่เพียงคำถามที่ฉันหวังสำหรับคำตอบที่ชาญฉลาด