เหตุใดสถิติแบบเบย์จึงกลายเป็นหัวข้อวิจัยที่ได้รับความนิยมมากขึ้นเรื่อย ๆ [ปิด]


10

การสืบค้นในพื้นที่วิจัยของโปรแกรมสถิติของ US News 100 อันดับแรกเกือบทั้งหมดเป็นสถิติเบย์ อย่างไรก็ตามถ้าฉันไปโรงเรียนชั้นล่างพวกเขาส่วนใหญ่ยังคงทำการวิจัยสถิติแบบดั้งเดิม / บ่อยครั้ง ตัวอย่างเช่นโรงเรียนปัจจุบันของฉัน (อันดับระหว่าง 150 ถึง 200 ในการจัดอันดับ QS โลกสำหรับสถิติจึงไม่ถือว่าเป็นโรงเรียนระดับชั้นนำ) มีอาจารย์เพียงคนเดียวที่มุ่งเน้นไปที่สถิติแบบเบย์และเกือบจะมีความแค้นต่อสถิติแบบเบย์ นักเรียนระดับปริญญาตรีบางคนที่ฉันได้พูดคุยด้วยถึงแม้จะบอกว่านักสถิติแบบเบย์กำลังทำสถิติแบบเบย์เพื่อประโยชน์ของมันซึ่งแน่นอนว่าฉันไม่เห็นด้วยอย่างยิ่ง

อย่างไรก็ตามฉันสงสัยว่าทำไมในกรณีนี้ ฉันมีการคาดเดาการศึกษาหลายประการ:

(a) มีที่ว่างไม่เพียงพอสำหรับความก้าวหน้าในวิธีการทางสถิติแบบคลาสสิก / บ่อยครั้งและการวิจัยเชิงปฏิบัติเพียงอย่างเดียวในการวิจัยสถิติแบบคลาสสิก / บ่อยครั้งอยู่ในแอปพลิเคชันซึ่งจะเป็นจุดสนใจหลักของโรงเรียนระดับล่าง มีแนวโน้มไปสู่การวิจัยเชิงทฤษฎีและระเบียบวิธี

(b) มันขึ้นอยู่กับสนามหนัก สาขาสถิติบางสาขาเหมาะสำหรับสถิติแบบเบย์เช่นการประยุกต์ใช้วิธีการทางวิทยาศาสตร์จำนวนมากในขณะที่สาขาอื่นเหมาะสำหรับสถิติแบบดั้งเดิมเช่นพื้นที่ทางการเงิน (แก้ไขฉันถ้าฉันผิด) ด้วยเหตุนี้ฉันคิดว่าโรงเรียนระดับชั้นนำมีสถิติมากมายที่ใช้งานแอพพลิเคชั่นในสาขาวิทยาศาสตร์ในขณะที่แผนกสถิติชั้นล่างของโรงเรียนส่วนใหญ่มุ่งเน้นการใช้งานในด้านการเงิน และเงินทุน

(c) มีปัญหาใหญ่ ๆ เกี่ยวกับวิธีการที่ใช้บ่อยซึ่งไม่สามารถแก้ไขได้เช่นแนวโน้มที่จะเกิด MLE มากเกินไปเป็นต้นและดูเหมือนว่า Bayesian จะให้คำตอบที่ยอดเยี่ยม

(d) พลังการคำนวณอยู่ที่นี่ดังนั้นการคำนวณแบบเบย์ไม่ได้เป็นคอขวดอีกต่อไปเมื่อ 30 ปีที่แล้ว

(e) สิ่งนี้อาจเป็นการเดาที่มีความคิดเห็นมากที่สุดที่ฉันมี มีการต่อต้านจากนักสถิติคลาสสิก / บ่อยครั้งที่ไม่ชอบวิธีการคลื่นลูกใหม่ที่อาจเอาชนะบทบาทของสถิติแบบดั้งเดิมได้ แต่อย่างที่ Larry Wasserman กล่าวขึ้นอยู่กับสิ่งที่เราพยายามทำและทุกคนควรมีใจที่เปิดกว้างโดยเฉพาะในฐานะนักวิจัย


1
ในขณะที่ความคิดเห็นของผู้สมัคร CV จะแตกต่างกันและความเห็นดังกล่าวถูกพิจารณานอกหัวข้อ แต่ก็คุ้มค่าที่ชี้ให้เห็นว่าคำถามนี้ได้รับคำตอบในบทแนะนำเบื้องต้นของตำราสมัยใหม่เกี่ยวกับการวิเคราะห์แบบเบส์ โดยเฉพาะอย่างยิ่งบทที่ 1 ของ Gelman และการวิเคราะห์ข้อมูลอัลเบย์ 3 เอ็ด มันทำให้เดือดลงไป a) "สามัญสำนึก" และ b) ช่วงเวลาความเชื่อมั่นที่พบบ่อยที่มีปัญหาอย่างมากซึ่ง 99% ของเราไม่สามารถช่วยได้ แต่แปลผิด วิธีที่เราตีความผิดมันเป็นภายในคชกรรมดังนั้นเราจึงอาจรวมทั้งการดำเนินการวิเคราะห์แบบเบย์จากที่ได้รับไป
Peter Leopold

3
@Peter Leopold ครึ่งอย่างจริงจัง: 99%? และ "เรา" คือใคร? ผู้ใช้สถิติที่ไร้เดียงสาหลายคนมีความเข้าใจผิดที่ร้ายแรงเกี่ยวกับ CIs แต่ถ้าคุณพูดถึงชุมชน CV ฉันหวังว่า 99% จะไม่เหมาะสม คนทางสถิติอาจไม่ดีเท่ากับคนอื่น ๆ ในการสร้างตัวเลขโดยไม่มีข้อมูลที่ยาก!
Nick Cox

@ NickCox ฉันพูดถึง OP และ "เรา" นั้นมีความหมายที่จะเห็นอกเห็นใจและครอบคลุม หวังว่า "99%" จะได้รับการยอมรับว่าเป็นคำสั่งของการประมาณขนาด~10-2. นอกจากนี้ยังเป็นส่วนที่ใหญ่กว่าของแบบมี / ไม่มี - ไม่มีท่วงทำนองในวัฒนธรรมสมัยนิยมที่ซึ่งไม่มีข้อความในบริบทนี้บ่งบอกถึงเหตุการณ์: "ฉันใช้สถิติ 101 แต่ฉันยังไม่ได้แปลความหมายของช่วงความมั่นใจแบบประจำกับเบส์อย่างสม่ำเสมอ เทียบกับช่วงเวลาที่น่าเชื่อถือ " และตอนนี้คุณเรียกฉันออกไปฉันจะยืนยัน (: D) ว่ามันเป็นทางการของฉันก่อนหน้าสำหรับเหตุการณ์นั้น! โดยธรรมชาติฉันยินดีที่จะเชื่ออย่างอื่น! : D
Peter Leopold

คำตอบ:


8

โดยส่วนตัวแล้วฉันจะลองเดาดูสักสองสามข้อ:

(1) สถิติแบบเบย์มองเห็นความนิยมอย่างมากในช่วงสองสามทศวรรษที่ผ่านมา ส่วนหนึ่งเกิดจากความก้าวหน้าใน MCMC และการปรับปรุงทรัพยากรการคำนวณ สถิติแบบเบย์มาจากการที่ดีในทางทฤษฎี แต่ใช้ได้กับปัญหาของเล่นไปจนถึงแนวทางที่สามารถนำไปใช้ในระดับสากลได้มากขึ้น ซึ่งหมายความว่าเมื่อหลายปีก่อนการบอกว่าคุณทำงานกับสถิติแบบเบย์อาจทำให้คุณได้รับค่าจ้างที่แข่งขันได้มาก

ตอนนี้ฉันจะบอกว่าสถิติแบบเบย์ยังคงเป็นบวก แต่เพื่อแก้ไขปัญหาที่น่าสนใจโดยไม่ต้องใช้วิธีแบบเบย์ การขาดความรู้พื้นฐานในสถิติแบบเบย์อาจเป็นลบต่อคณะกรรมการการจ้างงานส่วนใหญ่ แต่การได้รับปริญญาเอกด้านสถิติโดยไม่ได้รับการฝึกฝนอย่างเพียงพอในวิธีการแบบเบย์จะน่าแปลกใจทีเดียว

(2) นักสถิติแบบเบย์จะกล่าวถึง "Bayesian" ในประวัติย่อของพวกเขา ผู้ใช้บ่อยจะไม่ใส่ "ผู้นิยมใช้บ่อย" ในประวัติย่อของพวกเขา แต่โดยทั่วไปแล้วพื้นที่ที่พวกเขาทำงานอยู่ (เช่นการวิเคราะห์การอยู่รอดการสร้างแบบจำลองการพยากรณ์การพยากรณ์ ฯลฯ ) ตัวอย่างเช่นงานของฉันจำนวนมากกำลังเขียนอัลกอริธึมการเพิ่มประสิทธิภาพซึ่งฉันเดาว่าคุณจะพูดว่าหมายความว่าฉันทำงานเป็นประจำ ฉันได้เขียนอัลกอริทึมแบบเบย์ที่เป็นธรรมเช่นกัน แต่ก็เป็นงานส่วนน้อยของฉัน สถิติแบบเบย์อยู่ในประวัติส่วนตัวของฉัน, สถิติผู้ใช้บ่อยไม่ใช่

(3) สิ่งที่คุณพูดในคำถามของคุณมีความจริงเช่นกัน การคำนวณแบบเบย์แบบทั่วไปที่มีประสิทธิภาพนั้นมีปัญหาแบบเปิดมากกว่าในขอบเขตของการเป็นผู้ใช้บ่อย ตัวอย่างเช่น Hamiltonian Monte Carlo เมื่อเร็ว ๆ นี้ได้กลายเป็นอัลกอริทึมที่น่าตื่นเต้นมากสำหรับการสุ่มตัวอย่างแบบทั่วไปจากแบบจำลองเบย์ ไม่มีที่ว่างมากมายสำหรับการปรับปรุงทั่วไปการเพิ่มประสิทธิภาพวันนี้; อัลกอรึทึม Raphson, L-BFGS และ EM ครอบคลุมฐานจำนวนมาก ถ้าคุณต้องการที่จะปรับปรุงวิธีการเหล่านี้โดยทั่วไปคุณต้องมีความเชี่ยวชาญอย่างมากกับปัญหา เช่นนี้คุณชอบพูดว่า "ฉันทำงานเกี่ยวกับการเพิ่มประสิทธิภาพมิติของโมเดลเชิงพื้นที่" มากกว่า "ฉันทำงานในการประมาณค่าความน่าจะเป็นมิติสูงที่สุด" โลกแห่งการเรียนรู้ของเครื่องนั้นเป็นข้อยกเว้นเนื่องจากมีความตื่นเต้นอย่างมากในการค้นหาวิธีการเพิ่มประสิทธิภาพแบบสุ่ม (เช่น SGD, Adam, ฯลฯ ) แต่นั่นเป็นสัตว์ที่แตกต่างกันเล็กน้อยด้วยเหตุผลบางประการ

ในทำนองเดียวกันมีงานที่ต้องทำเพื่อหาตัวนักบวชชั้นดี วิธีการ frequentist ทำมีเทียบเท่านี้ (ขึ้นมาพร้อมกับบทลงโทษที่ดีคือเชือก glmnet) แต่มีพื้นดินอาจจะมีความอุดมสมบูรณ์มากขึ้นสำหรับไพรเออร์มากกว่าการลงโทษ

(4) ในที่สุดและนี่เป็นความเห็นส่วนตัวที่แน่นอนผู้คนจำนวนมากเชื่อมโยงกับผู้ใช้บ่อยกับ p-values เมื่อพิจารณาจากการใช้ค่า p ในทางที่ผิดทั่วไปนักสถิติจำนวนมากก็ชอบที่จะทำตัวให้ห่างไกลจากการใช้ค่า p ในทางที่ผิดในปัจจุบัน


3
ดังนั้นคำตอบว่าทำไมมันจึงเป็นที่นิยมมากขึ้นรวมถึง (1) มันกลายเป็นที่นิยมมากขึ้น งงงวยโดยที่ แต่ฉันคิดว่ามันเป็นเพียงเรื่องของการต้องการ rewording
Nick Cox

@ NickCox: จุดของฉันคือมันเป็นที่นิยมมากขึ้น แต่ก็เป็นที่นิยมอาจจะคุยโวค่อนข้าง นั่นคือ OP เห็นว่าสถิติแบบเบย์อยู่ในประวัติของอาจารย์เกือบทุกคนที่เป็นตัวอย่างของมหาวิทยาลัยชั้นนำ แต่นั่นไม่ได้หมายความว่าอาจารย์ทุกคนจะทำสถิติแบบเบย์เท่านั้น จุดบน (1) อีกประการหนึ่งคือที่ผมคิดว่ามีเป็นช่วงเวลาที่ทำสถิติแบบเบย์เป็นพื้นที่วิจัยของคุณเป็นสิ่งสำคัญมากสำหรับการได้รับตำแหน่งบนชั้น ฉันไม่แน่ใจว่ามันเข้มงวดกับข้อกำหนดอีกต่อไป แต่อาจารย์หลายคนที่คุณเห็นตอนนี้ได้รับการว่าจ้างในช่วงเวลานั้น
หน้าผา AB

โอ้ฉันเห็นประเด็นของคุณ ฉันมุ่งเน้นไปที่การอภิปรายของ "เป็นเพราะมีพื้นที่ไม่เพียงพอสำหรับความก้าวหน้าในสถิติคลาสสิก / บ่อย?" และไม่มากใน "ทำไมสิ่งนี้เกิดขึ้น?"
หน้าผา AB
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.