ประวัติความเป็นมาของทฤษฎีก่อนหน้านี้ที่ไม่เป็นทางการ


24

ฉันกำลังเขียนเรียงความเชิงทฤษฎีสั้น ๆ สำหรับหลักสูตรสถิติแบบเบย์ (ในสาขาเศรษฐศาสตร์) กับนักบวชที่ไม่รู้เรื่องและฉันพยายามเข้าใจซึ่งเป็นขั้นตอนในการพัฒนาทฤษฎีนี้

ในตอนนี้ไทม์ไลน์ของฉันมีสามขั้นตอนหลัก: หลักการความเฉยเมยของ Laplace (1812), นักบวชที่ไม่แปรเปลี่ยน (Jeffreys (1946)), อ้างอิงจากเบอร์นาร์โดก่อน (1979)

จากการทบทวนวรรณกรรมของฉันฉันได้เข้าใจว่าหลักการไม่แยแส (Laplace) เป็นเครื่องมือแรกที่ใช้แทนการขาดข้อมูลก่อนหน้านี้ แต่ความไม่แน่นอนของความไม่แปรเปลี่ยนได้นำไปสู่การละทิ้งจนกระทั่งยุค 40 เมื่อ Jeffreys แนะนำวิธีการของเขา คุณสมบัติที่ต้องการของค่าคงที่ การเกิดขึ้นของความขัดแย้งของคนชายขอบเนื่องจากการใช้ความไม่ระมัดระวังอย่างไม่เหมาะสมก่อนหน้าในยุค 70 ผลักให้เบอร์นาร์โดอธิบายรายละเอียดของทฤษฎีก่อนหน้านี้อย่างละเอียดเพื่อจัดการกับปัญหานี้

การอ่านวรรณกรรมผู้แต่งทุกคนต่างอ้างถึงการมีส่วนร่วม: เอนโทรปีสูงสุดของเจย์เนส, กล่องและความเป็นไปได้ในการแปลข้อมูล, Zellner, ...

ในความเห็นของคุณอะไรคือขั้นตอนสำคัญที่ฉันขาดหายไป

แก้ไข : ฉันเพิ่มการอ้างอิง (หลัก) ของฉันหากมีคนต้องการ:

1) การเลือกก่อนโดยกฎอย่างเป็นทางการ, Kass, Wasserman

2) แคตตาล็อกของนักบวชที่ไม่มีข้อมูล Yang, Berger

3) การตีความแบบไม่เป็นทางการของ Bayesians Priors และปัญหาเกี่ยวกับการก่อสร้างและการใช้งาน


10
เมื่อคุณเขียนเรียงความตามทฤษฎีเสร็จสิ้นคุณจะเชื่อมโยงที่นี่ได้ไหม?
Nikolas Rieble

2
มันจะดีถ้าคุณสามารถให้คำตอบสำหรับคำถามของคุณเองโดยสรุปวิทยานิพนธ์ของคุณ
ทิม

3
ฉันเคยเชื่อมโยงบทความนี้มาก่อน แต่ประวัติศาสตร์มหากาพย์ของความน่าจะเป็นสูงสุดครอบคลุมประวัติศาสตร์ "ช่องว่าง" ระหว่าง Laplace และ Jeffrey's: ที่งานของ Gauss, Hotelling, Fisher, Bernoulli และคนอื่น ๆ ชี้ให้เห็นถึงโอกาสสูงสุดในช่วงเวลานั้น
AdamO

2
@ alessandro มันอธิบายถึงวิธีการรักษา Laplacian เป็นเวลาหนึ่งศตวรรษหลังจาก Gauss พัฒนาและใช้รูปแบบเหมือนกัน เพียร์สันและคริสตินสมิ ธ ปฏิเสธ ML เพราะการอนุมานที่เกิดขึ้นไม่ได้เกี่ยวข้องกับความน่าจะเป็นตามที่เบย์ต้องการ
AdamO

7
นาที (อวดรู้ถ้าคุณชอบ) แต่อาจเป็นประโยชน์: Jeffreys = (ศาสตราจารย์ครับ) Harold Jeffreys นักคณิตศาสตร์ประยุกต์นักฟิสิกส์และนักธรณีฟิสิกส์ชาวอังกฤษ เขาอธิบายกับฉันในจดหมายเมื่อ 40 ปีที่แล้วว่าเขาชอบเจฟฟรีส์ที่เป็นเจ้าของเพราะเจฟฟรีส์มีแนวโน้มที่จะกลายพันธุ์ของเจฟฟรีย์ที่ไม่ถูกต้อง ด้านบนเรามีตัวอย่าง! (มันไม่ได้ช่วยริชาร์ดซีเจฟฟรีย์นักปรัชญาชาวอเมริกันคนที่แตกต่างอย่างสิ้นเชิงเขียนด้วยความเป็นไปได้)
นิคค็อกซ์

คำตอบ:


13

สิ่งที่คุณดูเหมือนจะขาดหายไปคือประวัติศาสตร์ยุคแรก คุณสามารถตรวจสอบกระดาษได้โดย Fienberg (2006) เมื่อใดที่การอนุมานแบบเบย์กลายเป็น "Bayesian" เมื่อใด . ครั้งแรกเขาสังเกตเห็นว่าโทมัสเบย์เป็นคนแรกที่แนะนำให้ใช้ชุดก่อน:

ในภาษาทางสถิติในปัจจุบันกระดาษของเบย์ได้เสนอการแจกแจงก่อนหน้าแบบสม่ำเสมอบนพารามิเตอร์ทวินามโดยการเปรียบเทียบด้วยเหตุผลกับ "โต๊ะบิลเลียด" และวาดบนรูปแบบของการแจกแจงแบบกระจายของตัวแปรสุ่มแบบทวินามและไม่ใช่หลักการ ของ "เหตุผลไม่เพียงพอ" ดังที่คนอื่น ๆ อ้างไว้θ

Pierre Simon Laplace เป็นคนต่อไปเพื่อหารือเกี่ยวกับ

Laplace ยังพูดชัดแจ้งชัดเจนยิ่งกว่า Bayes เหตุผลของเขาในการเลือกชุดการกระจายก่อนหน้านี้โดยอ้างว่าการกระจายของพารามิเตอร์ด้านหลังควรเป็นสัดส่วนกับสิ่งที่เราเรียกว่าโอกาสของข้อมูลเช่นθ

f(θx1,x2,,xn)f(x1,x2,,xnθ)

ตอนนี้เราเข้าใจว่าสิ่งนี้บอกเป็นนัยว่าการแจกแจงก่อนหน้าสำหรับนั้นเหมือนกันแม้ว่าโดยทั่วไปแน่นอนว่าการกระจาย ก่อนหน้านี้อาจไม่มีอยู่จริงθ

ยิ่งไปกว่านั้นคาร์ลฟรีดริชเกาส์ยังอ้างถึงการใช้สิ่งที่ไม่ได้มีมาก่อนดังที่เดวิดและเอ็ดเวิร์ดส์ (2001) ได้กล่าวไว้ในหนังสือของพวกเขาที่มีคำอธิบายประกอบในประวัติของสถิติ :

Gauss ใช้การโต้เถียงแบบ Bayesian แบบเฉพาะกิจเพื่อแสดงว่าความหนาแน่นหลังของเป็นสัดส่วนกับความน่าจะเป็น (ในคำศัพท์ที่ทันสมัย):h

f(h|x)f(x|h)

ซึ่งเขาได้สันนิษฐานที่จะกระจายเหมือนกันกว่าinfty) เกาส์กล่าวถึง Bayes หรือ Laplace แม้ว่าหลังจะไม่นิยมวิธีการนี้ตั้งแต่ Laplace (1774)h[0,)

และในขณะที่ Fienberg (2006) พบว่า "ความน่าจะเป็นกลับด้าน" (และสิ่งต่อไปนี้การใช้ชุดนักบวช) ได้รับความนิยมเมื่อถึงศตวรรษที่ 19

[... ] ดังนั้นเมื่อมองย้อนกลับไปก็ไม่น่าแปลกใจที่จะเห็นความน่าจะเป็นแบบผกผันเป็นวิธีการเลือกของนักสถิติชาวอังกฤษผู้ยิ่งใหญ่ในช่วงเปลี่ยนศตวรรษเช่น Edgeworth และ Pearson ยกตัวอย่างเช่น Edgeworth (49) หนึ่งในต้นของสิ่งที่เรารู้ตอนนี้ในขณะที่ดิสทริบิวเตชั่นแจกจ่ายหลังการกระจายของค่าเฉลี่ยของการแจกแจงแบบปกติให้กระจายก่อนชุดและ [... ]tμμh=σ1

ประวัติความเป็นมาในช่วงต้นของวิธีการแบบเบส์นอกจากนี้ยังมีการตรวจสอบโดย Stigler (1986) ในหนังสือของเขาประวัติความเป็นมาของสถิติ: การวัดของความไม่แน่นอนก่อน 1900

ในรีวิวสั้น ๆ ของคุณคุณก็ไม่ได้พูดถึง Ronald Aylmer Fisher (อ้างถึงอีกครั้งหลังจาก Fienberg, 2006):

ฟิชเชอร์ย้ายออกจากวิธีการผกผันและไปสู่วิธีการอนุมานของเขาเองเขาเรียกว่า "โอกาส" แนวคิดที่เขาอ้างว่าแตกต่างจากความน่าจะเป็น แต่ความก้าวหน้าของฟิชเชอร์ในเรื่องนี้ช้า Stigler (164) ชี้ให้เห็นว่าในการตีพิมพ์ต้นฉบับที่ไม่ได้ตีพิมพ์ในปี 2459 ฟิชเชอร์ไม่ได้แยกความแตกต่างระหว่างความน่าจะเป็นและความน่าจะเป็นแบบผกผันกับแฟลตก่อนแม้ว่าเมื่อเขาทำให้ความแตกต่างที่เขาอ้างว่า

Jaynes (1986) ได้ให้บทความสั้น ๆ ของเขาเกี่ยวกับวิธีการแบบเบส์: ข้อมูลทั่วไป บทแนะนำเบื้องต้นที่คุณสามารถตรวจสอบได้ แต่ไม่ได้มุ่งเน้นไปที่นักบวชนอกระบบ ยิ่งกว่านั้นดังที่AdamO ได้กล่าวไว้คุณควรอ่านเรื่องราวมหากาพย์แห่งความน่าจะเป็นสูงสุดโดย Stigler (2007)

นอกจากนี้ยังเป็นมูลค่าการกล่าวขวัญว่ามีไม่มีสิ่งดังกล่าวเป็น "uninformative ก่อน"ผู้เขียนจำนวนมากชอบพูดคุยเกี่ยวกับ"ไพรเออร์ที่คลุมเครือ"หรือ"ไพรเออร์ข้อมูลรายสัปดาห์"

การทบทวนเชิงทฤษฎีจัดทำโดย Kass และ Wasserman (1996) ในการเลือกการแจกแจงก่อนหน้าโดยกฎอย่างเป็นทางการซึ่งมีรายละเอียดมากขึ้นเกี่ยวกับการเลือกนักบวชพร้อมด้วยการอภิปรายเพิ่มเติมเกี่ยวกับการใช้งานของนักบวชที่ไม่รู้เรื่อง


นั่นคือคำตอบที่ฉันกำลังมองหา ขอขอบคุณ!
PhDing

ฉันคิดว่า Fienberg ขยายความภาคภูมิใจของชาวเบย์มากเกินไป ฉันเองไม่ชอบอย่างมากโดยใช้ "ความน่าจะเป็นแบบย้อนกลับ" เพื่อกำหนดสิ่งใด ๆ เพราะมันดูเหมือนจะไม่สอดคล้องกับภาพเรขาคณิตที่สมบูรณ์ที่ Adler และ Taylor เสนอ กระบวนการทางสถิติที่ดีควรมีการโต้ตอบทางคณิตศาสตร์ของมันความน่าจะเป็นผกผันนั้นบิดเบี้ยวจนคุณแทบจะไม่สามารถวิเคราะห์ได้เมื่อปัญหาของฉันมีความอ่อนไหวเล็กน้อยจากประสบการณ์ของฉัน
Henry.L

@ Henry.L ... แต่มันเป็นส่วนหนึ่งของประวัติศาสตร์ความคิดเชิงสถิติ :) ขอให้สังเกตด้วยว่าไม่ใช่แค่ Fienberg ที่เป็นตัวอย่างเท่านั้น การต่อต้านความน่าจะเป็นแบบผกผันและการต่อต้านแบบเบย์เริ่มต้นขึ้นเพราะมันได้รับความนิยมมาก
ทิม

@ ทิมใช่ฉันเดาว่าเป็นสิ่งที่โทมัสคุห์นเรียกว่า "การเปลี่ยนแผน" และยังเป็นที่รู้จักกันในนาม "... ในที่สุดฝ่ายตรงข้ามก็ตายและคนรุ่นใหม่ก็โตขึ้น" :))
Henry.L

5

ความคิดเห็นเล็ก ๆ น้อย ๆ เกี่ยวกับข้อบกพร่องของนักบวชที่ไม่เกี่ยวกับการก่อตัว (uninformative priors) อาจเป็นความคิดที่ดีเนื่องจากการตรวจสอบข้อบกพร่องดังกล่าวช่วยให้การพัฒนาแนวคิดของ noninformative มาก่อนในประวัติศาสตร์

คุณอาจต้องการเพิ่มความคิดเห็นบางอย่างเกี่ยวกับข้อเสียเปรียบ / ข้อบกพร่องของการใช้นักบวชที่ไม่ใช่ข้อมูลใหม่ ในบรรดาการวิจารณ์หลายครั้ง

(1) โดยทั่วไปแล้วการยอมรับของนักบวชที่ไม่ใช่คนใหม่มีปัญหาความมั่นคงโดยเฉพาะอย่างยิ่งเมื่อการกระจายตัวแบบมีพฤติกรรมหลายแบบ

ปัญหานี้ไม่ได้เป็นเอกสิทธิ์ของนักบวชที่ไม่ใช่คนธรรมดา แต่มีการแบ่งปันโดยวิธีการแบบเบย์อื่น ๆ อีกมากมายดังที่กล่าวไว้ในบทความต่อไปนี้พร้อมกับการอภิปราย

Diaconis, Persi และ David Freedman "ความสอดคล้องของการประมาณแบบเบย์" พงศาวดารสถิติ (1986): 1-26

ทุกวันนี้ noninformative ก่อนหน้านี้ไม่ได้เน้นการวิจัย ดูเหมือนว่ามีความสนใจในตัวเลือกก่อนหน้าที่มีความยืดหยุ่นมากกว่าในการตั้งค่าแบบไม่มีพารามิเตอร์ ตัวอย่างคือกระบวนการแบบเกาส์ก่อนในขั้นตอนแบบ nonparametric Bayes หรือตัวแบบยืดหยุ่นเช่นส่วนผสมของ Dirichlet priors เช่นเดียวกับใน

Antoniak, Charles E. "การผสมผสานของกระบวนการ Dirichlet กับแอปพลิเคชันสำหรับปัญหาที่ไม่ใช่พารามิเตอร์แบบเบย์" บันทึกข้อมูลสถิติ (1974): 1152-1174

แต่อีกครั้งเช่นก่อนมีปัญหาความมั่นคงของตัวเอง

(2) ส่วนใหญ่ที่เรียกว่า "นักบวช noninformative" ไม่ได้กำหนดไว้อย่างดี

นี่อาจเป็นปัญหาที่เห็นได้ชัดที่สุดที่เกี่ยวข้องกับนักบวชที่ไม่ได้อยู่ระหว่างการพัฒนา

ตัวอย่างหนึ่งคือการจำกัดความหมายของ noninformative ก่อนเป็นข้อ จำกัด ของลำดับของนักบวชที่เหมาะสมจะนำไปสู่ความขัดแย้ง ดังที่คุณกล่าวถึงการอ้างอิงของเบอร์นาร์โดก่อนหน้านี้ก็มีปัญหาที่เบอร์เกอร์ไม่เคยพิสูจน์ว่าคำจำกัดความที่เป็นทางการของมันนั้นเป็นอิสระจากการก่อสร้าง / พาร์ติชัน ดูการอภิปรายใน

Berger, James O. , José M. Bernardo และ Dongchu Sun "ความหมายอย่างเป็นทางการของนักบวชอ้างอิง" พงศาวดารสถิติ (2009): 905-938

หนึ่งคำนิยามที่ดีที่สุดเกี่ยวกับ Jeffreys 'ก่อนหน้านี้ที่กำหนดไว้อย่างดีคือมันได้รับเลือกให้เป็นสิ่งที่มีมาก่อนว่ามันไม่แปรเปลี่ยนภายใต้การแปลแบบขนานบางอย่างใน Riemannian manifold ที่ติดตั้งตัวชี้วัดข้อมูลฟิชเชอร์

นอกจากนี้คุณอาจต้องการที่จะอ่านคำอธิบายของฉันเกี่ยวกับความขัดแย้งชายขอบ


นี่คือโพสต์ที่ยอดเยี่ยมและไม่มีใครคิดเกี่ยวกับมัน เยี่ยมมาก
Dave Harris

ฉันได้ทำการแก้ไขเล็ก ๆ หลายอย่างเพื่อแสดงออกโดยไม่พยายามเปลี่ยนความหมายหรือความหมายใด ๆ โปรดตรวจสอบว่าความหมายของคุณไม่เปลี่ยนแปลงภายใต้การแก้ไข
Nick Cox

4

ฉันจะโพสต์ในความคิดเห็น แต่ฉันเดาว่าฉันยังไม่มีชื่อเสียง สิ่งเดียวที่ขาดหายไปไม่ใช่ในความคิดเห็นที่ทำเครื่องหมายไว้แล้วนั้นเป็นกรณีพิเศษของนักบวชที่ไม่ใช่คนต้นกำเนิดที่ฉันได้พยายามสืบหาและไม่พบ มันอาจจะนำหน้ากระดาษของ Jeffreys

สำหรับการแจกแจงแบบปกติฉันได้เห็นการแจกแจงแบบ Cauchy ที่ใช้เป็นแบบไม่เป็นข้อมูลก่อนหน้านี้สำหรับข้อมูลที่มีโอกาสปกติ เหตุผลก็คือความแม่นยำของการกระจาย Cauchy เป็นศูนย์ที่ความแม่นยำคือหนึ่งหารด้วยความแปรปรวน มันสร้างชุดแนวคิดที่ขัดแย้งกันค่อนข้างแปลกประหลาด

สูตรสำหรับ Cauchy คือ

1πΓΓ2+(xμ)2.

ขึ้นอยู่กับวิธีที่คุณนิยามอินทิกรัลไม่มีความแปรปรวนที่กำหนดไว้หรือมันจะไม่มีที่สิ้นสุดเกี่ยวกับค่ามัธยฐานซึ่งหมายถึงความแม่นยำจะเป็นศูนย์ ในการอัปเดตคอนจูเกตซึ่งจะไม่นำไปใช้ที่นี่คุณต้องเพิ่มการถ่วงน้ำหนัก ฉันคิดว่านี่เป็นสาเหตุที่ความคิดที่เหมาะสมก่อนหน้านี้ที่มีความหนาแน่นไม่แน่นอนเกิดขึ้นอย่างสมบูรณ์ นอกจากนี้ยังเทียบเท่ากับนักเรียนที่มีอิสระในระดับหนึ่งซึ่งอาจเป็นแหล่งที่มา

นี้เป็นความคิดที่แปลกในแง่ที่ว่าการกระจาย Cauchy มีศูนย์กำหนดไว้อย่างดีของสถานที่และช่วงระหว่างควอไทล์ซึ่งเป็น22Γ

การอ้างอิงที่เก่าแก่ที่สุดสองประการเกี่ยวกับการแจกแจงโคชีเป็นฟังก์ชั่นโอกาส ตัวแรกในจดหมายจาก Poisson ถึง Laplace เป็นข้อยกเว้นของทฤษฎีขีด จำกัด กลาง ที่สองคือใน 1,851 บทความวารสารในการต่อสู้ระหว่าง Bienayme 'และ Cauchy กว่าความถูกต้องของสี่เหลี่ยมธรรมดาน้อยที่สุด.

ฉันได้พบการอ้างอิงถึงการใช้งานในลักษณะ noninformative ก่อนย้อนกลับไปในปี 1980 แต่ฉันไม่พบบทความหรือหนังสือเล่มแรก ฉันยังไม่พบหลักฐานที่แสดงว่าไม่ใช่ข้อมูลใหม่ ฉันได้พบการอ้างอิงถึงหนังสือของ Jeffreys '1961 ในทฤษฎีความน่าจะเป็น แต่ฉันไม่เคยขอหนังสือเล่มนี้ผ่านการยืมระหว่างห้องสมุด

มันอาจเป็นเพียงข้อมูลที่อ่อนแอ ภูมิภาคที่มีความหนาแน่นสูงสุด 99.99% นั้นเป็นช่วงกว้าง 1272 กึ่งควอไทล์

ฉันหวังว่ามันจะช่วย มันเป็นกรณีพิเศษแปลก ๆ แต่คุณเห็นว่ามันเกิดขึ้นในเอกสารถดถอยจำนวนหนึ่ง มันเป็นไปตามข้อกำหนดสำหรับการดำเนินการของเบย์โดยเป็นสิ่งที่เหมาะสมมาก่อนในขณะที่มีอิทธิพลต่อตำแหน่งและขนาดน้อยที่สุด

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.