เหตุใด Jeffreys ก่อนหน้าจึงมีประโยชน์


61

ฉันเข้าใจว่า Jeffreys ก่อนหน้านั้นคงที่ภายใต้การปรับพารามิเตอร์อีกครั้ง อย่างไรก็ตามสิ่งที่ฉันไม่เข้าใจคือเหตุผลที่ต้องการคุณสมบัตินี้

ทำไมคุณไม่ต้องการการเปลี่ยนแปลงก่อนหน้านี้ภายใต้การเปลี่ยนแปลงของตัวแปร?


คำตอบ:


30

ให้ฉันทำตามคำตอบของเซน ฉันไม่ชอบความคิดของ "การเป็นตัวแทนความไม่รู้" สิ่งที่สำคัญคือไม่ได้เป็นฟรีย์ก่อน แต่ฟรีย์หลัง ด้านหลังนี้มีจุดประสงค์เพื่อสะท้อนข้อมูลที่ดีที่สุดเกี่ยวกับพารามิเตอร์ที่เกิดจากข้อมูล คุณสมบัติ invariance นั้นจำเป็นสำหรับสองจุดต่อไปนี้ตามธรรมชาติ พิจารณาเช่นรูปแบบทวินามในสัดส่วนที่ไม่รู้จักพารามิเตอร์และราคาพารามิเตอร์theta}θψ=θ1θ

  1. ด้านหลังของ Jeffreys บนสะท้อนให้เห็นถึงข้อมูลที่ดีที่สุดเกี่ยวกับจากข้อมูล มีการติดต่อแบบหนึ่งต่อหนึ่งระหว่างเป็นและ\จากนั้นเปลี่ยนหลังฟรีย์ในเข้าไปหลังบน (ผ่านตามปกติการเปลี่ยนแปลงของตัวแปรสูตร) ควรผลผลิตกระจายสะท้อนให้เห็นถึงดีที่สุดเท่าที่เป็นไปได้ข้อมูลเกี่ยวกับ\ดังนั้นการกระจายนี้ควรจะเป็นหลังฟรีย์เกี่ยวกับ\นี่คือคุณสมบัติไม่แปรเปลี่ยนθθθψθψψψ

  2. จุดสำคัญเมื่อวาดข้อสรุปของการวิเคราะห์ทางสถิติคือการสื่อสารทางวิทยาศาสตร์ ลองนึกภาพคุณให้ Jeffreys ด้านหลังบนกับเพื่อนร่วมงานวิทยาศาสตร์ แต่เขา / เธอเป็นที่สนใจในมากกว่า\แล้วนี่ไม่ใช่ปัญหาของคุณสมบัติค่าคงที่: เขา / เธอเพียงแค่ต้องใช้สูตรการเปลี่ยนแปลงของตัวแปรθψθ


อานี้ช่วยล้างสิ่งต่าง ๆ เล็กน้อย แต่มีเหตุผลที่ดีอย่างสังหรณ์ใจว่าทำไมพารามิเตอร์หลังของอัตราต่อรองควรจะเหมือนกันกับหลังสำหรับพารามิเตอร์สัดส่วน? ดูเหมือนว่าผิดธรรมชาติสำหรับฉัน
tskuzzy

มันไม่เหมือนกัน! หนึ่งถูกเหนี่ยวนำโดยอื่น ๆ โดยสูตรการเปลี่ยนแปลงของตัวแปร มีความสอดคล้องแบบหนึ่งต่อหนึ่งระหว่างพารามิเตอร์ทั้งสอง จากนั้นการกระจายด้านหลังของหนึ่งในพารามิเตอร์เหล่านี้ควรทำให้เกิดการกระจายหลังที่อื่น
Stéphane Laurent

2
(+1) Stéphane OP ดูเหมือนจะยังสับสนอยู่เมื่อเขาพูดว่า "... ควรจะเหมือนกัน ... " posteriors สองไม่ "เหมือนกัน" เกิดอะไรขึ้นตัวอย่างเช่นในตัวอย่างของStéphaneคุณมี ; หากคุณไม่มีความมั่นคงเช่นนี้โดยใช้ค่าเริ่มต้น (คำนวณ) นักบวชแล้วนักบวชของคุณจะบ้าคลั่งเล็กน้อย P{1/3θ2/3X=x}=P{1/2ψ2X=x}
Zen

1
ฉันคิดว่าสิ่งที่หายไปจากโพสต์นี้คือเมื่อมีข้อมูลจำนวนมากในข้อมูลเกี่ยวกับพารามิเตอร์การใช้งานมาก่อนไม่สำคัญ ตัวอย่างเช่นสัดส่วนทวินามไม่ว่าเราจะใช้เครื่องแบบ jeffreys หรือ haldane มาก่อนจะสร้างความแตกต่างน้อยมากยกเว้นว่าคนหลังกว้างมาก ในกรณีนี้มันเป็นข้อถกเถียงทางวิชาการเล็กน้อยซึ่งก่อนหน้านี้คือ "ถูกต้อง" เพราะไม่มีข้อสรุปที่มีความหมายใด ๆ มูลค่าที่แท้จริงของข้อมูลที่ไม่เป็นประโยชน์มาก่อนนั้นอยู่ในหลายมิติ แต่ปัญหานี้ยังไม่ได้รับการแก้ไข - Jeffreys ก่อนหน้านั้นไม่ดีที่นี่
ความน่าจะเป็นทางการที่

3
ทฤษฎีนี้ไม่สมบูรณ์และขึ้นอยู่กับการเรียงลำดับพารามิเตอร์การเลือกพื้นที่ขนาดกะทัดรัดและฟังก์ชันความน่าจะเป็น ดังนั้นจึงไม่เชื่อฟังหลักการความน่าจะเป็นเช่น นอกจากนี้มันเป็นเรื่องยากที่จะนำไปใช้กับข้อมูลที่ไม่เป็นอิสระ นอกจากนี้ทฤษฎีของเบอร์นาร์โดนั้นสมบูรณ์สำหรับปัญหาพารามิเตอร์ 1 มิติเท่านั้น มันอาจเป็นวิธีที่ดีที่สุดในขณะนี้แม้ว่า คู่แข่งที่ดีคือแนวทางการเปลี่ยนแปลงกลุ่มของเจย์เนส
ความน่าจะเป็นทางการที่

41

สมมติว่าคุณและเพื่อนกำลังวิเคราะห์ชุดข้อมูลเดียวกันโดยใช้แบบจำลองปกติ คุณยอมรับการปรับพารามิเตอร์ตามปกติของโมเดลปกติโดยใช้ค่าเฉลี่ยและความแปรปรวนเป็นพารามิเตอร์ แต่เพื่อนของคุณชอบที่จะกำหนดพารามิเตอร์ของโมเดลปกติด้วยค่าสัมประสิทธิ์การเปลี่ยนแปลงและความแม่นยำเป็นพารามิเตอร์ (ซึ่งเป็น "กฎหมาย" อย่างสมบูรณ์) หากคุณทั้งคู่ใช้นักบวชของ Jeffreys การกระจายด้านหลังของคุณจะเป็นการกระจายด้านหลังของเพื่อนคุณอย่างถูกต้องเปลี่ยนจากการกำหนดพารามิเตอร์ของเขามาเป็นของคุณ ในแง่นี้สิ่งที่เจฟฟรีส์เคยเป็น "ไม่เปลี่ยนแปลง" มาก่อน

(โดยวิธีการ "คงที่" เป็นคำที่น่ากลัวสิ่งที่เราหมายถึงจริงๆคือมันเป็น "covariant" ในความหมายเดียวกันของแคลคูลัส / เรขาคณิตเชิงอนุพันธ์ แต่แน่นอนคำนี้มีความหมายที่น่าจะเป็นไปได้แล้ว ดังนั้นเราจึงใช้มันไม่ได้)

เหตุใดจึงต้องมีคุณสมบัติความสอดคล้องนี้ เพราะหากก่อนหน้านี้ของ Jeffreys มีโอกาสที่จะเป็นตัวแทนของความไม่รู้เกี่ยวกับคุณค่าของพารามิเตอร์ในแง่ที่แน่นอน (อันที่จริงแล้วมันไม่ได้ แต่ด้วยเหตุผลอื่น ๆ ที่ไม่เกี่ยวข้องกับ "invariance") และไม่เพิกเฉย ของแบบจำลองนั้นจะต้องเป็นกรณีที่ไม่ว่าเราจะเลือกพารามิเตอร์เริ่มต้นด้วยพารามิเตอร์ใดก็ตามผู้ตกแต่งของเราควร "จับคู่" หลังจากการเปลี่ยนแปลง

เจฟฟรีย์เองละเมิดทรัพย์สิน "invariance" นี้เป็นประจำเมื่อสร้างนักบวช

บทความนี้มีการอภิปรายที่น่าสนใจเกี่ยวกับเรื่องนี้และวิชาที่เกี่ยวข้อง


1
+1: คำตอบที่ดี แต่ทำไม Jeffreys ก่อนหน้านี้จึงไม่แสดงถึงความไม่รู้เกี่ยวกับคุณค่าของพารามิเตอร์
Neil G

4
เพราะมันไม่ได้เป็นการแจกแจง มันขัดแย้งกันที่จะอ้างว่าการกระจายนั้นสะท้อนถึงความไม่รู้ การกระจายสะท้อนข้อมูลเสมอ
Stéphane Laurent

2
ข้อมูลอ้างอิงอื่น ๆ : projecteuclid.org/ …
Stéphane Laurent

@ StéphaneLaurent: เราต้องมีความเชื่อบ้างแม้อยู่ในสภาพที่ไม่รู้ ไม่ว่าสิ่งที่อยู่ด้านหลังของคุณจะลบสิ่งที่มีโอกาสเกิดจากข้อมูลของคุณคือความเชื่อที่ว่าคุณกำลังสันนิษฐานว่าอยู่ในสถานะของความไม่รู้ หลักการที่หยั่งรู้ซึ่งจะต้องได้รับการเคารพเมื่อตัดสินใจว่าความเชื่อคือว่ามันควรจะไม่เปลี่ยนแปลงภายใต้การเปลี่ยนแปลงของฉลาก (รวมถึงการซ่อมแซมใหม่) ฉันไม่แน่ใจ แต่ฉันคิดว่าหลักการเพียงอย่างเดียว (ในการตีความที่เป็นไปได้ทั้งหมด - เอนโทรปีสูงสุดค่าคงที่ reparametrization ฯลฯ ) จะตัดสินความเชื่อเสมอ
Neil G

ดังนั้นเมื่อมีใครบอกว่า "การแจกแจงสะท้อนความไม่รู้" อย่างใดอย่างหนึ่งหมายความว่าการแจกแจงนั้นสอดคล้องกับหลักการนี้
Neil G

12

เพื่อเพิ่มการอ้างอิงบางส่วนให้กับคำตอบที่ยอดเยี่ยมของ Zen: จากข้อมูลของเจย์เนส Jeffreys ก่อนเป็นตัวอย่างของหลักการของกลุ่มการเปลี่ยนแปลงซึ่งเป็นผลมาจากหลักการของความเฉยเมย:

สาระสำคัญของหลักการเป็นเพียง: (1) เรารับรู้ว่าการมอบหมายความน่าจะเป็นเป็นวิธีการอธิบายความรู้บางรัฐที่ฉัน (2) ถ้ามีหลักฐานจะช่วยให้เรามีเหตุผลที่จะต้องพิจารณาเรื่องไม่มีอย่างใดอย่างหนึ่งมากหรือน้อยกว่าแล้วเท่านั้นเที่ยงตรงทางเราสามารถอธิบายสถานะของความรู้ที่จะกำหนดให้เท่ากับความน่าจะเป็น: P_1ขั้นตอนอื่นใดจะไม่สอดคล้องกันในแง่ที่ว่าโดยการแลกเปลี่ยนฉลากเราสามารถสร้างปัญหาใหม่ที่สถานะความรู้ของเราเหมือนกัน แต่เรากำหนดความน่าจะเป็นที่แตกต่างกัน ...A1A2 ( 1 , 2 )p1=p2(1,2)

ตอนนี้เพื่อตอบคำถามของคุณ:“ ทำไมคุณไม่ต้องการก่อนที่จะเปลี่ยนแปลงภายใต้การเปลี่ยนแปลงของตัวแปร”

Parametrization เป็นอีกประเภทหนึ่งของป้ายชื่อโดยพลการและไม่ควร "โดยการแลกเปลี่ยนฉลากเพียงอย่างเดียวทำให้เกิดปัญหาใหม่ซึ่งสถานะความรู้ของเราเหมือนกัน แต่เรากำหนดความน่าจะเป็นที่แตกต่างกัน ”


2
Jaynes ดูเหมือนจะลึกลับสำหรับฉัน
Stéphane Laurent

@ StéphaneLaurent: บางทีฉันก็เปลี่ยนใจง่ายเกินไป! แต่ฉันพบสิ่งที่น่าเชื่อเช่นนี้: ET Jaynes“ เราจะยืนอยู่บน Maximum Entropy ได้อย่างไร” ใน The Entropy Formalism, R. Levine และ M. Tribus, Eds Cambridge, MA, USA: The MIT Press, 1979, pp. 15–118
Neil G

2
ซีอานได้รับจดหมายยกย่อง Jaynes: ceremade.dauphine.fr/~xian/critic.htmlมันน่าเสียดายหากคุณไม่ได้อ่านภาษาฝรั่งเศสจดหมายนี้ทั้งน่ากลัวและตลก ดูเหมือนว่าผู้เขียนจะบ้าไปแล้วโดยคิดเกี่ยวกับสถิติของ Bayesian มากเกินไป)
Stéphane Laurent

1
@ StéphaneLaurent: อ่านตอนนี้ สิ่งนี้ถูกต้องอย่างแน่นอน: "si vous affirmez en หน้า 508" ความสามารถในการทำซ้ำของการทดลองส่วนใหญ่ "à quoi bon ensuite" กำลังมองหากระบวนการ fequentist ที่ดีที่สุด "ในหน้า 512? Si la plupart des problèmes ne peuvent donc pas êtretraités ความคิดเห็นเกี่ยวกับ le "choix Bayésien", qui se veut être le paradigme pour tout problèmeinférentiel, n'est-ce pas, peut-il se baser sur une réconciliation avec le fréquentisme (p. 517-518)? เท toute qu'une probabilité n'est jamais une fréquence! "
Neil G

1
นอกจากนี้: "Le Principe du สูงสุด d'Entropie est lui absolument étantdonné qu'il est nécessaireและความเพียงพอในการเข้าชมrégler ces cas décoleและการแสดงความสามารถในการจัดหาสิ่งที่มีความหมายได้อย่างแม่นยำ qu'il permet ensuite d'unifier Théorie de l'Information, Mécanique Statistique, Thermodynamique ... "อธิบายตำแหน่งของฉันเช่นกัน อย่างไรก็ตามแตกต่างจากนักเขียนที่ฉันไม่สนใจชั่วโมงอุทิศเพื่อโน้มน้าวให้ผู้อื่นยอมรับสิ่งที่ฉันพบธรรมชาติ
Neil G

4

ในขณะที่มักจะน่าสนใจหากเพียงสำหรับการตั้งค่าการอ้างอิงก่อนกับที่จะวัดไพรเออร์อื่น ๆ ไพรเออร์ฟรีย์อาจจะไร้ประโยชน์อย่างสมบูรณ์เป็นตัวอย่างเช่นเมื่อพวกเขานำไปสู่การ posteriors ที่ไม่เหมาะสม: นี่คือตัวอย่างเช่นกรณีที่มีง่ายสององค์ประกอบผสมแบบเกาส์ โดยไม่ทราบพารามิเตอร์ทั้งหมด ในกรณีนี้ผู้อยู่ด้านหลังของ Jeffreys ก่อนไม่มีอยู่ไม่ว่าจะมีการสังเกตจำนวนเท่าใด (หลักฐานมีอยู่ในกระดาษล่าสุดที่ฉันเขียนกับ Clara Grazian)

pN(μ0,σ02)+(1p)N(μ1,σ12)

-2

ฟรีย์ก่อนเป็นไร้ประโยชน์ นี้เป็นเพราะ:

  1. มันแค่ระบุรูปแบบของการแจกแจง มันไม่ได้บอกคุณว่ามันควรจะเป็นพารามิเตอร์
  2. คุณไม่เคยเพิกเฉยอย่างสมบูรณ์ - มีบางอย่างเกี่ยวกับพารามิเตอร์ที่คุณรู้อยู่เสมอ (เช่นบ่อยครั้งที่มันไม่สามารถไม่มีที่สิ้นสุด) ใช้สำหรับการอนุมานของคุณโดยกำหนดการกระจายก่อนหน้า อย่าโกหกตัวเองโดยบอกว่าคุณไม่รู้อะไรเลย
  3. "ค่าคงที่ภายใต้การเปลี่ยนแปลง" ไม่ใช่คุณสมบัติที่ต้องการ โอกาสในการเปลี่ยนแปลงภายใต้การเปลี่ยนแปลงของคุณ (เช่นโดยจาโคเบียน) นี้ไม่ได้สร้างปัญหา "ใหม่" ก้าวเจย์นส์ ทำไมก่อนหน้านี้ไม่ควรได้รับการปฏิบัติเหมือนกัน?

อย่าใช้มัน


1
ใช่มั้ย? โอกาสไม่ได้เป็นความหนาแน่นและจะไม่เปลี่ยนแปลงภายใต้ reparametrization
innisfree
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.