มีความแตกต่างระหว่างผู้ถี่ถ้วนและเบย์ในคำจำกัดความของความน่าจะเป็นหรือไม่?


21

บางแหล่งกล่าวว่าฟังก์ชันความน่าจะเป็นไม่ใช่ความน่าจะเป็นแบบมีเงื่อนไขบางคนบอกว่าเป็น นี่ทำให้ฉันสับสนมาก

จากแหล่งข้อมูลส่วนใหญ่ที่ฉันเคยเห็นความน่าจะเป็นของการกระจายด้วยพารามิเตอร์ควรเป็นผลคูณของฟังก์ชันความน่าจะเป็นที่ได้รับจากตัวอย่างของ :θnxi

L(θ)=L(x1,x2,...,xn;θ)=i=1np(xi;θ)

ตัวอย่างเช่นใน Logistic Regression เราใช้อัลกอริธึมการปรับให้เหมาะสมเพื่อเพิ่มฟังก์ชั่นความน่าจะเป็นสูงสุด (การประมาณความน่าจะเป็นสูงสุด) เพื่อให้ได้พารามิเตอร์ที่ดีที่สุด จากตัวอย่างการฝึกอบรมซึ่งเราคิดว่าเป็นอิสระจากกันเราต้องการเพิ่มผลลัพธ์ของความน่าจะเป็นสูงสุด (หรือฟังก์ชั่นมวลความน่าจะเป็นร่วม) ดูเหมือนว่าฉันจะค่อนข้างชัดเจนn

ตามความสัมพันธ์ระหว่าง: ความน่าจะเป็น, ความน่าจะเป็นตามเงื่อนไขและอัตราความล้มเหลว "ความน่าจะเป็นไม่ใช่ความน่าจะเป็นและไม่ใช่ความน่าจะเป็นแบบมีเงื่อนไข" นอกจากนี้ยังกล่าวถึง"ความน่าจะเป็นคือความน่าจะเป็นแบบมีเงื่อนไขเฉพาะในการทำความเข้าใจความน่าจะเป็นแบบเบย์เช่นถ้าคุณคิดว่าเป็นตัวแปรสุ่ม"θ

ฉันอ่านเกี่ยวกับมุมมองที่แตกต่างกันของการรักษาปัญหาการเรียนรู้ระหว่างผู้ใช้บ่อยและ Bayesian

แหล่งอ้างอิงสำหรับการอนุมานแบบเบส์เรามีความสำคัญ , โอกาสและเราต้องการที่จะได้รับหลังโดยใช้ทฤษฎีบทแบบเบส์:P(θ)P(X|θ)P(θ|X)

P(θ|X)=P(X|θ)×P(θ)P(X)

ฉันไม่คุ้นเคยกับการอนุมานแบบเบย์ เหตุใดซึ่งเป็นการกระจายของข้อมูลที่สังเกตตามเงื่อนไขในพารามิเตอร์ของมันก็ถูกเรียกว่าเป็นไปได้หรือไม่? ในวิกิพีเดียมันบอกว่าบางครั้งมันก็เป็นลายลักษณ์อักษรtheta) สิ่งนี้หมายความว่า?P(X|θ)L(θ|X)=p(X|θ)

มีความแตกต่างระหว่างคำจำกัดความของ Frequentistist และ Bayesian เกี่ยวกับความเป็นไปได้หรือไม่?

ขอบคุณ


แก้ไข:

มีหลายวิธีในการตีความทฤษฎีบทของเบย์ - การตีความแบบเบย์และการตีความบ่อย (ดู: ทฤษฎีบทของเบย์ - วิกิพีเดีย )


2
คุณสมบัติที่สำคัญสองประการของความน่าจะเป็นคือ (a) ว่ามันเป็นหน้าที่ของสำหรับหนึ่งโดยเฉพาะมากกว่าอีกทางหนึ่งในทางกลับกันและ (b) มันสามารถเป็นที่รู้จักกันถึงค่าคงที่เชิงบวกของสัดส่วนเท่านั้น มันไม่ใช่ความน่าจะเป็น (เงื่อนไขหรืออย่างอื่น) เพราะมันไม่จำเป็นต้องรวมหรือรวมเข้ากับในทุกX 1 θθX1θ
Henry

คำตอบ:


24

ไม่มีความแตกต่างในคำจำกัดความ - ในทั้งสองกรณีฟังก์ชันความน่าจะเป็นคือฟังก์ชันใด ๆ ของพารามิเตอร์ที่เป็นสัดส่วนกับความหนาแน่นของการสุ่มตัวอย่าง การพูดอย่างเคร่งครัดเราไม่ต้องการให้โอกาสนั้นเท่ากับความหนาแน่นของการสุ่มตัวอย่าง มันต้องการเพียงสัดส่วนซึ่งช่วยให้การกำจัดชิ้นส่วนแบบหลายค่าที่ไม่ขึ้นอยู่กับพารามิเตอร์

ในขณะที่ความหนาแน่นของการสุ่มตัวอย่างถูกตีความว่าเป็นฟังก์ชั่นของข้อมูลตามเงื่อนไขในค่าที่ระบุของพารามิเตอร์ฟังก์ชั่นความน่าจะเป็นถูกตีความว่าเป็นฟังก์ชั่นของพารามิเตอร์สำหรับเวกเตอร์ข้อมูลคงที่ ดังนั้นในกรณีมาตรฐานของข้อมูล IID คุณ:

Lx(θ)i=1np(xi|θ).

ในสถิติแบบเบย์เรามักจะแสดงทฤษฎีบทของเบย์ในรูปแบบที่ง่ายที่สุดเมื่อ:

π(θ|x)π(θ)Lx(θ).

การแสดงออกของทฤษฎีบทของเบย์นี้เน้นว่าองค์ประกอบทั้งสองของมันเป็นฟังก์ชั่นของพารามิเตอร์ซึ่งเป็นวัตถุที่น่าสนใจในความหนาแน่นหลัง (ผลลัพธ์ตามสัดส่วนนี้กำหนดกฎอย่างสมบูรณ์เนื่องจากด้านหลังมีความหนาแน่นและดังนั้นจึงมีค่าคงที่การคูณที่ไม่ซ้ำกันที่ทำให้มันรวมเข้ากับหนึ่ง) ตามที่คุณชี้ให้เห็นในการปรับปรุงของคุณ Bayesian และปรัชญาบ่อยครั้งมีโครงสร้างการตีความแตกต่างกัน ภายในกระบวนทัศน์ของผู้ใช้บ่อยพารามิเตอร์จะถือว่าเป็น "ค่าคงที่คงที่" และดังนั้นจึงไม่ได้กำหนดมาตรวัดความน่าจะเป็น ผู้ใช้บ่อยจึงปฏิเสธการบอกเล่าของการแจกแจงก่อนหน้าหรือหลังให้กับพารามิเตอร์ (สำหรับการอภิปรายเพิ่มเติมเกี่ยวกับความแตกต่างทางปรัชญาและการตีความเหล่านี้ดูตัวอย่างเช่นO'Neill 2009 )


14

ฟังก์ชั่นความน่าจะถูกกำหนดให้เป็นอิสระจากหรือก่อนที่จะกระบวนทัศน์ทางสถิติที่ใช้สำหรับการอนุมานเป็นฟังก์ชั่น, (หรือ ) ของพารามิเตอร์ , ฟังก์ชั่น ขึ้นอยู่กับหรือจัดทำดัชนีโดยการสังเกต ( ) สำหรับการอนุมานนี้ และโดยปริยายขึ้นอยู่กับตระกูลของความน่าจะเป็นแบบจำลองที่เลือกเพื่อแสดงถึงความแปรปรวนหรือการสุ่มในข้อมูล สำหรับค่าที่กำหนดของคู่ค่าของฟังก์ชั่นนี้จะเหมือนกับค่าความหนาแน่นของแบบจำลองที่L(θ;x)L(θ|x)θx(θ,x)xเมื่อจัดทำดัชนีที่มีพารามิเตอร์\θซึ่งมักแปลอย่างหยาบ ๆ ว่า "ความน่าจะเป็นของข้อมูล"

เพื่ออ้างอิงแหล่งข้อมูลเชิงประวัติศาสตร์และเชื่อถือได้มากกว่าคำตอบก่อนหน้านี้ในฟอรัม

"เราอาจพูดถึงความน่าจะเป็นของการเกิดขึ้นของปริมาณที่สามารถสังเกตได้ ... ในความสัมพันธ์กับสมมติฐานใด ๆ ที่อาจได้รับการแนะนำให้อธิบายการสังเกตเหล่านี้เราไม่สามารถรู้ถึงความน่าจะเป็นของสมมติฐาน ... [เรา] อาจยืนยันโอกาส ของสมมติฐาน.. โดยการคำนวณจากการสังเกต:... เพื่อพูดถึงความน่าจะเป็น... ของปริมาณที่สังเกตได้ไม่มีความหมาย " RA ฟิชเชอร์ใน `` น่าจะเป็นข้อผิดพลาด '' ของค่าสัมประสิทธิ์ของความสัมพันธ์อนุมานได้จากกลุ่มตัวอย่างขนาดเล็ก Metron 1, 1921, p.25

และ

"สิ่งที่เราสามารถหาได้จากตัวอย่างคือความน่าจะเป็นของค่าใด ๆ ของ r หากเรานิยามความน่าจะเป็นเป็นปริมาณตามสัดส่วนความน่าจะเป็นที่จากประชากรที่มีค่า r โดยเฉพาะตัวอย่างที่มีค่าที่สังเกตได้ของ r ควรได้รับ " RA ฟิชเชอร์ใน `` น่าจะเป็นข้อผิดพลาด '' ของค่าสัมประสิทธิ์ของความสัมพันธ์อนุมานได้จากกลุ่มตัวอย่างขนาดเล็ก Metron 1, 1921, p.24

ซึ่งกล่าวถึงสัดส่วนที่ Jeffreys (และฉัน) พบว่าไม่จำเป็น:

"..likelihood เป็นคำที่สะดวกสบายที่ได้รับการแนะนำโดยศาสตราจารย์ RA Fisher แม้ว่าในการใช้งานของเขาบางครั้งก็ถูกคูณด้วยปัจจัยคงที่นี่เป็นความน่าจะเป็นของการสังเกตที่ได้รับข้อมูลดั้งเดิมและสมมติฐานภายใต้การสนทนา" H. Jeffreys, ทฤษฎีความน่าจะเป็น , 1939, p.28

หากต้องการอ้างอิง แต่ประโยคเดียวจากผลงานประวัติศาสตร์ที่ยอดเยี่ยมในหัวข้อโดย John Aldrich (วิทยาศาสตร์สถิติ, 1997):

"ฟิชเชอร์ (1921, p. 24) ร่างใหม่สิ่งที่เขาเขียนในปี 1912 เกี่ยวกับความน่าจะเป็นแบบผกผัน, แยกความแตกต่างระหว่างการดำเนินการทางคณิตศาสตร์ที่สามารถดำเนินการกับความหนาแน่นของความน่าจะเป็นและความน่าจะเป็น ." J. Aldrich, RA Fisher และการสร้างโอกาสสูงสุด 1912 - 1922 , 1997 , p.9

เมื่อนำวิธีการแบบเบย์มาใช้ฟังก์ชั่นความน่าจะไม่เปลี่ยนแปลงในรูปร่างหรือในธรรมชาติ มันทำให้ความหนาแน่นของการเป็นที่ดัชนีโดย\คุณลักษณะเพิ่มเติมคือเนื่องจากยังมอบให้กับแบบจำลองความน่าจะเป็น, การกระจายก่อนหน้า, ความหนาแน่นที่ดัชนีโดยยังสามารถตีความได้ว่าเป็นความหนาแน่นแบบมีเงื่อนไข , เงื่อนไขในการก่อให้เกิด : ในแบบจำลอง Bayesian , หนึ่งการสำนึกของถูกสร้างขึ้นจากก่อนหน้า, ด้วยความหนาแน่น , จากนั้นการสำนึกของ ,xθθxθθθπ()Xxที่ผลิตจากการจัดจำหน่ายที่มีความหนาแน่น , ดัชนีโดย\ในคำอื่น ๆ และด้วยความเคารพในตัวชี้วัดที่มีอำนาจเหนือเหมาะสมคู่มีความหนาแน่นร่วม จากที่หนึ่งที่บุคลากรมีความหนาแน่นหลังของ , นั่นคือความหนาแน่นของเงื่อนไขเงื่อนไขในการรับรู้ของขณะที่ ก็แสดงเป็น พบตั้งแต่ฟรีย์ (1939)L(θ|)θ(θ,x)

π(θ)×L(θ|x)
θθx
π(θ|x)π(θ)×L(θ|x)
posteriorprior×likelihood

หมายเหตุ:ฉันพบความแตกต่างที่เกิดขึ้นในหน้าวิกิพีเดียเกี่ยวกับฟังก์ชั่นความเป็นไปได้ระหว่างโอกาสที่เกิดขึ้นบ่อยและเบย์ทำให้เกิดความสับสนและไม่จำเป็นหรือเป็นเพียงความผิดที่ธรรมดาเนื่องจากสถิติของเบย์ ในทำนองเดียวกัน "ความแตกต่าง" ชี้ให้เห็นในหน้าวิกิพีเดียเกี่ยวกับทฤษฎีบทของเบย์ฟังดูสับสนมากกว่าสิ่งอื่นใดเนื่องจากทฤษฎีบทนี้เป็นคำแถลงความน่าจะเป็นเกี่ยวกับการเปลี่ยนแปลงของเงื่อนไขโดยอิสระจากกระบวนทัศน์หรือจากความหมายของ ( ในความคิดของฉันมันเป็นคำนิยามมากกว่าทฤษฎีบท!)


1

ในฐานะที่เป็นภาคผนวกขนาดเล็ก:

ชื่อ "โอกาส" ที่ทำให้เข้าใจผิดโดยสิ้นเชิงเพราะมีความหมายที่แตกต่างกันมาก ไม่เพียงภาษา "ปกติ" เท่านั้น แต่ยังอยู่ในสถิติ ฉันสามารถนึกถึงอย่างน้อยสามอย่างที่แตกต่างกัน แต่ถึงแม้จะเกี่ยวข้องกับการแสดงออกที่เรียกว่าน่าจะเป็น แม้ในหนังสือข้อความ

เมื่อกล่าวถึงการนิยามพหุคูณของความน่าจะเป็นไม่มีสิ่งใดในนั้นที่จะทำให้มันกลายเป็นความน่าจะเป็นในรูปแบบใด ๆ ในแง่ของความหมาย (เช่นสัจพจน์) มันเป็นจำนวนจริง คุณสามารถทำสิ่งต่าง ๆ มากมายในการคำนวณหรือเชื่อมโยงกับความน่าจะเป็น (การคำนวณอัตราส่วนการคำนวณหาสิ่งมีชีวิตและอื่น ๆ ) - แต่ในตัวมันเองนั้นไม่มีความหมายในแง่ของความน่าจะเป็น

คำตอบนั้นล้าสมัยไปแล้วโดยคำตอบที่ให้ข้อมูลและครอบคลุมมากขึ้นโดยซีอาน แต่ตามคำจำกัดความหนังสือคำนิยามความน่าจะเป็น:

  • ฟังก์ชันL(x;θ)
  • วิธีการหาค่า 'ที่ดีที่สุด' ของพารามิเตอร์ภายใต้เงื่อนไขของข้อมูลที่สังเกตได้ (สูงสุด L, ค่าต่ำสุด L, ค่า log-L, ฯลฯ )θ
  • อัตราส่วนของค่าความน่าจะเป็นสำหรับนักบวชที่แตกต่างกัน (เช่นในภารกิจการจัดหมวดหมู่) ... และยิ่งไปกว่านั้นความหมายที่แตกต่างกันเราสามารถลองใช้คุณลักษณะ (ab) ขององค์ประกอบที่กล่าวถึงข้างต้น

1
นี่จะเป็นคำตอบที่ดียิ่งขึ้นถ้าคุณสามารถเพิ่มตัวอย่าง / การอ้างอิงสำหรับฉันสามารถคิดอย่างน้อยสามแบบที่แตกต่างกัน แต่ถึงแม้จะมีการแสดงออกที่เกี่ยวข้องที่เรียกว่าน่าจะเป็น; แม้จะอยู่ในตำรา
kjetil b halvorsen
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.