สัญชาตญาณของการกระจายเบต้าคืออะไร


438

ข้อจำกัดความรับผิดชอบ: ฉันไม่ใช่นักสถิติ แต่เป็นวิศวกรซอฟต์แวร์ ความรู้เกี่ยวกับสถิติส่วนใหญ่มาจากการเรียนรู้ด้วยตนเองดังนั้นฉันยังมีช่องว่างมากมายในการทำความเข้าใจแนวคิดที่อาจดูไม่สำคัญสำหรับคนอื่นที่นี่ ดังนั้นฉันจะขอบคุณมากถ้าคำตอบมีคำศัพท์เฉพาะน้อยกว่าและคำอธิบายเพิ่มเติม ลองนึกภาพว่าคุณกำลังคุยกับคุณยายอยู่ :)

ฉันพยายามที่จะเข้าใจลักษณะของการแจกแจงเบต้า - สิ่งที่ควรใช้และวิธีตีความในแต่ละกรณี ถ้าเราพูดถึงการกระจายตัวแบบปกติเราสามารถอธิบายได้ว่าเป็นเวลาที่รถไฟมาถึง: บ่อยที่สุดมันมาถึงในเวลาน้อยกว่าบ่อยครั้งคือ 1 นาทีก่อนหน้าหรือ 1 นาทีและไม่ค่อยมาถึงด้วยความแตกต่าง 20 นาทีจากค่าเฉลี่ย การแจกแจงแบบสม่ำเสมอจะอธิบายโอกาสของตั๋วแต่ละใบด้วยลอตเตอรี การแจกแจงแบบทวินามอาจอธิบายได้ด้วยการโยนเหรียญและอื่น ๆ แต่มีคำอธิบายที่เข้าใจง่ายเกี่ยวกับการแจกแจงเบต้าหรือไม่

สมมติว่าα=.99และ\β=.5การกระจายเบต้าB(α,β)ในกรณีนี้มีลักษณะเช่นนี้ (สร้างใน R):

ป้อนคำอธิบายรูปภาพที่นี่

แต่จริงๆแล้วมันหมายถึงอะไร? เห็นได้ชัดว่าแกน Y เป็นความหนาแน่นของความน่าจะเป็น แต่สิ่งที่อยู่ในแกน X?

ฉันขอขอบคุณคำอธิบายใด ๆ ไม่ว่าจะด้วยตัวอย่างนี้หรืออย่างอื่น


13
แกน y ไม่ใช่ความน่าจะเป็น (ซึ่งเห็นได้ชัดเนื่องจากตามคำจำกัดความความน่าจะเป็นไม่สามารถอยู่นอกช่วงได้ แต่พล็อตนี้ขยายได้ถึงและ - ในหลักการ - ถึง ) มันคือความหนาแน่นของความน่าจะเป็น : ความน่าจะเป็นต่อหน่วยของ (และคุณได้อธิบายว่าเป็นอัตรา) [0,1]50xx
whuber

4
@whuber: ใช่ฉันเข้าใจว่า PDF คืออะไร - นั่นเป็นเพียงความผิดพลาดในคำอธิบายของฉัน ขอบคุณสำหรับบันทึกที่ถูกต้อง!
แฟน

1
ฉันจะลองหาข้อมูลอ้างอิง แต่ฉันรู้ว่ามีรูปร่างแปลกประหลาดมากขึ้นสำหรับการแจกแจงเบต้าแบบทั่วไปด้วยรูปแบบมีแอปพลิเคชันเช่นฟิสิกส์ นอกจากนี้คุณสามารถปรับให้เข้ากับข้อมูลผู้เชี่ยวชาญ (ขั้นต่ำ, โหมด, สูงสุด) ในสภาพแวดล้อมที่มีข้อมูลไม่ดีและมักจะดีกว่าการใช้การกระจายแบบสามเหลี่ยม (น่าเสียดายที่ IE ใช้บ่อย) a+(ba)Beta(α1,α2)
SecretAgentMan

เห็นได้ชัดว่าคุณไม่เคยเดินทางกับ บริษัท รถไฟ Deutsche Bahn คุณจะมองโลกในแง่ดีน้อยลง
henning

คำตอบ:


621

รุ่นสั้นคือการแจกแจงแบบเบต้าสามารถเข้าใจได้ว่าเป็นตัวแทนของการแจกแจงความน่าจะเป็น - นั่นคือมันแสดงถึงค่าความน่าจะเป็นที่เป็นไปได้ทั้งหมดเมื่อเราไม่รู้ว่าความน่าจะเป็นนั้นคืออะไร นี่คือคำอธิบายที่ใช้งานง่ายที่ชื่นชอบของฉันนี้:

ใครก็ตามที่ติดตามเบสบอลจะคุ้นเคยกับการตีลูกโดยเฉลี่ย - จำนวนครั้งที่ผู้เล่นได้รับการตีฐานหารด้วยจำนวนครั้งที่เขาขึ้นไปตีค้างคาว (ดังนั้นจึงเป็นเพียงเปอร์เซ็นต์ระหว่าง0และ1) .266โดยทั่วไปถือว่าเป็นค่าเฉลี่ยแม่นบอลในขณะที่.300ถือเป็นยอดเยี่ยม

ลองนึกภาพเรามีนักเบสบอลและเราต้องการที่จะทำนายว่าแม่นแม่นตลอดฤดูกาลของเขาจะเป็นอย่างไร คุณอาจพูดว่าเราสามารถใช้ลูกบอลตีค่าเฉลี่ยของเขาได้ - แต่นี่จะเป็นการวัดที่แย่มากเมื่อเริ่มฤดูกาล! หากผู้เล่นไปถึงค้างคาวครั้งและได้รับการเดียวแม่นของเขาเป็นเวลาสั้น ๆในขณะที่ถ้าเขานัดออกแม่นของเขาก็คือ1.000 0.000มันไม่ได้ดีไปกว่านี้ถ้าคุณขึ้นไปตีห้าหรือหกครั้ง - คุณอาจได้รับโชคดีและได้รับค่าเฉลี่ย1.000หรือโชคไม่ดีและได้รับค่าเฉลี่ย0ซึ่งไม่ได้เป็นตัวทำนายที่ดีจากระยะไกล คุณจะแบ็ตฤดูกาลนั้น

ทำไมค่าตีบอลของคุณในการเข้าชมไม่กี่ครั้งแรกนั้นไม่ใช่ตัวทำนายที่ดีของการตีบอลโดยเฉลี่ยในที่สุดของคุณ? เมื่อผู้เล่นคนแรกตีค้างคาวทำไมไม่มีใครคาดเดาได้ว่าเขาจะไม่มีวันชนะตลอดทั้งฤดูกาล? เพราะเราจะไปด้วยความคาดหวังก่อน เรารู้ว่าในประวัติศาสตร์การตีบอลโดยเฉลี่ยในแต่ละฤดูกาลนั้นมีลักษณะคล้าย ๆ กัน.215และ.360มีข้อยกเว้นบางอย่างที่หายากมากทั้งสองด้าน เรารู้ว่าหากผู้เล่นได้รับการปะทะสองสามครั้งในช่วงเริ่มต้นนั่นอาจบ่งบอกว่าเขาจะจบลงด้วยคะแนนที่แย่กว่าปกติเล็กน้อย แต่เรารู้ว่าเขาคงไม่เบี่ยงเบนไปจากช่วงนั้น

จากปัญหาค่าเฉลี่ยบอลของเราซึ่งสามารถแสดงด้วยการแจกแจงทวินาม (ชุดของความสำเร็จและความล้มเหลว) วิธีที่ดีที่สุดในการแสดงความคาดหวังก่อนหน้านี้ (สิ่งที่เราในสถิติเพิ่งเรียกก่อนหน้านี้) คือการกระจายเบต้า - มันกำลังพูดว่า ก่อนที่เราจะเห็นผู้เล่นทำการเหวี่ยงครั้งแรกสิ่งที่เราคาดหวังจากการตีบอลโดยเฉลี่ยของเขาจะเป็น โดเมนของการแจกแจงแบบเบต้านั้น(0, 1)น่าจะเป็นเช่นนั้นดังนั้นเรารู้อยู่แล้วว่าเราอยู่ในเส้นทางที่ถูกต้อง - แต่ความเหมาะสมของเบต้าสำหรับงานนี้ยิ่งไปกว่านั้น

เราคาดหวังว่าผู้เล่นฤดูกาลยาวแม่นจะมีโอกาสมากที่สุดรอบ.27แต่มันก็พอจะมีตั้งแต่การ.21 .35สิ่งนี้สามารถแสดงด้วยการแจกแจงแบบเบต้าพร้อมพารามิเตอร์และ :α=81β=219

curve(dbeta(x, 81, 219))

เบต้า (81, 219)

ฉันมาพร้อมกับพารามิเตอร์เหล่านี้ด้วยเหตุผลสองประการ:

  • ค่าเฉลี่ยคือαα+β=8181+219=.270
  • ดังที่คุณเห็นในพล็อตการกระจายนี้อยู่เกือบทั้งหมด(.2, .35)- ช่วงที่เหมาะสมสำหรับการตีบอลโดยเฉลี่ย

คุณถามว่าแกน x คืออะไรในพล็อตการกระจายความหนาแน่นเบต้า - ที่นี่มันแสดงถึงค่าเฉลี่ยของลูกบอล ดังนั้นสังเกตว่าในกรณีนี้ไม่เพียง แต่แกน y จะเป็นความน่าจะเป็น (หรือความหนาแน่นของความน่าจะเป็นที่แม่นยำมากขึ้น) แต่แกน x ก็เป็นเช่นกัน (แม่นเฉลี่ยเป็นเพียงความน่าจะเป็นที่นิยม การแจกแจงเบต้าแสดงการกระจายความน่าจะเป็นของความน่าจะเป็น

แต่นี่คือเหตุผลที่การกระจายเบต้ามีความเหมาะสม ลองนึกภาพผู้เล่นได้รับความนิยมอย่างเดียว 1 hit; 1 at batประวัติของเขาสำหรับฤดูกาลอยู่ในขณะนี้ จากนั้นเราต้องอัปเดตความน่าจะเป็นของเรา - เราต้องการเปลี่ยนเส้นโค้งทั้งหมดนี้ไปเพียงเล็กน้อยเพื่อสะท้อนข้อมูลใหม่ของเรา ขณะคณิตศาสตร์สำหรับการพิสูจน์นี้เป็นบิตที่เกี่ยวข้อง ( มันแสดงที่นี่ ) ผลที่ได้คือง่ายมาก การกระจายเบต้าใหม่จะเป็น:

Beta(α0+hits,β0+misses)

โดยที่และเป็นพารามิเตอร์ที่เราเริ่มต้นด้วย - นั่นคือ 81 และ 219 ดังนั้นในกรณีนี้ ได้เพิ่มขึ้น 1 (การโจมตีครั้งเดียวของเขา) ในขณะที่ยังไม่เพิ่มขึ้นเลย ) นั่นหมายถึงการกระจายใหม่ของเราคือหรือ:α0β0αβBeta(81+1,219)

curve(dbeta(x, 82, 219))

ป้อนคำอธิบายรูปภาพที่นี่

โปรดสังเกตว่ามันแทบจะไม่เปลี่ยนแปลงเลย - การเปลี่ยนแปลงนั้นไม่สามารถมองเห็นได้ด้วยตาเปล่าจริง ๆ ! (นั่นเป็นเพราะการโจมตีหนึ่งครั้งไม่ได้มีความหมายอะไรเลย)

อย่างไรก็ตามยิ่งผู้เล่นเข้าชมในฤดูกาลมากขึ้นเท่าไหร่เส้นโค้งจะเปลี่ยนเพื่อรองรับหลักฐานใหม่และยิ่งมันแคบลงตามความจริงที่ว่าเรามีหลักฐานมากขึ้น สมมติว่าครึ่งทางผ่านฤดูกาลที่เขามีค้างคาวมากถึง 300 ครั้งและตี 100 ครั้งจากนั้น การกระจายใหม่จะเป็นหรือ:Beta(81+100,219+200)

curve(dbeta(x, 81+100, 219+200))

ป้อนคำอธิบายรูปภาพที่นี่

ขอให้สังเกตว่าตอนนี้ทั้งโค้งและบางไปทางขวา (แม่นสูงขึ้น) กว่าที่เคยเป็น - เรามีความรู้สึกที่ดีขึ้นว่าลูกบอลของผู้เล่นเฉลี่ยอยู่ที่ใด

หนึ่งในผลลัพธ์ที่น่าสนใจที่สุดของสูตรนี้คือค่าที่คาดหวังของการแจกแจงแบบเบต้าที่เกิดขึ้นซึ่งเป็นค่าประมาณใหม่ของคุณ จำได้ว่าค่าที่คาดหวังของการกระจายเบต้าจะเบต้า} ดังนั้นหลังจาก 100 ฮิตของค้างคาวจริงค่าคาดหวังของการกระจายเบต้าใหม่คือ - สังเกตว่ามันต่ำกว่าประมาณการไร้เดียงสา ของแต่สูงกว่าที่คุณคาดการณ์ไว้ในฤดูกาลด้วย (αα+β81+10081+100+219+200=.303100100+200=.3338181+219=.270) คุณอาจสังเกตเห็นว่าสูตรนี้เทียบเท่ากับการเพิ่ม "หัวเริ่ม" กับจำนวนการเข้าชมและการไม่เข้าเล่นของผู้เล่น - คุณกำลังพูดว่า "เริ่มต้นเขาในฤดูกาลที่มี 81 ครั้งและ 219 ครั้งที่ไม่ใช่การบันทึก" )

ดังนั้นการแจกแจงแบบเบต้านั้นดีที่สุดสำหรับการแสดงการกระจายความน่าจะเป็น - ในกรณีที่เราไม่ทราบว่ามีความน่าจะเป็นล่วงหน้า แต่เรามีการคาดเดาที่สมเหตุสมผล


5
@ เพื่อน: ดีใจที่มันช่วย - ฉันหวังว่าคุณจะติดตามเบสบอล (มิฉะนั้นฉันสงสัยว่ามันเข้าใจ!)
David Robinson

11
นี่คือตัวอย่างที่คล้ายกันจาก John Cook โดยใช้การจัดอันดับผู้ขายไบนารีของ Amazon ที่มีจำนวนความเห็นต่างกัน การอภิปรายเกี่ยวกับการเลือกก่อนในความคิดเห็นที่มีความสว่างโดยเฉพาะอย่างยิ่ง: johndcook.com/blog/2011/09/27/bayesian-amazon/#comments
Dimitriy V. Masterov

4
คุณควรชี้ให้เห็นว่าไม่จำเป็นต้องมีการเผยแพร่ก่อนเบต้า (เว้นแต่คุณจะไปกับ Jeffreys 'ก่อนหน้านี้ - โอกาสที่จะต้องมีการเผยแพร่เบต้าเท่านั้นα0=β0=1/2
Neil G

4
+ ฉันชอบคำอธิบายของคุณเกี่ยวกับวิธีอัปเดตการกระจายเมื่อคุณมีข้อมูลเพิ่มเติม
Mike Dunlavey

2
@ user27997 สิ่งเหล่านั้นให้ค่าเฉลี่ยที่ต้องการ. 27 และส่วนเบี่ยงเบนมาตรฐานที่เป็นจริงอย่างมากสำหรับการตีค่าเฉลี่ย (ประมาณ. 025) ฉันให้คำอธิบายเกี่ยวกับวิธีการคำนวณαและβจากค่าเฉลี่ยและความแปรปรวนที่ต้องการที่นี่
David Robinson

48

การแจกแจงแบบเบต้าใช้เพื่อจำลองสิ่งต่าง ๆ ที่มีช่วง จำกัด เช่น 0 ถึง 1

ตัวอย่างคือความน่าจะเป็นของความสำเร็จในการทดสอบที่มีผลลัพธ์เพียงสองรายการเช่นความสำเร็จและความล้มเหลว หากคุณทำการทดลองในจำนวนที่ จำกัด และบางการทดสอบก็ประสบความสำเร็จคุณสามารถแสดงสิ่งที่บอกให้คุณทราบโดยการแจกแจงแบบเบต้า

อีกตัวอย่างหนึ่งคือสถิติการสั่งซื้อ ตัวอย่างเช่นหากคุณสร้างตัวเลขสุ่ม (พูด 4) จำนวน 0,1 ชุดและเรียงลำดับการกระจายตัวของอันดับ 3 คืออะไร

ฉันใช้มันเพื่อทำความเข้าใจการวิเคราะห์ประสิทธิภาพของซอฟต์แวร์โดยการสุ่มตัวอย่าง หากคุณหยุดโปรแกรมแบบสุ่มครั้งและในเวลานั้นคุณเห็นว่ามันทำอะไรบางอย่างที่คุณสามารถกำจัดได้และดังนั้นเศษส่วนเวลาที่จะถูกบันทึกโดยการทำเช่นนั้นจะถูกแสดงโดยและปัจจัยเร่งความเร็วมีการกระจายBetaPrimenss>1Beta(s+1,(ns)+1)

เพิ่มเติมเกี่ยวกับที่ ...


41

การกระจายเบต้ายังปรากฏเป็นสถิติการสั่งซื้อสำหรับตัวอย่างที่สุ่มของการกระจายสม่ำเสมอเป็นอิสระเกี่ยวกับ(0,1)(0,1)

ได้อย่างแม่นยำให้ , ,เป็นตัวแปรสุ่มอิสระแต่ละคนมีการกระจายชุดใน(0,1)แสดงโดย , ,สถิติการสั่งซื้อของกลุ่มตัวอย่างแบบสุ่มซึ่งกำหนดโดยการเรียงลำดับค่าของ , ,ในลำดับที่เพิ่มขึ้น โดยเฉพาะอย่างยิ่งและ(u_i) จากนั้นหนึ่งสามารถแสดงให้เห็นว่าสำหรับทุก nU1Unn(0,1)U(1)U(n)(U1,,Un)U1UnU(1)=min(Ui)U(n)=max(Ui)U(k)Beta(k,n+1k)k=1,,n

ผลลัพธ์นี้แสดงให้เห็นว่าการแจกแจงแบบเบต้าปรากฏตามธรรมชาติในคณิตศาสตร์และมีแอปพลิเคชันที่น่าสนใจในวิชาคณิตศาสตร์


28

มีแรงจูงใจหลักสองประการ:

อย่างแรกคือการแจกแจงเบตาคอนจูเกตก่อนการแจกแจงเบอร์นูลลี นั่นหมายความว่าหากคุณมีความน่าจะเป็นที่ไม่รู้จักเช่นความลำเอียงของเหรียญที่คุณประเมินโดยการโยนเหรียญซ้ำแล้วโอกาสที่จะเกิดความลำเอียงที่ไม่ทราบโดยเรียงตามลำดับการโยนเหรียญนั้นคือการแจกแจงแบบเบต้า

ประการที่สองผลที่ตามมาของการแจกแจงแบบเบต้าเป็นตระกูลเอ็กซ์โพเนนเชียลคือมันเป็นการแจกแจงแบบเอนโทรปีสูงสุดสำหรับชุดของสถิติที่เพียงพอ ในกรณีที่การกระจายเบต้าสถิติเหล่านี้เป็นและสำหรับใน[0,1]นั่นหมายความว่าหากคุณทำการวัดค่าเฉลี่ยของสถิติที่เพียงพอเหล่านี้สำหรับชุดของตัวอย่าง , สมมติฐานขั้นต่ำที่คุณสามารถทำได้เกี่ยวกับการกระจายตัวของตัวอย่างคือมันมีการแจกแจงแบบเบต้าlog(x)log(1x)x[0,1]x1,,xn

การแจกแจงแบบเบต้าไม่ได้เป็นพิเศษสำหรับการสร้างแบบจำลองโดยทั่วไปในเรื่อง [0,1] เนื่องจากการแจกแจงจำนวนมากสามารถถูกตัดทอนไปยังการสนับสนุนนั้นและมีความเหมาะสมมากกว่าในหลาย ๆ กรณี


23

ป้อนคำอธิบายรูปภาพที่นี่

สมมติว่าผู้ขายในเว็บไซต์อีคอมเมิร์ซบางแห่งได้รับการจัดอันดับ 500 500 รายการซึ่งดีและ 100 ไม่ดี

เราคิดว่าสิ่งนี้เป็นผลมาจากการทดลองของ Bernoulli ที่มีความยาว 500 ซึ่งนำไปสู่ความสำเร็จ 400 ครั้ง (1 = ดี) ในขณะที่ความน่าจะเป็นพื้นฐานไม่เป็นที่รู้จักp

คุณภาพไร้เดียงสาในแง่ของการให้คะแนนของผู้ขายคือ 80% เพราะ 0.8 = 400/500 แต่คุณภาพ "จริง" ในแง่ของการให้คะแนนที่เราไม่ทราบ

ในทางทฤษฎีผู้ขายที่มีคุณภาพ "จริง" ของอาจสิ้นสุดด้วยคะแนน 400 ดีจาก 500 อันดับp=77%

พล็อตแถบแหลมในภาพแสดงความถี่ที่เกิดขึ้นบ่อยครั้งในการจำลองสถานการณ์สำหรับการจัดอันดับที่"จริง" 400 จาก 500 คะแนนถือว่าดี พล็อตแท่งคือความหนาแน่นของฮิสโตแกรมของผลลัพธ์ของการจำลองp

และอย่างที่คุณเห็น - เส้นโค้งความหนาแน่นของการแจกแจงเบต้าสำหรับและ (สีส้ม) ล้อมรอบแผนภูมิแท่งแน่น (ความหนาแน่นของฮิสโตแกรมสำหรับการจำลอง)α=400+1β=100+1

ดังนั้นการกระจายเบต้าหลักกำหนดความเป็นไปได้ว่าน่าจะประสบความสำเร็จในการทดลอง Bernoulli เป็นได้รับผลของการทดลองp

library(ggplot2)

# 90% positive of 10 ratings
o1 <- 9
o0 <- 1
M <- 100
N <- 100000

m <- sapply(0:M/M,function(prob)rbinom(N,o1+o0,prob))
v <- colSums(m==o1)
df_sim1 <- data.frame(p=rep(0:M/M,v))
df_beta1 <- data.frame(p=0:M/M, y=dbeta(0:M/M,o1+1,o0+1))

# 80% positive of 500 ratings
o1 <- 400
o0 <- 100
M <- 100
N <- 100000

m <- sapply(0:M/M,function(prob)rbinom(N,o1+o0,prob))
v <- colSums(m==o1)
df_sim2 <- data.frame(p=rep(0:M/M,v))
df_beta2 <- data.frame(p=0:M/M, y=dbeta(0:M/M,o1+1,o0+1))

ggplot(data=df_sim1,aes(p)) +
    scale_x_continuous(breaks=0:10/10) +

    geom_histogram(aes(y=..density..,fill=..density..),
        binwidth=0.01, origin=-.005, colour=I("gray")) +
    geom_line(data=df_beta1 ,aes(p,y),colour=I("red"),size=2,alpha=.5) +

    geom_histogram(data=df_sim2, aes(y=..density..,fill=..density..),
        binwidth=0.01, origin=-.005, colour=I("gray")) +
    geom_line(data=df_beta2,aes(p,y),colour=I("orange"),size=2,alpha=.5)

http://www.joyofdata.de/blog/an-intuitive-interpretation-of-the-beta-distribution/


3
ขอขอบคุณสำหรับการสนับสนุนของคุณ! ฉันสับสนเกี่ยวกับบางอย่างแม้ว่า: แม้ว่าฮิสโทแกรมระบุว่าพวกเขาแสดงความหนาแน่นของเบต้าคุณก็อ้างว่าสิ่งเหล่านี้ยังอธิบายผลลัพธ์ของการจำลองแบบทวินามด้วย แต่ทั้งสองเป็นสิ่งที่แตกต่างกันแม้ว่าพวกเขาจะปรากฏอยู่ใกล้พอสมควรในภาพประกอบ (นั่นเป็นผลมาจากค่าใกล้เคียงปกติของเบต้าพร้อมพารามิเตอร์ขนาดใหญ่และทฤษฎีขีด จำกัด กลางสำหรับการแจกแจงแบบทวินาม)
whuber

นั่นเป็นจุดที่ดี! แต่ฉันไม่แน่ใจว่าจะใช้ถ้อยคำนี้ซ้ำได้อย่างไร ถ้าฉันจะพล็อตกราฟฮิสโตแกรมแล้วแน่นอนคุณจะไม่เห็นความหนาแน่นมากนักตามขนาดของมัน ใช่แล้วฮิสโตแกรมนั้นจริง ๆ แล้วฉันเดาว่าไม่เพียง แต่ลดขนาดลง แต่ที่จริงแล้วความหนาแน่น (โดยประมาณ) ของฮิสโตแกรมดั้งเดิม จากจำนวนวิ่งที่ฉันสามารถหาปัจจัยและลดขนาดลงเป็นเส้นตรง แต่มันก็จะดูว่าบวกกับสิ่งที่ฉันต้องการ (จริง ๆ ) คือความหนาแน่นของเบต้ากับความหนาแน่นของผลลัพธ์ของการจำลอง ( ความหนาแน่นของฮิสโตแกรมดั้งเดิม)
Raffael

8

จนถึงตอนนี้คำตอบที่ครอบคลุมนั้นมีเหตุผลครอบคลุมสำหรับ Beta RVs ที่ถูกสร้างขึ้นก่อนหน้านี้สำหรับสัดส่วนตัวอย่างและคำตอบที่ชาญฉลาดหนึ่งคำนั้นเกี่ยวข้องกับ Beta RVs เพื่อจัดลำดับสถิติ

การแจกแจงแบบเบต้ายังเกิดขึ้นจากความสัมพันธ์แบบง่าย ๆ ระหว่าง Gamma (k_i, 1) RVs, i = 1,2 เรียกพวกเขาว่า X และ Y. X / (X + Y) มีการแจกแจงแบบเบต้า

Gamma RVs มีเหตุผลของพวกเขาในการสร้างแบบจำลองเวลาที่มาถึงสำหรับกิจกรรมอิสระดังนั้นฉันจะไม่พูดถึงเรื่องนี้เนื่องจากไม่ใช่คำถามของคุณ แต่ "ส่วนของเวลา" ที่ใช้ในการทำหนึ่งในสองภารกิจที่ดำเนินการตามลำดับนั้นให้ยืมตัวเองเพื่อการแจกแจงแบบเบต้า


1
+1 ขอบคุณที่ชี้ให้เห็นว่าเกี่ยวกับการใช้ Gamma เพื่อสร้างการแจกแจงแบบเบต้า ฉันได้ยินมาว่าหากคุณต้องการทำให้เบต้าเป็น Dirichlet โดยทั่วไปคุณเพียงแค่ใส่ Gammas เข้ามาในส่วน บางทีนักสถิติอาจจะรู้ แต่สำหรับฉันแล้วมันมีประโยชน์จริง ๆ เมื่อดูช่วงความมั่นใจของการสังเกตอย่างละเอียด
Mike Dunlavey

4

สัญชาตญาณของฉันบอกว่ามัน "ชั่งน้ำหนัก" ทั้งสัดส่วนปัจจุบันของความสำเร็จ " " และสัดส่วนความล้มเหลวในปัจจุบัน " ":1} ที่คงที่คือเบต้า) เป็นเหมือน "น้ำหนัก" สำหรับผลงานความสำเร็จของ เป็นเหมือน "น้ำหนัก" สำหรับผลงานของความล้มเหลวของ คุณมีพื้นที่พารามิเตอร์สองมิติ (หนึ่งสำหรับการสนับสนุนที่ประสบความสำเร็จและอีกหนึ่งสำหรับการสนับสนุนที่ล้มเหลว) ซึ่งทำให้ยากที่จะคิดและเข้าใจx(1x)f(x;α,β)=constantxα1(1x)β11/B(α,β)αβ


3

ในตัวอย่างที่อ้างถึงพารามิเตอร์คือ alpha = 81 และ beta = 219 จากปีก่อน [81 ครั้งที่เข้าชม 300 ครั้งที่ค้างคาวหรือ (81 และ 300 - 81 = 219)]

ฉันไม่รู้ว่าสิ่งที่พวกเขาเรียกว่าการคาดการณ์ก่อนหน้าของ 81 ครั้งและ 219 ลึกหนาบาง แต่ในภาษาอังกฤษนั่นคือสมมติฐานที่ได้มาก่อน

ขอให้สังเกตว่าฤดูกาลจะดำเนินไปอย่างไรเส้นโค้งเลื่อนไปทางซ้ายหรือขวาและความน่าจะเป็นโมดัลเลื่อนไปทางซ้ายหรือขวา แต่ยังคงมีเส้นโค้ง

ฉันสงสัยว่าในที่สุด Laa of Large Numbers จะจับและขับบอลแม่นกลับไปเป็น. 270

ในการคาดเดาอัลฟ่าและเบต้าโดยทั่วไปจะใช้จำนวนที่สมบูรณ์ของเหตุการณ์ที่เกิดขึ้นก่อนหน้านี้ (ที่ค้างคาว), แม่นเฉลี่ยเท่าที่ทราบได้รับยอดรวม (อัลฟา), เบต้าหรือยอดรวมลบด้วยความล้มเหลว) และ voila - คุณมีสูตรของคุณ จากนั้นทำงานข้อมูลเพิ่มเติมตามที่แสดง


2

การแจกแจงแบบเบต้ามีประโยชน์มากเมื่อคุณทำงานกับการกระจายขนาดอนุภาค ไม่ใช่สถานการณ์เมื่อคุณต้องการสร้างแบบจำลองการกระจายของเมล็ดข้าว กรณีนี้ดีกว่าที่จะใช้การกระจาย Tanhที่ไม่ได้ล้อมรอบด้านขวา F(X)=tanh((x/p)n)

อย่างไรก็ตามถ้าคุณผลิตการกระจายขนาดจากการสังเกตด้วยกล้องจุลทรรศน์และคุณมีการกระจายตัวของอนุภาคเป็นจำนวนมากและเป้าหมายของคุณคือการทำงานกับการกระจายปริมาตร มันเกือบจะเป็นข้อบังคับเพื่อให้ได้การแจกแจงดั้งเดิมตามจำนวนที่อยู่ทางด้านขวา ดังนั้นการแปลงจะสอดคล้องกันมากขึ้นเพราะคุณแน่ใจว่าในการกระจายปริมาณใหม่ไม่ปรากฏโหมดใด ๆ หรือค่ามัธยฐานหรือขนาดกลางออกจากช่วงเวลาที่คุณกำลังทำงาน นอกจากนี้คุณหลีกเลี่ยงผลกระทบของกรีนแลนด์แอฟริกา

การเปลี่ยนแปลงนั้นง่ายมากหากคุณมีรูปร่างปกติเช่นทรงกลมหรือปริซึม คุณควรเพิ่มสามหน่วยลงในพารามิเตอร์ alpha ของการแจกแจงหมายเลขเบต้าและรับการแจกแจงปริมาณ


1
ยินดีต้อนรับสู่เว็บไซต์ นี่เป็นจุดประสงค์ของคำตอบสำหรับคำถามของ OP หรือไม่? คุณช่วยอธิบายได้ไหมว่าสิ่งนี้เกี่ยวข้องกับสัญชาตญาณเบื้องหลังการแจกแจงเบต้าหรือไม่
gung

โปรดแก้ไขเพื่อชี้แจงสัญชาติญาณเกี่ยวกับการแจกแจงเบต้า
Glen_b

1

ฉันคิดว่าไม่มีการหยั่งรู้หลังการกระจายเบต้า! การกระจายเบต้าเป็นเพียงการกระจายที่ยืดหยุ่นมากพร้อมช่วง FIX! และสำหรับจำนวนเต็ม a และ b มันง่ายที่จะจัดการด้วย นอกจากนี้ยังมีกรณีพิเศษหลายอย่างของเบต้าที่มีความหมายดั้งเดิมเช่นเดียวกับการแจกแจงแบบเดียวกัน ดังนั้นหากข้อมูลจำเป็นต้องมีรูปแบบเช่นนี้หรือมีความยืดหยุ่นเพิ่มขึ้นเล็กน้อยเบต้านั้นเป็นตัวเลือกที่ดีมาก


0

ในอีกคำถามหนึ่งที่เกี่ยวข้องกับการแจกแจงเบต้าจะให้สัญชาตญาณด้านล่างเบต้าต่อไปนี้:

กล่าวอีกนัยหนึ่งการแจกแจงแบบเบต้าสามารถมองได้ว่าเป็นการกระจายตัวของความน่าจะเป็นที่อยู่ตรงกลางของการแจกแจงแบบกระวนกระวายใจ

สำหรับรายละเอียดโปรดชำระเงินคำตอบแบบเต็มได้ที่https://stats.stackexchange.com/a/429754/142758

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.