ถ้าฉันเอาชุดข้อมูลทั้งหมดและหารจำนวนลูกบอลที่ได้ลูกบอลออกมาตามจำนวนลูกบอลที่กลิ้งไปฉันจะเห็นว่าฉันมีความน่าจะเป็นเฉลี่ยที่นักโบว์ลิ่งจะได้ลูกบอลออกมา - จะอยู่ที่ประมาณ 0.03 (หวังว่า ฉันไม่ได้ผิดไปแล้ว?)
น่าเสียดายที่นี่อาจไม่ตรงกับที่คุณต้องการ
สมมติว่าเรามีกะลาเดียวและสอง batsmen: Don Bradmanและฉัน (ฉันรู้น้อยมากเกี่ยวกับคริกเก็ตดังนั้นถ้าฉันกำลังทำอะไรบางอย่างที่นี่แจ้งให้ฉันทราบ) เกมไปบางอย่างเช่น:
- ดอนไปค้างคาวและออกไปบนชามที่ 99
- ฉันไปที่แบ็ตและออกไปทันที
- ดอนไปค้างคาวและออกไปบนชามที่ 99
- ฉันไปที่แบ็ตและออกไปทันที
ในกรณีนี้มีสี่ลึกจาก 200 โบลิ่งดังนั้นความน่าจะเป็นเล็กน้อยของผู้ขว้างลูกออกลูกอยู่ที่ประมาณ 4/200 = 2% แต่ที่จริงแล้วความน่าจะเป็นของดอนอยู่ที่มากกว่า 1% ในขณะที่ของฉันเป็น 100% ดังนั้นถ้าคุณเลือกคนตีลูกและคนขว้างลูกโดยบังเอิญความน่าจะเป็นที่คนขว้างลูกคนนี้รับลูกบอลออกไปในครั้งนี้จะเป็นเหมือนมากขึ้น (โอกาส 50% ที่คุณเลือกดอน) * (โอกาส 1% ที่เขาจะออก) + (โอกาส 50% ที่คุณเลือก ฉัน) * (โอกาสที่ฉันจะออกไป 100%) = 50.05% แต่ถ้าคุณเลือกระดับเสียงโดยการสุ่มมันมีโอกาส 2% ที่มันจะออกมา ดังนั้นคุณต้องคิดให้รอบคอบเกี่ยวกับแบบจำลองตัวอย่างที่คุณกำลังคิด
อย่างไรก็ตามข้อเสนอของคุณไม่ได้บ้า เพิ่มเติมสัญลักษณ์ให้เป็นกะลาและลูก; ให้จะเป็นไปได้ว่าได้รับออก ถ้าอย่างนั้นคุณจะพูดว่า:ขม.ฉ( b , m )ขม.
ฉ( b , m ) =Eม.'[ f( b ,ม.') ]Eข'[ f(ข', m ) ]Eข',ม.'[ f(ข',ม.') ].
สิ่งนี้มีคุณสมบัติที่ต้องการที่:
มันก็คงที่กันถ้าคุณใช้ความหมายมากกว่าหรือเท่านั้น
Eข, ม[ f( b , m ) ] =Eข,ม.'[ f( b ,ม.') ]Eข', ม[ f(ข', m ) ]Eข',ม.'[ f(ข',ม.') ]=Eข, ม[ f( b , m ) ] ;
ขม.
โปรดทราบว่าในกรณีนี้เราสามารถกำหนด
ข้อสันนิษฐานของคุณคือคุณสามารถสังเกตเห็นและได้ดีพอสมควรจากข้อมูล ตราบใดที่ (a) คุณมีเกมมากพอ (ซึ่งคุณเล่น) และ (b) ผู้เล่นทุกคนเล่นซึ่งกันและกันด้วยความถี่ที่คล้ายกันพอสมควร
ค: =Eข, ม[ f( b , m ) ]ก.( b ) : =Eม.[ f( b , m ) ] /ค--√h ( m ) : =Eข[ f( b , m ) ] /ค--√ฉนั้น ( b , m ) = g( b )เอช( ม. )
ก.( b )h ( m )
หากต้องการอธิบายอย่างละเอียดเกี่ยวกับ (b) เล็กน้อย: ลองจินตนาการว่าคุณมีข้อมูลจากเกมระดับมืออาชีพและเกมที่ฉันเล่นกับเพื่อน ๆ หากไม่มีการเหลื่อมกันฉันอาจดูดีมากเมื่อเทียบกับเพื่อนของฉันดังนั้นคุณอาจคิดว่าฉันดีกว่าผู้เล่นมืออาชีพที่แย่ที่สุด เห็นได้ชัดว่าเป็นเท็จ แต่คุณไม่มีข้อมูลที่จะปฏิเสธ หากคุณมีการเหลื่อมกันเล็กน้อยที่ฉันเล่นกับผู้เล่นมืออาชีพหนึ่งครั้งและถูกทำลายข้อมูลก็จะสนับสนุนการจัดอันดับฉันและเพื่อน ๆ ของฉันในทางที่แย่กว่ามืออาชีพ แต่วิธีการของคุณจะไม่คำนึงถึงมัน ในทางเทคนิคปัญหาที่นี่คือคุณกำลังสมมติว่าคุณมีตัวอย่างที่ดีสำหรับแต่การกระจายของคุณมีความลำเอียงEb'[ f(ข', m ) ]ข'
แน่นอนว่าข้อมูลของคุณจะไม่ดูแย่ขนาดนี้ แต่ขึ้นอยู่กับโครงสร้างลีกหรืออะไรก็ตามมันอาจมีองค์ประกอบบางอย่างของปัญหานั้น
คุณสามารถลองใช้วิธีอื่นได้ รูปแบบที่นำเสนอสำหรับเป็นจริงตัวอย่างของรุ่นต่ำยศเมทริกซ์ตัวประกอบที่พบบ่อยในการกรองการทำงานร่วมกันในขณะที่ปัญหา Netflix มีให้คุณเลือกฟังก์ชั่นและจะเป็นมิติ , และเป็นตัวแทนของ(เมตร) คุณสามารถตีความเป็นการทำให้โมเดลของคุณมีความซับซ้อนจากคะแนน "คุณภาพ" เดี่ยวไปจนถึงการมีคะแนนในหลายมิติ: บางทีเลอร์สบางตัวอาจทำได้ดีกว่ากับแบตเมนบางประเภท (สิ่งนี้ทำเช่นสำหรับเกม NBA )ฉก.( b )h ( m )Rฉ( b , m ) = g( b)Th ( m )r > 1
เหตุผลที่พวกเขาเรียกว่าเมทริกซ์การแยกตัวประกอบเป็นเพราะถ้าคุณสร้างเมทริกซ์มีแถวมากเท่าเลอร์สและคอลัมน์มากเท่ากับแบตเมนคุณสามารถเขียนสิ่งนี้ได้F
⎡⎣⎢⎢⎢⎢⎢ฉ(ข1,ม.1)ฉ(ข2,ม.1)⋮ฉ(ขยังไม่มีข้อความ,ม.1)ฉ(ข1,ม.2)ฉ(ข2,ม.2)⋮ฉ(ขยังไม่มีข้อความ,ม.2)......⋱...ฉ(ข1,ม.M)ฉ(ข2,ม.M)⋮ฉ(ขยังไม่มีข้อความ,ม.M)⎤⎦⎥⎥⎥⎥⎥F=⎡⎣⎢⎢ก.(ข1)⋮ก.(ขยังไม่มีข้อความ)⎤⎦⎥⎥G⎡⎣⎢⎢h (ม.1)⋮h (ม.M)⎤⎦⎥⎥THT
ที่ซึ่งคุณได้รับสมการคูณเมทริกซ์เป็นคูณหนึ่งและคูณหนึ่ง .
ยังไม่มีข้อความ× MFยังไม่มีข้อความ× rGM× rH
แน่นอนว่าคุณจะไม่ได้สังเกตโดยตรง รูปแบบปกติคือคุณจะต้องสังเกตการณ์รายการที่มีเสียงดังของโดยการสุ่ม ในกรณีของคุณคุณจะได้รับที่จะสังเกตวาดจากการกระจายทวินามกับจำนวนของการทดลองสุ่มสำหรับรายการของแต่ละFFFF
คุณสามารถสร้างแบบจำลองความน่าจะเป็นเช่น:
Gฉันk∼ N( 0 ,σ2G)Hj k∼ N( 0 ,σ2H)Fฉันเจ=GTผมHJRฉันเจ∼ Bฉันn o มฉันลิตร (nฉันเจ,Fฉันเจ)
ที่และจะสังเกตเห็นและ คุณอาจต้องการใส่ hyperpriors บางกว่า /และทำอนุมานเช่นในสแตน
nฉันเจRฉันเจσGσH
นี่ไม่ใช่รูปแบบที่สมบูรณ์แบบ: สำหรับข้อใดข้อหนึ่งมันไม่สนใจว่ามีความสัมพันธ์กับคะแนน (ดังที่ฉันได้กล่าวถึงในส่วนแรก) และที่สำคัญกว่านั้นมันไม่ได้ จำกัดให้อยู่ใน (คุณอาจใช้ sigmoid โลจิสติกส์หรือคล้ายกันเพื่อให้บรรลุ) บทความที่เกี่ยวข้องกับนักบวชที่ซับซ้อนมากขึ้นสำหรับและ (แต่ที่ไม่ได้ใช้ความน่าจะเป็นทวินาม) คือ: Salakhutdinov และ Mnih, ตัวประกอบเมทริกซ์ความน่าจะเป็นแบบ Bayesian โดยใช้ Markov chain Monte Carlo , ICML 2008 ( PDF ของdoi / ผู้เขียน )nFฉันเจ[ 0 , 1 ]GH