คุณถามเกี่ยวกับสามสิ่ง: (a) วิธีรวมการพยากรณ์หลายอย่างเข้าด้วยกันเพื่อให้ได้การพยากรณ์เดี่ยว (b) ถ้าสามารถใช้วิธีการแบบเบย์ในที่นี่ได้อย่างไรและ (c) วิธีจัดการกับความน่าจะเป็นศูนย์
รวมการคาดการณ์เป็นหลักปฏิบัติทั่วไป หากคุณมีการพยากรณ์หลายครั้งกว่าที่คุณใช้ค่าเฉลี่ยของการคาดการณ์เหล่านั้นการคาดการณ์รวมที่เกิดขึ้นควรจะดีกว่าในแง่ของความแม่นยำกว่าการพยากรณ์แต่ละอย่าง โดยเฉลี่ยพวกเขาที่คุณสามารถใช้ถัวเฉลี่ยถ่วงน้ำหนักที่น้ำหนักจะขึ้นอยู่กับข้อผิดพลาดผกผัน (เช่นความแม่นยำ) หรือเนื้อหาข้อมูล หากคุณมีความรู้เกี่ยวกับความน่าเชื่อถือของแหล่งข้อมูลแต่ละแหล่งคุณสามารถกำหนดน้ำหนักที่เป็นสัดส่วนกับความน่าเชื่อถือของแหล่งที่มาแต่ละแหล่งดังนั้นแหล่งที่เชื่อถือได้มากขึ้นจะมีผลกระทบมากขึ้นต่อการคาดการณ์รวมสุดท้าย ในกรณีของคุณคุณไม่มีความรู้ใด ๆ เกี่ยวกับความน่าเชื่อถือของพวกเขาดังนั้นการพยากรณ์แต่ละครั้งจะมีน้ำหนักเท่ากันดังนั้นคุณจึงสามารถใช้ค่าเฉลี่ยเลขคณิตอย่างง่ายของการพยากรณ์ทั้งสาม
0%×.33+50%×.33+100%×.33=(0%+50%+100%)/3=50%
ตามที่แนะนำในความคิดเห็นโดย@AndyWและ@ArthurB นอกจากนี้ยังมีวิธีการอื่นนอกเหนือจากวิธีถ่วงน้ำหนักง่ายๆ มีวิธีการหลายอย่างที่อธิบายไว้ในวรรณกรรมเกี่ยวกับการคาดคะเนโดยผู้เชี่ยวชาญที่ฉันไม่คุ้นเคยมาก่อนดังนั้นขอบคุณพวก ในการคาดการณ์ของผู้เชี่ยวชาญโดยเฉลี่ยบางครั้งเราต้องการแก้ไขเพราะข้อเท็จจริงที่ว่าผู้เชี่ยวชาญมักจะถอยกลับไปที่ค่าเฉลี่ย (Baron et al, 2013) หรือทำให้การคาดการณ์ของพวกเขารุนแรงขึ้น (Ariely et al, 2000; Erev et al, 1994) เพื่อให้บรรลุถึงสิ่งนี้สามารถใช้การแปลงการพยากรณ์แต่ละเช่นฟังก์ชันlogitpi
logit(pi)=log(pi1−pi)(1)
อัตราต่อรองกับ -th พลังงานa
g(pi)=(pi1−pi)a(2)
โดยที่หรือการเปลี่ยนแปลงรูปแบบทั่วไปเพิ่มเติม0<a<1
t(pi)=paipai+(1−pi)a(3)
โดยที่หากไม่มีการแปลงใด ๆ หากพยากรณ์แต่ละครั้งทำให้สุดขั้วมากขึ้นถ้าคาดการณ์ต่ำลงสุดขีดสิ่งที่แสดงในภาพด้านล่าง (ดู Karmarkar, 1978; Baron et al, 2013 )a=1a>10<a<1
หลังจากการพยากรณ์การเปลี่ยนแปลงดังกล่าวเป็นค่าเฉลี่ย (โดยใช้ค่าเฉลี่ยเลขคณิตค่ามัธยฐานค่าเฉลี่ยถ่วงน้ำหนักหรือวิธีอื่น) หากมีการใช้สมการ (1) หรือ (2) ผลลัพธ์จะต้องมีการแปลงกลับโดยใช้ log log สำหรับ (1) และอัตราต่อรองผกผันสำหรับ (2) หรือสามารถใช้ค่าเฉลี่ยทางเรขาคณิต (ดู Genest และ Zidek, 1986; cf. Dietrich and List, 2014)
p^=∏Ni=1pwii∏Ni=1pwii+∏Ni=1(1−pi)wi(4)
หรือวิธีการที่เสนอโดยSatopää et al (2014)
p^=[∏Ni=1(pi1−pi)wi]a1+[∏Ni=1(pi1−pi)wi]a(5)
ที่มีน้ำหนัก ในกรณีส่วนใหญ่จะใช้น้ำหนักที่เท่ากันยกเว้นว่ามีข้อมูลเบื้องต้นที่แนะนำตัวเลือกอื่นอยู่ วิธีการดังกล่าวใช้ในการพยากรณ์ค่าเฉลี่ยของผู้เชี่ยวชาญเพื่อแก้ไขความไม่มั่นใจหรือต่ำเกินไป ในกรณีอื่น ๆ คุณควรพิจารณาว่าการเปลี่ยนการพยากรณ์เป็นมากกว่าหรือน้อยกว่านั้นเป็นธรรมเพราะมันสามารถทำให้การประเมินโดยรวมลดลงจากขอบเขตที่ทำเครื่องหมายโดยการพยากรณ์ต่ำสุดและสูงสุดwiwi=1/N
ถ้าคุณมีเบื้องต้นความรู้เกี่ยวกับความน่าจะเป็นฝนที่คุณสามารถใช้ Bayes ทฤษฎีบทที่จะปรับปรุงการคาดการณ์ที่กำหนดเบื้องต้นน่าจะเป็นของฝนตกลงมาในลักษณะคล้ายที่อธิบายไว้ในที่นี่ นอกจากนี้ยังมีวิธีการง่ายๆที่สามารถนำมาประยุกต์ใช้คือการคำนวณถัวเฉลี่ยถ่วงน้ำหนักของคุณคาดการณ์ (ตามที่กล่าวไว้ข้างต้น) ซึ่งก่อนน่าจะเป็นจะถือว่าเป็นจุดข้อมูลเพิ่มเติมที่มีน้ำหนัก prespecified บางในขณะนี้ตัวอย่างเช่นไอเอ็ม ( ดูแหล่งที่มาหรือที่นี่และที่นี่เพื่อสนทนา cf. Genest และ Schervish, 1985), เช่นpiπwπ
p^=(∑Ni=1piwi)+πwπ(∑Ni=1wi)+wπ(6)
จากคำถามของคุณ แต่ไม่ได้ติดตามว่าคุณมีความรู้เบื้องต้นเกี่ยวกับปัญหาของคุณดังนั้นคุณอาจใช้ชุดเครื่องแบบก่อนเช่นสมมติว่ามี โอกาสของปริมาณน้ำฝนและสิ่งนี้ไม่ได้เปลี่ยนแปลงมากนักในกรณีของตัวอย่างที่คุณให้ไว้ .50%
สำหรับการจัดการกับศูนย์มีหลายวิธีที่เป็นไปได้ ก่อนอื่นคุณควรสังเกตุว่าโอกาสของฝนนั้นไม่น่าเชื่อถือจริง ๆ เพราะมันบอกว่ามันเป็นไปไม่ได้ที่ฝนจะตก ปัญหาที่คล้ายกันมักเกิดขึ้นในการประมวลผลภาษาธรรมชาติเมื่ออยู่ในข้อมูลของคุณคุณจะไม่สังเกตเห็นค่าบางอย่างที่อาจเกิดขึ้นได้ (เช่นคุณนับความถี่ของตัวอักษรและข้อมูลของคุณตัวอักษรธรรมดาบางตัวไม่เกิดขึ้นเลย) ในกรณีนี้ตัวประมาณความน่าจะเป็นแบบดั้งเดิมคือ0%
pi=ni∑ini
ที่คือจำนวนของการเกิดขึ้นของ TH ค่า (จากหมวดหมู่) จะช่วยให้คุณถ้า0 นี้เรียกว่าปัญหาศูนย์ความถี่ สำหรับค่าดังกล่าวคุณรู้ว่าความน่าจะเป็นไม่ใช่ศูนย์ (มีอยู่จริง!) ดังนั้นการประเมินนี้จึงไม่ถูกต้อง นอกจากนี้ยังมีข้อกังวลในทางปฏิบัติ: การคูณและหารด้วยเลขศูนย์จะนำไปสู่ค่าศูนย์หรือผลลัพธ์ที่ไม่ได้กำหนดดังนั้นค่าศูนย์จึงเป็นปัญหาในการจัดการniidpi=0ni=0
การแก้ไขที่ง่ายและใช้กันทั่วไปคือการเพิ่มค่าคงที่ให้กับจำนวนของคุณดังนั้นβ
pi=ni+β(∑ini)+dβ
ตัวเลือกทั่วไปสำหรับคือคือการใช้เครื่องแบบก่อนหน้านี้โดยยึดตามกฎการสืบทอดอย่างต่อเนื่องของ Laplace ,สำหรับการประมาณการ Krichevsky-Trofimov หรือสำหรับตัวประเมิน Schurmann-Grassberger (1996) อย่างไรก็ตามโปรดสังเกตว่าสิ่งที่คุณทำที่นี่คือคุณใช้ข้อมูลที่ไม่อยู่ในข้อมูล (ก่อนหน้า) ในแบบจำลองของคุณ ด้วยการใช้วิธีการนี้คุณจะต้องจดจำข้อสันนิษฐานที่คุณทำและนำมาพิจารณาด้วย ความจริงที่ว่าเรามีความรู้เบื้องต้นที่แข็งแกร่งว่าไม่ควรมีความน่าจะเป็นศูนย์ใด ๆ ในข้อมูลของเราโดยตรงแสดงให้เห็นถึงวิธีการแบบเบย์ที่นี่โดยตรง ในกรณีของคุณคุณไม่มีความถี่ แต่น่าจะเป็นดังนั้นคุณจะเพิ่มบางอย่าง1 1 / 2 1 / dβ11/21/dค่าที่น้อยมากเพื่อแก้ไขให้เป็นศูนย์ โปรดสังเกตว่าในบางกรณีวิธีการนี้อาจมีผลกระทบที่ไม่ดี (เช่นเมื่อต้องจัดการกับบันทึก ) ดังนั้นจึงควรใช้ด้วยความระมัดระวัง
Schurmann, T. และ P. Grassberger (1996) การประมาณค่าเอนโทรปีของลำดับสัญลักษณ์ ความโกลาหล, 6, 41-427
Ariely, D. , Tung Au, W. , Bender, RH, Budescu, DV, Dietz, CB, Gu, H. , Wallsten, TS และ Zauberman, G. (2000) ผลกระทบของการประมาณค่าความน่าจะเป็นแบบอัตนัยระหว่างและภายในผู้ตัดสิน วารสารจิตวิทยาการทดลอง: ประยุกต์ 6 (2), 130
บารอน, เจ, Mellers, BA, Tetlock, PE, Stone, E. และ Ungar, LH (2014) เหตุผลสองประการที่ทำให้การคาดการณ์ความน่าจะเป็นรวมนั้นรุนแรงมากขึ้น การวิเคราะห์การตัดสินใจ, 11 (2), 133-145
Erev, I. , Wallsten, TS, และ Budescu, DV (1994) พร้อมกันเกินความมั่นใจ: บทบาทของข้อผิดพลาดในกระบวนการตัดสิน รีวิวจิตวิทยา, 101 (3), 519
Karmarkar สหรัฐอเมริกา (1978) ยูทิลิตี้ถ่วงน้ำหนักส่วนตัว: ส่วนขยายเชิงพรรณนาของตัวแบบอรรถประโยชน์ที่คาดหวัง พฤติกรรมองค์การและสมรรถนะของมนุษย์, 21 (1), 61-72
เทอร์เนอร์, BM, Steyvers, M. , Merkle, EC, Budescu, DV และ Wallsten, TS (2014) การรวมการพยากรณ์ผ่านการปรับเทียบใหม่ การเรียนรู้ของเครื่อง, 95 (3), 261-289
Genest, C. , และ Zidek, JV (1986) การรวมการแจกแจงความน่าจะเป็น: บทวิจารณ์และบรรณานุกรมที่มีคำอธิบายประกอบ วิทยาศาสตร์สถิติ, 1 , 114–135
Satopää, VA, Baron, J. , Foster, DP, Mellers, BA, Tetlock, PE และ Ungar, LH (2014) การรวมการทำนายความน่าจะเป็นหลาย ๆ แบบโดยใช้แบบจำลอง logit อย่างง่าย วารสารการพยากรณ์ระหว่างประเทศ, 30 (2), 344-356
Genest, C. และ Schervish, MJ (1985) การสร้างแบบจำลองการตัดสินของผู้เชี่ยวชาญสำหรับการปรับปรุงแบบเบย์ พงศาวดารสถิติ , 1198-1212
Dietrich, F. , และ List, C. (2014) การรวบรวมความคิดเห็นที่น่าจะเป็น (ไม่ได้เผยแพร่)