คำถามติดแท็ก calibration

3
การแสดงภาพการสอบเทียบความน่าจะเป็นที่คาดการณ์ของแบบจำลอง
สมมติว่าฉันมีรูปแบบการทำนายที่สร้างความน่าจะเป็นสำหรับแต่ละคลาส ตอนนี้ฉันรู้แล้วว่ามีหลายวิธีในการประเมินโมเดลดังกล่าวหากฉันต้องการใช้ความน่าจะเป็นเหล่านั้นสำหรับการจัดหมวดหมู่ (ความแม่นยำการเรียกคืนและอื่น ๆ ) ฉันยังจำได้ว่าเส้นโค้ง ROC และพื้นที่ใต้นั้นสามารถใช้เพื่อกำหนดว่าแบบจำลองแตกต่างกันอย่างไรระหว่างคลาส นั่นไม่ใช่สิ่งที่ฉันถาม ฉันสนใจที่จะประเมินการสอบเทียบโมเดล ฉันรู้ว่ากฎการให้คะแนนเช่นคะแนน Brierจะมีประโยชน์สำหรับงานนี้ ไม่เป็นไรและฉันจะรวมบางสิ่งบางอย่างไว้ในบรรทัดเหล่านั้น แต่ฉันไม่แน่ใจว่าการวัดที่ใช้งานง่ายเช่นนี้จะใช้กับบุคคลทั่วไปได้อย่างไร ฉันกำลังมองหาบางสิ่งที่มองเห็นได้ชัดเจนขึ้น ฉันต้องการให้บุคคลตีความผลลัพธ์เพื่อให้สามารถเห็นว่าแบบจำลองทำนายบางสิ่งบางอย่าง 70% มีแนวโน้มที่จะเกิดขึ้นจริงหรือไม่ว่าจะเกิดขึ้นจริง ~ 70% ของเวลาเป็นต้น ฉันได้ยินเรื่องแผนการ QQ (แต่ไม่เคยใช้) และในตอนแรกฉันคิดว่านี่คือสิ่งที่ฉันกำลังมองหา แต่ก็ดูเหมือนว่ามีความหมายจริงๆสำหรับการเปรียบเทียบสองการแจกแจงความน่าจะเป็น นั่นไม่ใช่สิ่งที่ฉันมี ฉันมีความน่าจะเป็นที่คาดการณ์ของฉันจากหลาย ๆ กรณีและไม่ว่าจะเกิดขึ้นจริงหรือไม่: Index P(Heads) Actual Result 1 .4 Heads 2 .3 Tails 3 .7 Heads 4 .65 Tails ... ... ... พล็อต …

2
เหตุใดจึงต้องใช้มาตราส่วนของแพลต
เพื่อการปรับระดับความเชื่อมั่นความน่าจะเป็นในการเรียนรู้ภายใต้การดูแล (พูดกับแผนที่ความเชื่อมั่นจากนัก SVM หรือต้นไม้ตัดสินใจโดยใช้ข้อมูล oversampled) วิธีหนึ่งคือการใช้แพลตขูดหินปูน (เช่นได้รับการสอบเทียบความน่าจะเป็นจากการส่งเสริม ) โดยทั่วไปจะใช้การถดถอยโลจิสติกเพื่อทำแผนที่ถึง[ 0 ; 1 ] ตัวแปรตามคือป้ายจริงและตัวทำนายคือความมั่นใจจากแบบจำลองที่ไม่ผ่านการปรับเทียบ สิ่งที่ฉันไม่เข้าใจคือการใช้ตัวแปรเป้าหมายอื่นที่ไม่ใช่ 1 หรือ 0 วิธีการนี้เรียกร้องให้สร้าง "label" ใหม่:[ - ∞ ; ∞ ][-∞;∞][-\infty;\infty][ 0 ; 1 ][0;1][0;1] เพื่อหลีกเลี่ยงการ overfitting ไปยังชุดรถไฟ sigmoid จะใช้โมเดลตัวอย่างนอก หากมีตัวอย่างบวกและN -ตัวอย่างเชิงลบในชุดรถไฟสำหรับตัวอย่างการฝึกอบรมแต่ละการสอบเทียบแพลตใช้ค่าเป้าหมายy +และy - (แทน 1 และ 0 ตามลำดับ) โดยที่ y + = N + …

2
Scikit วิธีที่ถูกต้องในการปรับเทียบตัวแยกประเภทด้วย CalibratedClassifierCV
Scikit มีCalibratedClassifierCVซึ่งช่วยให้เราสามารถสอบเทียบโมเดลของเราในคู่ X, y ที่เฉพาะเจาะจง มันยังระบุไว้อย่างชัดเจนว่าdata for fitting the classifier and for calibrating it must be disjoint. หากพวกเขาจะต้องแยกจากกันมันถูกต้องหรือไม่ที่จะฝึกตัวจําแนก model = CalibratedClassifierCV(my_classifier) model.fit(X_train, y_train) ฉันกลัวว่าด้วยการใช้ชุดฝึกอบรมชุดเดียวกันฉันกำลังฝ่าฝืนdisjoint dataกฎ ทางเลือกอื่นอาจมีชุดการตรวจสอบความถูกต้อง my_classifier.fit(X_train, y_train) model = CalibratedClassifierCV(my_classifier, cv='prefit') model.fit(X_valid, y_valid) ซึ่งมีข้อเสียคือการทิ้งข้อมูลไว้เพื่อการฝึกอบรมน้อยลง นอกจากนี้หากCalibratedClassifierCVควรพอดีกับรุ่นที่พอดีกับชุดการฝึกอบรมที่แตกต่างกันเหตุใดจึงเป็นตัวเลือกเริ่มต้นcv=3ซึ่งจะพอดีกับตัวประมาณการพื้นฐาน การตรวจสอบความถูกต้องไขว้จัดการกฎความไม่ลงรอยกันด้วยตัวเองหรือไม่? คำถาม: วิธีที่ถูกต้องในการใช้ CalibratedClassifierCV คืออะไร?

1
การรวมพล็อตการสอบเทียบหลังจากการใส่หลายครั้ง
ฉันต้องการคำแนะนำในการรวมพล็อตการแปลง / สถิติหลังจากการใส่ร้ายหลายครั้ง ในการตั้งค่าการพัฒนาแบบจำลองทางสถิติเพื่อทำนายเหตุการณ์ในอนาคต (เช่นการใช้ข้อมูลจากบันทึกของโรงพยาบาลเพื่อทำนายการรอดชีวิตของผู้ป่วยหลังออกจากโรงพยาบาลหรือเหตุการณ์) เราสามารถจินตนาการได้ว่ามีข้อมูลที่ขาดหายไปมากมาย การใส่ข้อมูลหลายครั้งเป็นวิธีหนึ่งในการจัดการสถานการณ์ดังกล่าว แต่ส่งผลให้จำเป็นต้องรวมสถิติการทดสอบจากชุดข้อมูลการใส่ข้อมูลแต่ละชุดโดยคำนึงถึงความแปรปรวนเพิ่มเติมเนื่องจากความไม่แน่นอนของการใส่ความ ฉันเข้าใจว่ามีสถิติการสอบเทียบหลายอย่าง (hosmer-lemeshow, Emax ของ Harrell, ดัชนีการสอบเทียบโดยประมาณ ฯลฯ ) ซึ่งอาจใช้กฎรูบิน 'ปกติ' สำหรับการรวมกำไร อย่างไรก็ตามสถิติเหล่านี้มักจะเป็นมาตรการโดยรวมของการสอบเทียบซึ่งไม่แสดงขอบเขตที่พลาดการสอบเทียบที่เฉพาะเจาะจงของโมเดล ด้วยเหตุนี้ฉันควรดูที่แผนการปรับเทียบ น่าเสียดายที่ฉันไม่รู้วิธีการ 'รวม' แปลงหรือข้อมูลเบื้องหลัง (คาดการณ์ความน่าจะเป็นต่อบุคคลและผลลัพธ์ที่สังเกตได้ต่อบุคคล) และไม่สามารถหาได้มากในวรรณคดีชีวการแพทย์ (สาขาที่ฉันคุ้นเคย) หรือที่นี่ใน CrossValidated แน่นอนว่าการดูชุดข้อมูลการสอบเทียบของชุดข้อมูลแต่ละชุดอาจเป็นคำตอบ แต่อาจกลายเป็นเรื่องที่น่ารำคาญมาก (จนถึงปัจจุบัน) เมื่อสร้างชุดการใส่จำนวนมาก ฉันอยากถามว่ามีเทคนิคใดบ้างที่จะส่งผลให้เกิดแผนการปรับเทียบหรือไม่หลังจากรวมหลายครั้ง (?)

2
วิธีการเลือกความกว้างถังที่ดีที่สุดในขณะที่การสอบเทียบโมเดลความน่าจะเป็นเป็นอย่างไร
ความเป็นมา:มีคำถาม / คำตอบที่ดีเกี่ยวกับวิธีการปรับเทียบแบบจำลองซึ่งทำนายความน่าจะเป็นของผลลัพธ์ที่เกิดขึ้น ตัวอย่างเช่น คะแนนหนาม , และการสลายตัวของมันเข้าไปในความละเอียดของความไม่แน่นอนและความน่าเชื่อถือ แผนการสอบเทียบและการถดถอยแบบไอโซโทนิก วิธีการเหล่านี้มักจะต้องใช้วิธีการ binning กับความน่าจะเป็นที่คาดการณ์ดังนั้นพฤติกรรมของผลลัพธ์ (0, 1) จะถูกทำให้ราบเรียบเหนือถังขยะโดยรับผลลัพธ์ที่เป็นค่าเฉลี่ย ปัญหา: อย่างไรก็ตามฉันไม่พบสิ่งใดที่แนะนำให้ฉันทราบเกี่ยวกับวิธีเลือกความกว้างของถังขยะ คำถาม:ฉันจะเลือกความกว้างของถังที่เหมาะสมได้อย่างไร ความพยายาม:มีความกว้างถังขยะทั่วไปสองแห่งที่ใช้งานอยู่: ความกว้างเท่ากัน binning เช่น 10 bins ละครอบคลุม 10% ของช่วงเวลา [0, 1] วิธี Binning ของ Tukey กล่าวถึงที่นี่ แต่ตัวเลือกเหล่านี้ของถังขยะจะเหมาะสมที่สุดหากมีใครสนใจที่จะค้นหาช่วงเวลาในความน่าจะเป็นที่คาดการณ์ซึ่งคาดการณ์ผิดมากที่สุด?

3
ฉันจะเลือกเมตริกที่ดีที่สุดในการวัดการสอบเทียบได้อย่างไร
ฉันเขียนโปรแกรมและทำการพัฒนาโดยอาศัยการทดสอบ หลังจากที่ฉันทำการเปลี่ยนแปลงรหัสของฉันฉันเรียกใช้การทดสอบของฉัน บางครั้งพวกเขาประสบความสำเร็จและบางครั้งพวกเขาก็ล้มเหลว ก่อนที่ฉันจะทำการทดสอบฉันจะเขียนตัวเลขจาก 0.01 ถึง 0.99 เพื่อให้แน่ใจว่าการทดสอบจะสำเร็จ ฉันต้องการทราบว่าฉันปรับปรุงในการทำนายว่าการทดสอบของฉันจะสำเร็จหรือล้มเหลว มันจะดีถ้าฉันสามารถติดตามว่าฉันดีกว่าที่ทำนายว่าการทดสอบจะประสบความสำเร็จในวันจันทร์หรือวันศุกร์ หากความสามารถในการทำนายความสำเร็จในการทดสอบมีความสัมพันธ์กับตัวชี้วัดอื่นที่ฉันติดตามฉันต้องการทราบ นั่นทำให้ฉันมีหน้าที่เลือกเมตริกที่ถูกต้อง ใน Superforcasting Philip Tetlock เสนอให้ใช้คะแนน Brierในการวัดว่าผู้เชี่ยวชาญสอบเทียบได้ดีเพียงใด ตัวชี้วัดที่ได้รับการเสนอชื่อในวรรณคดีก็คือกฎการให้คะแนนลอการิทึม นอกจากนี้ยังมีผู้สมัครอื่น ๆ ฉันจะตัดสินใจได้อย่างไรว่าจะใช้เมตริกใด มีการโต้เถียงกันหรือไม่ที่จะสนับสนุนกฎการให้คะแนนหนึ่งกฎเหนือกฎอื่น ๆ ?

2
เหตุใดการถดถอยของโลจิสติกจึงถูกสอบเทียบอย่างดีและจะทำลายการสอบเทียบได้อย่างไร
ใน Scikit เรียนรู้เอกสารเกี่ยวกับการสอบเทียบความน่าจะเป็นพวกเขาเปรียบเทียบการถดถอยโลจิสติกกับวิธีการอื่นและสังเกตว่าป่าสุ่มมีการสอบเทียบน้อยกว่าการถดถอยโลจิสติก เหตุใดการปรับเทียบการถดถอยโลจิสติกจึงดี หนึ่งจะทำลายการสอบเทียบของการถดถอยโลจิสติกได้อย่างไร (ไม่ใช่ว่าจะต้องการ - เหมือนการออกกำลังกาย)
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.