รวมลักษณนามโดยการพลิกเหรียญ

ฉันกำลังศึกษาหลักสูตรการเรียนรู้ของเครื่องและสไลด์บรรยายมีข้อมูลที่ฉันพบว่าขัดแย้งกับหนังสือที่แนะนำ

ปัญหาดังต่อไปนี้: มีตัวแยกประเภทสามตัว:

ลักษณนาม Aให้ประสิทธิภาพที่ดีขึ้นในช่วงล่างของขีด จำกัด
ลักษณนามขให้ประสิทธิภาพที่ดีขึ้นในช่วงที่สูงขึ้นของเกณฑ์
ลักษณนาม Cสิ่งที่เราได้รับโดยการโยนเหรียญและเลือกจากตัวแยกประเภทสองตัว

ประสิทธิภาพของลักษณนาม C คืออะไรเมื่อดูบนเส้นโค้ง ROC

สไลด์บรรยายระบุว่าเพียงแค่พลิกเหรียญนี้เราจะได้รับ " เรือนูน " ที่มีมนต์ขลังของตัวแยกประเภท A และ B ของเส้นโค้ง ROC

ฉันไม่เข้าใจประเด็นนี้ เพียงแค่โยนเหรียญเราจะได้รับข้อมูลได้อย่างไร

สไลด์บรรยาย

สไลด์บรรยาย

หนังสือเล่มนี้พูดอะไร

หนังสือที่แนะนำ ( Data Mining ... โดย Ian H. Witten, Eibe Frank และ Mark A. Hall ) ในทางกลับกันระบุว่า:

หากต้องการดูสิ่งนี้ให้เลือกความน่าจะเป็นที่เฉพาะเจาะจงสำหรับวิธี A ที่ให้อัตราบวกจริงและเท็จของ tA และ fA ตามลำดับและอีกทางลัดสำหรับวิธี B ที่ให้ tB และ fB หากคุณใช้สองรูปแบบเหล่านี้โดยการสุ่มด้วยความน่าจะเป็น p และ q โดยที่ p + q = 1 คุณจะได้รับอัตราการบวก p จริงและเท็จ tA + q tB และ p fA + q FB. สิ่งนี้แสดงถึงจุดที่อยู่บนเส้นตรงที่รวมจุด (tA, fA) และ (tB, fB) และด้วยการเปลี่ยนแปลง p และ q คุณสามารถติดตามทั้งเส้นระหว่างจุดสองจุดนี้

ในความเข้าใจของฉันสิ่งที่หนังสือกล่าวคือการได้รับข้อมูลจริงและไปถึงเปลือกนูนที่เราต้องทำบางสิ่งที่ก้าวหน้ากว่าเพียงแค่โยนเหรียญ

AFAIK วิธีที่ถูกต้อง (ตามที่แนะนำโดยหนังสือ) มีดังต่อไปนี้:

เราควรหาเกณฑ์ที่เหมาะสมสำหรับ Oa สำหรับตัวจําแนก A
เราควรหาเกณฑ์ที่เหมาะสม Ob สำหรับตัวจําแนก B
กำหนด C ดังต่อไปนี้:
- ถ้า t <Oa ให้ใช้ตัวจําแนก A กับ t
- ถ้า t> Ob ให้ใช้ตัวจําแนก B กับ t
- ถ้า Oa <t <Ob เลือกระหว่างลักษณนาม A กับ Oa และ B กับ Ob โดยความน่าจะเป็นเป็นการรวมกันเชิงเส้นของตำแหน่งที่เราอยู่ระหว่าง Oa และ Ob

ถูกต้องหรือไม่ ถ้าใช่มีความแตกต่างที่สำคัญเล็กน้อยเมื่อเทียบกับสิ่งที่สไลด์แนะนำ

มันไม่ใช่การโยนเหรียญแบบง่ายๆ แต่เป็นอัลกอริธึมขั้นสูงที่ต้องการคะแนนที่กำหนดเองและการเลือกตามพื้นที่ที่เราอยู่
มันไม่เคยใช้ตัวจําแนก A และ B พร้อมค่าเกณฑ์ระหว่าง Oa และ Ob

คุณช่วยอธิบายปัญหานี้ให้ฉันฟังได้อย่างไรและอะไรคือวิธีที่ถูกต้องที่จะเข้าใจหากความเข้าใจของฉันไม่ถูกต้อง

จะเกิดอะไรขึ้นถ้าเราเพียงแค่พลิกเหรียญแบบที่สไลด์แนะนำ? ฉันคิดว่าเราจะได้เส้นโค้ง ROC ที่อยู่ระหว่าง A และ B แต่จะไม่ดีกว่าจุดที่กำหนด

เท่าที่ฉันเห็นฉันไม่เข้าใจจริงๆว่าสไลด์นั้นถูกต้องได้อย่างไร การคำนวณความน่าจะเป็นที่ด้านซ้ายมือไม่สมเหตุสมผลสำหรับฉัน

อัปเดต: พบบทความที่เขียนโดยผู้เขียนต้นฉบับที่คิดค้นวิธีการนูนเรือ: http://www.bmva.org/bmvc/1998/pdf/p082.pdf

— hyperknot
แหล่งที่มา

จากการอ่านสไลด์ที่คุณโพสต์และข้อความที่ตัดตอนมาจากฉันพวกเขาดูเหมือนจะอธิบายสิ่งเดียวกันและสไลด์นั้นไม่ได้มีข้อผิดพลาด

— พระคาร์ดินัล

โปรดทราบว่ามันไม่ยากเกินไปที่จะสร้างแบบจำลองเพื่อโน้มน้าวตัวเองถึงความจริงที่ระบุไว้ในสไลด์ ความยากลำบากเพียงอย่างเดียวที่คุณอาจทำได้คือการสร้างเส้นโค้ง ROC สองเส้นที่มีลักษณะเช่นนั้น แต่สามารถจัดการได้พูดโดยใช้แบบจำลองการผสมผสานแบบเกาส์เซียนเพื่อสร้างการสังเกตและกฎการตัดสินใจที่ไม่ดี

— พระคาร์ดินัล

คำตอบ:

(แก้ไข)

สไลด์บรรยายถูกต้อง

วิธี A มี "จุดที่ดีที่สุด" ที่ให้อัตราบวกจริงและเท็จของ (TPA, FPA ในกราฟ) ตามลำดับ จุดนี้จะสอดคล้องกับขีด จำกัด หรือมากกว่าโดยทั่วไป [*] ขอบเขตการตัดสินใจที่ดีที่สุดสำหรับ A. ทุกอย่างก็เหมือนกันสำหรับ B. (แต่เกณฑ์และขอบเขตไม่เกี่ยวข้องกัน)

จะเห็นว่าลักษณนาม A ทำงานได้ดีภายใต้การตั้งค่า "ลดผลบวกปลอม" (กลยุทธ์อนุรักษ์นิยม) และลักษณนาม B เมื่อเราต้องการ "เพิ่มผลบวกจริง" (กลยุทธ์กระตือรือร้น)

คำตอบสำหรับคำถามแรกของคุณนั้นก็ใช่แล้วยกเว้นความน่าจะเป็นของเหรียญนั้น คนสุดท้าย clasiffier:

~~$x$ $x$ $p$~~

(แก้ไข: จริง ๆ แล้วการบรรยายนั้นถูกต้องสมบูรณ์เราสามารถพลิกเหรียญได้ในทุกกรณีดูไดอะแกรม)

$p$

[*] คุณควรจะเป็นคนทั่วไปที่นี่: ถ้าคุณคิดในแง่ของเกณฑ์สเกลาร์เดี่ยวทั้งหมดนี้ทำให้เกิดความรู้สึกเล็กน้อย คุณลักษณะหนึ่งมิติที่มีตัวจําแนกตามเกณฑ์ไม่ได้ให้ระดับความอิสระเพียงพอที่คุณจะมีตัวจําแนกที่แตกต่างกันเป็น A และ B ซึ่งทํางานตามแนวโค้งที่แตกต่างกันเมื่อผู้แยกอิสระ กล่าวอีกนัยหนึ่ง: A และ B เรียกว่า "methods" หรือ "systems" ไม่ใช่ "classifiers"; เพราะ A เป็นครอบครัวของตัวแยกประเภททั้งหมดพารามิเตอร์ที่กำหนด (สเกลาร์) ที่กำหนดขอบเขตการตัดสินใจไม่ใช่แค่สเกลาร์]

ฉันเพิ่มไดอะแกรมเพื่อทำให้ชัดเจนยิ่งขึ้น:

ป้อนคำอธิบายรูปภาพที่นี่

$t$ $t$ $t$ $t_A=2$ $t$ $t_B=4$

ในสถานการณ์สมมตินี้เราสามารถพูดได้ว่าเส้นสีส้มที่เต็มไปนั้นคือ "ตัวจําแนก A ที่ดีที่สุด" (ภายในตระกูล) และเหมือนกันสําหรับ B แต่ไม่มีใครบอกได้ว่าเส้นสีส้มดีกว่าเส้นสีฟ้าหรือไม่: ดีกว่าเมื่อเรากำหนดค่าใช้จ่ายสูงให้กับผลบวกที่เป็นเท็จอีกทางหนึ่งเมื่อค่าลบที่เป็นเท็จนั้นมีราคาแพงกว่ามาก

ป้อนคำอธิบายรูปภาพที่นี่

ตอนนี้อาจเกิดขึ้นได้ว่าตัวแยกประเภทสองตัวนี้สุดขั้วเกินไปสำหรับความต้องการของเราเราต้องการให้ข้อผิดพลาดทั้งสองประเภทมีน้ำหนักใกล้เคียงกัน เราต้องการแทนที่จะใช้ลักษณนาม A (จุดสีส้ม) หรือ B (จุดสีฟ้า) เพื่อให้ได้ประสิทธิภาพที่อยู่ระหว่างกัน อย่างที่หลักสูตรบอกว่าเราสามารถบรรลุผลลัพธ์นั้นได้เพียงแค่โยนเหรียญและเลือกตัวแยกประเภทแบบสุ่มอย่างใดอย่างหนึ่ง

เพียงแค่โยนเหรียญเราจะได้รับข้อมูลได้อย่างไร

เราไม่ได้รับข้อมูล ลักษณนามแบบสุ่มใหม่ของเราไม่เพียง "ดีกว่า" กว่า A หรือ B เท่านั้นประสิทธิภาพของมันคือค่าเฉลี่ยของ A และ B ซึ่งเกี่ยวข้องกับต้นทุนที่กำหนดให้กับข้อผิดพลาดแต่ละประเภท อาจเป็นประโยชน์กับเราหรือไม่ขึ้นอยู่กับต้นทุนของเรา

AFAIK วิธีที่ถูกต้อง (ตามที่หนังสือแนะนำ) มีดังต่อไปนี้ ... ถูกต้องไหม?

$p$

— leonbloy
แหล่งที่มา

@ leonboy ฉันเชื่อว่า x เป็นเกณฑ์และสำหรับค่าต่ำของตัวแยกประเภท x A ทำงานได้ดีที่สุด สำหรับค่าที่สูงของ x ตัวแยกประเภท B จะทำงานได้ดีที่สุด โดยที่ดีที่สุดฉันหมายถึงสำหรับอัตราบวกปลอมที่กำหนดอัตราบวกที่แท้จริงคือสูงสุด หากเรารู้ว่า A ทำงานได้ดีที่สุดจนถึงจุดที่พวกเขาข้ามและ B สำหรับจุดเริ่มต้นทั้งหมดที่อัลกอริทึมใด ๆ ที่ให้น้ำหนักน้อยกว่า 1 ถึง A ในพื้นที่ระหว่าง FPa และ FPb โดยที่ A มี TP สูงกว่าไม่สามารถทำได้ เช่นเดียวกับ A. ดังนั้นอัลกอริธึม C ต้องต่ำกว่า A ในภูมิภาคนั้น

— Michael R. Chernick

ในทำนองเดียวกันในพื้นที่ระหว่าง FPa และ FPb โดยที่ TP สูงกว่าสำหรับ B ที่ไม่มีอัลกอริทึมที่มี p มากกว่า 0 จะทำงานได้ดีกว่า B สูตรสำหรับ TPc นั้นถูกต้อง แต่ค่าเฉลี่ยถ่วงน้ำหนักคงที่ระหว่าง TPb และ TPa ไม่สามารถใหญ่กว่า TPa ได้มากกว่า และ TPb มันต้องตกอยู่ระหว่างพวกเขา แต่แผนภาพจะแสดง TPc เหนือ TPa และ TPb ทั่วทั้งภูมิภาคจาก FPa และ FPb คุณเห็นอะไรบางอย่างที่นี่ที่เราหายไปหรือไม่ ฉันไม่พบคำตอบของคุณ

— Michael R. Chernick

โอเคหลอดไฟดับแล้ว! X เป็นเวกเตอร์ในใจของคุณมากกว่าเกลาสเกลาร์ มันเปลี่ยนแปลงอะไรจริงๆเหรอ? FP aixs เป็นความน่าจะเป็นแบบสเกลาร์ จุดผ่านของฉันคือจุด FP ของความเท่าเทียมกันสำหรับ A และ B อาจมีเวกเตอร์จำนวนมาก X ที่นำไปสู่ ฉันแค่พูดว่า ณ จุดใด ๆ ตามแกน FP ระหว่าง FPa และ FPb TPc = p TPa + (1-p) TPb เส้นในพล็อตอยู่ในระนาบ TP vs FP เส้นนั้นผ่านจุดที่อยู่เหนือเส้นโค้งสำหรับทั้ง A และ B อย่างไรเมื่อ OP ถาม (ฉันคิดว่าถูกต้อง)

— Michael R. Chernick

@Michael: ฉันคิดว่า A และ B เป็นวิธีการที่แตกต่างกันที่ให้การตัดสินใจขอบเขตที่แตกต่างกัน แต่ละคนมีพารามิเตอร์ที่ปรับได้ (สิ่งที่อยู่ใน 1D เป็นเกณฑ์) พารามิเตอร์มีความเป็นอิสระและให้ (สำหรับแต่ละ) ตระกูลของตัวแยกประเภท ฉันจะพยายามพล็อตแผนภาพเพื่อพยายามที่จะอธิบายให้ยึดมั่น

— leonbloy

ฉันให้เลโอบ็อกซ์ upvote สำหรับคำอธิบายที่สวย แต่ฉันชอบความคิดเห็นสุดท้ายของพระคาร์ดินัลเพราะข้อโต้แย้งนี้ชัดเจนสำหรับฉันและเห็นด้วยกับความคิดล่าสุดของฉัน @leobloy สิ่งหนึ่งที่ขาดหายไปจากไดอะแกรมของคุณคือพล็อตของคะแนนสำหรับกฎแบบสุ่มที่เต้นทั้งสองรายการ ฉันเดาว่าคุณสามารถอธิบายกฎใหม่ว่าเป็นข้อผิดพลาดสองข้อที่แตกต่างกัน แต่ไม่จำเป็นและฉันคิดว่าสับสนน้อยกว่าถ้าคุณออกจากการโต้แย้ง

— Michael R. Chernick

ฉันเห็นด้วยกับเหตุผลของคุณ หากคุณใช้ตัวจําแนกโดยการพลิกเหรียญเพื่อเลือกเมื่อคุณอยู่ระหว่างจุด A และ B จุดของคุณบนเส้นโค้งจะอยู่ด้านล่างตัวจําแนกที่ดีกว่าและอยู่เหนือตัวจําแนกที่ดีกว่า ต้องมีบางอย่างผิดปกติกับไดอะแกรม ณ จุดที่เส้นโค้ง 2 ROC ข้ามการสุ่มเลือกอัลกอริธึมจะมีประสิทธิภาพเช่นเดียวกับอัลกอริธึมทั้งสอง มันจะไม่สูงไปกว่าที่ไดอะแกรมแสดงให้เห็น

— Michael R. Chernick
แหล่งที่มา

ฉันเชื่อว่าสไลด์นั้นถูกต้อง หากคุณใช้สองขั้นตอนการตัดสินใจที่แตกต่างกันกับสองเกณฑ์ที่แตกต่างกันและจากนั้นทำการตัดสินใจแบบสุ่มคุณจะได้รับการรวมกันนูนซึ่งจะให้จุดโกหกระหว่างทั้งสอง จุดนี้อาจจะสูงกว่าทั้งสอง ( ! ) ของเส้นโค้งในอัตราเดียวกันบวกเท็จ นี่เป็นเพราะเกณฑ์ที่ใช้สำหรับแต่ละขั้นตอนนั้นแตกต่างกัน ณ จุดนั้น

— พระคาร์ดินัล

ดังนั้น A และ B ในชุดค่าผสมนูนจะแตกต่างจาก A และ B ที่เลือกเป็นรายบุคคลถึงอัตราบวกผิดพลาด ฉันแค่คิดว่าแผนภาพนั้นสับสนเพราะฉันไม่เห็นว่า A และ B ถูกเลือกจากตระกูลของตัวแยกประเภท

— Michael R. Chernick

A

$A$

B

$B$

ฉันเชื่อว่าคำตอบนี้ถูกต้องผนวกเข้ากับความคิดเห็นของคาร์ดินัล! การออกนอกพื้นที่สี่แยกอาจเกิดขึ้น แต่ไม่ใช่วิธีการ ฉันได้พบกระดาษต้นฉบับจากคนที่คิดค้นวิธีนี้และมันอธิบายได้ดีมาก! bmva.org/bmvc/1998/pdf/p082.pdf

— hyperknot

@zsero: ฉันเชื่อว่าแม้ Michael จะยอมรับว่าคำตอบนี้มีพื้นฐานอยู่บนความเข้าใจของแผนภาพในเวลาที่คำตอบถูกโพสต์และการตีความของเขาเปลี่ยนไปเนื่องจากความคิดเห็นและคำตอบอื่น ๆ ปรากฏขึ้น เช่นเดียวกับตัวเลขที่แสดงให้เห็นว่าเราสามารถบรรลุผลได้โดยการสุ่มจุดใด ๆ บนเส้นใด ๆ ระหว่างจุดบนเส้นโค้งแรกและจุดหนึ่งบนวินาทีแม้ว่าอัตราการบวกที่แท้จริงที่เกิดขึ้นจะมีอิทธิพลเหนือเส้นโค้งอีกสองเส้น

— พระคาร์ดินัล