กำเนิดกับการเลือกปฏิบัติ


153

ฉันรู้ว่ากำเนิดหมายถึง "ตามP(x,y) " และหมายถึงการเลือกปฏิบัติ "ตามP(y|x) ," แต่ฉันสับสนในหลายจุด:

  • Wikipedia (+ เพลงฮิตอื่น ๆ อีกมากมายบนเว็บ) จัดประเภทสิ่งต่าง ๆ เช่น SVMs และแผนผังการตัดสินใจว่าเป็นการเลือกปฏิบัติ แต่สิ่งเหล่านี้ไม่มีการตีความความน่าจะเป็น การเลือกปฏิบัติหมายความว่าอะไรที่นี่ การเลือกปฏิบัติเพียงมาหมายถึงสิ่งที่ไม่ได้กำเนิด?

  • Naive Bayes (NB) มีกำเนิดเนื่องจากจับP(x|y)และP(y)และทำให้คุณมีP(x,y) (เช่นเดียวกับP(y|x) ) มันไม่สำคัญที่จะพูดพูดว่าการถดถอยโลจิสติก (เด็กโปสเตอร์ของแบบจำลองการเลือกปฏิบัติ) "กำเนิด" โดยการคำนวณP(x)ในรูปแบบที่คล้ายกัน (สมมติฐานความเป็นอิสระเดียวกันกับ NB เช่นP(x)=P(x0)P(x1)...P(xd)ที่ไหน MLE สำหรับP(xi)เป็นเพียงความถี่)?

  • ฉันรู้ว่าแบบจำลองที่มีการเลือกปฏิบัตินั้นมีแนวโน้มที่จะดีกว่าตัวแบบกำเนิด การใช้ประโยชน์จากการทำงานกับแบบจำลองทั่วไปได้อย่างไร ความสามารถในการสร้าง / จำลองข้อมูลได้ถูกอ้างถึง แต่เมื่อไหร่จะเกิดขึ้น? โดยส่วนตัวแล้วฉันมีประสบการณ์เกี่ยวกับการถดถอยการจัดประเภทความร่วมมือ การกรองข้อมูลที่มีโครงสร้างดังนั้นการใช้งานที่ไม่เกี่ยวข้องกับฉันที่นี่จะเป็นอย่างไร "การข้อมูลที่หายไป" อาร์กิวเมนต์ ( P(xi|y)ที่หายไปxi ) ดูเหมือนว่าจะเพียง แต่ให้คุณขอบที่มีข้อมูลการฝึกอบรม (เมื่อคุณรู้จริงyและไม่จำเป็นต้องเหยียดหยามกว่าP(y)ที่จะได้รับ ค่อนข้างเป็นใบ้P(xi)ที่คุณจะได้ประมาณโดยตรงอยู่แล้ว) และได้แล้วใส่ร้ายเป็นความยืดหยุ่นมากขึ้น (สามารถทำนายตามไม่เพียง แต่ในyอื่น ๆ แต่xi 's เช่นกัน)

  • คำพูดที่ขัดแย้งกันอย่างสมบูรณ์จาก Wikipedia คืออะไร "แบบจำลองทั่วไปมักจะมีความยืดหยุ่นมากกว่าแบบจำลองแบบจำแนกในการแสดงการพึ่งพาในงานการเรียนรู้ที่ซับซ้อน" เทียบกับ "แบบจำลองแบบแยกส่วนโดยทั่วไปสามารถแสดงความสัมพันธ์ที่ซับซ้อนมากขึ้นระหว่างตัวแปรสังเกตและเป้าหมาย"

คำถามที่เกี่ยวข้องที่ทำให้ฉันคิดเกี่ยวกับเรื่องนี้


5
(+1) ฉันคิดว่าคำศัพท์มีความสับสนและฉันคิดว่าแบบจำลองของว่าเป็นกำเนิดสำหรับการแจกแจงแบบมีเงื่อนไขในทางตรงกันข้ามกับ SVM กล่าวว่ามีเพียงรูปแบบลักษณะของการแจกแจงแบบมีเงื่อนไขนี้เท่านั้น วัตถุประสงค์. ในฐานะที่เป็นสัญลักษณ์แสดงหัวข้อย่อยที่สองของคุณแสดงให้เห็นถึงรูปแบบของP ( y | x )สามารถกลายเป็นรูปแบบการกำเนิดอย่างเต็มที่ ความแตกต่างมีความเกี่ยวข้องจากมุมมองการเรียนรู้เพราะเราสามารถจำลองP ( x , y )และคำนวณP ( y | x )หรือเราสามารถจำลองP(y|x)P(y|x)P(x,y)P(y|x) ) P(y|x)
NRH

2
ฉันไม่คิดว่าคำสั่งของคุณเกี่ยวกับ SVM นั้นเป็นจริง: "แต่สิ่งเหล่านี้ไม่มีการตีความที่น่าจะเป็น" สิ่งใดที่มีฟังก์ชั่นการสูญเสียสามารถตีความได้อย่างชัดเจนในแง่ความน่าจะเป็นโดยการค้นหาการกำหนดค่า MAP ของ PDF ที่เหมาะสม
gmatt

คำตอบ:


135

ความแตกต่างพื้นฐานระหว่างตัวเลือกแบบจำลองและตัวแบบกำเนิดนั้นคือ

  • รุ่นจำแนกเรียนรู้ (แข็งหรืออ่อน) เขตแดนระหว่างเรียน
  • แบบจำลอง Generativeเป็นการกระจายตัวของคลาสแต่ละคลาส

วิธีตอบคำถามโดยตรงของคุณ:

  • SVM และต้นไม้การตัดสินใจเลือกปฏิบัติเพราะพวกเขาเรียนรู้ขอบเขตที่ชัดเจนระหว่างชั้นเรียน SVM เป็นลักษณนามลักษณนามสูงสุดซึ่งหมายความว่ามันจะเรียนรู้ขอบเขตการตัดสินใจที่จะเพิ่มระยะห่างระหว่างตัวอย่างของคลาสทั้งสองให้มากที่สุดโดยกำหนดให้เคอร์เนล ระยะห่างระหว่างตัวอย่างและขอบเขตการตัดสินใจที่เรียนรู้สามารถใช้เพื่อทำให้ SVM เป็นลักษณนาม "อ่อน" DTs เรียนรู้ขอบเขตการตัดสินใจด้วยการแบ่งพื้นที่แบบวนซ้ำในลักษณะที่ทำให้ได้รับข้อมูลสูงสุด (หรือเกณฑ์อื่น)

  • มันเป็นไปได้ที่จะสร้างรูปแบบของการถดถอยแบบโลจิสติกในลักษณะนี้ โปรดทราบว่าคุณไม่ได้ใช้รูปแบบกำเนิดเต็มรูปแบบในการตัดสินใจจัดหมวดหมู่

  • มีข้อดีหลายแบบที่อาจเสนอรุ่นทั้งนี้ขึ้นอยู่กับแอปพลิเคชัน สมมติว่าคุณกำลังติดต่อกับการแจกแจงที่ไม่อยู่กับที่ซึ่งข้อมูลการทดสอบออนไลน์อาจถูกสร้างขึ้นโดยการแจกแจงพื้นฐานที่แตกต่างจากข้อมูลการฝึกอบรม โดยทั่วไปแล้วมันจะตรงไปตรงมามากขึ้นในการตรวจจับการเปลี่ยนแปลงการกระจายและการปรับปรุงรูปแบบการกำเนิดตามลำดับมากกว่าสำหรับขอบเขตการตัดสินใจใน SVM โดยเฉพาะอย่างยิ่งถ้าการปรับปรุงออนไลน์จำเป็นต้องถูกยกเลิกการสำรอง แบบจาลองการจาลองยังไม่ท สิ่งที่ดีที่สุดสำหรับแอปพลิเคชันเฉพาะควรได้รับการประเมินตามแอปพลิเคชัน

  • (ใบเสนอราคานี้มีความซับซ้อน แต่นี่คือสิ่งที่ฉันคิดว่ามันพยายามที่จะพูด) รุ่นทั่วไปจะถูกระบุว่าเป็นรูปแบบกราฟิกน่าจะเป็นซึ่งมีการแสดงที่หลากหลายของความสัมพันธ์ที่เป็นอิสระในชุดข้อมูล แบบเลือกปฏิบัติไม่ได้มีการแสดงถึงความสัมพันธ์ที่ชัดเจนระหว่างคุณลักษณะและคลาสในชุดข้อมูล แทนที่จะใช้ทรัพยากรในการสร้างแบบจำลองแต่ละชั้นเรียนอย่างสมบูรณ์พวกเขามุ่งเน้นไปที่การสร้างแบบจำลองขอบเขตอย่างกว้างขวางระหว่างคลาส เมื่อพิจารณาถึงความจุที่เท่ากัน (กล่าวคือบิตในโปรแกรมคอมพิวเตอร์ที่ใช้งานโมเดล) รูปแบบการเลือกปฏิบัติอาจจะให้รูปแบบที่ซับซ้อนกว่าในขอบเขตนี้มากกว่าแบบจำลองเชิงกำเนิด


ความคิดเห็นเล็กน้อย:รอยต่อระหว่างกลุ่มจะยากขึ้นและยากที่จะวางแผน / ทำความเข้าใจ / วัดเมื่อเพิ่มขึ้น ดังนั้นเช่นการทำคลัสเตอร์ k- ซึ่งถูกมองว่าเป็นแบบพินิจพิเคราะห์ (ตัวอย่าง: เปรียบเทียบการเมืองในระบบ 2 พรรคกับ 5 พรรคในเยอรมนี) (k2)kk
เดนิส

63

(คำตอบของ hamner ดีมากดังนั้นเพียงโพสต์ข้ามคำตอบของฉันจาก MetaOptimize เพื่อความสมบูรณ์)

ผมคิดว่าอัลกอริทึมกำเนิดกับการให้บริการรูปแบบของวิธีการที่ข้อมูลจะถูกสร้างขึ้นจริง (ผมคิดว่าพวกเขาทั้งให้คุณแบบของทั้งสองและมากกว่าของ , แม้ว่าฉันเดาว่ามันจะเทียบเท่ากัน) และอัลกอริธึม discriminative เป็นเพียงแค่ให้แยกการจัดหมวดหมู่ (และไม่จำเป็นต้องในลักษณะที่น่าจะเป็น)P(X|Y)P(Y)P(X,Y)

ตัวอย่างเช่นแบบจำลองการผสมแบบเกาส์และการจัดกลุ่ม k-mean ในอดีตเรามีแบบจำลองความน่าจะเป็นที่ดีสำหรับวิธีการสร้างจุด (เลือกส่วนประกอบที่มีความน่าจะเป็นบางส่วนจากนั้นปล่อยจุดโดยการสุ่มตัวอย่างจากการแจกแจงแบบเกาส์ของส่วนประกอบ) แต่ไม่มีอะไรที่เราจะพูดถึงได้

โปรดทราบว่าอัลกอริทึมกำเนิดมีคุณสมบัติการจำแนกเนื่องจากคุณสามารถรับเมื่อคุณมีและ (โดยทฤษฎีบทของเบย์) แม้ว่าอัลกอริทึมการจำแนกไม่ได้มีคุณสมบัติกำเนิดจริงๆP(Y|X)P(X|Y)P(Y)

1:อัลกอริธึม Discriminative ช่วยให้คุณสามารถจำแนกคะแนนได้โดยไม่ต้องให้แบบจำลองว่าจะสร้างคะแนนอย่างไร ดังนั้นสิ่งเหล่านี้อาจเป็นได้ทั้ง:

  • อัลกอริทึมที่น่าจะเป็นพยายามที่จะเรียนรู้ (เช่นการถดถอยโลจิสติก);P(Y|X)
  • หรืออัลกอริธึมที่ไม่น่าจะเป็นไปได้ที่พยายามเรียนรู้การแมปโดยตรงจากคะแนนไปยังคลาส (เช่น perceptron และ SVM เพียงแค่ให้ไฮเปอร์เพลตที่แยกจากกัน แต่ไม่มีโมเดลการสร้างจุดใหม่)

ดังนั้นตัวแยกประเภทที่เลือกปฏิบัติเป็นตัวแยกประเภทที่ไม่ได้เกิดขึ้น

อีกวิธีหนึ่งในการคิดเกี่ยวกับสิ่งนี้คืออัลกอริธึมกำเนิดสร้างสมมติฐานโครงสร้างบางอย่างในแบบจำลองของคุณแต่อัลกอริธึมการเลือกปฏิบัติทำให้สมมติฐานน้อยลง ตัวอย่างเช่น Naive Bayes ถือว่าความเป็นอิสระตามเงื่อนไขของคุณสมบัติของคุณในขณะที่การถดถอยโลจิสติก (การ "เลือก" ของ Naive Bayes) ที่เลือกปฏิบัติไม่ได้

2:ใช่ Naive Bayes เป็นกำเนิดเพราะมันจับและ(Y) ตัวอย่างเช่นหากเรารู้ว่าและพร้อมด้วยความน่าจะเป็นคำภาษาอังกฤษและภาษาฝรั่งเศสตอนนี้เราสามารถสร้างเอกสารใหม่โดยเลือกภาษาของเอกสาร ( ภาษาอังกฤษที่มีความน่าจะเป็น 0.7, ภาษาฝรั่งเศสที่มีความน่าจะเป็น 0.3) จากนั้นสร้างคำตามความน่าจะเป็นคำศัพท์ของภาษาที่เลือกP(X|Y)P(Y)P(Y=English)=0.7P(Y=French)=0.3

ใช่ฉันเดาว่าคุณสามารถสร้างการถดถอยแบบโลจิสติกส์ได้ในแบบนั้น แต่เป็นเพราะคุณกำลังเพิ่มบางอย่างในการถดถอยแบบโลจิสติกส์ที่ยังไม่มีอยู่ นั่นคือเมื่อคุณทำการจำแนก Naive Bayes คุณจะคำนวณโดยตรง(ข้อกำหนดทางด้านขวาและเป็นสิ่งที่อนุญาตให้คุณสร้างเอกสารใหม่); แต่เมื่อคุณคำนวณในการถดถอยโลจิสติกคุณไม่ได้คำนวณสองสิ่งนี้คุณเพียงแค่ใช้ฟังก์ชันโลจิสติกส์กับผลิตภัณฑ์ดอทP(Y|X)P(X|Y)P(Y)P(X|Y)P(Y)P(Y|X)

3:แบบจำลองกำเนิดมักจะมีประสิทธิภาพสูงกว่ารุ่นจำแนกในชุดข้อมูลที่มีขนาดเล็กของพวกเขาเพราะสมมติฐานกำเนิดวางโครงสร้างบางอย่างเกี่ยวกับรูปแบบของคุณที่ป้องกันไม่ให้ overfitting ตัวอย่างเช่นลองพิจารณา Naive Bayes vs. Logistic Regression สมมติฐานของ Naive Bayes นั้นค่อนข้างไม่ค่อยพอใจดังนั้นการถดถอยโลจิสติกส์จึงมีแนวโน้มสูงกว่า Naive Bayes เมื่อชุดข้อมูลของคุณเติบโตขึ้น (เนื่องจากสามารถจับภาพการพึ่งพาที่ Naive Bayes ไม่สามารถทำได้) แต่เมื่อคุณมีชุดข้อมูลขนาดเล็กเท่านั้นการถดถอยแบบโลจิสติกส์อาจเลือกรูปแบบปลอมที่ไม่มีอยู่จริงดังนั้น Naive Bayes จึงทำหน้าที่เหมือนเป็น regularizer ชนิดหนึ่งในแบบจำลองของคุณที่ป้องกันการ overfitting มีบทความโดย Andrew Ng และ Michael Jordan เกี่ยวกับตัวแยกประเภทและการแบ่งแยกแบบแยกส่วนที่พูดถึงสิ่งนี้เพิ่มเติม

4:ฉันคิดว่ามันหมายความว่าแบบจำลอง generative จริงสามารถเรียนรู้โครงสร้างพื้นฐานของข้อมูลถ้าคุณระบุรูปแบบของคุณได้อย่างถูกต้องและรูปแบบที่เก็บจริง แต่แบบจำลอง discriminative สามารถมีประสิทธิภาพสูงกว่าในกรณีที่สมมติฐานของคุณไม่พอใจ น้อยผูกติดอยู่กับโครงสร้างโดยเฉพาะและโลกแห่งความจริงยุ่งเหยิงและสมมติฐานไม่ค่อยพอใจอย่างสมบูรณ์เลย) (ฉันอาจจะไม่สนใจคำพูดเหล่านี้หากพวกเขาสับสน)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.