ตัวจําแนกคลาส 2 ระดับที่ดีที่สุดสำหรับการใช้งานของคุณคืออะไร? [ปิด]


15

กฎ:

  • หนึ่งลักษณนามต่อคำตอบ
  • ลงคะแนนถ้าคุณเห็นด้วย
  • downvote / ลบรายการที่ซ้ำ
  • ใส่ใบสมัครของคุณในความคิดเห็น

คำตอบ:


14

ป่าสุ่ม

  • จับภาพโครงสร้างที่ซับซ้อน / ความสัมพันธ์ไม่เชิงเส้นได้อย่างง่ายดาย
  • ค่าคงที่ของตัวแปร
  • ไม่จำเป็นต้องสร้างตัวแปรจำลองสำหรับตัวทำนายเชิงหมวดหมู่
  • การเลือกตัวแปรไม่จำเป็นมากนัก
  • ค่อนข้างยากที่จะทน

การเลือกบรรทัดฐานแบบแอคทีเมอร์, การพยากรณ์ความชื้นบนพื้นดิน, OCR หลัก, การวิเคราะห์ภาพถ่ายดาวเทียมแบบหลาย

13

การถดถอยโลจิสติก :

  • รวดเร็วและทำงานได้ดีบนชุดข้อมูลส่วนใหญ่
  • แทบไม่มีพารามิเตอร์ในการปรับแต่ง
  • จัดการทั้งคุณสมบัติที่ไม่ต่อเนื่อง / ต่อเนื่อง
  • แบบจำลองสามารถตีความได้ง่าย
  • (ไม่ จำกัด เฉพาะการจำแนกประเภทไบนารี)

อาจไม่มีพารามิเตอร์ในการปรับแต่ง แต่เราต้องทำงานกับตัวแปรต่อเนื่อง (การแปลงเส้นโค้ง ฯลฯ ) เพื่อชักนำให้เกิดความไม่เชิงเส้น
B_Miner

12

รองรับเครื่องเวกเตอร์


ไม่มีอะไรพิเศษจริงๆเกี่ยวกับ SVM นอกจากจะบังคับให้ผู้ใช้คิดเกี่ยวกับการทำให้เป็นมาตรฐาน สำหรับปัญหาในทางปฏิบัติส่วนใหญ่ [เคอร์เนล] การถดถอยแนวสันก็ใช้งานได้เช่นกัน
Dikran Marsupial

2
@dikran ฉันคิดว่า SVM เป็นลักษณนามที่ยอดเยี่ยมเพราะมันเบาบางและทนทานต่อค่าผิดปกติ - นี่ไม่เป็นความจริงสำหรับ Logistic Regression! และนั่นคือเหตุผลที่ SVM เป็นตัวจําแนกที่ทันสมัย ปัญหาเดียวซึ่งอาจเป็นปัญหาคือ - ความซับซ้อนของเวลา - แต่ฉันคิดว่ามันโอเค
suncoolsu

@suncoolsu หากคุณต้องการ sparsity คุณจะได้รับ sparsity มากขึ้นจากการถดถอยโลจิสติกปกติกับ LASSO กว่า SVM Sparsity ของ SVM เป็นผลพลอยได้จากฟังก์ชั่นการสูญเสียดังนั้นคุณจึงไม่ได้รับมากเท่ากับอัลกอริทึมที่ Sparsity เป็นเป้าหมายการออกแบบ บ่อยครั้งที่มีค่าที่ดีที่สุดของพารามิเตอร์ไฮเปอร์ (เช่นเลือกผ่านการตรวจสอบข้าม) ความกระจัดกระจายของ SVM ส่วนใหญ่หายไป SVM ไม่แข็งแกร่งไปกว่าค่าผิดปกติกว่าการถดถอยโลจิสติกปกติซึ่งส่วนใหญ่เป็นมาตรฐานที่สำคัญไม่ใช่การสูญเสียบานพับ
Dikran Marsupial

@Dikran - จุดของฉัน - การลงโทษบางอย่างเป็นสิ่งสำคัญ คุณสามารถรับสิ่งนั้นได้โดยใช้ Priors เพิ่มบทลงโทษ ฯลฯ
suncoolsu

1
@suncoolsu ในกรณีนี้ SVM ไม่ใช่ตัวจําแนกที่ดีเยี่ยมมันเป็นเพียงหนึ่งในตัวจําแนกประเภทที่จําเป็นเช่นการถดถอยของสันเขาการถดถอยโลจิสติกเป็นประจำ ผู้ได้รับประโยชน์หลักของ SVM คือการอุทธรณ์จากทฤษฎีการเรียนรู้คอมพิวเตอร์ ในทางปฏิบัติข้อควรพิจารณาอื่น ๆ มีความสำคัญมากกว่าเช่นคุณต้องการตัวจําแนกแบบน่าจะเป็นหรือไม่ซึ่งฟังก์ชันการสูญเสียอื่น ๆ น่าจะดีกว่า IMHO มีความสนใจมากเกินไปสำหรับ SVM มากกว่าตระกูลของวิธีเคอร์เนลที่กว้างขึ้น
Dikran Marsupial

7

จำแนกอย่างสม่ำเสมอสำหรับปัญหาการควบคุมภายใต้ข้อมูลที่มีเสียงดัง

  1. ประสิทธิภาพเชิงคำนวณ
  2. ทนทานต่อเสียงรบกวนและค่าผิดปกติในข้อมูล
  3. ตัวแยกประเภทแบบเชิงเส้น (LD) และตัวแยกประเภทแบบแยกกำลังสอง (QD) สามารถรับได้จากการใช้งานแบบเดียวกันกับการตั้งค่าพารามิเตอร์การทำให้เป็นมาตรฐาน '[lambda, r]' ถึง '[1 0]' สำหรับตัวจําแนก LD และ '[0 0]' สำหรับ ลักษณนาม QD - มีประโยชน์มากสำหรับการอ้างอิง
  4. รูปแบบง่ายต่อการตีความและส่งออก
  5. ทำงานได้ดีสำหรับชุดข้อมูลที่กระจัดกระจายและ 'กว้าง' ซึ่งเมทริกซ์ความแปรปรวนร่วมคลาสอาจไม่ได้รับการกำหนดอย่างชัดเจน
  6. การประมาณความน่าจะเป็นของคลาสหลังนั้นสามารถประมาณได้สำหรับแต่ละตัวอย่างโดยการใช้ฟังก์ชั่น softmax กับค่าที่จำแนกสำหรับแต่ละคลาส

เชื่อมโยงไปยังต้นฉบับบทความปี 1989 โดยฟรีดแมน, et al นี่ นอกจากนี้ยังมีคำอธิบายที่ดีมากโดย Kuncheva ในหนังสือของเธอ " การรวมตัวแยกประเภทรูปแบบ "


5

ต้นไม้เร่งไล่ระดับสี

  • อย่างน้อยก็แม่นยำเท่ากับ RF ในแอปพลิเคชั่นมากมาย
  • รวมค่าที่หายไปอย่างไร้รอยต่อ
  • ความสำคัญ Var (เช่น RF อาจจะลำเอียงในความโปรดปรานของอย่างต่อเนื่องและหลายระดับเล็กน้อย)
  • แปลงพึ่งพาบางส่วน
  • GBM กับ randomForest ใน R: จัดการชุดข้อมูลที่มีขนาดใหญ่กว่ามาก

4

ลักษณนามกระบวนการเกาส์เซียน - ให้การคาดคะเนความน่าจะเป็น (ซึ่งมีประโยชน์เมื่อความถี่ในการปฏิบัติงานของคุณมีความแตกต่างจากชุดฝึกอบรมของคุณหรือเทียบเท่ากับค่าใช้จ่ายที่เป็นบวก / ลบ / ลบ นอกจากนี้ยังให้การ inidcation ของความไม่แน่นอนในการทำนายแบบเนื่องจากความไม่แน่นอนใน "การประเมินแบบจำลอง" จากชุดข้อมูล จำกัด ฟังก์ชั่นการแปรปรวนร่วมเท่ากับฟังก์ชันเคอร์เนลใน SVM ดังนั้นจึงสามารถทำงานกับข้อมูลที่ไม่ใช่เวกเตอร์โดยตรง (เช่นสตริงหรือกราฟเป็นต้น) เฟรมเวิร์กทางคณิตศาสตร์นั้นก็เรียบร้อย (แต่อย่าใช้การประมาณแบบ Laplace) การเลือกรูปแบบอัตโนมัติผ่านการเพิ่มความน่าจะเป็นที่ขอบ

เป็นหลักรวมคุณสมบัติที่ดีของการถดถอยโลจิสติกและ SVM


มีแพ็คเกจ R ที่คุณแนะนำให้ใช้สิ่งนี้หรือไม่? การใช้งานที่คุณต้องการสำหรับวิธีนี้คืออะไร? ขอบคุณ!
julieth

ฉันกลัวว่าฉันเป็นผู้ใช้ MATLAB (ฉันใช้แพคเกจ GPML gaussianprocess.org/gpml/code/matlab/doc ) ดังนั้นฉันจึงไม่สามารถให้คำแนะนำเกี่ยวกับการใช้งาน R แต่คุณอาจพบสิ่งที่เหมาะสมที่นี่gaussianprocess.org/# รหัส ถ้า R ไม่มีแพ็คเกจที่ดีสำหรับ GPs ใครบางคนจำเป็นต้องเขียนมัน!
Dikran Marsupial

โอเคขอบคุณ. ไม่ methodolgy นี้ให้หนึ่งในการเลือก "ตัวแปรที่สำคัญเช่นในตัวแปรสำคัญของป่าไม้แบบสุ่มหรือกำจัดคุณลักษณะ recursive กับ SVMs?
Julieth

ใช่คุณสามารถใช้ฟังก์ชั่นความแปรปรวนแบบอัตโนมัติ "กำหนดความเกี่ยวข้องอัตโนมัติ" และเลือกพารามิเตอร์ไฮเปอร์โดยการเพิ่มหลักฐานเบย์ในแบบจำลองให้สูงสุด (แม้ว่าสิ่งนี้จะสามารถแก้ไขปัญหาที่ไม่ได้รับการปรับให้เหมาะสมกับ SVMS ได้บ่อยครั้ง แบบจำลองทำงานได้ดีขึ้นโดยไม่ต้องเลือกคุณสมบัติ)
Dikran Marsupial

4

การถดถอยโลจิสติก L1 ที่ทำให้เป็นมาตรฐาน

  • มันคำนวณเร็ว
  • มันมีการตีความที่ใช้งานง่าย
  • มีพารามิเตอร์ไฮเปอร์พารามิเตอร์ที่เข้าใจง่ายเพียงตัวเดียวที่สามารถปรับได้โดยอัตโนมัติโดยการตรวจสอบความถูกต้องข้ามซึ่งมักเป็นวิธีที่ดีในการไป
  • ค่าสัมประสิทธิ์ของมันเป็นเส้นตรงแบบชิ้นเดียวและความสัมพันธ์กับพารามิเตอร์หลายมิตินั้นสามารถมองเห็นได้ทันทีและง่ายดายในพล็อตธรรมดา
  • มันเป็นหนึ่งในวิธีที่น่าสงสัยน้อยกว่าสำหรับการเลือกตัวแปร
  • นอกจากนี้ยังมีชื่อที่เจ๋งจริงๆ

+1 พารามิเตอร์ไฮเปอร์ยังสามารถรวมเอาการวิเคราะห์ได้เช่นกันดังนั้นจึงไม่จำเป็นต้องมีการตรวจสอบความถูกต้องข้ามแอพพลิเคชั่นหลายอย่างเช่นtheoval.cmp.uea.ac.uk/publications/pdf/nips2006a.pdfและชีวสารสนเทศศาสตร์ .oxfordjournals.org
Dikran Marsupial

3

kNN


3

ไร้เดียงสาเบย์และอ่าวไร้เดียงสาสุ่ม


2
คุณสามารถให้คำอธิบายปัญหาที่ RNB ให้ผลลัพธ์ที่ดีได้หรือไม่?
Łukasz Lew

ไม่ ;-) นี่เป็นเพียงการชุบชีวิตสระ

1

K-หมายถึงการจัดกลุ่มสำหรับการเรียนรู้ที่ไม่ได้รับอนุญาต


คำถามนี้ถามตัวจําแนกเป็นพิเศษ
โพร
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.