การจำแนกข้อความแบบชั้นเดียวทำอย่างไร?


14

ฉันต้องจัดการกับปัญหาการจำแนกข้อความ โปรแกรมรวบรวมข้อมูลเว็บรวบรวมข้อมูลหน้าเว็บของโดเมนบางโดเมนและสำหรับแต่ละหน้าเว็บฉันต้องการทราบว่าเป็นของชั้นเรียนเฉพาะหรือไม่ นั่นคือถ้าผมเรียกชั้นนี้บวกแต่ละหน้าเว็บรวบรวมข้อมูลเป็นอย่างใดอย่างหนึ่งในชั้นเรียนในเชิงบวกหรือไปเรียนไม่ใช่ในเชิงบวก

ฉันมีการฝึกอบรมชุดใหญ่ของหน้าเว็บสำหรับการเรียนในเชิงบวก แต่จะสร้างชุดการฝึกอบรมสำหรับชั้นเรียนNon-Positiveซึ่งเป็นตัวแทนได้อย่างไร ฉันหมายความว่าฉันสามารถใช้ทุกอย่างโดยพื้นฐานสำหรับชั้นเรียนนั้นได้ ฉันสามารถรวบรวมหน้าเว็บตามอำเภอใจบางอย่างที่ไม่ได้เป็นของPositive Positiveหรือไม่? ฉันแน่ใจว่าประสิทธิภาพของอัลกอริทึมการจัดหมวดหมู่ข้อความ (ฉันต้องการใช้อัลกอริทึม Naive Bayes) ขึ้นอยู่กับว่าฉันเลือกเว็บเพจแบบไหนสำหรับคลาสที่ไม่เป็นบวก

แล้วฉันจะทำยังไงดี? ใครช่วยกรุณาให้คำแนะนำกับฉันได้ไหม ขอบคุณมาก!


นี่คือความจริงแล้วการทำคลัสเตอร์สองคลาสเนื่องจากคุณมีสองคลาส สำหรับชั้นเรียนเดียวคุณจะมีเพียงชั้นเดียวและมีความสนใจในการประเมินว่าการสังเกตของคุณเหมาะสมกับข้อมูลอย่างไร (เช่นการตรวจจับค่าผิดปกติ)
ทิม

ปัญหาการเรียนรู้นี้มีชื่อ - การเรียนรู้ PU นี่คือธรรมชาติที่จะใช้ถ้าตัวอย่างบวกเป็นเรื่องง่ายหรือเป็นธรรมชาติที่จะได้รับ แต่เชิงลบนั้นเป็นทุกอย่างที่เหลือ (ยากที่จะรับ) ในหลักการคุณต้องการเรียนรู้ตัวจําแนกคลาสสองระดับ แต่มีเกณฑ์แตกต่างกัน - ปรับพื้นที่ให้เหมาะสมภายใต้เส้นโค้ง PR แพคเกจซอฟต์แวร์นี้ช่วยให้คุณฝึกอบรมตัวแยกประเภทcode.google.com/p/sofia-ml
Vladislavs Dovgalecs

คำตอบ:


5

Spy EM ขั้นตอนวิธีการแก้ปัญหานี้ว่า

S-EM เป็นระบบการเรียนรู้ข้อความหรือการจัดหมวดหมู่ที่เรียนรู้จากชุดของตัวอย่างที่เป็นบวกและไม่มีชื่อ (ไม่มีตัวอย่างที่เป็นลบ) มันขึ้นอยู่กับเทคนิค "สายลับ" ไร้เดียงสาเบย์และอัลกอริทึม EM

แนวคิดพื้นฐานคือการรวมชุดบวกของคุณเข้ากับเอกสารที่รวบรวมแบบสุ่มทั้งหมด ตอนแรกคุณปฏิบัติต่อเอกสารที่ตระเวนทั้งหมดเป็นคลาสลบและเรียนรู้ลักษณนามเบส์ไร้เดียงสาในชุดนั้น ตอนนี้เอกสารที่รวบรวมข้อมูลบางส่วนจะเป็นจริงและคุณสามารถแนบเอกสารใด ๆ ที่ได้คะแนนสูงกว่าเอกสารจริงที่ให้คะแนนต่ำที่สุด จากนั้นให้คุณทำซ้ำขั้นตอนนี้จนกว่าจะหยุดนิ่ง


ขอบคุณมากมันฟังดูค่อนข้างสดใส ฉันจะดูมัน
pemistahl

6

นี่คือวิทยานิพนธ์ที่ดีเกี่ยวกับการจำแนกประเภทหนึ่งชั้น:

  • ภาษี, DM: การจำแนกประเภทหนึ่งชั้น - แนวคิดการเรียนรู้ในกรณีที่ไม่มีตัวอย่างเคาน์เตอร์ , วิทยานิพนธ์ปริญญาเอก, Technische Universiteit Delft, 2001. ( pdf )

วิทยานิพนธ์นี้นำเสนอวิธีการสนับสนุนคำอธิบายข้อมูลเวกเตอร์ข้อมูล (SVDD) ซึ่งเป็นเครื่องเวกเตอร์สนับสนุนชั้นหนึ่งที่พบ hypersphere ที่น้อยที่สุดรอบ ๆ ข้อมูลแทนที่จะเป็นไฮเปอร์เพลนที่แยกข้อมูล

วิทยานิพนธ์ยังตรวจสอบตัวแยกประเภทแบบชั้นเดียวอื่น ๆ


ยินดีต้อนรับสู่เว็บไซต์ @nub เราหวังว่าจะสร้างที่เก็บถาวรของข้อมูลสถิติดังนั้นเราจึงกังวลเกี่ยวกับความเป็นไปได้ของ linkrot คุณคิดจะให้ข้อมูลสรุปในวิทยานิพนธ์นั้นหรือไม่ในกรณีที่ลิงก์เสียไป
gung - Reinstate Monica

ขอบคุณสำหรับการสรุป โปรดลงทะเบียน & รวมบัญชีของคุณ (คุณสามารถดูวิธีการในส่วนบัญชีของฉันในศูนย์ช่วยเหลือของเรา) จากนั้นคุณจะสามารถแก้ไขและแสดงความคิดเห็นในโพสต์ของคุณเอง
gung - Reinstate Monica

@ gung ขอบคุณสำหรับการต้อนรับ ฉันตื่นเต้นที่ได้รับป้าย "Yearling" ใน StackOverflow ดังนั้นตอนนี้ฉันสามารถแสดงความคิดเห็นได้ทุกที่
JosiahYoder-deactive ยกเว้น ..

@JosiahYoder ถ้าคุณเป็น OP ที่นี่โปรดรวมบัญชีของคุณ คุณสามารถหาวิธีในบัญชีของฉันส่วนของเราศูนย์ช่วยเหลือ
gung - Reinstate Monica

ฉันไม่ใช่ OP เพียงแค่ผู้ใช้ SO แบบสุ่มที่เกิดขึ้นกับคำถามนี้
JosiahYoder-deactive ยกเว้น ..

1

การฝึกอบรมที่ดีต้องการข้อมูลที่ให้การประมาณความน่าจะเป็นในระดับบุคคลที่ดี ปัญหาการจำแนกประเภททุกอย่างเกี่ยวข้องอย่างน้อยสองชั้น ในกรณีของคุณคลาสที่สองคือทุกคนที่ไม่ได้อยู่ในชั้นบวก ในการสร้างขอบเขตการตัดสินใจที่ดีโดยใช้ Bayes หรือวิธีการที่ดีอื่น ๆ จะทำได้ดีที่สุดด้วยข้อมูลการฝึกอบรมที่ได้รับการสุ่มเลือกจากชั้นเรียนมากที่สุด หากคุณเลือกแบบไม่สุ่มคุณอาจได้รับตัวอย่างที่ไม่ได้แสดงรูปร่างของความหนาแน่น / การแจกแจงแบบมีเงื่อนไขตามเงื่อนไขของชั้นเรียนและอาจนำไปสู่การเลือกขอบเขตการตัดสินใจที่ไม่ดี


1
คุณพูดถูกนี่เป็นสิ่งที่รบกวนจิตใจฉัน วิธีการเลือกตัวอย่างของตัวอย่างที่ไม่เป็นบวกที่นำไปสู่ขอบเขตการตัดสินใจที่ดี? การเลือกแบบสุ่มเป็นสิ่งที่ดีที่สุดที่ฉันสามารถทำได้หรือไม่?
pemistahl

0

ฉันเห็นด้วยกับไมเคิล

เกี่ยวกับคำถามของคุณเกี่ยวกับการเลือกแบบสุ่ม ใช่: คุณต้องเลือกแบบสุ่มจากชุด "บวก" ของคุณ หากมีความสับสนว่าเป็นไปได้ว่า 'ผลบวก' ของคุณไม่ได้นิยามอย่างสมบูรณ์ว่า 'บริสุทธิ์บวก' ถ้าฉันอาจใช้วลีนั้นคุณก็สามารถลองนิยามคำนิยามที่ตรงกันอย่างน้อยที่สุดเพื่อที่คุณจะได้ ควบคุมตัวแปรเหล่านั้นที่อาจก่อให้เกิดการปนเปื้อนในคำนิยามของ 'บวก' ในกรณีนี้คุณต้องจับคู่ตัวแปรเดียวกันในด้าน 'ไม่เป็นบวก' ด้วยเช่นกัน


0

บทความที่น่าสนใจคือ:

"ขยายการจัดหมวดหมู่เซ็นทรอยด์หดตัวที่ใกล้ที่สุด: วิธีการใหม่สำหรับการระบุแหล่งกำเนิดผลงานแบบเปิดของข้อความที่มีขนาดแตกต่างกัน" Schaalje, Fields, Roper และ Snow วรรณกรรมและคอมพิวเตอร์ภาษาฉบับ 26, ฉบับที่ 1, 2011

ซึ่งใช้วิธีการในการเชื่อมโยงข้อความไปยังชุดของผู้เขียนและขยายเพื่อใช้ความเป็นไปได้ที่ผู้เขียนที่แท้จริงไม่ได้อยู่ในชุดผู้สมัคร แม้ว่าคุณจะไม่ได้ใช้วิธีการของ NSC แนวคิดในบทความอาจมีประโยชน์ในการคิดเกี่ยวกับวิธีดำเนินการต่อ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.