การจำแนกข้อความแบบชั้นเดียวทำอย่างไร?

14

ฉันต้องจัดการกับปัญหาการจำแนกข้อความ โปรแกรมรวบรวมข้อมูลเว็บรวบรวมข้อมูลหน้าเว็บของโดเมนบางโดเมนและสำหรับแต่ละหน้าเว็บฉันต้องการทราบว่าเป็นของชั้นเรียนเฉพาะหรือไม่ นั่นคือถ้าผมเรียกชั้นนี้บวกแต่ละหน้าเว็บรวบรวมข้อมูลเป็นอย่างใดอย่างหนึ่งในชั้นเรียนในเชิงบวกหรือไปเรียนไม่ใช่ในเชิงบวก

ฉันมีการฝึกอบรมชุดใหญ่ของหน้าเว็บสำหรับการเรียนในเชิงบวก แต่จะสร้างชุดการฝึกอบรมสำหรับชั้นเรียนNon-Positiveซึ่งเป็นตัวแทนได้อย่างไร ฉันหมายความว่าฉันสามารถใช้ทุกอย่างโดยพื้นฐานสำหรับชั้นเรียนนั้นได้ ฉันสามารถรวบรวมหน้าเว็บตามอำเภอใจบางอย่างที่ไม่ได้เป็นของPositive Positiveหรือไม่? ฉันแน่ใจว่าประสิทธิภาพของอัลกอริทึมการจัดหมวดหมู่ข้อความ (ฉันต้องการใช้อัลกอริทึม Naive Bayes) ขึ้นอยู่กับว่าฉันเลือกเว็บเพจแบบไหนสำหรับคลาสที่ไม่เป็นบวก

แล้วฉันจะทำยังไงดี? ใครช่วยกรุณาให้คำแนะนำกับฉันได้ไหม ขอบคุณมาก!

— pemistahl
แหล่งที่มา

นี่คือความจริงแล้วการทำคลัสเตอร์สองคลาสเนื่องจากคุณมีสองคลาส สำหรับชั้นเรียนเดียวคุณจะมีเพียงชั้นเดียวและมีความสนใจในการประเมินว่าการสังเกตของคุณเหมาะสมกับข้อมูลอย่างไร (เช่นการตรวจจับค่าผิดปกติ)

— ทิม

ปัญหาการเรียนรู้นี้มีชื่อ - การเรียนรู้ PU นี่คือธรรมชาติที่จะใช้ถ้าตัวอย่างบวกเป็นเรื่องง่ายหรือเป็นธรรมชาติที่จะได้รับ แต่เชิงลบนั้นเป็นทุกอย่างที่เหลือ (ยากที่จะรับ) ในหลักการคุณต้องการเรียนรู้ตัวจําแนกคลาสสองระดับ แต่มีเกณฑ์แตกต่างกัน - ปรับพื้นที่ให้เหมาะสมภายใต้เส้นโค้ง PR แพคเกจซอฟต์แวร์นี้ช่วยให้คุณฝึกอบรมตัวแยกประเภทcode.google.com/p/sofia-ml

— Vladislavs Dovgalecs

5

Spy EM ขั้นตอนวิธีการแก้ปัญหานี้ว่า

S-EM เป็นระบบการเรียนรู้ข้อความหรือการจัดหมวดหมู่ที่เรียนรู้จากชุดของตัวอย่างที่เป็นบวกและไม่มีชื่อ (ไม่มีตัวอย่างที่เป็นลบ) มันขึ้นอยู่กับเทคนิค "สายลับ" ไร้เดียงสาเบย์และอัลกอริทึม EM

แนวคิดพื้นฐานคือการรวมชุดบวกของคุณเข้ากับเอกสารที่รวบรวมแบบสุ่มทั้งหมด ตอนแรกคุณปฏิบัติต่อเอกสารที่ตระเวนทั้งหมดเป็นคลาสลบและเรียนรู้ลักษณนามเบส์ไร้เดียงสาในชุดนั้น ตอนนี้เอกสารที่รวบรวมข้อมูลบางส่วนจะเป็นจริงและคุณสามารถแนบเอกสารใด ๆ ที่ได้คะแนนสูงกว่าเอกสารจริงที่ให้คะแนนต่ำที่สุด จากนั้นให้คุณทำซ้ำขั้นตอนนี้จนกว่าจะหยุดนิ่ง

— rrenaud
แหล่งที่มา

ขอบคุณมากมันฟังดูค่อนข้างสดใส ฉันจะดูมัน

— pemistahl

6

นี่คือวิทยานิพนธ์ที่ดีเกี่ยวกับการจำแนกประเภทหนึ่งชั้น:

ภาษี, DM: การจำแนกประเภทหนึ่งชั้น - แนวคิดการเรียนรู้ในกรณีที่ไม่มีตัวอย่างเคาน์เตอร์ , วิทยานิพนธ์ปริญญาเอก, Technische Universiteit Delft, 2001. ( pdf )

วิทยานิพนธ์นี้นำเสนอวิธีการสนับสนุนคำอธิบายข้อมูลเวกเตอร์ข้อมูล (SVDD) ซึ่งเป็นเครื่องเวกเตอร์สนับสนุนชั้นหนึ่งที่พบ hypersphere ที่น้อยที่สุดรอบ ๆ ข้อมูลแทนที่จะเป็นไฮเปอร์เพลนที่แยกข้อมูล

วิทยานิพนธ์ยังตรวจสอบตัวแยกประเภทแบบชั้นเดียวอื่น ๆ

— นับ
แหล่งที่มา

ยินดีต้อนรับสู่เว็บไซต์ @nub เราหวังว่าจะสร้างที่เก็บถาวรของข้อมูลสถิติดังนั้นเราจึงกังวลเกี่ยวกับความเป็นไปได้ของ linkrot คุณคิดจะให้ข้อมูลสรุปในวิทยานิพนธ์นั้นหรือไม่ในกรณีที่ลิงก์เสียไป

— gung - Reinstate Monica

ขอบคุณสำหรับการสรุป โปรดลงทะเบียน & รวมบัญชีของคุณ (คุณสามารถดูวิธีการในส่วนบัญชีของฉันในศูนย์ช่วยเหลือของเรา) จากนั้นคุณจะสามารถแก้ไขและแสดงความคิดเห็นในโพสต์ของคุณเอง

— gung - Reinstate Monica

@ gung ขอบคุณสำหรับการต้อนรับ ฉันตื่นเต้นที่ได้รับป้าย "Yearling" ใน StackOverflow ดังนั้นตอนนี้ฉันสามารถแสดงความคิดเห็นได้ทุกที่

— JosiahYoder-deactive ยกเว้น ..

@JosiahYoder ถ้าคุณเป็น OP ที่นี่โปรดรวมบัญชีของคุณ คุณสามารถหาวิธีในบัญชีของฉันส่วนของเราศูนย์ช่วยเหลือ

— gung - Reinstate Monica

ฉันไม่ใช่ OP เพียงแค่ผู้ใช้ SO แบบสุ่มที่เกิดขึ้นกับคำถามนี้

— JosiahYoder-deactive ยกเว้น ..

1

การฝึกอบรมที่ดีต้องการข้อมูลที่ให้การประมาณความน่าจะเป็นในระดับบุคคลที่ดี ปัญหาการจำแนกประเภททุกอย่างเกี่ยวข้องอย่างน้อยสองชั้น ในกรณีของคุณคลาสที่สองคือทุกคนที่ไม่ได้อยู่ในชั้นบวก ในการสร้างขอบเขตการตัดสินใจที่ดีโดยใช้ Bayes หรือวิธีการที่ดีอื่น ๆ จะทำได้ดีที่สุดด้วยข้อมูลการฝึกอบรมที่ได้รับการสุ่มเลือกจากชั้นเรียนมากที่สุด หากคุณเลือกแบบไม่สุ่มคุณอาจได้รับตัวอย่างที่ไม่ได้แสดงรูปร่างของความหนาแน่น / การแจกแจงแบบมีเงื่อนไขตามเงื่อนไขของชั้นเรียนและอาจนำไปสู่การเลือกขอบเขตการตัดสินใจที่ไม่ดี

— Michael R. Chernick
แหล่งที่มา

1

คุณพูดถูกนี่เป็นสิ่งที่รบกวนจิตใจฉัน วิธีการเลือกตัวอย่างของตัวอย่างที่ไม่เป็นบวกที่นำไปสู่ขอบเขตการตัดสินใจที่ดี? การเลือกแบบสุ่มเป็นสิ่งที่ดีที่สุดที่ฉันสามารถทำได้หรือไม่?

— pemistahl

0

ฉันเห็นด้วยกับไมเคิล

เกี่ยวกับคำถามของคุณเกี่ยวกับการเลือกแบบสุ่ม ใช่: คุณต้องเลือกแบบสุ่มจากชุด "บวก" ของคุณ หากมีความสับสนว่าเป็นไปได้ว่า 'ผลบวก' ของคุณไม่ได้นิยามอย่างสมบูรณ์ว่า 'บริสุทธิ์บวก' ถ้าฉันอาจใช้วลีนั้นคุณก็สามารถลองนิยามคำนิยามที่ตรงกันอย่างน้อยที่สุดเพื่อที่คุณจะได้ ควบคุมตัวแปรเหล่านั้นที่อาจก่อให้เกิดการปนเปื้อนในคำนิยามของ 'บวก' ในกรณีนี้คุณต้องจับคู่ตัวแปรเดียวกันในด้าน 'ไม่เป็นบวก' ด้วยเช่นกัน

— crmportals
แหล่งที่มา

0

บทความที่น่าสนใจคือ:

"ขยายการจัดหมวดหมู่เซ็นทรอยด์หดตัวที่ใกล้ที่สุด: วิธีการใหม่สำหรับการระบุแหล่งกำเนิดผลงานแบบเปิดของข้อความที่มีขนาดแตกต่างกัน" Schaalje, Fields, Roper และ Snow วรรณกรรมและคอมพิวเตอร์ภาษาฉบับ 26, ฉบับที่ 1, 2011

ซึ่งใช้วิธีการในการเชื่อมโยงข้อความไปยังชุดของผู้เขียนและขยายเพื่อใช้ความเป็นไปได้ที่ผู้เขียนที่แท้จริงไม่ได้อยู่ในชุดผู้สมัคร แม้ว่าคุณจะไม่ได้ใช้วิธีการของ NSC แนวคิดในบทความอาจมีประโยชน์ในการคิดเกี่ยวกับวิธีดำเนินการต่อ

— เกร็กสโนว์
แหล่งที่มา