คำถามติดแท็ก semi-supervised

3
การเรียนรู้แบบไม่ควบคุมดูแลและแบบกึ่งควบคุม
ในบริบทของการเรียนรู้ของเครื่องสิ่งที่แตกต่างกันคืออะไร การเรียนรู้แบบไม่มีผู้ดูแล การเรียนรู้ภายใต้การดูแลและ การเรียนรู้แบบกึ่งภายใต้การดูแล? และวิธีการบางอย่างของอัลกอริทึมหลักในการดูคืออะไร?

4
“ การเรียนรู้แบบมีผู้ควบคุมกึ่ง” - การทำเกินนี้หรือไม่
ฉันอ่านรายงานเกี่ยวกับวิธีแก้ปัญหาการชนะของการแข่งขัน Kaggle ( การจำแนกประเภทมัลแวร์ ) รายงานสามารถพบได้ในโพสต์ฟอรั่มนี้ ปัญหาคือปัญหาการจัดหมวดหมู่ (เก้าคลาสตัวชี้วัดคือการสูญเสียลอการิทึม) ที่มี 10,000 องค์ประกอบในชุดรถไฟ 10,000 ชิ้นส่วนในชุดทดสอบ ในระหว่างการแข่งขันแบบจำลองจะถูกประเมินเทียบกับ 30% ของชุดทดสอบ องค์ประกอบที่สำคัญอีกประการหนึ่งคือโมเดลมีประสิทธิภาพดีมาก (ใกล้เคียงกับความแม่นยำ 100%) ผู้เขียนใช้เทคนิคต่อไปนี้: อีกเทคนิคที่สำคัญที่เราเกิดขึ้นคือการเรียนรู้แบบ Semisupervised ก่อนอื่นเราสร้างฉลากเทียมของชุดทดสอบโดยเลือกความน่าจะเป็นสูงสุดของแบบจำลองที่ดีที่สุดของเรา จากนั้นเราคาดการณ์ชุดการทดสอบอีกครั้งในรูปแบบการตรวจสอบความถูกต้องทั้งข้อมูลรถไฟและข้อมูลการทดสอบ ตัวอย่างเช่นชุดข้อมูลการทดสอบแบ่งออกเป็น 4 ส่วน A, B, C และ D เราใช้ข้อมูลการฝึกอบรมทั้งหมดและทดสอบข้อมูล A, B, C พร้อมป้ายกำกับหลอกของพวกเขาพร้อมกันเป็นชุดฝึกอบรมใหม่และเราทำนายการทดสอบ ชุด D วิธีเดียวกันนี้ใช้ในการทำนาย A, B และ C วิธีการนี้คิดค้นโดย Xiaozhou ทำงานได้ดีอย่างน่าประหลาดใจและช่วยลดการสูญเสียการตรวจสอบข้ามท้องถิ่นการสูญเสีย LB สาธารณะและการสูญเสีย LB …

3
วิธีการทำนายผลลัพธ์ด้วยการฝึกอบรมเชิงบวกเท่านั้น?
เพื่อความเรียบง่ายสมมติว่าฉันทำงานกับตัวอย่างคลาสสิกของอีเมลสแปม / จดหมายขยะ ฉันมีอีเมลหนึ่งชุด ในบรรดาสิ่งเหล่านี้ฉันรู้ว่า 2000 เป็นสแปม แต่ฉันไม่มีตัวอย่างของอีเมลขยะ ฉันต้องการที่จะคาดการณ์ว่าส่วนที่เหลืออีก 18,000 เป็นสแปมหรือไม่ ตามหลักการแล้วผลลัพธ์ที่ฉันค้นหาคือความน่าจะเป็น (หรือค่า p) ที่อีเมลเป็นสแปม ฉันสามารถใช้อัลกอริทึมใดในการทำนายอย่างสมเหตุสมผลในสถานการณ์นี้ ในขณะนี้ฉันกำลังคิดถึงวิธีการทางไกลที่จะบอกฉันว่าอีเมลของฉันคล้ายกับอีเมลสแปมที่รู้จักกันอย่างไร ฉันมีตัวเลือกอะไรบ้าง โดยทั่วไปฉันสามารถใช้วิธีการเรียนรู้แบบมีผู้สอนหรือฉันจำเป็นต้องมีกรณีที่เป็นลบในชุดฝึกอบรมเพื่อทำเช่นนั้นหรือไม่? ฉัน จำกัด วิธีการเรียนรู้ที่ไม่ได้รับการดูแลหรือไม่? วิธีการกึ่งควบคุมดูแล?

4
เหตุใดการใช้การติดป้ายกำกับโดยไม่ส่งผลกระทบต่อผลลัพธ์เล็กน้อย
ฉันได้ดูวิธีการเรียนรู้แบบกึ่งภายใต้การดูแลและได้พบกับแนวคิดของ "การติดฉลากหลอก" ตามที่ฉันเข้าใจแล้วด้วยการติดฉลากหลอกคุณมีชุดของข้อมูลที่มีป้ายกำกับรวมถึงชุดของข้อมูลที่ไม่มีป้ายกำกับ คุณฝึกอบรมโมเดลโดยใช้ข้อมูลที่มีป้ายกำกับเท่านั้น จากนั้นคุณใช้ข้อมูลเริ่มต้นนั้นเพื่อจัดประเภท (แนบป้ายกำกับชั่วคราว) กับข้อมูลที่ไม่มีป้ายกำกับ จากนั้นคุณป้อนทั้งข้อมูลที่มีป้ายกำกับและไม่มีป้ายกำกับกลับสู่การฝึกอบรมแบบจำลองของคุณ (อีกครั้ง) ปรับให้เหมาะสมกับทั้งป้ายกำกับที่รู้จักและป้ายกำกับที่คาดการณ์ (ทำซ้ำกระบวนการนี้ติดฉลากใหม่ด้วยรุ่นที่อัปเดตแล้ว) ผลประโยชน์ที่อ้างสิทธิ์คือคุณสามารถใช้ข้อมูลเกี่ยวกับโครงสร้างของข้อมูลที่ไม่มีป้ายกำกับเพื่อปรับปรุงแบบจำลอง การเปลี่ยนแปลงของรูปต่อไปนี้มักจะแสดง "แสดงให้เห็น" ว่ากระบวนการสามารถทำให้ขอบเขตการตัดสินใจที่ซับซ้อนมากขึ้นตามที่ข้อมูล (ไม่มีป้ายกำกับ) อยู่ ภาพจากWikimedia Commonsโดย Techerin CC BY-SA 3.0 อย่างไรก็ตามฉันไม่ค่อยซื้อคำอธิบายแบบง่ายๆ อย่างไร้เดียงสาถ้าผลการฝึกอย่างเดียวที่มีป้ายกำกับดั้งเดิมคือขอบเขตการตัดสินใจระดับสูงจะมีการกำหนดป้ายหลอกโดยขึ้นอยู่กับขอบเขตการตัดสินใจนั้น ซึ่งจะกล่าวว่ามือซ้ายของเส้นโค้งส่วนบนจะเป็นป้ายขาวหลอกและมือขวาของเส้นโค้งล่างจะเป็นป้ายดำหลอก คุณจะไม่ได้รับขอบเขตการตัดสินใจโค้งที่ดีหลังจากการฝึกอบรมซ้ำเนื่องจากป้ายหลอกใหม่จะช่วยเสริมขอบเขตการตัดสินใจปัจจุบัน หรือกล่าวอีกนัยหนึ่งขอบเขตการตัดสินใจที่มีป้ายกำกับเท่านั้นในปัจจุบันจะมีความแม่นยำในการทำนายที่สมบูรณ์แบบสำหรับข้อมูลที่ไม่มีชื่อ (นั่นคือสิ่งที่เราใช้ในการสร้าง) ไม่มีแรงผลักดัน (ไม่มีการไล่ระดับสี) ซึ่งจะทำให้เราเปลี่ยนที่ตั้งของขอบเขตการตัดสินใจเพียงแค่เพิ่มข้อมูลที่ติดฉลากหลอก ฉันถูกต้องในการคิดว่าคำอธิบายที่เป็นตัวเป็นตนโดยแผนภาพขาด หรือมีบางอย่างที่ฉันขาดหายไป? ถ้าไม่ได้ประโยชน์ของป้ายกำกับหลอกคืออะไรเนื่องจากขอบเขตการตัดสินใจสั่งสอนขึ้นใหม่มีความแม่นยำที่สมบูรณ์แบบเหนือป้ายกำกับหลอก?

1
มีความแตกต่างระหว่างการนิเทศแบบไกลการฝึกฝนด้วยตนเองการเรียนรู้แบบกำกับตนเองและการนิเทศแบบอ่อนหรือไม่?
จากสิ่งที่ฉันได้อ่าน: การดูแลที่ห่างไกล : A Distant supervision algorithm usually has the following steps: 1] It may have some labeled training data 2] It "has" access to a pool of unlabeled data 3] It has an operator that allows it to sample from this unlabeled data and label them and this operator …

2
วิธีหาน้ำหนักสำหรับมาตรการที่ไม่คุ้นเคย
ฉันต้องการเรียนรู้คุณลักษณะน้ำหนัก (อนุมาน) สำหรับการวัดความแตกต่างของฉันที่ฉันสามารถใช้สำหรับการจัดกลุ่ม ฉันมีตัวอย่างของคู่ของวัตถุที่ "คล้ายกัน" (ควรอยู่ในกลุ่มเดียวกัน) รวมถึงตัวอย่างบางส่วนของคู่ของวัตถุที่ "ไม่เหมือนกัน" (ไม่ควรเหมือนกัน อยู่ในกลุ่มเดียวกัน) แต่ละวัตถุมีจำนวนคุณลักษณะ: ถ้าคุณต้องการเราสามารถคิดว่าแต่ละวัตถุเป็นเวกเตอร์ -dimensional ของคุณลักษณะโดยที่แต่ละคุณลักษณะนั้นเป็นจำนวนเต็มไม่เป็นลบ มีเทคนิคในการใช้ตัวอย่างของวัตถุที่คล้ายกัน / แตกต่างกันเพื่อประเมินจากน้ำหนักคุณลักษณะที่เหมาะสมที่สุดสำหรับการวัดที่แตกต่างกันหรือไม่?(aผม,ขผม)(ai,bi)(a_i,b_i)(คผม,dผม)(ci,di)(c_i,d_i)ddd ถ้ามันช่วยได้ในแอปพลิเคชันของฉันมันอาจจะสมเหตุสมผลที่จะมุ่งเน้นไปที่การเรียนรู้การวัดที่แตกต่างซึ่งเป็นมาตรฐาน L2 แบบถ่วงน้ำหนัก d( x , y) =ΣJαJ( x [ j ] - y[ j ])2.d(x,y)=∑jαj(x[j]−y[j])2.d(x,y) = \sum_j \alpha_j (x[j] - y[j])^2. ที่ไม่รู้จักน้ำหนักและควรเรียนรู้ (หรือการวัดความคล้ายคลึงโคไซน์แบบถ่วงน้ำหนักบางชนิดก็มีเหตุผลเช่นกัน) มีอัลกอริทึมที่ดีในการเรียนรู้น้ำหนักสำหรับการวัดเช่นนี้หรือไม่ หรือมีวิธีอื่นในการเรียนรู้วิธีวัดความเหมือน / ความแตกต่างที่ฉันควรพิจารณาαJαj\alpha_jαJαj\alpha_j จำนวนมิติมีขนาดใหญ่มาก (เป็นพันหรือสูงกว่านั้นมาจากคุณสมบัติถุงคำ) อย่างไรก็ตามฉันมีตัวอย่างเป็นหมื่น ๆ ตัวอย่าง …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.