รายงานประสิทธิภาพการทำงานที่ทันสมัยของการใช้เวกเตอร์ย่อหน้าสำหรับการวิเคราะห์ความเชื่อมั่นได้รับการทำซ้ำหรือไม่?

ฉันประทับใจกับผลลัพธ์ใน ICML 2014 กระดาษ "การแจกจ่ายการเป็นตัวแทนของประโยคและเอกสาร " โดย Le และ Mikolov เทคนิคที่พวกเขาอธิบายเรียกว่า "พาหะของย่อหน้า" เรียนรู้การแสดงที่ไม่มีผู้ดูแลของย่อหน้า / เอกสารที่ไม่มีกฎเกณฑ์โดยมีพื้นฐานอยู่บนส่วนขยายของรุ่น word2vec บทความนี้รายงานถึงประสิทธิภาพการวิเคราะห์ความเชื่อมั่นโดยใช้เทคนิคนี้

ฉันหวังว่าจะประเมินเทคนิคนี้กับปัญหาการจำแนกข้อความอื่น ๆ ซึ่งเป็นทางเลือกแทนการแสดงคำแบบถุง อย่างไรก็ตามฉันวิ่งข้ามโพสต์โดยผู้เขียนที่สองในหัวข้อในกลุ่ม word2vec Google ที่ให้ฉันหยุดชั่วคราว:

ฉันพยายามทำซ้ำผลลัพธ์ของ Quoc ในช่วงฤดูร้อน ฉันสามารถได้รับอัตราความผิดพลาดในชุดข้อมูล IMDB ประมาณ 9.4% - 10% (ขึ้นอยู่กับว่าการจัดรูปแบบข้อความปกติดีแค่ไหน) อย่างไรก็ตามฉันไม่สามารถเข้าใกล้ทุกสิ่งที่ Quoc รายงานไว้ในกระดาษ (ข้อผิดพลาด 7.4% นั่นเป็นความแตกต่างใหญ่หลวง) ... แน่นอนเรายังถาม Quoc เกี่ยวกับรหัสด้วย เขาสัญญาว่าจะเผยแพร่ แต่ก็ยังไม่มีอะไรเกิดขึ้น ... ฉันเริ่มคิดว่าผลลัพธ์ของ Quoc นั้นไม่สามารถทำซ้ำได้จริง

มีใครประสบความสำเร็จในการทำซ้ำผลลัพธ์เหล่านี้หรือยัง

— bskaggs
แหล่งที่มา

สถานการณ์นี้เปลี่ยนไปหรือยัง ฉันรู้ว่า Gensim ได้นำ doc2vec (ย่อหน้า / เอกสารเวกเตอร์) มาใช้ดูที่: radimrehurek.com/gensim/models/doc2vec.htmlแต่ไม่มีความพยายามที่จะทำซ้ำผลลัพธ์ในเอกสารที่อ้างถึงที่นี่

— Doctorambient

ใช่มีความพยายามที่จะทำให้เกิดผลการใช้กระดาษgensim : ดูdoc2vec IPython โน๊ตบุ๊ค

— Radim

เชิงอรรถที่http://arxiv.org/abs/1412.5335 (หนึ่งในผู้แต่งคือ Tomas Mikolov) กล่าว

ในการทดลองของเราเพื่อให้ตรงกับผลลัพธ์จาก (Le & Mikolov, 2014) เราได้ทำตามคำแนะนำโดย Quoc Le เพื่อใช้ softmax แบบลำดับชั้นแทนการสุ่มตัวอย่างเชิงลบ อย่างไรก็ตามสิ่งนี้สร้างผลลัพธ์ความแม่นยำ 92.6% เฉพาะเมื่อข้อมูลการฝึกอบรมและการทดสอบไม่ได้ถูกสับ ดังนั้นเราจึงพิจารณาผลลัพธ์นี้ว่าไม่ถูกต้อง

— มิคาอิล Korobov
แหล่งที่มา

ฉันไม่เข้าใจว่าทำไม "ไม่สับ" ==> ไม่ถูกต้อง ไม่มีการแบ่งที่ชัดเจนระหว่างชุดรถไฟ / ชุดทดสอบหรือไม่? ดังนั้นสิ่งที่เป็นรถไฟ / ทดสอบขึ้นอยู่กับวิธีที่คุณสับชุดข้อมูล (ต้นฉบับ)? ลำดับของชุดทดสอบไม่สำคัญ (ไม่มีการประเมินผลแบบไดนามิกใช่ไหม) และคำสั่งของชุดการฝึกอบรมไม่ควรเรื่องมากทั้ง ...

— capybaralet

@ user2429920 หากพวกเขาได้รับความแตกต่างจากนั้นชัดเจนว่าคำสั่งไม่สำคัญ

— JAB