ใช้ Vowpal Wabbit สำหรับ NER


9

Vowpal Wabbit (VW) เห็นได้ชัดว่าสนับสนุนการทำงานลำดับการติดแท็กผ่านSEARN ปัญหาคือฉันไม่สามารถหารายการพารามิเตอร์แบบละเอียดที่ใดก็ได้พร้อมคำอธิบายและตัวอย่างบางส่วน สิ่งที่ดีที่สุดที่ฉันสามารถหาได้คือบล็อกของ Zinkovพร้อมตัวอย่างสั้น ๆ หน้าวิกิพีเดียหลักแทบจะไม่กล่าวถึง SEARN

ในซอร์สโค้ดที่ตรวจสอบแล้วฉันพบโฟลเดอร์สาธิตพร้อมข้อมูลตัวอย่าง NER บางส่วน น่าเสียดายที่สคริปต์ที่รันการทดสอบทั้งหมดไม่แสดงวิธีการทำงานกับข้อมูลนี้ อย่างน้อยมันก็มีข้อมูลเพียงพอที่จะเห็นรูปแบบที่คาดไว้: เกือบจะเหมือนกับรูปแบบข้อมูล VW มาตรฐานยกเว้นว่ารายการนั้นคั่นด้วยบรรทัดว่าง (นี่เป็นสิ่งสำคัญ)

ความเข้าใจปัจจุบันของฉันคือการเรียกใช้คำสั่งต่อไปนี้:

cat train.txt | vw -c --passes 10 --searn 25 --searn_task sequence \
--searn_passes_per_policy 2 -b 30 -f twpos.vw

ที่ไหน

--searn 25 - จำนวนป้ายกำกับ NER ทั้งหมด (?)

--searn_task sequence - งานติดแท็กตามลำดับ (?)

--searn_passes_per_policy 2 - ไม่ชัดเจนว่ามันทำอะไร

พารามิเตอร์อื่น ๆ เป็นมาตรฐานสำหรับ VW และไม่จำเป็นต้องอธิบายเพิ่มเติม อาจมีพารามิเตอร์เพิ่มเติมเฉพาะใน SEARN หรือไม่ ความสำคัญและผลกระทบของพวกเขาคืออะไร วิธีการปรับแต่งพวกเขา? กฎของหัวแม่มือ?

พอยน์เตอร์สำหรับตัวอย่างใด ๆ จะได้รับการชื่นชม

คำตอบ:


1

เอกสารของ John Langford ใน GitHub สามารถช่วยได้ คุณสามารถค้นหาบางสิ่งบางอย่างเกี่ยวกับการเรียนรู้ที่จะค้นหาหน้าระบบย่อย

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.