เกี่ยวกับการใช้โมเดล bigram (N-gram) เพื่อสร้างฟีเจอร์ vector สำหรับเอกสารข้อความ

10

วิธีการดั้งเดิมของการสร้างฟีเจอร์สำหรับการขุดข้อความเป็นวิธีถุงแบบคำและสามารถปรับปรุงได้โดยใช้ tf-idf สำหรับการตั้งค่าคุณลักษณะเวกเตอร์ที่แสดงลักษณะของเอกสารข้อความที่กำหนด ในปัจจุบันฉันกำลังพยายามใช้โมเดลภาษาสองแกรมหรือ (N-Gram) เพื่อสร้างเวกเตอร์คุณลักษณะ แต่ไม่ทราบวิธีการทำเช่นนั้นใช่หรือไม่ เราสามารถทำตามวิธีการของคำพูดเช่นการคำนวณจำนวนความถี่ในรูปแบบของ bi-gram แทนที่จะเป็นคำพูดและปรับปรุงมันด้วยวิธีการถ่วงน้ำหนัก tf-idf?

— user3125
แหล่งที่มา

4

ใช่. ซึ่งจะสร้างคุณลักษณะเพิ่มเติมอีกมากมาย: อาจเป็นเรื่องสำคัญที่จะต้องใช้การตัดบางอย่าง (ตัวอย่างเช่นทิ้งคุณสมบัติ bi-grams หรือคำที่เกิดขึ้นน้อยกว่า 5 ครั้งในชุดข้อมูลของคุณ) เพื่อไม่ให้ตัวแยกลักษณนามของคุณมีเสียงดังมากเกินไป คุณสมบัติ

— ogrisel
แหล่งที่มา

ขอบคุณ คุณหมายความว่าแนวคิดทั่วไปของฉันในการคำนวณแต่ละคุณลักษณะของค่าในแง่ของ bigram (N-gram) ถูกต้องหรือไม่? ไม่มีความแตกต่างในการคำนวณค่าคุณลักษณะระหว่าง bag-of-word และโมเดล N-gram ขอขอบคุณสำหรับการชี้แจง.

— 3125

ใช่คุณสามารถใช้ทั้ง bigrams + unigrams (คำ) ในถุงใหญ่ ๆ ของฟีเจอร์ (ตราบใดที่คุณตัดแต่งความถี่ที่น้อยที่สุดด้วยระดับการตัดออกบางส่วน)

— ogrisel

3

จำนวน bigrams สามารถลดลงได้โดยเลือกเฉพาะที่มีข้อมูลร่วมกันในเชิงบวก

เราทำอย่างนี้ในการสร้างถุงของการเป็นตัวแทน bigrams ที่ติดตาม INEX XML เหมืองแร่, http://www.inex.otago.ac.nz/tracks/wiki-mine/wiki-mine.asp

สิ่งที่เราไม่ได้ลองใช้คือการใช้ข้อมูลร่วมกันระหว่างเงื่อนไขในการถ่วงน้ำหนัก bi-grams ดูhttps://en.wikipedia.org/wiki/Pointwise_mutual_information , https://www.eecis.udel.edu/~trnka/CISC889-11S/lectures/philip-pmi.pdfและhttp: //www.nltk org / howto / collocations.htmlสำหรับคำอธิบายที่ดีขึ้นของข้อมูลร่วมกันแบบจุดสำหรับกราฟขนาดใหญ่

ดู/programming/20018730/computing-pointwise-mutual-information-of-a-text-document-using-pythonและ/programming/22118350/python-sentiment-analysis การใช้ข้อมูลจุดร่วมสำหรับคำถามอื่น ๆ ที่เกี่ยวข้องกับเรื่องนี้

— Chris de Vries
แหล่งที่มา

ลิงก์เสีย :-( ...

— Renaud

1

@Renaud ลิงก์ได้รับการอัปเดต :-)

— Chris de Vries

0

การใช้ประมาณการสุ่มเพื่อลดมิติของข้อมูลที่อาจเป็นประโยชน์ในการลดพื้นที่ที่จำเป็นในการจัดเก็บคุณลักษณะhttps://en.wikipedia.org/wiki/Random_projection มันปรับขนาดได้ดีมากและทุกตัวอย่างสามารถถูกฉายในพื้นที่มิติที่ต่ำกว่าได้อย่างอิสระและไม่มีวิธีการเพิ่มประสิทธิภาพโดยตรงเช่น PCA, SVD, Sammon Maps, NMF เป็นต้น

— Chris de Vries
แหล่งที่มา