คำถามติดแท็ก bag-of-words

5
วิธีการวัดการกระจายตัวในข้อมูลความถี่ของคำ?
ฉันจะหาปริมาณการกระจายตัวในเวกเตอร์ที่มีการนับคำได้อย่างไร ฉันกำลังมองหาสถิติที่จะสูงสำหรับเอกสาร A เนื่องจากมีคำต่าง ๆ มากมายที่เกิดขึ้นไม่บ่อยนักและต่ำสำหรับเอกสาร B เพราะมันมีหนึ่งคำ (หรือคำไม่กี่คำ) ที่เกิดขึ้นบ่อยครั้ง โดยทั่วไปแล้วจะวัดการกระจายตัวหรือ "สเปรด" ในข้อมูลระบุได้อย่างไร มีวิธีมาตรฐานในการทำสิ่งนี้ในชุมชนการวิเคราะห์ข้อความหรือไม่?
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.