วิธีการวัดการกระจายตัวในข้อมูลความถี่ของคำ?


10

ฉันจะหาปริมาณการกระจายตัวในเวกเตอร์ที่มีการนับคำได้อย่างไร ฉันกำลังมองหาสถิติที่จะสูงสำหรับเอกสาร A เนื่องจากมีคำต่าง ๆ มากมายที่เกิดขึ้นไม่บ่อยนักและต่ำสำหรับเอกสาร B เพราะมันมีหนึ่งคำ (หรือคำไม่กี่คำ) ที่เกิดขึ้นบ่อยครั้ง

โดยทั่วไปแล้วจะวัดการกระจายตัวหรือ "สเปรด" ในข้อมูลระบุได้อย่างไร

มีวิธีมาตรฐานในการทำสิ่งนี้ในชุมชนการวิเคราะห์ข้อความหรือไม่?

ป้อนคำอธิบายรูปภาพที่นี่

ป้อนคำอธิบายรูปภาพที่นี่

คำตอบ:


10

สำหรับความน่าจะเป็น (สัดส่วนหรือหุ้น) ข้อสรุป 1, ครอบครัวΣ พีฉัน [ LN ( 1 / P ฉัน ) ] ห่อหุ้มข้อเสนอหลายมาตรการ (ดัชนีสัมประสิทธิ์อะไรก็ตาม) ในดินแดนแห่งนี้ ดังนั้นpipia[ln(1/pi)]b

  1. ส่งคืนจำนวนคำที่แตกต่างซึ่งสังเกตได้ซึ่งเป็นวิธีที่ง่ายที่สุดในการคิดถึงโดยไม่คำนึงถึงความแตกต่างในความน่าจะเป็นที่ละเว้น สิ่งนี้มีประโยชน์เสมอหากเป็นบริบทเท่านั้น ในสาขาอื่น ๆ นี่อาจเป็นจำนวน บริษัท ในเซกเตอร์จำนวนสปีชีส์ที่สังเกตได้ที่ไซต์และอื่น ๆ โดยทั่วไปขอเรียกนี้จำนวนของสินค้าที่แตกต่างกันa=0,b=0

  2. ส่งกลับ Gini-Turing-Simpson-Herfindahl-Hirschman-Greenberg ผลบวกของความน่าจะเป็นยกกำลังสองหรือที่รู้จักกันว่าอัตราการทำซ้ำหรือความบริสุทธิ์หรือความน่าจะเป็นที่ตรงกันหรือ homozygosity มันมักจะถูกรายงานว่าเป็นส่วนประกอบของมันหรือซึ่งกันและกันบางครั้งก็อยู่ภายใต้ชื่ออื่น ๆ เช่นมลทินหรือ heterozygosity ในบริบทนี้มันเป็นความน่าจะเป็นที่คำสองคำที่สุ่มเลือกเหมือนกันและเติมเต็ม 1 - p 2 iความน่าจะเป็นที่คำสองคำนั้นแตกต่างกัน ส่วนกลับ 1 /p 2 ia=2,b=01pi21/Σพีผม2 มีการตีความตามจำนวนที่เท่ากันของหมวดหมู่ทั่วไปที่เท่ากัน บางครั้งเรียกว่าตัวเลขที่เทียบเท่ากัน เช่นการตีความสามารถเห็นได้โดยสังเกตว่าประเภททั่วไปอย่างเท่าเทียมกัน (แต่ละน่าจะทำให้1 / k ) บ่งบอกถึงΣ พี2 ฉัน = k ( 1 / k ) 2 = 1 / kเพื่อให้ซึ่งกันและกันของความน่าจะเป็นเพียงk การเลือกชื่อมีแนวโน้มที่จะหักล้างข้อมูลที่คุณทำงานอยู่ แต่ละฟิลด์ให้เกียรติแก่บรรพบุรุษของตัวเอง แต่ฉันขอชมเชยความน่าจะเป็นของการแข่งขันที่เรียบง่ายและเกือบจะนิยามตนเองk1/kΣพีผม2=k(1/k)2=1/kk

  3. ส่งคืนเอนโทรปีของแชนนอนมักเขียนว่า Hและส่งสัญญาณโดยตรงหรือโดยอ้อมในคำตอบก่อนหน้า เอนโทรปีชื่อติดอยู่ที่นี่ด้วยเหตุผลที่ยอดเยี่ยมและไม่ดีนักรวมถึงความอิจฉาทางฟิสิกส์เป็นครั้งคราว โปรดทราบว่า exp ( H )เป็นตัวเลขที่เทียบเท่ากับการวัดนี้เท่าที่เห็นจากการสังเกตในรูปแบบที่คล้ายคลึงกันที่ kหมวดหมู่ทั่วไปเท่า ๆ กันให้ผลผลิต H = k ( 1 / k ) ln [ 1 / ( 1 / k /a=1,=1Hประสบการณ์(H)kและด้วยเหตุนี้ประสบการณ์( H ) = ประสบการณ์( LN k )ช่วยให้คุณสำรองk เอนโทรปีมีคุณสมบัติที่ยอดเยี่ยมมากมาย "ทฤษฎีสารสนเทศ" เป็นคำค้นหาที่ดีH=Σk(1/k)LN[1/(1/k)]=LNkประสบการณ์(H)=ประสบการณ์(LNk)k

สูตรที่พบใน IJ ดี พ.ศ. 2496 ความถี่ของชนิดและการประมาณค่าพารามิเตอร์ของประชากร Biometrika 40: 237-264 www.jstor.org/stable/2333344

ฐานลอการิทึมอื่น ๆ (เช่น 10 หรือ 2) มีความเป็นไปได้ที่เท่ากันตามรสนิยมหรือแบบอย่างหรือความสะดวกสบายโดยมีรูปแบบที่เรียบง่ายเพียงนัยสำหรับบางสูตรด้านบน

การค้นพบที่เป็นอิสระใหม่ (หรือการรวมซ้ำ) ของมาตรการที่สองนั้นมีความหลากหลายในหลายสาขาวิชาและชื่อข้างต้นอยู่ไกลจากรายการที่สมบูรณ์

การใช้มาตรการร่วมกันในครอบครัวไม่ใช่แค่การดึงดูดทางคณิตศาสตร์ มันขีดเส้นใต้ว่ามีทางเลือกของการวัดขึ้นอยู่กับน้ำหนักสัมพัทธ์ที่นำไปใช้กับสิ่งของที่หายากและทั่วไป วรรณกรรมในบางสาขาอ่อนแอลงโดยเอกสารและแม้แต่หนังสือที่อ้างว่าผอมบางที่ผู้เขียนชื่นชอบเป็นมาตรการที่ดีที่สุดที่ทุกคนควรใช้

การคำนวณของฉันระบุว่าตัวอย่าง A และ B ไม่แตกต่างกันยกเว้นในการวัดครั้งแรก:

----------------------------------------------------------------------
          |  Shannon H      exp(H)     Simpson   1/Simpson      #items
----------+-----------------------------------------------------------
        A |      0.656       1.927       0.643       1.556          14
        B |      0.684       1.981       0.630       1.588           9 
----------------------------------------------------------------------

(บางคนอาจสนใจที่จะทราบว่า Simpson ที่ตั้งชื่อที่นี่ (Edward Hugh Simpson, 1922-) เป็นเช่นเดียวกับที่ได้รับเกียรติจากบุคคลที่ผิดธรรมดาของ Simpson เขาทำงานได้ดี แต่เขาไม่ใช่คนแรกที่ค้นพบสิ่งที่ เขาชื่อซึ่งก็คือความขัดแย้งของ Stigler ซึ่งในทางกลับกัน .... )


นี่เป็นคำตอบที่ยอดเยี่ยม (และง่ายต่อการติดตามมากกว่ากระดาษดี 1953;) ขอบคุณ!
dB '

7

ฉันไม่รู้ว่ามีวิธีการทำแบบนี้หรือเปล่า แต่มันก็ดูคล้ายกับคำถามความไม่เท่าเทียมทางเศรษฐศาสตร์ หากคุณปฏิบัติกับแต่ละคำเป็นรายบุคคลและจำนวนของพวกเขาเปรียบได้กับรายได้คุณสนใจที่จะเปรียบเทียบว่ากระเป๋าคำอยู่ระหว่างสุดขั้วของคำทุกคำที่มีจำนวนเท่ากัน (ความเท่าเทียมกันสมบูรณ์) หรือหนึ่งคำที่มีค่าทั้งหมด และคนอื่น ๆ เป็นศูนย์ ภาวะแทรกซ้อนที่ "เลขศูนย์" ไม่ปรากฏคุณไม่สามารถมีจำนวนน้อยกว่า 1 ในถุงของคำตามที่กำหนด ...

ค่าสัมประสิทธิ์ Gini ของ A คือ 0.18 และของ B คือ 0.43 ซึ่งแสดงว่า A นั้น "มีความเท่าเทียม" มากกว่า B

library(ineq)

A <- c(3, 2, 2, rep(1, 11))
B <- c(9, 2, rep(1, 7))
Gini(A)
Gini(B)

ฉันสนใจคำตอบอื่น ๆ ด้วย เห็นได้ชัดว่าความแปรปรวนแบบเก่าในการนับจะเป็นจุดเริ่มต้นเช่นกัน แต่คุณต้องปรับขนาดเพื่อให้มันเทียบเคียงกับกระเป๋าที่มีขนาดแตกต่างกันและด้วยเหตุนี้ค่าเฉลี่ยที่แตกต่างกันนับต่อคำ


โทรดี - ค่าสัมประสิทธิ์ Gini เป็นความคิดแรกของฉันเช่นกัน! อย่างไรก็ตามการค้นหาบน Google Scholar แต่ฉันไม่พบแบบอย่างมากสำหรับการใช้งานกับข้อมูลตัวอักษร ฉันสงสัยว่าชุมชนการสืบค้น NLP / ข้อความมีการวัดมาตรฐานมากกว่าสำหรับเรื่องแบบนี้หรือไม่
dB '

ระวัง: โดยการนับของฉัน Gini ได้รับการตั้งชื่อให้อย่างน้อยสามมาตรการที่แตกต่างกัน ประวัติศาสตร์สามารถป้องกันได้ในแต่ละกรณี แต่ผู้คนจำเป็นต้องดูสูตรที่ใช้
Nick Cox

1
Good point @NickCox - ฉันคิดถึงสิ่งนี้ซึ่งใช้สำหรับความไม่เท่าเทียมกันซึ่งฉันคิดว่าเป็นการใช้งานทั่วไป: ellisp.github.io/blog/2017/08/05/weighted-giniฉันได้เห็นวิธีการที่แตกต่างกันของ ประมาณ / คำนวณ แต่ทั้งหมดมีความหมายพื้นฐานเดียวกันในบริบทนี้ ฉันรู้ว่าคนที่เรียนรู้ด้วยเครื่องใช้มันเพื่อสิ่งที่แตกต่างกัน แต่ยังไม่ได้เห็นข้อแก้ตัวของพวกเขา ...
Peter Ellis

1
@dB 'ฉันพบกระดาษนี้ในการใช้ Gini ในแอปพลิเคชันข้อความ: ดำเนินการต่อไป . mlr.press/v10/sanasam10a/sanasam10a.pdf (ฉันชอบคำตอบนี้กับคำตอบที่ได้รับการยอมรับเช่นเดียวกับการแยก A และ A B!)
Darren Cook

5

นี้บทความมีการทบทวนมาตรการการกระจายมาตรฐานที่ใช้โดยนักภาษาศาสตร์ พวกเขาถูกระบุว่าเป็นมาตรการกระจายคำเดียว (พวกเขาวัดการกระจายของคำข้ามส่วนหน้า ฯลฯ ) แต่สามารถใช้เป็นมาตรการกระจายความถี่คำ สถิติทางสถิติดูเหมือนจะเป็น:

  1. สูงสุดนาที
  2. ส่วนเบี่ยงเบนมาตรฐาน
  3. V
  4. χ2

คลาสสิกคือ:

  1. D=1-Vn-1
  2. S=ยังไม่มีข้อความ(Σผม=1nnผม)2n
  3. D2=(เข้าสู่ระบบ2ยังไม่มีข้อความ-Σผม=1nnผมเข้าสู่ระบบ2nผมยังไม่มีข้อความ)/เข้าสู่ระบบ2(n)
  4. D3=1-χ24ยังไม่มีข้อความ

ยังไม่มีข้อความnnผม

ข้อความยังกล่าวถึงการกระจายตัวอีกสองมาตรการ แต่ขึ้นอยู่กับการวางตำแหน่งของคำดังนั้นจึงไม่เหมาะกับรูปแบบของคำ

  • หมายเหตุ : ฉันเปลี่ยนสัญกรณ์ดั้งเดิมจากบทความเพื่อให้สูตรสอดคล้องกับสัญกรณ์มาตรฐานมากขึ้น

xผม

โวลต์ผม

1
เหตุใดสมการจากแหล่งที่มาจึงไม่ถูกคัดลอกอย่างแน่นอน (ไม่ใช่แค่การเปลี่ยนป้ายในนิพจน์ แต่เป็นการเปลี่ยนนิพจน์หรืออย่างน้อยก็ไม่ใช่การเปลี่ยนแปลงที่สอดคล้องกันของเลเบล / ตัวแปร)
Sextus Empiricus

@NickCox ขอบคุณที่ทราบว่าฉันแก้ไขสูตรเพื่อรวมเฉพาะปริมาณที่กำหนดไว้
Chris Novak

@MartijnWeterings คุณพูดถูกว่าบทความนี้เกี่ยวข้องกับการวัดการกระจายคำคำเดียว แต่ดูเหมือนว่าพวกเขาจะพูดคุยกับความถี่ของคำเพียงเล็กน้อย ในกรณีที่ฉันรวมข้อมูลนั้นไว้ในคำตอบ ฉันเปลี่ยนรูปแบบดั้งเดิมเพื่อให้สิ่งเหล่านี้ใช้ได้กับรูปแบบของคำ (แทนที่ f ด้วย N และ v_i ด้วย n_i) ฉันได้เพิ่มบันทึกย่อเพื่อให้ลงชื่อเข้าใช้สิ่งนี้ แต่ถ้าคุณคิดว่ามันยังทำให้เข้าใจผิดฉันสามารถให้เหตุผลที่ยาวกว่าในคำตอบ
Chris Novak

4

ครั้งแรกที่ฉันจะทำคือการคำนวณเอนโทรปีของแชนนอน คุณสามารถใช้แพคเกจ R infotheo, entropy(X, method="emp")ฟังก์ชั่น ถ้าคุณnatstobits(H)ล้อมรอบมันคุณจะได้เอนโทรปีของแหล่งนี้เป็นบิต


3

พี(พี1,...,พีn)

H¯(พี)-ΣพีผมLNพีผมLNn.

0H¯(พี)1

  • kพีผม=ผม(ผม=k)H¯(พี)=0

  • พีผม=1/nH¯(พี)=1

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.