วิธีการวัด“ ความรอบรู้” ของผู้มีส่วนร่วม SE?


12

Stack Exchange อย่างที่เราทุกคนรู้กันดีว่าเป็นคอลเลกชันของเว็บไซต์ถาม - ตอบพร้อมหัวข้อที่หลากหลาย สมมติว่าแต่ละไซต์มีความเป็นอิสระจากกันเนื่องจากสถิติที่ผู้ใช้มีวิธีคำนวณ "ความรอบรู้" เมื่อเปรียบเทียบกับคนต่อไป เครื่องมือทางสถิติที่ฉันควรใช้คืออะไร

ความจริงแล้วฉันไม่รู้วิธีกำหนดทางคณิตศาสตร์ "ความรอบรู้" แต่มันต้องมีคุณสมบัติดังต่อไปนี้:

  1. ทุกสิ่งเท่ากันยิ่งมีผู้ใช้มากขึ้นเท่าไหร่เขาก็ยิ่งมีความรอบรู้มากขึ้นเท่านั้น
  2. ทุกสิ่งเท่าเทียมกันยิ่งมีผู้ใช้เข้าร่วมมากเท่าไหร่ก็ยิ่งมีผู้เข้าร่วมมากเท่านั้น
  3. การตอบหรือคำถามไม่ได้ส่งผลกระทบต่อความกลม

คุณจะกำหนด "ความรอบรู้" ในบริบทของ SE อย่างไรก่อนอื่น?
JM ไม่ใช่นักสถิติ

@JM ฉันไม่รู้นั่นเป็นเหตุผลว่าทำไมฉันจึงหวังว่าชุมชนจะช่วยให้แนวคิดรวบยอดมากขึ้น
Graviton

1
มีความเสี่ยงที่จะเกิดเสียงเหมือนตำรวจคอมพิวเตอร์หัวเข่าคนหนึ่ง - ขอให้รวมสตรีที่เข้าชมเว็บไซต์ของเรา @ Graviton การอ้างอิงทั้งหมดของคุณสำหรับผู้ชาย
rolando2

ความรอบรู้ที่กำหนดโดย ID ผู้ใช้ไม่ได้บอกคุณเกี่ยวกับความรอบรู้ของผู้มีส่วนร่วมเนื่องจากผู้มีส่วนร่วมอาจมี ID ผู้ใช้ที่แตกต่างกันสำหรับ SE ที่แตกต่างกัน ผู้ใช้บางคนอาจใช้ ID ผู้ใช้มากกว่าหนึ่งราย (เช่นพันธมิตรที่แบ่งปันบัญชี)
Alexis

คำตอบ:


7

คุณต้องคำนึงถึงความคล้ายคลึงกันระหว่างเว็บไซต์ด้วย ใครบางคนที่มีส่วนร่วมใน StackOverflow และเก๋าแนะนำเป็นมากกว่ารอบรู้กว่าคนที่มีส่วนร่วมในดังนั้น CrossValidated และผู้ที่อยู่ในทางกลับกัน (ผมจะเถียง) เพิ่มเติมรอบรู้กว่าคนที่มีส่วนร่วมใน SO และโปรแกรมเมอร์ มีหลายวิธีที่จะทำเช่นนั้นได้อย่างแน่นอน แต่คุณสามารถตรวจสอบการลงทะเบียนที่ทับซ้อนกันเพื่อทำความเข้าใจ


1
@ Matt Parker คะแนนดี - ถ้าตัวแทนเป็นส่วนหนึ่งของการวัดฉันคิดว่าคุณต้องดูว่าตัวแทนได้รับมาอย่างไร คนที่ได้รับตัวแทนจากผลกำไรเล็ก ๆ น้อย ๆ จากคำถาม / คำตอบมากมายน่าจะถูกปัดเศษได้ดีกว่าคนที่ได้รับตัวแทนคนเดียวกันในคำถามเดียวที่ได้รับคะแนนโหวตจำนวนมาก
DQdlM

3
@ เคนนี่เป็นจุดที่ดีและฉันคิดว่าวิธีที่คุณพูดถูกต้อง - แต่ฉันรู้สึกว่าคำถามและคำตอบที่ได้รับการโหวตมากที่สุดมักจะบ่งบอกถึงความเชี่ยวชาญน้อยที่สุดในขณะที่คำตอบที่ดีสำหรับคำถามทางเทคนิค คะแนนโหวตต่ำมาก
Matt Parker

1
ตรวจสอบคำตอบของ whuber เช่น คำตอบของเขานั้นยอดเยี่ยมเหมือนกันดังนั้นอะไรคือความแตกต่างระหว่างคำตอบที่ได้รับคะแนนสูงและผู้โหวต 1 คนของเขา? เมื่อฉันดูที่อดีตฉันเห็นคำตอบที่ยอดเยี่ยมสำหรับคำถามที่ฉันเข้าใจ ในตอนท้ายคำตอบที่ยอดเยี่ยมสำหรับคำถามที่ฉันไม่เคยแม้แต่จะเริ่มบ่น ดังนั้นคำตอบที่ได้คะแนนต่ำอาจบ่งบอกถึงความเชี่ยวชาญระดับลึก (แต่โปรดทราบว่า: หากคุณสงสัยว่าผู้ใช้ SE ที่มีรูปร่างหน้าตาเป็นอย่างไร
Matt Parker

1
ในความเป็นจริง @Graviton อาจเป็นการดีที่จะค้นหาผู้ใช้หลายไซต์ที่คุณต้องการพิจารณาว่ามีความรอบรู้และดูว่าพวกเขาปฏิบัติงานอย่างไรในเมตริกต่างๆของคุณ
Matt Parker

1
@KennyPeanuts เพื่อเติมเต็มจุดของ @Matt ด้านบนดูเหมือนว่าจะมีผู้ใช้จำนวนมากที่เห็นคุณค่าในไซต์ SE ที่ตอบคำถามจำนวนมาก แต่ยังยอมแพ้น้อย นั่นไม่ใช่สิ่งที่บ่งบอกถึงความเชี่ยวชาญหรือความโค้งมน (แม้ว่ามันเป็นหนึ่งในกลยุทธ์ที่ง่ายที่สุดในการรวบรวม "ชื่อเสียง")
พระคาร์ดินัล

6

ตัวอย่าง: พูดว่ามีสามไซต์และเราต้องการเปรียบเทียบความรอบรู้ของผู้ใช้ A, B, C เราเขียนถึงชื่อเสียงของผู้ใช้ในสามเว็บไซต์ในรูปแบบเวคเตอร์:

ผู้ใช้ A: [23, 23, 0]

ผู้ใช้ B: [15, 15, 0]

ผู้ใช้ C: [10, 10, 10]

เราจะพิจารณา A ที่มีความรอบรู้มากกว่า B (ชื่อเสียงของพวกเขานั้นมีการกระจายอย่างทั่วถึงในสองไซต์ แต่ A มีชื่อเสียงโดยรวมมากกว่า) นอกจากนี้เราจะพิจารณา C รอบรู้ดีกว่า B (พวกเขามีชื่อเสียงโดยรวมเท่ากัน แต่ C มีการแพร่กระจายอย่างทั่วถึงในไซต์อื่น ๆ มากขึ้น) มันไม่แน่ใจว่า A ควรพิจารณาว่าปัดเศษได้ดีกว่า C หรือในทางกลับกัน .

ให้ , x B , x Cเป็นเวกเตอร์ของชื่อเสียงด้านบนตามลำดับxAxBxC

f(x)ff(xA)>f(xB)f(xC)>f(xB)

f(x)

ตัวอย่างทั่วไปของฟังก์ชันนูนคือ'เศษส่วนบรรทัดฐาน'

f([x1,...,xm])=ixip

0<p<1

p=1/2

f(xA)=2239.6
f(xB)=2157.7
f(xC)=3109.5

1/2

f

f([x1,...,xm])=ixilog(xi/c).

c=ixi

f

f(xA)=46log(2)31.9
f(xB)=30log(2)20.8
f(xC)=30log(3)33.0

วัดจากเอนโทรปีของ Shannon ที่ปรับขนาดแล้วเราจะบอกว่า C เป็นรอบที่ดีที่สุดของทั้งสามและ A เป็นรอบที่สองที่โค้งมนที่สุด

f(x)

EDIT2: เพิ่มตัวอย่างในแง่ของความคิดเห็นของ whuber


f

f[1,101]f

Fractional norm ไม่ได้กำหนดไว้เมื่อใด ๆ x_i <0 แชนนอนเอนโทรปีล้มเหลวเมื่อใด ๆ ที่ x_i / c It 0 ไม่เหมาะสมที่การวัดของความโค้งมนจะเกิดขึ้นเมื่อ x_i เปลี่ยนจาก 0 เป็น -𝜀
200_success

4

นี่เป็นคำถามที่น่าสนใจจริงๆ (จริง ๆ แล้วฉันชอบความคิดในการสร้างแบบจำลองไซต์แลกเปลี่ยนแลกเปลี่ยนโดยทั่วไป)

ในเรื่องของความรอบรู้วิธีหนึ่งในการประเมินสิ่งนี้คือผ่านแท็กที่ผู้ใช้บางรายมักจะตอบและกระจายไปทั่วไซต์ ตัวอย่างอาจทำให้ชัดเจนกว่านี้

ฉันเป็นสมาชิกใน TeX, StackOverflow, CrossValidated และ AskUbuntu ตอนนี้ฉันมีส่วนร่วมที่นี่และ StackOverflow เท่านั้นและเกี่ยวกับ R ใน Stackoverflow เท่านั้น ดังนั้นเพื่อกำหนดความกลมกลืนที่ดีฉันจะดู a) จำนวนของแท็กที่ทั้งสองเว็บไซต์มีร่วมกัน (เพื่อกำหนดความคล้ายคลึงกันในเว็บไซต์) และขอบเขตที่ผู้ใช้ตอบคำถามในไซต์ที่มีแท็กน้อยหรือไม่มีเลย

ตัวอย่างเช่นหากมีคนสนับสนุนแท็ก Python บน StackOverflow และการทำอาหารบุคคลนั้นจะมีความโค้งมนมากกว่าคนที่ตอบคำถามคำถามซอฟต์แวร์เชิงสถิติ (เช่น) สำหรับคำถามเกี่ยวกับ Overflow และสถิติที่นี่

ฉันหวังว่านี่จะเป็นประโยชน์บ้าง


4
(+1) คนที่มีส่วนร่วมกับแท็ก Python ทั้งบนและการปรุงอาหารมีรสชาติแปลกใหม่ในอาหาร :-) ฉันได้ยินรสชาติเหมือนไก่
whuber

3

หากคุณกำหนด 'ความโค้งมนอย่างดี' เป็น 'การมีส่วนร่วมในเว็บไซต์ Exchange Stack ที่แตกต่างกันมากมาย' ฉันจะคำนวณตัวชี้วัดการสนับสนุนต่อไซต์ คุณสามารถใช้โพสต์ทั้งหมดหรือโพสต์เฉลี่ยต่อวันหรืออาจมีชื่อเสียง จากนั้นดูการกระจายตัวชี้วัดนี้ไปทั่วทุกไซต์และคำนวณความเบ้ของมันด้วยวิธีการที่เหมาะสม

กล่าวอีกนัยหนึ่งคน 'รอบรู้' จะเป็นคนที่มีส่วนร่วมในเว็บไซต์ต่าง ๆ ในขณะที่คนที่ไม่กลมกลืนจะเป็นคนที่มีส่วนสำคัญในเว็บไซต์หนึ่ง คุณสามารถปรับปรุงสิ่งนี้ได้อีกโดยปรับมาตรวัดของคุณด้วยผลรวมของผู้ใช้ในทุกไซต์ นั่นคือใครบางคนที่มีส่วนร่วมในเว็บไซต์ต่าง ๆ มากมายควรได้รับการพิจารณาให้ดีกว่าคนที่ไม่ได้มีส่วนร่วมกับเว็บไซต์ใด ๆ คนที่ไม่เคยใช้ SE ไม่ได้กลมกลืนมาก!


1

มีคำตอบที่ดีอยู่แล้วทำไมอีกอย่างหนึ่ง นี้เป็นส่วนใหญ่เพื่อดึงดูดความสนใจกับความคิดที่น่าสนใจที่กล่าวถึงที่นี่ที่n-Caféหมวดหมู่ ในขณะที่ความหลากหลายทางนิเวศวิทยา (และที่อื่น ๆ ) ส่วนใหญ่จะดูที่ความอุดมสมบูรณ์เพียงอย่างเดียว แต่ก็ควรดูว่าสปีชี่ส์ที่แตกต่างกันนั้นแตกต่างกันอย่างไร

โดยเป็นตัวแทนของสปีชีส์ (หรืออะไรก็ตามเช่นเว็บไซต์ SE ... ) เป็นจุดในพื้นที่ตัวชี้วัดนำไปสู่การนี้เพื่อ generalizing เอนโทรปีเพื่อพื้นที่วัดให้ดูเช่นเอนโทรปีสูงสุดของพื้นที่ตัวชี้วัดโดยทอมสเตอร์เอมิลี่ Roff แนวคิดเดียวกันนี้สามารถใช้ภายในไซต์ SE โดยดูที่แท็กเป็นจุดในพื้นที่เมตริก

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.