เมื่อเร็ว ๆ นี้ฉันได้ทำการวิเคราะห์ผลกระทบของชื่อเสียงใน upvotes (ดูบล็อกโพสต์ ) และต่อมาฉันมีคำถามสองสามข้อเกี่ยวกับการวิเคราะห์และกราฟิกที่น่าสนใจยิ่งขึ้น (หรือเหมาะสมกว่า)
ดังนั้นคำถามสองสามข้อ (และอย่าลังเลที่จะตอบสนองต่อใครโดยเฉพาะและไม่สนใจผู้อื่น):
ในปัจจุบันชาติฉันไม่ได้หมายศูนย์หมายเลขโพสต์ ฉันคิดว่าสิ่งนี้จะให้ลักษณะที่ผิดพลาดของความสัมพันธ์เชิงลบใน scatterplot เนื่องจากมีการโพสต์มากขึ้นไปจนถึงระดับล่างสุดของการนับโพสต์ (คุณเห็นว่าสิ่งนี้ไม่ได้เกิดขึ้นในแผง Jon Skeet เฉพาะผู้ใช้ที่ตาย แผงหน้าปัด). มันไม่เหมาะสมที่จะไม่หมายถึงหมายเลขศูนย์โพสต์ (เพราะฉันหมายถึงคะแนนอยู่ตรงกลางต่อคะแนนเฉลี่ยของผู้ใช้)?
ควรชัดเจนจากกราฟที่ให้คะแนนว่าเอียงขวาสูง (และค่าเฉลี่ยอยู่ตรงกลางไม่ได้เปลี่ยนแปลงสิ่งใด) เมื่อติดตั้งสายการถดถอยฉันพอดีทั้งตัวแบบเชิงเส้นและตัวแบบโดยใช้ข้อผิดพลาดที่ฮูเบอร์ - ไวท์ (ซึ่ง
rlm
อยู่ในแพ็คเกจ MASS R ) และมันก็ไม่ได้สร้างความแตกต่างในการประมาณความชัน ฉันควรพิจารณาการแปลงเป็นข้อมูลแทนที่จะเป็นการถดถอยที่มีประสิทธิภาพหรือไม่ โปรดทราบว่าการเปลี่ยนแปลงใด ๆ จะต้องคำนึงถึงความเป็นไปได้ของ 0 และคะแนนลบ หรือฉันควรใช้รูปแบบชนิดอื่นเพื่อนับข้อมูลแทน OLS หรือไม่ฉันเชื่อว่ากราฟิกสองตัวสุดท้ายโดยทั่วไปสามารถปรับปรุงได้ (และเกี่ยวข้องกับกลยุทธ์การสร้างแบบจำลองที่ดีขึ้นเช่นกัน) ในความเห็นของฉัน (ฉันเบื่อ) ฉันจะสงสัยว่าผลกระทบของชื่อเสียงเป็นจริงพวกเขาจะได้รับรู้ล่วงหน้าในประวัติผู้โพสต์ (ฉันคิดว่าถ้าเป็นจริงสิ่งเหล่านี้อาจได้รับการพิจารณาใหม่ "คุณให้คำตอบที่ดีเยี่ยม โพสต์ผลกระทบ "แทน" ชื่อเสียงโดยคะแนนรวม ") ฉันจะสร้างกราฟิกเพื่อแสดงให้เห็นว่าสิ่งนี้เป็นเรื่องจริงได้หรือไม่โดยคำนึงถึงการพล็อตที่มากเกินไป? ฉันคิดว่าอาจเป็นวิธีที่ดีในการแสดงให้เห็นว่านี่อาจจะเป็นแบบของแบบฟอร์ม;
ที่คือ(เช่นเดียวกับที่อยู่ใน scatterplots ปัจจุบัน)เป็นและเป็นตัวแปรดัมมี่เป็นตัวแทนบางช่วงโดยพลการของจำนวนโพสต์ (ตัวอย่างเช่นเท่ากับถ้าจำนวนการโพสต์,เท่ากับถ้า หมายเลขโพสต์เป็นต้น) และเป็นจุดตัดใหญ่และคำผิดพลาดตามลำดับ จากนั้นฉันก็จะตรวจสอบลาดประมาณเพื่อตรวจสอบว่าผลกระทบที่มีชื่อเสียงปรากฏขึ้นในช่วงต้นในประวัติศาสตร์โปสเตอร์ (หรือแสดงกราฟิก) นี่เป็นแนวทางที่สมเหตุสมผล (และเหมาะสม) หรือไม่?score - (mean score per user)
post number
1
1 through 25
1
26 through 50
ดูเหมือนว่าเป็นที่นิยมเพื่อให้พอดีกับเส้นบางชนิดที่ไม่ใช่พารามิเตอร์เพื่อการกระจายแบบนี้ (เช่นเหลืองหรือเส้นโค้ง) แต่การทดลองของฉันด้วยเส้นโค้งไม่ได้เปิดเผยอะไรเลย enlightening (หลักฐานใด ๆ ของผล postive ในประวัติศาสตร์โปสเตอร์เล็กน้อยและอุณหภูมิ ตามจำนวนเส้นโค้งที่ฉันรวมไว้) เนื่องจากฉันมีสมมุติฐานว่าผลกระทบเกิดขึ้น แต่เนิ่นๆวิธีการสร้างแบบจำลองของฉันมีความเหมาะสมมากกว่าเส้นโค้งหรือไม่?
โปรดทราบว่าแม้ว่าฉันจะขุดข้อมูลทั้งหมดนี้แล้วก็ยังมีชุมชนอื่นอีกมากที่จะทำการตรวจสอบ (และบางอย่างเช่น superuser และ serverfault มีตัวอย่างขนาดใหญ่ที่จะดึงออกมาจากกัน) ดังนั้นจึงมีเหตุผลมากมายที่จะแนะนำในอนาคต การวิเคราะห์ที่ฉันใช้ตัวอย่างที่ระงับไว้เพื่อตรวจสอบความสัมพันธ์ใด ๆ