ฉันจะปรับปรุงการวิเคราะห์ผลกระทบของชื่อเสียงในการลงคะแนนได้อย่างไร


15

เมื่อเร็ว ๆ นี้ฉันได้ทำการวิเคราะห์ผลกระทบของชื่อเสียงใน upvotes (ดูบล็อกโพสต์ ) และต่อมาฉันมีคำถามสองสามข้อเกี่ยวกับการวิเคราะห์และกราฟิกที่น่าสนใจยิ่งขึ้น (หรือเหมาะสมกว่า)

ดังนั้นคำถามสองสามข้อ (และอย่าลังเลที่จะตอบสนองต่อใครโดยเฉพาะและไม่สนใจผู้อื่น):

  1. ในปัจจุบันชาติฉันไม่ได้หมายศูนย์หมายเลขโพสต์ ฉันคิดว่าสิ่งนี้จะให้ลักษณะที่ผิดพลาดของความสัมพันธ์เชิงลบใน scatterplot เนื่องจากมีการโพสต์มากขึ้นไปจนถึงระดับล่างสุดของการนับโพสต์ (คุณเห็นว่าสิ่งนี้ไม่ได้เกิดขึ้นในแผง Jon Skeet เฉพาะผู้ใช้ที่ตาย แผงหน้าปัด). มันไม่เหมาะสมที่จะไม่หมายถึงหมายเลขศูนย์โพสต์ (เพราะฉันหมายถึงคะแนนอยู่ตรงกลางต่อคะแนนเฉลี่ยของผู้ใช้)?

  2. ควรชัดเจนจากกราฟที่ให้คะแนนว่าเอียงขวาสูง (และค่าเฉลี่ยอยู่ตรงกลางไม่ได้เปลี่ยนแปลงสิ่งใด) เมื่อติดตั้งสายการถดถอยฉันพอดีทั้งตัวแบบเชิงเส้นและตัวแบบโดยใช้ข้อผิดพลาดที่ฮูเบอร์ - ไวท์ (ซึ่งrlmอยู่ในแพ็คเกจ MASS R ) และมันก็ไม่ได้สร้างความแตกต่างในการประมาณความชัน ฉันควรพิจารณาการแปลงเป็นข้อมูลแทนที่จะเป็นการถดถอยที่มีประสิทธิภาพหรือไม่ โปรดทราบว่าการเปลี่ยนแปลงใด ๆ จะต้องคำนึงถึงความเป็นไปได้ของ 0 และคะแนนลบ หรือฉันควรใช้รูปแบบชนิดอื่นเพื่อนับข้อมูลแทน OLS หรือไม่

  3. ฉันเชื่อว่ากราฟิกสองตัวสุดท้ายโดยทั่วไปสามารถปรับปรุงได้ (และเกี่ยวข้องกับกลยุทธ์การสร้างแบบจำลองที่ดีขึ้นเช่นกัน) ในความเห็นของฉัน (ฉันเบื่อ) ฉันจะสงสัยว่าผลกระทบของชื่อเสียงเป็นจริงพวกเขาจะได้รับรู้ล่วงหน้าในประวัติผู้โพสต์ (ฉันคิดว่าถ้าเป็นจริงสิ่งเหล่านี้อาจได้รับการพิจารณาใหม่ "คุณให้คำตอบที่ดีเยี่ยม โพสต์ผลกระทบ "แทน" ชื่อเสียงโดยคะแนนรวม ") ฉันจะสร้างกราฟิกเพื่อแสดงให้เห็นว่าสิ่งนี้เป็นเรื่องจริงได้หรือไม่โดยคำนึงถึงการพล็อตที่มากเกินไป? ฉันคิดว่าอาจเป็นวิธีที่ดีในการแสดงให้เห็นว่านี่อาจจะเป็นแบบของแบบฟอร์ม;

Y=β0+β1(X1)+α1(Z1)+α2(Z2)αk(Zk)+γ1(Z1X1)γk(ZkX1)+ϵ

ที่คือ(เช่นเดียวกับที่อยู่ใน scatterplots ปัจจุบัน)เป็นและเป็นตัวแปรดัมมี่เป็นตัวแทนบางช่วงโดยพลการของจำนวนโพสต์ (ตัวอย่างเช่นเท่ากับถ้าจำนวนการโพสต์,เท่ากับถ้า หมายเลขโพสต์เป็นต้น) และเป็นจุดตัดใหญ่และคำผิดพลาดตามลำดับ จากนั้นฉันก็จะตรวจสอบลาดประมาณเพื่อตรวจสอบว่าผลกระทบที่มีชื่อเสียงปรากฏขึ้นในช่วงต้นในประวัติศาสตร์โปสเตอร์ (หรือแสดงกราฟิก) นี่เป็นแนวทางที่สมเหตุสมผล (และเหมาะสม) หรือไม่?Yscore - (mean score per user)X1post numberZ1ZkZ111 through 25Z2126 through 50β0ϵγ

ดูเหมือนว่าเป็นที่นิยมเพื่อให้พอดีกับเส้นบางชนิดที่ไม่ใช่พารามิเตอร์เพื่อการกระจายแบบนี้ (เช่นเหลืองหรือเส้นโค้ง) แต่การทดลองของฉันด้วยเส้นโค้งไม่ได้เปิดเผยอะไรเลย enlightening (หลักฐานใด ๆ ของผล postive ในประวัติศาสตร์โปสเตอร์เล็กน้อยและอุณหภูมิ ตามจำนวนเส้นโค้งที่ฉันรวมไว้) เนื่องจากฉันมีสมมุติฐานว่าผลกระทบเกิดขึ้น แต่เนิ่นๆวิธีการสร้างแบบจำลองของฉันมีความเหมาะสมมากกว่าเส้นโค้งหรือไม่?

โปรดทราบว่าแม้ว่าฉันจะขุดข้อมูลทั้งหมดนี้แล้วก็ยังมีชุมชนอื่นอีกมากที่จะทำการตรวจสอบ (และบางอย่างเช่น superuser และ serverfault มีตัวอย่างขนาดใหญ่ที่จะดึงออกมาจากกัน) ดังนั้นจึงมีเหตุผลมากมายที่จะแนะนำในอนาคต การวิเคราะห์ที่ฉันใช้ตัวอย่างที่ระงับไว้เพื่อตรวจสอบความสัมพันธ์ใด ๆ


ผมได้ทำในขณะบันทึกบางส่วนกับคำถามแรกของฉันและพวกเขาสามารถพบได้ที่นี่ ฉันไม่แน่ใจในขณะนี้ว่าฉันควรโพสต์สิ่งนี้เป็นคำตอบสำหรับคำถามของฉันเองหรือเปิดคำถามแยกต่างหาก (เพราะส่วนใหญ่เน้นไปที่การสร้างภาพข้อมูล) แต่รู้สึกอิสระที่จะทิ้งฉันความคิดเห็นเกี่ยวกับ Google เอกสารอย่างใดอย่างหนึ่งที่นี่หรือในห้องแชท
Andy W

คำตอบ:


14

นี่เป็นความพยายามที่กล้าหาญ แต่ด้วยข้อมูลเหล่านี้เพียงอย่างเดียวมันจะเป็นเรื่องยากหรือเป็นไปไม่ได้ที่จะตอบคำถามการวิจัยของคุณเกี่ยวกับ "ผลกระทบของชื่อเสียงในการ upvotes" ปัญหาอยู่ที่การแยกเอฟเฟกต์ของปรากฏการณ์อื่น ๆ ซึ่งฉันแสดงรายการพร้อมกับตัวบ่งชี้สั้น ๆ ว่าพวกเขาจะได้รับการแก้ไขอย่างไร

  • ผลกระทบการเรียนรู้ เมื่อชื่อเสียงเพิ่มขึ้นประสบการณ์ก็สูงขึ้น เมื่อมีประสบการณ์มากขึ้นเราคาดหวังให้คนโพสต์คำถามและคำตอบที่ดีกว่า เมื่อคุณภาพของพวกเขาดีขึ้นเราคาดว่าจะได้รับคะแนนมากขึ้นต่อโพสต์ กลัววิธีหนึ่งที่จะจัดการกับปัญหานี้ในการวิเคราะห์จะระบุคนที่มีการใช้งานในเว็บไซต์ SE มากกว่าหนึ่ง ในเว็บไซต์ใดก็ตามชื่อเสียงของพวกเขาจะเพิ่มขึ้นช้ากว่าจำนวนประสบการณ์ของพวกเขาดังนั้นให้จัดการเพื่อหยอกล้อนอกเหนือจากชื่อเสียงและผลการเรียนรู้

  • การเปลี่ยนแปลงชั่วคราวในบริบท สิ่งเหล่านี้มีมากมาย แต่สิ่งที่ชัดเจนจะรวมถึง

    • การเปลี่ยนแปลงจำนวนผู้ลงคะแนนเมื่อเวลาผ่านไปรวมถึงแนวโน้มโดยรวมสูงขึ้นแนวโน้มตามฤดูกาล (มักเกี่ยวข้องกับวัฏจักรการศึกษา) และค่าผิดปกติ (เกิดจากการเผยแพร่ภายนอกเช่นลิงก์ไปยังเธรดเฉพาะ) การวิเคราะห์ใด ๆ ที่จะต้องคำนึงถึงปัจจัยนี้ในเมื่อมีการประเมินแนวโน้มในชื่อเสียงสำหรับบุคคลใด

    • การเปลี่ยนแปลงในวัฒนธรรมของชุมชนเมื่อเวลาผ่านไป ชุมชนและวิธีที่พวกเขาโต้ตอบพัฒนาและพัฒนา เมื่อเวลาผ่านไปพวกเขาอาจมีแนวโน้มที่จะลงคะแนนบ่อยหรือน้อยกว่า การวิเคราะห์ใด ๆ ที่จะต้องประเมินผลกระทบนี้และปัจจัยมา

    • เวลาตัวเอง เมื่อเวลาผ่านไปโพสต์ก่อนหน้านี้ยังคงพร้อมใช้งานสำหรับการค้นหาและรวบรวมคะแนนต่อไป ดังนั้นcaeteris paribus , เก่าโพสต์ควรจะผลิตคะแนนเสียงมากกว่าคนใหม่ (นี่คือผลกระทบที่แข็งแกร่ง : บางคนสูงอย่างต่อเนื่องในลีกชื่อเสียงรายเดือนไม่ได้เข้าเยี่ยมชมเว็บไซต์นี้ตลอดทั้งปี!) นี้จะปกปิดหรือแม้กระทั่งกลับผลบวกชื่อเสียงที่เกิดขึ้นจริง การวิเคราะห์ใด ๆ ที่ต้องการที่จะเป็นปัจจัยในระยะเวลาที่แต่ละโพสต์ได้รับการเสนอบนเว็บไซต์

  • เรื่องความนิยม แท็กบางรายการ (เช่น ) ได้รับความนิยมมากกว่าแท็กอื่น ๆ ดังนั้นการเปลี่ยนแปลงประเภทของคำถามที่คำตอบของบุคคลสามารถสับสนกับการเปลี่ยนแปลงทางโลกเช่นผลกระทบชื่อเสียง ดังนั้นการวิเคราะห์ใด ๆ ที่จำเป็นต้องคำนึงถึงปัจจัยในการตอบคำถาม

  • จำนวนการดู [เพิ่มเป็นการแก้ไข] คำถามจะถูกดูโดยผู้คนจำนวนแตกต่างกันด้วยเหตุผลต่าง ๆ (ตัวกรองลิงก์ ฯลฯ ) อาจเป็นไปได้ว่าจำนวนโหวตที่ได้รับจากคำตอบนั้นเกี่ยวข้องกับจำนวนการดูแม้ว่าจะคาดว่าจะมีสัดส่วนที่ลดลงเมื่อจำนวนการดูเพิ่มขึ้น (เป็นเรื่องของจำนวนผู้ที่สนใจคำถามจริง ๆ ดูไม่ใช่จำนวนดิบของตัวเอง - ประวัติ - ประสบการณ์ - คือประมาณครึ่ง upvotes ที่ฉันได้รับคำถามมาภายใน 5-15 แรก แม้ว่าในที่สุดคำถามจะถูกดูหลายร้อยครั้ง) ดังนั้นการวิเคราะห์ใด ๆ จำเป็นต้องคำนึงถึงจำนวนครั้งในการดูแต่อาจไม่ใช่ในลักษณะเชิงเส้น

  • ปัญหาการวัด "ชื่อเสียง" คือผลรวมของคะแนนโหวตที่ได้รับสำหรับกิจกรรมต่าง ๆ : ชื่อเสียงเริ่มต้น, คำตอบ, คำถาม, การอนุมัติคำถาม, การแก้ไขแท็ก wikis, downvoting และ downvote (เรียงตามลำดับมูลค่า) เพราะองค์ประกอบเหล่านี้ประเมินสิ่งที่แตกต่างและไม่ทั้งหมดอยู่ภายใต้การควบคุมของผู้มีสิทธิเลือกตั้งชุมชนพวกเขาควรจะแยกออกจากกันสำหรับการวิเคราะห์ "ผลกระทบด้านชื่อเสียง" สันนิษฐานว่ามีความเกี่ยวข้องกับการยกระดับคำตอบและอาจจะเกี่ยวกับคำถาม แต่ไม่ควรส่งผลกระทบต่อแหล่งชื่อเสียงอื่น ๆ ควรลบชื่อเสียงเริ่มต้นอย่างแน่นอน (แต่อาจใช้เป็นพร็อกซีสำหรับจำนวนประสบการณ์เริ่มต้น)

  • ปัจจัยที่ซ่อนอยู่ อาจมีปัจจัยรบกวนอื่น ๆ อีกมากมายที่ไม่สามารถวัดได้ ตัวอย่างเช่นมีหลายรูปแบบ "เหนื่อยหน่าย" ในการเข้าร่วมในฟอรัม คนทำอะไรหลังจากสองสามสัปดาห์แรกเดือนหรือปีแห่งความกระตือรือร้น ความเป็นไปได้บางอย่างรวมถึงการมุ่งเน้นไปที่คำถามที่หายากผิดปกติหรือยาก การให้คำตอบสำหรับคำถามที่ไม่ได้รับคำตอบเท่านั้น ให้คำตอบน้อยลง แต่มีคุณภาพสูงขึ้น ฯลฯ เหล่านี้บางส่วนอาจปกปิดผลกระทบชื่อเสียงในขณะที่คนอื่นอาจสับสนกับหนึ่ง พร็อกซีสำหรับปัจจัยดังกล่าวอาจมีการเปลี่ยนแปลงในอัตราการมีส่วนร่วมของบุคคล : พวกเขาสามารถส่งสัญญาณการเปลี่ยนแปลงในลักษณะของการโพสต์ของบุคคลนั้น

  • ปรากฏการณ์ชุมชนย่อย เมื่อดูจากสถิติอย่างหนักแม้ในหน้า SE ที่มีการใช้งานอยู่มากแสดงให้เห็นว่ามีคนจำนวนไม่มากที่ตอบรับและลงคะแนนส่วนใหญ่ กลุ่มคนที่มีขนาดเล็กเพียงสองหรือสามคนสามารถมีอิทธิพลอย่างลึกซึ้งต่อการเติบโตของชื่อเสียง กลุ่มที่มีสองคนจะถูกตรวจพบโดยจอภาพในตัวของไซต์ (และมีกลุ่มดังกล่าวอยู่ในไซต์นี้) แต่กลุ่มที่มีขนาดใหญ่กว่านั้นอาจจะไม่ใช่ (ฉันไม่ได้พูดถึงการสมรู้ร่วมคิดอย่างเป็นทางการ: ผู้คนสามารถเป็นสมาชิกของกลุ่มคนดังกล่าวได้โดยไม่ต้องรับรู้) เราจะแยกชื่อเสียงที่ชัดเจนออกจากกิจกรรมของกลุ่มโบราณที่มองไม่เห็นไม่ได้ตรวจพบได้อย่างไร สามารถใช้ข้อมูลการลงคะแนนโดยละเอียดได้ แต่ฉันไม่เชื่อว่าเราสามารถเข้าถึงข้อมูลเหล่านี้ได้

  • ข้อมูลที่ จำกัด ในการตรวจจับเอฟเฟ็กต์ชื่อเสียงคุณอาจต้องมุ่งเน้นไปที่บุคคลที่มีโพสต์นับสิบถึงร้อยโพสต์ (อย่างน้อย) นั่นทำให้ประชากรปัจจุบันเหลือน้อยกว่า 50 คน ด้วยความเป็นไปได้ทั้งหมดของการแปรปรวนและการทำให้สับสนซึ่งมีขนาดเล็กเกินไปที่จะหยอกล้อออกผลกระทบที่สำคัญเว้นแต่ว่าพวกเขาจะแข็งแกร่งมาก การรักษาคือการเพิ่มชุดข้อมูลที่มีการบันทึกจากเว็บไซต์อื่น ๆ SE

จากภาวะแทรกซ้อนเหล่านี้ทั้งหมดควรมีความชัดเจนว่ากราฟิกสำรวจในบทความบล็อกมีโอกาสเพียงเล็กน้อยที่จะเปิดเผยสิ่งใดเว้นแต่ว่าจะมีความชัดเจนอย่างเห็นได้ชัด ไม่มีอะไรโดดออกมาหาเรา: อย่างที่คาดหวังข้อมูลยุ่งและซับซ้อน มันเป็นก่อนวัยอันควรที่จะแนะนำการปรับปรุงแปลงหรือการวิเคราะห์ที่ได้รับการเสนอ: การเปลี่ยนแปลงที่เพิ่มขึ้นและการวิเคราะห์เพิ่มเติมจะไม่ช่วยเหลือจนกว่าปัญหาพื้นฐานเหล่านี้ได้รับการแก้ไข


ขอบคุณสำหรับคำตอบ จากคำวิจารณ์ที่หลากหลายฉันจะไม่สามารถตอบข้อเสนอแนะทั้งหมดในความคิดเห็นได้อย่างเหมาะสม (ฉันจะต้องคิดถึงสถานที่อื่นบางทีโพสต์เอกสาร Google อีกฉบับ) แต่ฉันจะบอกว่าตอนนี้ฉันไม่คิดว่ามันเป็นไปไม่ได้ที่จะตอบ (เท่าที่ทุกคนสามารถตอบอะไรกับข้อมูลเชิงสังเกตเช่นนี้) อย่างน้อยที่สุดเนื่องจากข้อ จำกัด ของขอบเขตที่อาจเกิดขึ้นเราสามารถดูได้ว่าผลกระทบด้านชื่อเสียงมีความสอดคล้องกับหลักฐานที่มีอยู่หรือไม่
Andy W

@Andy ฉันคิดว่าการรบกวนเป็นรูปธรรมและแพร่หลายดังนั้นแม้ว่าจะดูเหมือนว่าจะมีผลกระทบด้านชื่อเสียง แต่ก็อาจเป็นสิ่งประดิษฐ์: คุณจะไม่สามารถสรุปผลที่ถูกต้องได้หากคุณไม่ได้แก้ไขปัญหาเหล่านี้ แน่นอนฉันอาจผิด แต่ภาระการพิสูจน์อยู่ที่คุณ
whuber

"ถ้ามันดูเหมือนว่ามีผลกระทบต่อชื่อเสียงที่มี" เป็นคำสั่งที่สำคัญ (ตามที่ฉันเห็นมัน) ขอบเขตส่วนใหญ่ที่คุณนำเสนออาจเกี่ยวข้องกับชื่อเสียงโปสเตอร์ / หมายเลขโพสต์ / ประวัติศาสตร์อย่างคลุมเครือหรือคาดว่าจะเพิ่มคะแนนโปสเตอร์ในคำตอบในประวัติศาสตร์ หากฉันไม่พบหลักฐานของผลกระทบด้านชื่อเสียงชื่อเสียงที่เป็นไปได้จำนวนมากไม่สามารถนำมาใช้อธิบายการขาดงานได้
Andy W

@Andy แต่อย่างน้อยก็ทำได้และก็เพียงพอแล้ว สิ่งเหล่านี้รวมถึงปัจจัยที่ซ่อนเร้นความนิยมของหัวเรื่องและการเปลี่ยนแปลงทางโลกในบริบท หากคุณไม่ได้จัดการสิ่งเหล่านี้อย่างชัดเจนในการวิเคราะห์ข้อสรุปของคุณจะถูกสงสัย การบันทึกอย่างรวดเร็วแสดงให้เห็นว่าเรื่องความนิยมและการเปลี่ยนแปลงทางโลกมีขนาดใหญ่มาก สิ่งที่เราคาดหวังว่าจะเกิดผลกระทบต่อชื่อเสียงขึ้นอยู่กับลำดับความสำคัญ
whuber

2
@ cardinal แม้ว่าจะไม่มีคำจำกัดความที่เป็นทางการ แต่ก็เป็นไปได้ที่คนจำนวนน้อยจะมีผลกระทบที่เห็นได้ชัดเจนในรูปแบบการลงคะแนน (ซึ่งเป็นสิ่งที่ฉันถือว่า whuber หมายถึงในบริบทนี้) โพสต์เฉลี่ยของ Jon Skeet มีเพียง 5 สิ่งที่ upvotes หากทันใดนั้นคนคนหนึ่งตัดสินใจถอนคำตอบทั้งหมดของเขานั่นอาจส่งผลกระทบอย่างมากกับคะแนนเฉลี่ยต่ำในการเริ่มต้น
Andy W

5

econometricians มองที่ปัญหาที่คล้ายกันในกรอบของเกรนเจอร์เวรกรรม หากคุณมีสองซีรี่ส์คือและZ tคุณสามารถเรียกใช้แบบจำลองอัตโนมัติเวกเตอร์อัตโนมัติซึ่งในรูปแบบที่ง่ายที่สุดโดยมีความล่าช้าเพียงครั้งเดียวดูเหมือนY t = a 0 + a 1 Y t - 1 + a 2 Z t - 1 + ϵ t , Z t = b 0 + b 1 Y t - 1Yเสื้อZเสื้อYเสื้อ=a0+a1Yเสื้อ-1+a2Zเสื้อ-1+εเสื้อที หากคุณเห็นว่าพูด 2เป็นสำคัญแล้วคุณสามารถอ้างว่า Z (Granger-) สาเหตุ Y : การเพิ่มข้อมูลเกี่ยวกับ Zช่วยเพิ่มความแม่นยำของรูปแบบของคุณสำหรับY ที่นี่เวลาของคุณตันจะเป็นจำนวนที่โพสต์และตัวแปรที่มีชื่อเสียงอย่างเห็นได้ชัดและคะแนน ทั้งคู่ไม่ใช่แบบนิ่งดังนั้นการเล่นซอกับข้อมูลที่รุนแรงมากขึ้นเช่นการเพิ่มขึ้น Δ Y t = Y t - Y t - 1แทนZเสื้อ=0+1Yเสื้อ-1+2Zเสื้อ-1+δเสื้อa2ZYZYเสื้อΔYเสื้อ=Yเสื้อ-Yเสื้อ-1ในสมการข้างต้นจะถูกเรียกใช้ (โปรดทราบว่าคุณอาจสูญเสียการแจกแจงแบบปกติและแบบอิง Fหรือ χ 2 ที่มีข้อมูลที่ไม่คงที่และอัตราการลู่เข้ากับตัวแปรเทรนด์หากคุณรวมไว้ในการวิเคราะห์อาจเป็น T - 1หรือเร็วกว่าแทนที่จะเป็น T - 1 / 2 . ส่วนใหญ่ของเราจะใช้ในการจากทฤษฎีขีด จำกัด กลางคุณจะต้องเป็นซุปเปอร์ระมัดระวังกับเหล่านี้) ดังนั้นผมจึงคิดว่าถ้า. Y เสื้อเป็นคะแนนคำตอบและ Z ทีชื่อเสียงแล้วอย่างชัดเจน 0คือคะแนนเฉลี่ย a 1Yเสื้อFχ2T-1T-1/2Yเสื้อZเสื้อa0a1เป็นวิธีการเรียนรู้คนที่จะเขียนคำตอบที่ดีกว่าและ2เป็นวิธีการที่ชื่อเสียงของพวกเขานำหน้าคำของพวกเขา (ให้รุ่นสมมติฐานมีความพึงพอใจ ฯลฯ )a2

ในประเด็นที่ 1: ถ้าคุณทำเอฟเฟกต์แบบคงที่ด้วยมือคุณควรจัดให้อยู่กึ่งกลางทั้งตัวแปรตอบสนองและตัวแปรอธิบาย แพคเกจการถดถอยข้อมูลแบบพาเนลจะทำสิ่งนี้ให้คุณ แต่วิธีการทางเศรษฐศาสตร์อย่างเป็นทางการในการมองสิ่งต่าง ๆ คือการลบการ "ระหว่าง" จากการถดถอย "พูล" (ดูสมุดสีดำของ Wooldridgeฉันยังไม่ได้ตรวจสอบรุ่นที่สอง แต่ฉันมักจะดูรุ่นแรกเป็นคำอธิบายประเภทตำราที่ดีที่สุดของข้อมูลแผงเศรษฐมิติ)

ในจุดที่ 2 ของคุณ: แน่นอนว่าข้อผิดพลาดมาตรฐานของ Eicker / White จะไม่ส่งผลต่อการประเมินจุดของคุณ หากพวกเขาทำเช่นนั้นจะบ่งบอกถึงการใช้งานที่ไม่ถูกต้อง! ในบริบทของอนุกรมเวลาที่ประมาณการแม้ที่เหมาะสมมากขึ้นเป็นเพราะNewey และเวสต์ (1987) การลองเปลี่ยนรูปอาจช่วยได้ ฉันเป็นแฟนตัวยงของการเปลี่ยนแปลงBox-Coxแต่ในบริบทของการวิเคราะห์ที่คุณทำมันยากที่จะทำอย่างหมดจด ก่อนอื่นคุณจะต้องใช้พารามิเตอร์ shift ด้านบนของพารามิเตอร์รูปร่างและพารามิเตอร์ shift นั้นยากที่จะระบุในแบบจำลองเช่นนี้ ประการที่สองคุณอาจต้องการพารามิเตอร์การเปลี่ยนแปลง / รูปร่างที่แตกต่างกันสำหรับคนที่แตกต่างกันและ / หรือโพสต์ที่แตกต่างกันและ / หรือ ... (นรกแตกทั้งหมด) การนับข้อมูลเป็นตัวเลือกเช่นกัน แต่ในบริบทของการสร้างแบบจำลองค่าเฉลี่ยการถดถอยของปัวซองนั้นดีพอ ๆ กับการแปลงล็อก

PS คุณอาจติดแท็กสิ่งนี้ด้วย "longitudinal-data" และ "time-series"


ขอบคุณสำหรับการตอบกลับและความเห็น / คำถาม ฉันเห็นด้วยอย่างน้อยฉันควรสำรวจวิธีอนุกรมเวลาอย่างชัดเจนมากขึ้นในข้อมูลนี้ (ฉันไม่ได้ตรวจสอบเพื่อดูว่ามีหลักฐานของความสัมพันธ์อัตโนมัติในส่วนที่เหลือ) มีความยุ่งยากเพิ่มขึ้นเล็กน้อยในการสร้างแบบจำลองอนุกรมเวลาของข้อมูลนี้ (อะไรคือ t, และคะแนนตัวเองเป็นแบบไดนามิกและไม่คงที่ต่อหมายเลขโพสต์), และก็ไม่จำเป็นต้องมีการทำนายถดถอย Z_t ฉันรู้อย่างสมบูรณ์แบบว่า Z_t เป็นหน้าที่ของ!
Andy W

นอกจากนี้ฉันสงสัยอย่างมากว่าคะแนนไม่อยู่นิ่งอะไรทำให้คุณคิดว่ามันคืออะไร?
Andy W

อย่างน้อยก็น่าจะเป็น heteroskedastic: บางโพสต์น่าสนใจได้รับจำนวนมากและ upvotes มากในขณะที่คนอื่น ๆ กำลังชี้แจงเล็ก ๆ หรือ RTFM- ประเภทของคำถาม / คำตอบ "อ่านลิงก์นี้" ของตัวเองในทางเทคนิคจะทำให้มันไม่นิ่ง แน่นอนว่า stationarity เป็นข้อสมมติฐานที่สามารถทดสอบได้ แต่ด้วยข้อมูลที่บ้าคลั่งเช่นนี้คุณอาจต้องการความปลอดภัยในการอนุรักษ์มากเกินไปในวิธีการวิเคราะห์ (หรือตามที่ฉันได้กล่าวไว้เพื่อให้ทราบว่าผลลัพธ์อาจเป็น แปลก).
StasK

ฉันสับสนเล็กน้อยจากความคิดเห็นล่าสุด ปัจจัยภายนอกที่ส่งผลต่อคะแนนของคำตอบทำให้ชุด heteroskedastic (ฉันถือว่าคุณหมายถึงความแปรปรวนของคะแนนยิ่งใหญ่ขึ้น / เล็กลงด้วยหมายเลขโพสต์?) และคำถามนี้มีความเกี่ยวข้องกันอย่างไร
Andy W

อนุกรมเวลาคงที่ถ้าการกระจายระยะขอบ ณ จุดเวลาทั้งหมดเท่ากัน ดังนั้นแม้คุณอาจมีค่าเฉลี่ยเท่าเดิมความแปรปรวนที่เปลี่ยนแปลงจะทำให้ซีรีส์ไม่หยุดนิ่ง ตัวอย่างคือ (G) ARCH model ซึ่งมอบรางวัลโนเบลในช่วงต้นปี 2000 แต่ในข้อมูลเหล่านี้ฉันคาดว่าจะมีการเปลี่ยนแปลงในค่าเฉลี่ยเช่นกัน หากผู้ชมเว็บไซต์เติบโตขึ้นจากนั้นสำหรับคำตอบที่มีคุณภาพคุณอาจจะเห็นคะแนนมากขึ้นซึ่งจะเพิ่มทั้งค่าเฉลี่ยและความแปรปรวนของคะแนน
StasK

3

การเปลี่ยนแปลงอื่น ๆ อีกหลายแปลง:

  1. วง Quantile สำหรับคะแนนคำตอบกับชื่อเสียงก่อนหน้า (แปลง 1 และ 3)
  2. พล็อตความหนาแน่นสำหรับ Skeet กับคนอื่น ๆ แบ่งเป็นชั้นโดยโพสต์ # (แปลง 3)
  3. พิจารณาแบ่งชั้นโดย # ของโพสต์ที่แข่งขันกัน
  4. แบ่งชั้นตามเวลา (อาจจะยังคงได้รับคะแนนนานหลังจากถามคำถาม)

การสร้างแบบจำลองนี้จะยากขึ้น คุณอาจพิจารณาการถดถอยปัวซอง แม้ว่าการพัฒนาแผนการที่ดีนั้นเป็นวิธีที่ดีกว่าในการพัฒนาความเข้าใจและทักษะ เริ่มสร้างแบบจำลองหลังจากที่คุณเข้าใจข้อมูลได้ดีขึ้น


(+1) หลังจากปล่อยให้โพสต์นั่งอยู่ครู่หนึ่งฉันก็ตระหนักว่าการมองภาพความหนาแน่นของจุดดูเหมือนจะเป็นทางออกที่ดีกว่าการลองนึกภาพจุดด้วยตนเอง (แม้ว่าฉันไม่แน่ใจว่าคุณหมายถึงอะไรหรือไม่) โพสต์ # ") ฉันคิดว่าการพล็อตควอนไทล์โดยประมาณฟังดูเหมือนเป็นความคิดที่ดีแม้ว่าสำหรับพล็อตที่ 1 และ 2 มันน่าจะอยู่ในกลุ่มเมฆขนาดใหญ่ อีกครั้งฉันไม่รู้ว่า "แบ่งชั้นตามเวลา" ในบริบทนี้หมายความว่าอย่างไรโปรดดูความคิดเห็นของ Brad Larson ในโพสต์บล็อกและการตอบกลับของฉันเกี่ยวกับสิ่งนี้
Andy W

นอกจากนี้ฉันสงสัยอย่างมากว่าโพสต์แข่งขันมีส่วนเกี่ยวข้องกับความสัมพันธ์ที่สังเกตได้ คุณคิดว่าคนที่มีชื่อเสียงสูงโพสต์ในกระทู้พร้อมคำตอบการแข่งขันมากขึ้นก่อนหน้านี้ในประวัติศาสตร์ของพวกเขา? คำแนะนำของคุณเกี่ยวกับการรวมโควาเรียอื่น ๆ ดูเหมือนจะขัดแย้งกับคำแนะนำเพื่อหลีกเลี่ยงการสร้างแบบจำลองและมุ่งเน้นไปที่แปลง
Andy W

ความคิดที่อยู่เบื้องหลังการแข่งขันโพสต์คือการสำรวจในธรรมชาติ แรงจูงใจในการตอบไม่มีอะไรเกี่ยวข้องกับมัน เกี่ยวกับการสร้างแบบจำลองไม่ใช่ว่าฉันต่อต้านการสร้างแบบจำลองต่อ se แต่คุณยังไม่พร้อมที่จะทำมันจนกว่าคุณจะมีความเข้าใจที่ดีขึ้นของข้อมูล หากคุณไม่เข้าใจข้อมูลคุณจะไม่เข้าใจแบบจำลอง
Iterator

โดยการแบ่งชั้นของโพสต์ # ฉันแนะนำให้คุณเก็บกระทู้ มันอาจจะอยู่ในช่วงเวลาเช่น 0-100 โพสต์ 101-200 ฯลฯ หรือในระดับควอไทล์: แยกผู้ใช้โดยผู้ที่อยู่ใน 10% ile ด้านล่างของโพสต์ทั้งหมด, 20% ile ฯลฯ เพราะ Skeet มีการโพสต์มากมายควรเปรียบเทียบเขากับกลุ่มเพื่อน แต่เป็นการยากที่จะเปรียบเทียบเขากับกลุ่มเพื่อนของผู้ที่มีจำนวนโพสต์เท่ากันอย่างแม่นยำ - การฝังข้อมูลอาจช่วยได้
Iterator

Btw coplot()สำหรับการแบ่งชั้นคุณสามารถใช้
Iterator

1

โอ้โห (และฉันหมายความว่าในทางที่ดี ;-)) ก่อนที่จะเพิ่มเติมโมเดลคุณจำเป็นต้องจัดการกับสิ่งที่เกิดขึ้นกับข้อมูล

ฉันไม่เห็นคำอธิบายสำหรับเส้นโค้งที่แปลกประหลาดมากในช่วงกลางของพล็อตนี้: http://stats.blogoverflow.com/files/2011/07/Rep_Correlated_With_Upvotes.png

การเห็นเส้นโค้งทำให้ฉันคิดว่ามีบางสิ่งที่แปลกมากเกี่ยวกับประเด็นเหล่านั้น - พวกเขาไม่ได้เป็นอิสระจากกันและสะท้อนการสังเกตลำดับของแหล่งเดียวกัน

(หมายเหตุเล็กน้อย: การทำพล็อตเรื่อง "ความสัมพันธ์ ... " กำลังทำให้เข้าใจผิด)


5
23

เส้นโค้งนั้นสามารถอธิบายได้โดยธรรมชาติของชื่อเสียงที่เกี่ยวข้องกับการ upvotes และเป็นไปได้ว่าคนที่โพสต์คำตอบเดียวและได้รับชื่อเสียงทั้งหมดจากคำตอบเดียวนั้น (ฉันสามารถดูรายละเอียดเพิ่มเติมเกี่ยวกับสาเหตุที่เป็นไปได้หากจำเป็น) . ถ้าฉันได้พล็อตชื่อเสียงในปัจจุบันลบกับชื่อเสียงจากโพสต์ที่เป็นปัจจุบันมากที่สุดสิ่งนี้จะได้รับการดูแลเป็นส่วนใหญ่ (การสังเกตเหล่านั้นไม่มีส่วนเกี่ยวข้องกับการวิเคราะห์ที่ตามมา) คุณสนใจที่จะอธิบายรายละเอียดเกี่ยวกับความสัมพันธ์ที่ทำให้เข้าใจผิดหรือไม่?
Andy W

@whuber ฉันไม่คิดว่าฉันจะพูดอะไรที่ต่ำกว่า 10 ^ 3 เป็นเพียงเสียงรบกวน แน่นอนว่าทฤษฎีของผลกระทบด้านชื่อเสียงควรมีผลบังคับใช้เมื่อไม่มีชื่อเสียง ฉันยังยินดีรับการปรับปรุงใด ๆ ที่เสนอแนะเกี่ยวกับแปลง (ไม่มีข้อมูลมากในแปลงใด ๆ !)
Andy W

ขอบคุณ สำหรับชื่อเรื่องไม่มีการคำนวณความสัมพันธ์ มันเป็นแค่พล็อตเรื่องคะแนนเล็กน้อยกับชื่อเสียง ยกเว้นอย่างที่คุณและ @whuber พูดถึงมันไม่ได้คะแนนจริง ๆ : ควรเป็น deltaRep (หรือ Rep (t) - Rep (t-1)) เทียบกับ Rep (t-1)
Iterator

1
@ ตัวป้อนให้แก้ไขคำสั่งสุดท้าย (10 คะแนนต่อการลงคะแนน) แต่ก็ยังปรากฏว่าคุณอาจสับสนในสิ่งที่ฉันวางแผนไว้กับคำสั่งอื่น แกน Y ไม่ใช่ชื่อเสียง แต่จำนวน upvotes สำหรับโพสต์ล่าสุด (ไม่จำเป็นRep(t) - Rep(t-1)ว่าผู้ใช้จะได้รับชื่อเสียงจากที่อื่น) แกน X คือชื่อเสียงปัจจุบัน (รวมถึงชื่อเสียงที่ได้รับจากโพสต์นั้น) แกน X คือสิ่งที่ฉันแนะนำควรเปลี่ยน (ลบค่า upvotes ที่ได้จากคำตอบในคำถามที่ฉันวางแผนบนแกน Y)
Andy W
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.