สถิติสำหรับเว็บไซต์หาคู่ออนไลน์


10

ฉันอยากรู้ว่าระบบการออกเดทออนไลน์อาจใช้ข้อมูลการสำรวจเพื่อกำหนดการแข่งขันอย่างไร

สมมติว่าพวกเขามีข้อมูลผลจากการแข่งขันที่ผ่านมา (เช่น 1 = แต่งงานอย่างมีความสุข, 0 = ไม่มีวันที่ 2)

ต่อไปสมมติว่าพวกเขามี 2 คำถามที่ชอบ

  • "คุณชอบกิจกรรมกลางแจ้งมากแค่ไหน (1 = ไม่ชอบอย่างยิ่ง 5 = ชอบอย่างยิ่ง)"
  • "คุณเป็นคนมองโลกในแง่ดีแค่ไหน (1 = ไม่ชอบอย่างยิ่ง 5 = ชอบอย่างยิ่ง")

สมมติว่าสำหรับแต่ละคำถามที่พวกเขามีตัวบ่งชี้ "คู่สมรสของคุณมีความสำคัญต่อการตั้งค่าของคุณอย่างไร (1 = ไม่สำคัญ 3 = สำคัญมาก)"

หากพวกเขามีคำถาม 4 ข้อสำหรับแต่ละคู่และผลลัพธ์ว่าการแข่งขันประสบความสำเร็จหรือไม่โมเดลพื้นฐานที่จะใช้ข้อมูลนั้นเพื่อทำนายการแข่งขันในอนาคตคืออะไร


2
ฉันคิดว่าการจับคู่ความสำเร็จเกิดขึ้นเมื่อหญิงสาวสวยหรือผู้ชายรวย ทุกอย่างอื่นเป็นเรื่องรอง
user4951

4
ตรวจสอบblog.okcupid.com - บางแห่งที่พวกเขาพูดถึงโมเดลการจับคู่พื้นฐาน
เฟลิกซ์ S

คุณช่วยพูดถึงสิ่งที่คุณต้องการให้ลึกซึ้งยิ่งขึ้นได้ไหม? คำตอบของ Michael เป็นภาพรวมที่มั่นคง
ด่าน

ถ้าคุณอ่านสิทธิบัตร (สิทธิบัตร 6,735,568 - google.com/… ) สำหรับ EHarmony ระบบของพวกเขาจะใช้การผสมผสานองค์ประกอบการวิเคราะห์องค์ประกอบการวิเคราะห์ปัจจัยและใช้โครงข่ายประสาทเทียม ตามที่คนอื่น ๆ ได้กล่าวถึงวิธีการเช่น K-NN, CARTS และ GLM ก็จะทำงานได้ดีเช่นกัน
Chris Simokat

@ChrisSimokat - ว้าว! ขอบคุณมากสำหรับลิงค์ที่น่าทึ่ง นั่นเป็นเรื่องที่น่าสนใจ ฉันไม่เคยคิดเลยว่าคุณจะสามารถ "วิธีการทางสถิติและอัลกอริทึม" ลิขสิทธิ์ได้
d_a_c321

คำตอบ:


4

ฉันเคยพูดกับคนที่ทำงานให้กับหนึ่งในเว็บไซต์หาคู่ออนไลน์ที่ใช้เทคนิคทางสถิติ (พวกเขาอาจต้องการฉันไม่ได้บอกว่าใคร) มันค่อนข้างน่าสนใจ - เริ่มต้นด้วยการใช้สิ่งที่ง่ายมากเช่นเพื่อนบ้านที่ใกล้ที่สุดกับยูคลิดเดียนหรือ L_1 (บล็อกเมือง) ระยะห่างระหว่างเวกเตอร์โปรไฟล์ แต่มีการถกเถียงกันว่าการจับคู่คนสองคนที่มีลักษณะคล้ายกันนั้นดีหรือไม่ดี สิ่ง. จากนั้นเขาก็กล่าวต่อไปว่าตอนนี้พวกเขาได้รวบรวมข้อมูลจำนวนมาก (ผู้ที่สนใจว่าใครเป็นใครนัดใครใครที่แต่งงานแล้ว ฯลฯ ) พวกเขาใช้สิ่งนั้นเพื่อฝึกอบรมนางแบบอย่างต่อเนื่อง งานในเฟรมเวิร์กแบบเพิ่มหน่วยซึ่งจะอัพเดตโมเดลเป็นระยะโดยใช้แบทช์ข้อมูลจากนั้นคำนวณความน่าจะเป็นของการจับคู่บนฐานข้อมูลอีกครั้ง สิ่งที่ค่อนข้างน่าสนใจ แต่ฉัน '


3

คุณขอแบบง่าย ๆ นี่คือวิธีที่ฉันจะเริ่มต้นด้วยรหัส R:

 glm(match ~ outdoorDif*outdoorImport + optimistDif*optimistImport,
     family=binomial(link="logit"))

outdoorDif = ความแตกต่างของคำตอบของทั้งสองคนเกี่ยวกับว่าพวกเขาสนุกกับกิจกรรมกลางแจ้งมากแค่ไหน outdoorImport = ค่าเฉลี่ยของทั้งสองคำตอบเกี่ยวกับความสำคัญของการจับคู่เกี่ยวกับคำตอบในการเพลิดเพลินกับกิจกรรมกลางแจ้ง

เครื่องหมาย * แสดงว่าเงื่อนไขก่อนหน้าและต่อไปนี้มีการโต้ตอบและรวมอยู่ด้วย

คุณแนะนำว่าข้อมูลการจับคู่นั้นเป็นเลขฐานสองโดยมีเพียงสองตัวเลือกคือ "แต่งงานอย่างมีความสุข" และ "ไม่มีวันที่สอง" ดังนั้นนั่นคือสิ่งที่ฉันคิดในการเลือกรูปแบบการบันทึก ดูเหมือนจะไม่สมจริง หากคุณมีผลลัพธ์ที่เป็นไปได้มากกว่าสองรายการคุณจะต้องเปลี่ยนไปใช้การบันทึกแบบหลายส่วนหรือสั่งซื้อหรือแบบจำลองดังกล่าว

หากตามที่คุณแนะนำบางคนมีการพยายามจับคู่หลายครั้งซึ่งอาจเป็นสิ่งสำคัญมากที่จะลองพิจารณาในแบบจำลอง วิธีหนึ่งในการทำเช่นนั้นอาจเป็นไปได้ว่ามีตัวแปรแยกต่างหากซึ่งระบุ # ของความพยายามก่อนหน้านี้ที่ตรงกันสำหรับแต่ละคนจากนั้นโต้ตอบทั้งสอง


ขอบคุณสำหรับคำตอบที่ยอดเยี่ยม .. ฉันให้รางวัลแก่คุณ! :) นั่นเป็นวิธีที่ดี บางทีถ้าคุณมีคำถาม N ข้อที่เหมาะกับ M เช่นหมวดหมู่ (เช่นคำถามกรีฑา) คุณอาจเพิ่มโมเดลโดยใช้ค่าเฉลี่ยของความสำคัญและความแตกต่างภายในหมวดนั้นและเพิ่มเป็นคำเพิ่มเติม มันไม่สมบูรณ์แบบ แต่นั่นอาจเป็นวิธีที่ง่ายในการจับการโต้ตอบของตัวแปรที่สัมพันธ์กันหลายอย่าง ขอขอบคุณอีกครั้งฉันยินดีที่จะได้ยินความคิดอื่น ๆ ที่ไม่ได้ให้คำตอบของคุณ;)
d_a_c321

คุณไม่ควรทำให้คำตอบเป็นปกติก่อน? หากทุกคนสนุกกับกิจกรรมกลางแจ้งคำตอบกลางแจ้งควรมีความเกี่ยวข้องน้อยลงเพราะมันจะเป็นตัวทำนายที่ไม่ดีเกี่ยวกับความเข้ากันได้
Sklivvz

@Skliwz ฉันไม่แน่ใจว่าคุณจะทำให้คำตอบแบบหลายตัวเลือก (ปกติ) เป็นมาตรฐานได้อย่างไร นอกจากนี้โปรดจำไว้ว่าการแปลงเชิงเส้นของตัวแปรทำนายอย่างต่อเนื่องบางครั้งเป็นที่ต้องการด้วยเหตุผลที่กล่าวถึงที่นี่: stats.stackexchange.com/q/7112/3748และที่นี่: stats.stackexchange.com/q/19216/3748แต่พวกเขาจะไม่เปลี่ยน การคาดการณ์แบบจำลองยกเว้นปัญหาการคำนวณที่ผิดปกติ ถ้าทุกคนสนุกกับกิจกรรมกลางแจ้งคำตอบกลางแจ้งนั้นมีความเกี่ยวข้องน้อยกว่ากัน แต่ฉันไม่คิดว่ามันจะเป็นปัญหาสำหรับรุ่นตามที่ระบุไว้ (ไม่ใช่ว่าโมเดลของฉันสมบูรณ์แบบ)
Michael Bishop

1

วิธีการหนึ่งที่ง่ายจะเป็นดังนี้

สำหรับคำถามการตั้งค่าทั้งสองให้รับความแตกต่างที่แน่นอนระหว่างการตอบของผู้ตอบทั้งสองโดยให้ตัวแปรสองตัวคือพูด z1 และ z2 แทนที่จะเป็นสี่คำถาม

สำหรับคำถามสำคัญฉันอาจสร้างคะแนนที่รวมคำตอบทั้งสองไว้ ถ้าคำตอบนั้นบอกว่า (1,1) ฉันจะให้ 1, a (1,2) หรือ (2,1) ได้รับ 2, a (1,3) หรือ (3,1) ได้รับ 3, a (2,3) หรือ (3,2) ได้ 4, และ a (3,3) ได้รับ 5. ลองเรียกมันว่า "คะแนนสำคัญ" อีกทางเลือกหนึ่งคือใช้ max (การตอบกลับ) โดยให้ 3 หมวดหมู่แทน 5 แต่ฉันคิดว่า 5 หมวดหมู่นั้นดีกว่า

ตอนนี้ฉันจะสร้างตัวแปรสิบตัว, x1 - x10 (สำหรับความเป็นรูปธรรม), ทั้งหมดนี้มีค่าเริ่มต้นเป็นศูนย์ สำหรับการสังเกตเหล่านั้นที่มีคะแนนความสำคัญสำหรับคำถามแรก = 1, x1 = z1 หากคะแนนความสำคัญสำหรับคำถามที่สองยัง = 1, x2 = z2 สำหรับการสังเกตเหล่านั้นด้วยคะแนนความสำคัญสำหรับคำถามแรก = 2, x3 = z1 และหากคะแนนความสำคัญสำหรับคำถามที่สอง = 2, x4 = z2 และอื่น ๆ สำหรับการสังเกตแต่ละครั้งหนึ่งใน x1, x3, x5, x7, x9! = 0 และเหมือนกับ x2, x4, x6, x8, x10,

หลังจากทำทุกอย่างแล้วฉันจะรันการถดถอยโลจิสติกด้วยผลลัพธ์ไบนารีเป็นตัวแปรเป้าหมายและ x1 - x10 เป็น regressors

รุ่นที่มีความซับซ้อนมากขึ้นอาจสร้างคะแนนความสำคัญมากขึ้นโดยอนุญาตให้ความสำคัญของผู้ตอบแบบสอบถามเพศชายและเพศหญิงแตกต่างกันเช่น a (1,2)! = a (2,1) ซึ่งเราได้รับคำสั่งจากเพศ

หนึ่งในสิ่งที่ขาดหายไปของรุ่นนี้คือคุณอาจมีข้อสังเกตหลาย ๆ อย่างของบุคคลเดียวกันซึ่งอาจหมายถึง "ข้อผิดพลาด" การพูดอย่างหลวม ๆ ไม่เป็นอิสระจากการสังเกต อย่างไรก็ตามมีผู้คนจำนวนมากในตัวอย่างฉันอาจจะเพิกเฉยต่อสิ่งนี้สำหรับการผ่านครั้งแรกหรือสร้างตัวอย่างที่ไม่มีการซ้ำซ้อน

ข้อเสียอีกอย่างหนึ่งก็คือมันเป็นไปได้ว่าเมื่อความสำคัญเพิ่มขึ้นผลของความแตกต่างที่กำหนดระหว่าง p (ล้มเหลว) ก็จะเพิ่มขึ้นเช่นกันซึ่งหมายถึงความสัมพันธ์ระหว่างสัมประสิทธิ์ของ (x1, x3, x5, x7, x9) และ ระหว่างค่าสัมประสิทธิ์ของ (x2, x4, x6, x8, x10) (อาจไม่ใช่คำสั่งที่สมบูรณ์เนื่องจากมันไม่ชัดเจนสำหรับฉันว่าคะแนนความสำคัญ (2,2) เกี่ยวข้องกับคะแนนความสำคัญ (1,3)) อย่างไรก็ตามเราไม่ได้กำหนดไว้ในแบบจำลอง ฉันอาจไม่สนใจสิ่งนั้นในตอนแรกและดูว่าฉันประหลาดใจกับผลลัพธ์หรือไม่

ข้อดีของวิธีนี้คือไม่มีการกำหนดสมมติฐานเกี่ยวกับรูปแบบการทำงานของความสัมพันธ์ระหว่าง "สำคัญ" และความแตกต่างระหว่างการตอบสนองการตั้งค่า สิ่งนี้ขัดแย้งกับความเห็นที่ขาดไปก่อนหน้านี้ แต่ฉันคิดว่าการขาดรูปแบบการทำงานที่ถูกกำหนดน่าจะเป็นประโยชน์มากกว่าความล้มเหลวที่เกี่ยวข้องในการคำนึงถึงความสัมพันธ์ที่คาดหวังระหว่างค่าสัมประสิทธิ์

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.