มีวิธีในการตรวจจับอคติของเครื่องมือค้นหาหรือไม่?

เสิร์ชเอ็นจิ้นมีการใช้งานมากขึ้นเรื่อย ๆ ในฐานะผู้ดูแลข้อมูล แต่เกณฑ์ที่ใช้โดยเสิร์ชเอ็นจิ้นเพื่อจัดอันดับผลการค้นหานั้นมีความทึบ ผู้ใช้จะแน่ใจได้อย่างไรว่าผลลัพธ์ของพวกเขาจะไม่ลำเอียงหรือดัดแปลงในบางวิธีเพื่อให้ได้รับความสนใจโดยเสียค่าใช้จ่ายในคุณภาพของผลการค้นหา

รัฐบาลมักเรียกร้องให้ผู้ให้บริการค้นหาลบหรือลดอันดับของเว็บไซต์ที่ถือว่าไม่พึงประสงค์ทางการเมือง ธุรกิจอาจจ่ายผู้ให้บริการเพื่อเพิ่มผลลัพธ์บางอย่างเหนือผู้อื่นเพื่อเพิ่มรายได้ ไฟร์วอลล์อาจเข้าไปยุ่งกับผลลัพธ์ก่อนที่จะถูกส่งกลับไปยังผู้ใช้

แม้การเปลี่ยนแปลงขั้นตอนวิธีการจัดอันดับที่ไม่น่ากลัวที่ดูเหมือนว่าจะไม่ปรากฏบนพื้นผิวนั้นมีความลำเอียง แต่จริงๆแล้วอาจได้รับการออกแบบมาเพื่อทำอันตรายต่อเว็บไซต์ที่ใช้คุณลักษณะทั่วไปร่วมกัน (ไม่เกี่ยวข้องกับคุณภาพจริง)

เป็นไปได้หรือไม่ที่จะตรวจสอบความเอนเอียงของเครื่องมือค้นหาโดยพูดถึงผลการตรวจสอบเป็นระยะเวลาหนึ่งและประเมินว่า "ตัวแปรที่ซ่อนอยู่" (อาจเป็นพันธมิตรทางการเมือง) บางส่วนเป็นปัจจัยขับเคลื่อนในการเปลี่ยนแปลงการจัดอันดับเว็บไซต์หรือไม่

ผู้ให้บริการที่มีเล่ห์เหลี่ยมอาจค่อยๆลดอันดับของเว็บไซต์เป้าหมาย (และอาจเป็นเว็บไซต์แบบสุ่มและเพื่อดึงดูดผู้ใช้) อะไรคือข้อ จำกัด เกี่ยวกับจำนวนผู้ให้บริการที่สามารถแนะนำได้โดยไม่มีการตรวจจับ? หรือเป็นไปได้ที่จะปิดบังสัญญาณรบกวนดังกล่าวเสมอโดยเลือกเกณฑ์การจัดอันดับแบบถ่วงน้ำหนักซึ่งบังเอิญสร้างผลลัพธ์ที่ตั้งใจ (โดยใช้วิธี "การสอดแนมข้อมูล")

มีการเปลี่ยนแปลงใด ๆ หรือไม่หากมีการเปิดเผยเกณฑ์การจัดอันดับสาธารณะ เราจำเป็นต้องใช้โอเพ่นซอร์สที่เครื่องมือค้นหาเกณฑ์ใช้หรือไม่

สิ่งนี้ทำให้ฉันนึกถึงผลลัพธ์ที่ตรวจพบว่าตราสารทางการเงินที่ซับซ้อนเช่น CDO ได้รับการดัดแปลงโดยผู้ขายหรือเทียบเท่ากับการแก้ปัญหาที่หนาแน่นที่สุด:

http://www.cs.princeton.edu/~rongge/derivative.pdf

ขอบคุณ!

ds.algorithms data-mining

— ฮัน
แหล่งที่มา

นี่เป็นคำถามที่ยอดเยี่ยม แต่ฉันจะแก้ไขโดยให้แน่ใจว่าได้ถามคำถามที่เกี่ยวข้องกับ cstheory เพียงคำถามเดียวเท่านั้น สิ่งที่ชัดเจนที่สุดคือการทำให้คำขออ้างอิงและถามว่า "มีใครดูที่นี่หรือไม่" หากคุณแน่ใจว่าไม่มีใครมีแล้วบางอย่างเช่น "สิ่งนี้สามารถจำลองแบบเป็นทางการได้อย่างไร" อาจเป็นคำถามที่ดี หากคุณเก็บคำถามไว้มากเกินไปโดยที่บางคำถามมีความเกี่ยวข้องกับคนอื่น ๆ อาจเป็นเพราะ "ไม่ใช่คำถามจริง"

— Artem Kaznatcheev

โปรดทราบว่าการทำให้รูปแบบการจัดอันดับสาธารณะเปิดขึ้นเพื่อโจมตีโดยผู้ส่งอีเมลขยะ ตัวแปรที่น่าสนใจคือ: "มี 'กุญแจสาธารณะเทียบเท่ากับอันดับ'

— Suresh Venkat

@SureshVenkat "ทำให้การจัดอันดับแบบสาธารณะเปิดขึ้นเพื่อโจมตี" ดูเหมือนว่าคุณกำลังแนะนำ <s> ความปลอดภัย </s> ความเป็นกลางโดยผ่านความสับสน;)

— Artem Kaznatcheev

ไม่ แต่นั่นเป็นสาเหตุที่ฉันถามเกี่ยวกับรูปแบบการจัดอันดับรุ่นสาธารณะ

— Suresh Venkat

เนื่องจากไม่ใช่กลุ่มที่เข้าร่วมในกระบวนการค้นหาจึงควรเป็นผู้ใช้ที่เป็นอันตรายวิธีแก้ปัญหาปกติคือการสร้างแบบจำลองกระบวนการเป็นเกมที่มีผู้ใช้ที่เห็นแก่ตัว หากทำโมเดลได้อย่างถูกต้องเราสามารถทราบได้ว่าเป็นประโยชน์สำหรับเครื่องมือค้นหาที่จะทำสิ่งนั้นหรือไม่ จากนั้นเราสามารถออกแบบกลไกเพื่อป้องกันการดัดแปลง

— ฮีเลียม

เห็นได้ชัดว่านี่เป็นคำถามที่เปิดกว้าง แต่เพื่อให้อยู่ในหัวข้อต่อไปนี้เป็นหนึ่งในวิธีการทางทฤษฎี CS กับแนวคิดของ "ความยุติธรรม" และวิธีการบังคับใช้

"ความยุติธรรมผ่านการรับรู้" Dwork, Hardt, Pitassi, Reingold, Zemel http://arxiv.org/abs/1104.3913

— แอรอนโรท
แหล่งที่มา