ความแตกต่างระหว่างสหสัมพันธ์และสาเหตุมีความสัมพันธ์กับ Google ในระดับใด


21

บริบท

คำถามยอดนิยมในไซต์นี้คือ " บาปทางสถิติทั่วไปคืออะไร " หนึ่งในความผิดที่กล่าวมานั้นคือการสันนิษฐานว่าลิงก์

จากนั้นในความคิดเห็นที่มี 5 upvotes แนะนำว่า: "Google ทำเงิน $ 65B ต่อปีโดยไม่สนใจความแตกต่าง"

เมื่อมีความเสี่ยงในการวิเคราะห์คำศัพท์แสงฉันคิดว่านี่อาจเป็นจุดสนทนาที่มีประโยชน์สำหรับการแยกแยะความแตกต่างระหว่างสหสัมพันธ์และสาเหตุและความเกี่ยวข้องเชิงปฏิบัติของความแตกต่าง และบางทีมันอาจเน้นบางอย่างเกี่ยวกับความสัมพันธ์ระหว่างการเรียนรู้ของเครื่องและความแตกต่างระหว่างสหสัมพันธ์และสาเหตุ

ฉันถือว่าความคิดเห็นคือการระบุเทคโนโลยีที่รองรับการสร้างผลลัพธ์ของเครื่องมือค้นหาและเทคโนโลยีที่เกี่ยวข้องกับการแสดงโฆษณา

คำถาม

  • ความแตกต่างระหว่างสหสัมพันธ์และสาเหตุที่เกี่ยวข้องกับการสร้างรายได้ของ Google อาจจะเน้นเฉพาะในการสร้างรายได้ผ่านเทคโนโลยีการแสดงผลโฆษณาที่เกี่ยวข้องและผลการค้นหาคุณภาพหรือไม่

มันตลกดีที่ฉันดูความคิดเห็นนั้นก่อนหน้านี้สักหน่อย
Iterator

2
ปฏิวัติบล็อกมีสัปดาห์ที่ผ่านมาโพสต์ในวิธีที่ Google ใช้ R เพื่อทำโฆษณาออนไลน์มีประสิทธิภาพมากขึ้น น่าเสียดายที่พวกเขาไม่ได้ลงรายละเอียดมากเกินไป ...
nico

คำตอบ:


13

คำตอบง่ายๆคือว่า Google (หรือใครก็ตาม) ควรดูแลเกี่ยวกับความแตกต่างในขอบเขตที่พวกเขาตั้งใจที่จะแทรกแซง ความรู้เชิงสาเหตุจะบอกคุณเกี่ยวกับผลกระทบของการแทรกแซง (การกระทำ) ในโดเมนที่กำหนด

ตัวอย่างเช่นหาก Google ต้องการเพิ่มอัตราการคลิกผ่านโฆษณาเพิ่มจำนวนผู้ใช้ GMail หรือ Google+ หรือชักจูงผู้ใช้ให้ใช้ Google มากกว่า Bing ดังนั้นพวกเขาจำเป็นต้องรู้ถึงผลกระทบของการกระทำที่อาจเกิดขึ้น (เช่นการเพิ่มขึ้น ขนาดตัวอักษรของโฆษณาส่งเสริม Google+ ในนิตยสารสิ่งพิมพ์หรือเผยแพร่ความแตกต่างระหว่างผลการค้นหาของ Google และ Bing ตามลำดับ) ความสัมพันธ์นั้นดีพอที่จะทำให้เครื่องมือค้นหาของ Google ทำงานได้ดี แต่สำหรับระบบอื่น ๆ ของพวกเขา (และธุรกิจโดยรวม) ความแตกต่างมักจะมีความสำคัญ

เป็นที่น่าสังเกตว่า Google (และ บริษัท หลายแห่งที่มีธุรกิจบนเว็บ) กำลังทำการทดลองออนไลน์อยู่ตลอดเวลา นี่เป็นวิธีที่ง่ายที่สุดและดีที่สุดในการระบุและประเมินการอ้างอิงเชิงสาเหตุ


(+1) ตราบใดที่ a) correlate และ b) อนุญาตให้ทำนายผลลัพธ์ในอนาคตได้อย่างถูกต้องเราไม่ควรสนใจสาเหตุ
steffen

2
เรากำลังเข้าสู่ยุคแห่งการฟื้นฟูการวิจัยเชิงทดลองในสาขาพฤติกรรมศาสตร์ ในปี 1950 เกือบทั้งหมดของ statitsics เป็นการวิจัยเชิงทดลองโดยมีการใช้งานด้านการเกษตร แต่ประมาณปี 1980 ผู้คนต่างยอมรับว่าเทคนิคเหล่านี้ไม่ได้ช่วยอะไรมากกับข้อมูลเชิงสังเกตการณ์ซึ่งเป็นสิ่งที่คุณสามารถทำได้ในสังคมศาสตร์ส่วนใหญ่ ตอนนี้อย่างน้อยในซอกของการวิจัยการตลาดออนไลน์ถ้าคุณเป็น Amazon หรือ Google หรือ Bing คุณสามารถเรียกใช้การทดลองและรับการอนุมานสาเหตุที่สะอาดที่สุด
StasK

@StasK พิจารณาขนาดตัวอย่างที่พวกเขามีแนวโน้มที่จะจัดการแม้แต่การทดสอบ "สั้น" ที่พวกเขามีแนวโน้มที่จะให้ผลลัพธ์ที่มีประโยชน์สูง ขุมสมบัติที่ต้องมี
Brandon Bertelsen

เป็นที่น่าสนใจที่จะทราบว่าสิ่งอำนวยความสะดวก "กลุ่ม" ของ Google นั้นแย่มาก ๆ มันเหมือนกับว่าพวกเขาสร้างสิ่งอำนวยความสะดวกการสนทนากลุ่มที่มีความสัมพันธ์กับความดี แต่พวกเขาไม่ได้คิดออกว่าอะไรที่ทำให้สิ่งอำนวยความสะดวกในการอภิปรายกลุ่มดี แต่นี่เป็นปัญหาที่พบบ่อยในการตลาด - คุณลักษณะทั้งหมดของผลิตภัณฑ์คู่แข่งมักจะถูกคัดลอกโดยไม่เข้าใจแรงจูงใจพื้นฐานสำหรับคุณสมบัติ
Daniel R Hicks

1
@StasK: โลกแห่งความเป็นจริงอาจไม่เหมาะอย่างที่คุณทำเป็นที่นี่ ฉันยอมรับว่าการทดลองเป็นเครื่องมือที่ยอดเยี่ยมในการอนุมานสาเหตุ อย่างไรก็ตามการทดลองทำให้เกิดปัญหาที่เฉพาะเจาะจงเช่นกันบางครั้งมันอาจเป็นการดีกว่าที่จะทำการอนุมานสาเหตุด้วยการศึกษาเชิงสังเกตการณ์แทนที่จะใช้การทดลอง คำวิจารณ์อย่างหนึ่งอาจอยู่ในความรู้สึกที่เป็นผลมาจากการทดลองที่ควบคุมแล้วอาจจะเป็นการวางนัยกับการตั้งค่า "ชีวิตจริง" ผู้เขียนบางคนเรียกสิ่งนี้ว่า "ความถูกต้องภายนอก"

6

ครั้งแรกมันเป็นเพียงแค่คำคมและไม่ถูกต้อง Google มีนักสถิติที่มีความสามารถจำนวนมากผู้เชี่ยวชาญด้านการค้นคืนข้อมูลนักภาษาศาสตร์นักเศรษฐศาสตร์นักจิตวิทยาบางคนและคนอื่น ๆ คนเหล่านี้ใช้เวลามากในการให้ความรู้แก่ผู้ที่ไม่ได้เป็นนักสถิติเกี่ยวกับความแตกต่างระหว่างสหสัมพันธ์และสาเหตุ ระบุว่าเป็นองค์กรขนาดใหญ่อาจมีกระเป๋าแม้กระทั่งกระเป๋าใบใหญ่ไม่รู้ แต่การยืนยันนั้นผิดอย่างแน่นอน ยิ่งไปกว่านั้นการศึกษาจำนวนมากยังเผชิญกับลูกค้าโดยเฉพาะผู้โฆษณา

คำตอบที่ลึกกว่า: ความแตกต่างเป็นสิ่งสำคัญอย่างยิ่ง เพียงแค่ดูการจัดอันดับผลการค้นหาและอนุญาตให้ฉันขยายเกินกว่า "ความสัมพันธ์" เพื่อรวมการวัดความคล้ายคลึงฟังก์ชันการให้คะแนน ฯลฯ หน้าเว็บบางหน้าถูกวัดให้เป็นผลลัพธ์ที่ดีสำหรับการค้นหาบางอย่าง สิ่งเหล่านี้มีคุณสมบัติการทำนายที่หลากหลายซึ่งมีความสำคัญต่อการจัดอันดับ ตรงกันข้ามกับหน้าเว็บที่ดีเหล่านี้ซึ่งเป็นผลลัพธ์ที่ดีสำหรับข้อความค้นหาคือชุดของหน้าเว็บที่เป็นหน้าเว็บที่มีผลลัพธ์ที่ไม่ดีมากสำหรับข้อความค้นหาเดียวกัน อย่างไรก็ตามผู้สร้างของหน้าเหล่านั้นใช้ความพยายามอย่างมากเพื่อทำให้หน้าตาดูดีจากมุมมองเชิงตัวเลขเช่นการจับคู่ข้อความการเชื่อมโยงอินเทอร์เน็ตและอื่น ๆ อย่างไรก็ตามเนื่องจากหน้าเหล่านี้เป็นตัวเลขที่ "คล้ายกัน" กับหน้าเว็บที่ดีไม่ได้หมายความว่าหน้าเว็บเหล่านี้แท้จริงแล้วเป็นหน้าเว็บที่ดี ดังนั้น Google จึงได้ลงทุนและจะพยายามอย่างต่อเนื่องในการพิจารณาว่าคุณลักษณะที่เหมาะสมใดที่จะแยกแยะหน้าเว็บที่ดีและไม่ดีออกจากกัน

นี่ไม่ใช่ความสัมพันธ์และสาเหตุที่แท้จริง แต่มันลึกซึ้งยิ่งกว่านั้น หน้าเว็บที่ดีสำหรับข้อความค้นหาบางรายการอาจจับคู่พื้นที่ที่เป็นตัวเลขซึ่งมีลักษณะคล้ายกันและแตกต่างจากหน้าเว็บที่ไม่เกี่ยวข้องหรือไม่ดีหลายหน้า แต่เนื่องจากผลลัพธ์อยู่ในพื้นที่เดียวกันของพื้นที่คุณลักษณะ ของเว็บ

คำตอบที่ง่ายขึ้น: มุมมองที่ง่ายมากคือการระบุอันดับของผลลัพธ์ ผลลัพธ์ที่ดีที่สุดควรเป็นอันดับแรก แต่เพียงเพราะสิ่งที่มีอันดับแรกไม่ได้หมายความว่ามันเป็นผลลัพธ์ที่ดีที่สุด คุณอาจพบว่าการจัดอันดับของ Google มีความสัมพันธ์กับการประเมินคุณภาพมาตรฐานทองคำ แต่นั่นไม่ได้หมายความว่าอันดับของพวกเขาบ่งบอกว่าผลลัพธ์นั้นอยู่ในลำดับนี้อย่างแท้จริงทั้งในด้านคุณภาพและความเกี่ยวข้อง

อัปเดต (คำตอบที่สาม): เมื่อเวลาผ่านไปมีแง่มุมอื่นที่ส่งผลกระทบต่อพวกเราทุกคนนั่นคือผลการค้นหาอันดับต้น ๆ ของ Google อาจถือว่ามีสิทธิ์เนื่องจากเป็นผลอันดับต้น ๆ ของ Google แม้ว่าการวิเคราะห์ลิงก์ (เช่น "PageRank" - วิธีหนึ่งสำหรับการวิเคราะห์ลิงก์) คือความพยายามในการสะท้อนให้เห็นถึงการให้สิทธิ์ แต่เมื่อเวลาผ่านไปหน้าใหม่ในหัวข้ออาจเสริมโครงสร้างลิงก์นั้นโดยการลิงก์ไปยังผลลัพธ์อันดับต้น ๆ ของ Google หน้าใหม่ที่มีสิทธิ์มากขึ้นมีปัญหาเกี่ยวกับการเริ่มต้นที่สัมพันธ์กับผลลัพธ์แรก ในขณะที่ Google ต้องการแสดงหน้าเว็บที่เกี่ยวข้องมากที่สุดในปัจจุบันมีปัจจัยหลายประการรวมถึงปรากฏการณ์ที่เรียกว่า "รวย - รวย - รวย" เกิดขึ้นเนื่องจากผลกระทบโดยนัยของความสัมพันธ์ต่อการรับรู้สาเหตุ

อัปเดต (คำตอบที่สี่): ฉันรู้ (สำหรับความคิดเห็นด้านล่าง) ว่ามันอาจเป็นประโยชน์ในการอ่านสัญลักษณ์เปรียบเทียบของเพลโตเพื่อให้เข้าใจถึงวิธีการตีความความสัมพันธ์และสาเหตุจาก "ภาพสะท้อน / การคาดการณ์" ของความเป็นจริง & เรา (หรือเครื่องของเรา) รับรู้มัน สหสัมพันธ์ จำกัด อย่างเคร่งครัดต่อสหสัมพันธ์ของเพียร์สันนั้นมีข้อ จำกัด มากเกินไปในการตีความประเด็นความเข้าใจผิด (ที่กว้างกว่าความสัมพันธ์เพียง) และสาเหตุ


ฉันไม่เห็นด้วย. หากมีคนละเมิดการคาดคะเนในการสร้างอันดับหน้าสูงเทียมเป้าหมายก็แสดงถึงตัวทำนายในทางตรงกันข้ามกับสิ่งที่ Google ตั้งใจเมื่อสร้างอัลกอริทึมอันดับหน้า เนื่องจากตัวชี้วัดที่แท้จริงยังคงเหมือนเดิม ("หน้าขวา" ซึ่งอันดับของหน้าเป็นเพียงการประมาณ) ผู้ทำนายจึงสูญเสียความสัมพันธ์และจึงต้องมีการเปลี่ยนแปลง ดังนั้น google ไม่สนใจเกี่ยวกับสาเหตุที่เกี่ยวข้องกับตัวชี้วัดที่แท้จริง "หน้าขวา" แต่ให้ประมาณหนึ่งที่เรียกว่าอันดับของหน้า
steffen

ไม่มีความผิด แต่ดูเหมือนคุณจะสับสนเล็กน้อยเกี่ยวกับปัญหาต่าง ๆ "PageRank" เป็นแนวคิดที่กำหนดไว้อย่างชัดเจนและเป็นเพียงหนึ่งตัวทำนาย ประเด็นหลักที่คุณมองเห็นคือกระบวนการทางอุตสาหกรรมที่เกี่ยวข้องกับการกำหนดและสร้างชุดฝึกอบรมรวมถึงความคาดหวังของผู้ใช้ น่าเสียดายที่ความคิดเห็นเป็นสถานที่ที่น่ากลัวในการเริ่มต้นการเรียนรู้ของเครื่องประยุกต์
Iterator

คุณหมายถึงว่าในกระบวนการสร้างตัวทำนายและการประเมินโดยความรู้ของผู้เชี่ยวชาญมีเพียง "สาเหตุ" เท่านั้นที่ถูกสร้างขึ้น? ตราบใดที่หนึ่งทำตามกระบวนการดังกล่าวและไม่ถอยกลับไปใช้วิธีการทดลองและข้อผิดพลาดคุณถูกต้อง Google cares;)
steffen

คุณค่อนข้างถูกต้อง ปัญหาคือว่าในช่วงเวลาที่จะได้รับอย่างมากยากที่จะพยายามที่จะรู้ทันเหตุการณ์พยากรณ์ที่สะท้อนถึงเวรกรรมเมื่อมีฝ่ายตรงข้ามขัดขวางคุณ หากผู้ทำนายไม่มีคำอธิบายเชิงสาเหตุ (เพราะพวกเขาไม่ค่อยมีสาเหตุตามธรรมชาติจริง ๆ ) ดังนั้นจึงเป็นการยากที่จะพิสูจน์ว่า baddies มีวิวัฒนาการและโคลนขึ้นบริเวณพื้นที่ของพื้นที่ทำนายนั้น
Iterator

2
@Brandon: ไม่มีการล้อเล่น นี่เป็นตัวอย่างที่ดีที่สุดเมื่อฉันลองค้นหาเหตุการณ์ล่าสุดหรือเหตุการณ์ที่จะเกิดขึ้น บ่อยขึ้นฉันต้องป้อนปีปัจจุบันหรือแม้แต่ MM-YYYY ปัจจุบัน (หรือทำการค้นหาขั้นสูง) เพื่อรับหน้าเว็บที่เกี่ยวข้อง มันเป็นการแลกเปลี่ยนกันระหว่างโครงสร้างลิงก์และความสดใหม่และ Google ทำให้มันผิดโดยไม่มีความช่วยเหลือเพิ่มเติมจากฉัน อันที่จริงมันทำให้ฉันไป Bing ไม่กี่ครั้งเพิ่งเกิดอาการระคายเคืองโดยพยายามละเว้นหน้าเก่า ๆ คำตอบแรกมักจะได้รับ upvotes มากกว่าคำตอบในภายหลังซึ่งอาจจะถูกต้องมากขึ้น :)
Iterator

5

ผู้เขียน quip ที่นี่

ความคิดเห็นนั้นได้รับแรงบันดาลใจบางส่วนจากคำพูดของ David Mease (ที่ Google) ซึ่งเขากล่าวและฉันถอดความ บริษัท ประกันภัยรถยนต์ไม่สนใจว่าการเป็นผู้ชายทำให้เกิดอุบัติเหตุมากขึ้นตราบใดที่มีความสัมพันธ์ ในความเป็นจริงมันเป็นไปไม่ได้ที่จะเปลี่ยนเพศของใครบางคนในการทดลองดังนั้นจึงไม่สามารถแสดงสาเหตุได้

ในทำนองเดียวกัน Google ไม่จำเป็นต้องสนใจถ้าสีแดงทำให้ใครบางคนคลิกโฆษณาถ้ามันมีความสัมพันธ์กับการคลิกมากขึ้นพวกเขาสามารถคิดค่าใช้จ่ายเพิ่มเติมสำหรับโฆษณานั้น

นอกจากนั้นยังได้แรงบันดาลใจจากบทความนี้ในสาย: จุดจบของทฤษฎี: น้ำท่วมทำให้ข้อมูลวิธีการทางวิทยาศาสตร์เลิก คำพูด:

"ปรัชญาการก่อตั้งของ Google คือเราไม่รู้ว่าทำไมหน้านี้ถึงดีกว่าหน้านั้น: หากสถิติของลิงก์เข้ามาบอกว่ามันเป็นสิ่งที่ดีพอ"

เห็นได้ชัดว่า Google มีคนฉลาดมากที่รู้ถึงความแตกต่างระหว่างสาเหตุและความสัมพันธ์ แต่ในกรณีของพวกเขาพวกเขาสามารถทำเงินได้มากมายโดยไม่สนใจมัน


1
เพื่ออธิบายรายละเอียด ... ดังที่ฉันได้กล่าวไปแล้วมีผู้คนจำนวนมากใน Google ที่สนใจเรื่องนี้เช่นเดียวกับ David Mease (Btw เขาไม่ได้อยู่ที่สแตนฟอร์ดเว้นแต่ว่ามีข่าวที่ฉันพลาดไปคุณอาจเข้าร่วมหลักสูตร 2007 ของเขาหรือไม่) แต่คุณพูดถูกเพราะคนจำนวนมากไม่รู้ว่าเครื่องยนต์สันดาปภายในทำงานอย่างไร ความสามารถในการขับรถ วิศวกรรถยนต์และนักวิจัยที่ดีอย่างไรก็ตามทำให้มันทำงานได้ดีขึ้นเพราะพวกเขาทำ สิ่งเดียวกันสำหรับวิศวกรและนักวิจัยที่ Google น่าเสียดายที่บทความ Wired นั้นไม่ใช่งานนำเสนอที่ชัดเจนที่สุดสำหรับวิทยานิพนธ์ของ Norvig
Iterator

ขอบคุณนีลสำหรับบริบท ฉันหวังว่าคุณไม่รังเกียจฉันที่ใช้ความคิดเห็นของคุณเป็นแรงบันดาลใจสำหรับคำถาม
Jeromy Anglim

@eromy ไม่เลย
Neil McGuigan

1

ฉันเห็นด้วยกับเดวิด : ความแตกต่างสำคัญถ้าคุณตั้งใจจะเข้าไปแทรกแซงและ Google สามารถทดสอบผลลัพธ์ของการแทรกแซงโดยใช้การทดสอบที่ควบคุม (กำหนดการที่ดีที่สุดของการทดลองดังกล่าวขึ้นอยู่กับชุดของสมมติฐานเชิงสาเหตุของคุณซึ่งคุณเรียนรู้จากการทดลองก่อนหน้านี้พร้อมข้อมูลเชิงสังเกตดังนั้นความสัมพันธ์ยังคงมีประโยชน์!)

มีเหตุผลที่สองที่ Google อาจต้องการเรียนรู้ความสัมพันธ์เชิงสาเหตุ ความสัมพันธ์เชิงสาเหตุนั้นแข็งแกร่งกว่าการแทรกแซงของผู้เล่นคนอื่น การแทรกแซงมีแนวโน้มที่จะเป็นท้องถิ่นดังนั้นพวกเขาอาจเปลี่ยนส่วนหนึ่งของเครือข่ายเชิงสาเหตุ แต่ไม่เปลี่ยนแปลงกลไกเชิงสาเหตุอื่น ๆ ทั้งหมด ในทางตรงกันข้ามความสัมพันธ์ที่คาดการณ์สามารถล้มเหลวหากการเชื่อมโยงสาเหตุที่ห่างไกลเสีย อินเทอร์เน็ตมีการเปลี่ยนแปลงอยู่ตลอดเวลาและ Google ควรให้ความสนใจกับคุณลักษณะของสภาพแวดล้อมออนไลน์ที่มีความแข็งแกร่งต่อการเปลี่ยนแปลงเหล่านั้น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.