เทคโนโลยีฐานข้อมูลใดที่เครื่องมือค้นหาขนาดใหญ่ใช้ [ปิด]

32

ไม่มีใครรู้ว่า Google หรือ Yahoo ทำการค้นหาคำหลักอย่างไรกับข้อมูลจำนวนมหาศาลมาก? พวกเขาใช้ฐานข้อมูลหรือเทคโนโลยีประเภทใด

ใช้เวลาไม่กี่มิลลิวินาที แต่มีดัชนีมากกว่าพันล้านหน้า

database-design full-text-search

— rkosegi
แหล่งที่มา

มีคำถามที่คล้ายกันใน Stack Overflow: stackoverflow.com/questions/362956/…

— splattne

21

ฉันแน่ใจว่ามีการรวมกันของสิ่งต่าง ๆ :

ฮาร์ดแวร์ที่ร้ายแรง
มากมาย - ข้อมูลถูกกระจายและทำซ้ำข้ามหลายโหนดและดาต้าเซ็นเตอร์ที่ต่างกัน
- (จริง ๆ แล้วในกรณีของ Google อย่างน้อยฉันเชื่อว่าพวกเขามีเซิร์ฟเวอร์ต่ำสุดจริงๆหลายพันรายการ)
ผลลัพธ์ของคำค้นหาทั่วไปจำนวนมากถูกแคชไว้สังเกตว่ามีการเติมข้อมูลการค้นหาที่อาจเกิดขึ้นล่วงหน้าสำหรับสิ่งที่คุณรู้ว่าคุณไม่เคยค้นหามาก่อน พวกเขากำลังทำนายสิ่งที่คุณอาจค้นหาและหวังว่าพวกเขาจะได้รับผลการคำนวณล่วงหน้าและแคชไว้แล้ว ในหลายกรณีพวกเขาทำ - มีการค้นหาจำนวนมากที่คุณไม่สามารถทำได้บน Google ในวันนี้ที่ไม่มีใครถามก่อนหน้าคุณ เมื่อพวกเขาได้รับวลีค้นหาใหม่พวกเขาอาจใช้บางอย่างเช่นการค้นหาข้อความอิสระ - และฉันคาดว่าคำหลักจะถูกแยกออกทางความหมายเมื่อหน้าเว็บถูกรวบรวมข้อมูลครั้งแรกแทนที่จะพยายามค้นหาคำหลักในเอกสารหลังจากที่คุณค้นหาแล้ว . แน่นอนว่าพวกเขาจะต้องทำให้แคชเหล่านั้นใช้งานไม่ได้เป็นระยะการคำนวณอันดับของหน้าใหม่

— แอรอนเบอร์ทรานด์
แหล่งที่มา

34

นกพิราบ

หัวใจสำคัญของเทคโนโลยีการค้นหาของ Google คือPigeonRank ™ระบบจัดอันดับเว็บเพจที่พัฒนาโดยผู้ก่อตั้ง Google Larry Page และ Sergey Brin ที่ Stanford University:

ป้อนคำอธิบายรูปภาพที่นี่

จากการพัฒนาของ BF Skinner, Page และ Brin ให้เหตุผลว่ากลุ่มนกพิราบราคาถูก(PC)สามารถใช้ในการคำนวณค่าสัมพัทธ์ของหน้าเว็บได้เร็วกว่าบรรณาธิการของมนุษย์หรืออัลกอริธึมบนเครื่อง และในขณะที่ Google มีวิศวกรจำนวนมากที่ทำงานเพื่อปรับปรุงการให้บริการของเราทุกวัน PigeonRank ยังคงให้บริการพื้นฐานสำหรับเครื่องมือค้นหาเว็บทั้งหมดของเรา

ทำไม PigeonRank ™ที่จดสิทธิบัตรของ Google ทำงานได้ดี

ความสำเร็จของ PigeonRank นั้นขึ้นอยู่กับความสามารถในการฝึกฝนที่เหนือกว่าของนกพิราบในประเทศ(Columba livia)และความสามารถพิเศษในการจดจำวัตถุโดยไม่คำนึงถึงการวางแนวอวกาศ นกพิราบสีเทาทั่วไปสามารถแยกแยะความแตกต่างระหว่างรายการที่แสดงเฉพาะความแตกต่างน้อยที่สุดได้อย่างง่ายดายความสามารถที่ช่วยให้สามารถเลือกเว็บไซต์ที่เกี่ยวข้องจากหน้าเว็บที่คล้ายกันนับพันหน้า

ด้วยการรวบรวมฝูงนกพิราบในกลุ่มหนาแน่น Google สามารถประมวลผลข้อความค้นหาด้วยความเร็วที่เหนือกว่าเครื่องมือค้นหาแบบดั้งเดิมซึ่งโดยทั่วไปจะใช้นกล่าเหยื่อแม่ไก่ไข่หรือนกน้ำที่เคลื่อนไหวช้าเพื่อจัดอันดับความเกี่ยวข้อง

เมื่อมีการค้นหาจะถูกส่งไปยัง Google ก็จะถูกส่งไปยังสุ่มข้อมูลที่ตรวจสอบแฟลชหน้าผลที่ความเร็วที่เห็นได้ชัด เมื่อผลลัพธ์ที่เกี่ยวข้องถูกพบโดยนกพิราบตัวหนึ่งในกระจุกนั้นมันจะกระทบกับแท่งเหล็กเคลือบด้วยปากนกซึ่งจะกำหนดค่า PigeonRank ของหน้าให้กับหน้า สำหรับแต่ละถากถางที่เพิ่มขึ้น PigeonRank หน้าเหล่านั้นที่ได้รับการจิกมากที่สุดจะถูกส่งกลับที่ด้านบนสุดของหน้าผลลัพธ์ของผู้ใช้พร้อมกับผลลัพธ์อื่น ๆ ที่แสดงตามลำดับการจิก

— ypercubeᵀᴹ
แหล่งที่มา

6

หมายเหตุ: หน้านี้ถูกโพสต์เมื่อวัน April Fool's - 2002

— dr jimbob

19

เป็นสิ่งสำคัญที่ต้องคำนึงถึงสิ่งต่าง ๆ เกี่ยวกับ google:

ฐานข้อมูลของพวกเขาคือBigTable ที่เป็นกรรมสิทธิ์- มันถูกออกแบบเองโดยGOOGLEเพื่อให้เหมาะกับความต้องการของพวกเขา
ฐานข้อมูลที่เป็นกรรมสิทธิ์ของพวกเขาถูกสร้างขึ้นบนระบบไฟล์ที่เป็นกรรมสิทธิ์ของพวกเขา - ระบบไฟล์ของ Google - ได้รับการออกแบบโดยGOOGLEอีกครั้งเพื่อให้สามารถขยายได้อย่างง่ายดายโดยใช้ฮาร์ดแวร์ชุดสินค้าทั่วไป ดังที่แอรอนกล่าวไว้ในคำตอบของเขาพวกเขามีเซิร์ฟเวอร์เฉลี่ยจำนวนมากแทนที่จะเป็นเซิร์ฟเวอร์ที่ทรงพลังจำนวนมาก

พวกเขาจัดเก็บตารางส่วนบุคคลในหลาย ๆ เครื่องเพื่อให้สามารถเข้าถึงได้เร็วขึ้น - ซอฟต์แวร์ของพวกเขารู้ว่าข้อมูลใดอยู่บนเครื่องใดและแทนที่จะพุ่งผ่านดิสก์เพื่อค้นหาว่าสามารถไปที่เซิร์ฟเวอร์ได้โดยตรงพร้อมกับข้อมูลที่เกี่ยวข้อง

— JNK
แหล่งที่มา

11

Google ไม่ได้ใช้เทคโนโลยีฐานข้อมูลเชิงสัมพันธ์แบบดั้งเดิม มันพัฒนาเทคโนโลยีของตัวเองโต๊ะใหญ่และลดแผนที่ เอกสารงานวิจัยเดิมอยู่ที่นี่: ตารางบิ๊กและแผนที่ / ลด นอกจากนี้ที่น่าสนใจคือSSTable ตารางสตริงเรียง

เทคโนโลยีที่คล้ายกันถูกนำมาใช้ในขณะนี้ในHadoopและฐานข้อมูล NoSQL

— NimChimpsky
แหล่งที่มา

9

อ่าน Steven Levy " In The Plex: วิธีที่ Google คิดว่าทำงานและสร้างรูปลักษณ์ชีวิตของเรา " หนังสือเล่มนี้เป็นหนังสือที่น่าอ่านเกี่ยวกับทุกสิ่งที่ Google และพูดคุยในระดับสูงบางส่วนของเทคโนโลยีและวิศวกรรมที่อยู่เบื้องหลังการค้นหา แอรอนสรุปได้ดีมากในคำตอบของเขาและหนังสือของเลวีจะให้รายละเอียดเพิ่มเติมเกี่ยวกับวิธีที่พวกเขาทำ

— Todd Everett
แหล่งที่มา