ไม่มีใครรู้ว่า Google หรือ Yahoo ทำการค้นหาคำหลักอย่างไรกับข้อมูลจำนวนมหาศาลมาก? พวกเขาใช้ฐานข้อมูลหรือเทคโนโลยีประเภทใด
ใช้เวลาไม่กี่มิลลิวินาที แต่มีดัชนีมากกว่าพันล้านหน้า
ไม่มีใครรู้ว่า Google หรือ Yahoo ทำการค้นหาคำหลักอย่างไรกับข้อมูลจำนวนมหาศาลมาก? พวกเขาใช้ฐานข้อมูลหรือเทคโนโลยีประเภทใด
ใช้เวลาไม่กี่มิลลิวินาที แต่มีดัชนีมากกว่าพันล้านหน้า
คำตอบ:
ฉันแน่ใจว่ามีการรวมกันของสิ่งต่าง ๆ :
มากมาย - ข้อมูลถูกกระจายและทำซ้ำข้ามหลายโหนดและดาต้าเซ็นเตอร์ที่ต่างกัน
นกพิราบ
หัวใจสำคัญของเทคโนโลยีการค้นหาของ Google คือPigeonRank ™ระบบจัดอันดับเว็บเพจที่พัฒนาโดยผู้ก่อตั้ง Google Larry Page และ Sergey Brin ที่ Stanford University:
จากการพัฒนาของ BF Skinner, Page และ Brin ให้เหตุผลว่ากลุ่มนกพิราบราคาถูก(PC)สามารถใช้ในการคำนวณค่าสัมพัทธ์ของหน้าเว็บได้เร็วกว่าบรรณาธิการของมนุษย์หรืออัลกอริธึมบนเครื่อง และในขณะที่ Google มีวิศวกรจำนวนมากที่ทำงานเพื่อปรับปรุงการให้บริการของเราทุกวัน PigeonRank ยังคงให้บริการพื้นฐานสำหรับเครื่องมือค้นหาเว็บทั้งหมดของเรา
ทำไม PigeonRank ™ที่จดสิทธิบัตรของ Google ทำงานได้ดี
ความสำเร็จของ PigeonRank นั้นขึ้นอยู่กับความสามารถในการฝึกฝนที่เหนือกว่าของนกพิราบในประเทศ(Columba livia)และความสามารถพิเศษในการจดจำวัตถุโดยไม่คำนึงถึงการวางแนวอวกาศ นกพิราบสีเทาทั่วไปสามารถแยกแยะความแตกต่างระหว่างรายการที่แสดงเฉพาะความแตกต่างน้อยที่สุดได้อย่างง่ายดายความสามารถที่ช่วยให้สามารถเลือกเว็บไซต์ที่เกี่ยวข้องจากหน้าเว็บที่คล้ายกันนับพันหน้า
ด้วยการรวบรวมฝูงนกพิราบในกลุ่มหนาแน่น Google สามารถประมวลผลข้อความค้นหาด้วยความเร็วที่เหนือกว่าเครื่องมือค้นหาแบบดั้งเดิมซึ่งโดยทั่วไปจะใช้นกล่าเหยื่อแม่ไก่ไข่หรือนกน้ำที่เคลื่อนไหวช้าเพื่อจัดอันดับความเกี่ยวข้อง
เมื่อมีการค้นหาจะถูกส่งไปยัง Google ก็จะถูกส่งไปยังสุ่มข้อมูลที่ตรวจสอบแฟลชหน้าผลที่ความเร็วที่เห็นได้ชัด เมื่อผลลัพธ์ที่เกี่ยวข้องถูกพบโดยนกพิราบตัวหนึ่งในกระจุกนั้นมันจะกระทบกับแท่งเหล็กเคลือบด้วยปากนกซึ่งจะกำหนดค่า PigeonRank ของหน้าให้กับหน้า สำหรับแต่ละถากถางที่เพิ่มขึ้น PigeonRank หน้าเหล่านั้นที่ได้รับการจิกมากที่สุดจะถูกส่งกลับที่ด้านบนสุดของหน้าผลลัพธ์ของผู้ใช้พร้อมกับผลลัพธ์อื่น ๆ ที่แสดงตามลำดับการจิก
เป็นสิ่งสำคัญที่ต้องคำนึงถึงสิ่งต่าง ๆ เกี่ยวกับ google:
ฐานข้อมูลของพวกเขาคือBigTable ที่เป็นกรรมสิทธิ์- มันถูกออกแบบเองโดยGOOGLEเพื่อให้เหมาะกับความต้องการของพวกเขา
ฐานข้อมูลที่เป็นกรรมสิทธิ์ของพวกเขาถูกสร้างขึ้นบนระบบไฟล์ที่เป็นกรรมสิทธิ์ของพวกเขา - ระบบไฟล์ของ Google - ได้รับการออกแบบโดยGOOGLEอีกครั้งเพื่อให้สามารถขยายได้อย่างง่ายดายโดยใช้ฮาร์ดแวร์ชุดสินค้าทั่วไป ดังที่แอรอนกล่าวไว้ในคำตอบของเขาพวกเขามีเซิร์ฟเวอร์เฉลี่ยจำนวนมากแทนที่จะเป็นเซิร์ฟเวอร์ที่ทรงพลังจำนวนมาก
พวกเขาจัดเก็บตารางส่วนบุคคลในหลาย ๆ เครื่องเพื่อให้สามารถเข้าถึงได้เร็วขึ้น - ซอฟต์แวร์ของพวกเขารู้ว่าข้อมูลใดอยู่บนเครื่องใดและแทนที่จะพุ่งผ่านดิสก์เพื่อค้นหาว่าสามารถไปที่เซิร์ฟเวอร์ได้โดยตรงพร้อมกับข้อมูลที่เกี่ยวข้อง
อ่าน Steven Levy " In The Plex: วิธีที่ Google คิดว่าทำงานและสร้างรูปลักษณ์ชีวิตของเรา " หนังสือเล่มนี้เป็นหนังสือที่น่าอ่านเกี่ยวกับทุกสิ่งที่ Google และพูดคุยในระดับสูงบางส่วนของเทคโนโลยีและวิศวกรรมที่อยู่เบื้องหลังการค้นหา แอรอนสรุปได้ดีมากในคำตอบของเขาและหนังสือของเลวีจะให้รายละเอียดเพิ่มเติมเกี่ยวกับวิธีที่พวกเขาทำ