ออกแบบฐานข้อมูล Facebook?

Question 1

ฉันสงสัยมาตลอดว่า Facebook ออกแบบความสัมพันธ์กับผู้ใช้ของเพื่อน <-> อย่างไร

ฉันคิดว่าตารางผู้ใช้เป็นดังนี้:

user_email PK
user_id PK
password

ฉันคิดว่าตารางที่มีข้อมูลของผู้ใช้ (เพศอายุ ฯลฯ ที่เชื่อมต่อผ่านอีเมลผู้ใช้ฉันจะถือว่า)

มันเชื่อมต่อเพื่อนทั้งหมดกับผู้ใช้นี้อย่างไร?

อะไรทำนองนี้?

user_id
friend_id_1
friend_id_2
friend_id_3
friend_id_N

อาจจะไม่. เนื่องจากไม่ทราบจำนวนผู้ใช้และจะขยายออกไป

Question 2

เก็บตารางเพื่อนที่มี UserID และ UserID ของเพื่อน (เราจะเรียกว่า FriendID) คอลัมน์ทั้งสองจะเป็นคีย์ต่างประเทศกลับไปที่ตารางผู้ใช้

ตัวอย่างที่มีประโยชน์:

Table Name: User
Columns:
    UserID PK
    EmailAddress
    Password
    Gender
    DOB
    Location

TableName: Friends
Columns:
    UserID PK FK
    FriendID PK FK
    (This table features a composite primary key made up of the two foreign 
     keys, both pointing back to the user table. One ID will point to the
     logged in user, the other ID will point to the individual friend
     of that user)

ตัวอย่างการใช้งาน:

Table User
--------------
UserID EmailAddress Password Gender DOB      Location
------------------------------------------------------
1      bob@bob.com  bobbie   M      1/1/2009 New York City
2      jon@jon.com  jonathan M      2/2/2008 Los Angeles
3      joe@joe.com  joseph   M      1/2/2007 Pittsburgh

Table Friends
---------------
UserID FriendID
----------------
1      2
1      3
2      3

สิ่งนี้จะแสดงให้เห็นว่าบ็อบเป็นเพื่อนกับทั้งจอนและโจและจอนก็เป็นเพื่อนกับโจด้วย ในตัวอย่างนี้เราจะถือว่ามิตรภาพมีสองทางเสมอดังนั้นคุณไม่จำเป็นต้องมีแถวในตารางเช่น (2,1) หรือ (3,2) เพราะมันแสดงไปในทิศทางอื่นแล้ว สำหรับตัวอย่างที่มิตรภาพหรือความสัมพันธ์อื่น ๆ ไม่ใช่สองทางอย่างชัดเจนคุณจะต้องมีแถวเหล่านั้นเพื่อระบุความสัมพันธ์สองทาง

Question 3

ดูสคีมาฐานข้อมูลต่อไปนี้ซึ่งออกแบบโดย Anatoly Lubarsky :

สคีมาของ Facebook

Question 4

TL; DR:

พวกเขาใช้สถาปัตยกรรมสแต็กที่มีกราฟแคชสำหรับทุกสิ่งที่อยู่เหนือ MySQL ด้านล่างของสแต็ก

คำตอบยาว:

ฉันทำการค้นคว้าเกี่ยวกับเรื่องนี้ด้วยตัวเองเพราะฉันอยากรู้ว่าพวกเขาจัดการกับข้อมูลจำนวนมหาศาลของพวกเขาอย่างไรและค้นหาด้วยวิธีที่รวดเร็ว ฉันเคยเห็นคนบ่นเกี่ยวกับสคริปต์โซเชียลเน็ตเวิร์กที่ทำขึ้นเองช้าลงเมื่อฐานผู้ใช้เติบโตขึ้น หลังจากที่ฉันทำการเปรียบเทียบตัวเองกับผู้ใช้เพียง 10kคนและการเชื่อมต่อกับเพื่อน 2.5 ล้านคน - ไม่ได้พยายามที่จะกังวลเกี่ยวกับการอนุญาตกลุ่มและการชอบและโพสต์บนผนัง แต่กลับกลายเป็นว่าแนวทางนี้มีข้อบกพร่องอย่างรวดเร็ว ดังนั้นฉันจึงใช้เวลาค้นหาเว็บเกี่ยวกับวิธีทำให้ดีขึ้นและเจอบทความทางการของ Facebook นี้:

TAO: ที่เก็บข้อมูลแบบกระจายของ Facebook สำหรับ Social Graph
TAO: พลังของกราฟ

ฉันจริงๆแนะนำให้คุณดูการนำเสนอของลิงค์แรกข้างต้นก่อนที่จะอ่านต่อ อาจเป็นคำอธิบายที่ดีที่สุดว่า FB ทำงานอย่างไรเบื้องหลังที่คุณสามารถหาได้

วิดีโอและบทความจะบอกคุณบางสิ่ง:

พวกเขาใช้ MySQL ที่ด้านล่างสุดของสแต็ก
เหนือ SQL DB มีเลเยอร์ TAO ซึ่งมีการแคชอย่างน้อยสองระดับและใช้กราฟเพื่ออธิบายการเชื่อมต่อ
ฉันไม่พบอะไรเลยเกี่ยวกับซอฟต์แวร์ / ฐานข้อมูลที่พวกเขาใช้สำหรับกราฟแคชของพวกเขา

ลองดูสิ่งนี้การเชื่อมต่อเพื่อนอยู่บนซ้าย:

ป้อนคำอธิบายภาพที่นี่

นี่คือกราฟ :) ไม่ได้บอกวิธีสร้างใน SQL มีหลายวิธีในการทำ แต่ไซต์นี้มีวิธีการที่แตกต่างกันมากมาย ข้อควรสนใจ:พิจารณาว่าฐานข้อมูลเชิงสัมพันธ์คืออะไร: คิดว่าจะจัดเก็บข้อมูลที่เป็นมาตรฐานไม่ใช่โครงสร้างกราฟ ดังนั้นมันจะทำงานได้ไม่ดีเท่ากับฐานข้อมูลกราฟเฉพาะ

พิจารณาด้วยว่าคุณต้องทำแบบสอบถามที่ซับซ้อนมากกว่าแค่เพื่อนของเพื่อนเช่นเมื่อคุณต้องการกรองสถานที่ทั้งหมดรอบพิกัดที่คุณและเพื่อนของคุณชอบ กราฟเป็นคำตอบที่สมบูรณ์แบบที่นี่

ฉันไม่สามารถบอกคุณได้ว่าจะสร้างมันอย่างไรจึงจะทำงานได้ดี แต่ต้องมีการลองผิดลองถูกและการเปรียบเทียบอย่างชัดเจน

นี่คือของฉันที่น่าผิดหวังสำหรับการทดสอบเพียงแค่เพื่อนผลการวิจัยของเพื่อน:

สคีมา DB:

CREATE TABLE IF NOT EXISTS `friends` (
`id` int(11) NOT NULL,
  `user_id` int(11) NOT NULL,
  `friend_id` int(11) NOT NULL
) ENGINE=InnoDB AUTO_INCREMENT=2 DEFAULT CHARSET=utf8;

คำถามเพื่อนของเพื่อน:

(
        select friend_id
        from friends
        where user_id = 1
    ) union (
        select distinct ff.friend_id
        from
            friends f
            join friends ff on ff.user_id = f.friend_id
        where f.user_id = 1
    )

ฉันขอแนะนำให้คุณสร้างข้อมูลตัวอย่างโดยมีระเบียนผู้ใช้อย่างน้อย 10,000 รายการและแต่ละรายการมีการเชื่อมต่อกับเพื่อนอย่างน้อย 250 คนจากนั้นเรียกใช้แบบสอบถามนี้ ในเครื่องของฉัน (i7 4770k, SSD, 16gb RAM) ผลลัพธ์คือ~ 0.18 วินาทีสำหรับข้อความค้นหานั้น บางทีมันอาจจะปรับให้เหมาะสมฉันไม่ใช่ DB อัจฉริยะ (ยินดีรับข้อเสนอแนะ) อย่างไรก็ตามหากการปรับขนาดตามเส้นตรงแสดงว่าคุณอยู่ที่ 1.8 วินาทีสำหรับผู้ใช้เพียง 100,000 คน 18 วินาทีสำหรับผู้ใช้ 1 ล้านคน

สิ่งนี้อาจฟังดูโอเคสำหรับผู้ใช้ ~ 100,000 คน แต่ให้พิจารณาว่าคุณเพิ่งดึงเพื่อนของเพื่อนมาและไม่ได้ทำแบบสอบถามที่ซับซ้อนเช่น " แสดงเฉพาะโพสต์จากเพื่อนของเพื่อน + ตรวจสอบสิทธิ์ว่าฉันอนุญาตหรือไม่อนุญาต เพื่อดูบางส่วน + ทำแบบสอบถามย่อยเพื่อตรวจสอบว่าฉันชอบสิ่งใด " คุณต้องการให้ฐานข้อมูลตรวจสอบว่าคุณชอบโพสต์แล้วหรือไม่หรือคุณจะต้องทำโค้ด นอกจากนี้โปรดพิจารณาด้วยว่านี่ไม่ใช่คำค้นหาเดียวที่คุณเรียกใช้และคุณมีผู้ใช้ที่ใช้งานอยู่มากกว่าในเวลาเดียวกันบนไซต์ที่ได้รับความนิยมไม่มากก็น้อย

ฉันคิดว่าคำตอบของฉันตอบคำถามว่า Facebook ออกแบบความสัมพันธ์กับเพื่อนได้ดีแค่ไหน แต่ฉันขอโทษที่ฉันไม่สามารถบอกคุณได้ว่าจะใช้มันอย่างไรเพื่อให้ทำงานได้เร็ว การติดตั้งโซเชียลเน็ตเวิร์กเป็นเรื่องง่าย แต่การตรวจสอบให้แน่ใจว่าทำงานได้ดีนั้นไม่ชัดเจน - IMHO

ฉันได้เริ่มทดลองใช้ OrientDB เพื่อทำการสืบค้นกราฟและแมปขอบของฉันกับ SQL DB ถ้าฉันทำสำเร็จฉันจะเขียนบทความเกี่ยวกับเรื่องนี้

Question 5

ทางออกที่ดีที่สุดของฉันคือการที่พวกเขาสร้างโครงสร้างกราฟ โหนดคือผู้ใช้และ "มิตรภาพ" คือขอบ

เก็บตารางผู้ใช้ไว้หนึ่งโต๊ะเก็บขอบอีกตาราง จากนั้นคุณสามารถเก็บข้อมูลเกี่ยวกับขอบเช่น "วันที่พวกเขากลายมาเป็นเพื่อนกัน" และ "สถานะอนุมัติ" เป็นต้น

Question 6

มักจะเป็นความสัมพันธ์แบบหลายต่อหลายคน:

FriendList (ตาราง)

user_id -> users.user_id
friend_id -> users.user_id
friendVisibilityLevel

แก้ไข

ตารางผู้ใช้อาจไม่มี user_email เป็น PK ซึ่งอาจเป็นคีย์เฉพาะ

ผู้ใช้ (ตาราง)

user_id PK
user_email
password

Question 7

ดูบทความเหล่านี้ที่อธิบายถึงวิธีการสร้าง LinkedIn และ Digg:

นอกจากนี้ยังมี "Big Data: Viewpoints จากทีมข้อมูล Facebook" ที่อาจเป็นประโยชน์:

http://developer.yahoo.net/blogs/theater/archives/2008/01/nextyahoonet_big_data_viewpoints_from_the_fac.html

นอกจากนี้ยังมีบทความนี้ที่พูดถึงฐานข้อมูลที่ไม่ใช่เชิงสัมพันธ์และวิธีการใช้งานโดยบาง บริษัท :

http://www.readwriteweb.com/archives/is_the_relational_database_doomed.php

คุณจะเห็นว่า บริษัท เหล่านี้กำลังจัดการกับคลังข้อมูลฐานข้อมูลที่แบ่งพาร์ติชันแคชข้อมูลและแนวคิดระดับสูงอื่น ๆ มากกว่าที่เราส่วนใหญ่ไม่เคยจัดการในแต่ละวัน หรืออย่างน้อยบางทีเราอาจไม่รู้ว่าเราทำ

มีลิงก์จำนวนมากในสองบทความแรกที่จะให้ข้อมูลเชิงลึกแก่คุณมากขึ้น

อัพเดท 10/20/2557

Murat Demirbasเขียนสรุปเกี่ยวกับ

TAO: ที่เก็บข้อมูลแบบกระจายของ Facebook สำหรับกราฟโซเชียล (ATC'13)
F4: ระบบจัดเก็บข้อมูล BLOB ที่อบอุ่นของ Facebook (OSDI'14)

http://muratbuffalo.blogspot.com/2014/10/facebooks-software-architecture.html

HTH

Question 8

เป็นไปไม่ได้ที่จะดึงข้อมูลจาก RDBMS สำหรับข้อมูลเพื่อนผู้ใช้สำหรับข้อมูลที่ข้ามมากกว่าครึ่งพันล้านในเวลาคงที่ดังนั้น Facebook จึงใช้สิ่งนี้โดยใช้ฐานข้อมูลแฮช (ไม่มี SQL) และเปิดฐานข้อมูลที่เรียกว่า Cassandra

ดังนั้นผู้ใช้ทุกคนจึงมีคีย์ของตัวเองและรายละเอียดของเพื่อนในคิว หากต้องการทราบว่าคาสซานดราทำงานอย่างไร:

http://prasath.posterous.com/cassandra-55

Question 9

โพสต์ล่าสุดในเดือนมิถุนายน 2013 นี้มีรายละเอียดเกี่ยวกับการอธิบายการเปลี่ยนจากฐานข้อมูลความสัมพันธ์ไปเป็นวัตถุที่มีการเชื่อมโยงสำหรับข้อมูลบางประเภท

https://www.facebook.com/notes/facebook-engineering/tao-the-power-of-the-graph/10151525983993920

มีกระดาษที่ยาวกว่านี้ที่ https://www.usenix.org/conference/atc13/tao-facebook's-distributed-data-store-social-graph

Question 10

คุณกำลังมองหาคีย์ต่างประเทศ โดยทั่วไปคุณไม่สามารถมีอาร์เรย์ในฐานข้อมูลได้เว้นแต่จะมีตารางเป็นของตัวเอง

สคีมาตัวอย่าง:

    ตารางผู้ใช้
        รหัสผู้ใช้ PK
        ข้อมูลอื่น ๆ
    โต๊ะเพื่อน
        userID - FK ไปยังตารางของผู้ใช้ที่แสดงถึงผู้ใช้ที่มีเพื่อน
        friendID - ตาราง FK ถึงผู้ใช้แทน ID ผู้ใช้ของเพื่อน

Question 11

ฐานข้อมูลกราฟประเภทหนึ่ง: http://components.neo4j.org/neo4j-examples/1.2-SNAPSHOT/social-network.html

ไม่เกี่ยวข้องกับฐานข้อมูลเชิงสัมพันธ์

Google สำหรับฐานข้อมูลกราฟ

Question 12

โปรดทราบว่าตารางฐานข้อมูลได้รับการออกแบบให้เติบโตในแนวตั้ง (แถวมากขึ้น) ไม่ใช่แนวนอน (คอลัมน์เพิ่มเติม)

Question 13

เกี่ยวกับประสิทธิภาพของตารางแบบกลุ่มต่อกลุ่มหากคุณมี ID ผู้ใช้ที่เชื่อมโยงระหว่าง 32 บิต 2 รายการพื้นที่จัดเก็บข้อมูลพื้นฐานของคุณสำหรับผู้ใช้ 200,000,000 คนโดยเฉลี่ย 200 คนต่อคนจะมีขนาดไม่เกิน 300GB

เห็นได้ชัดว่าคุณต้องมีการแบ่งพาร์ติชันและการทำดัชนีและคุณจะไม่เก็บสิ่งนั้นไว้ในหน่วยความจำสำหรับผู้ใช้ทั้งหมด

Question 14

อาจมีตารางซึ่งเก็บเพื่อน <-> ความสัมพันธ์กับผู้ใช้พูดว่า "frnd_list" โดยมีฟิลด์ "user_id", "frnd_id"

เมื่อใดก็ตามที่ผู้ใช้เพิ่มผู้ใช้อื่นเป็นเพื่อนจะมีการสร้างแถวใหม่ขึ้นสองแถว

ตัวอย่างเช่นสมมติว่า id ของฉันคือ 'deep9c' และฉันเพิ่มผู้ใช้ที่มี id 'akash3b' เป็นเพื่อนจากนั้นแถวใหม่สองแถวจะถูกสร้างขึ้นในตาราง "frnd_list" ด้วยค่า ('deep9c', 'akash3b') และ ('akash3b ',' deep9c ')

ตอนนี้เมื่อแสดงรายชื่อเพื่อนให้กับผู้ใช้คนใดคนหนึ่ง sql ธรรมดาจะทำเช่นนั้น: "เลือก frnd_id จาก frnd_list โดยที่ user_id =" โดยที่ id ของผู้ใช้ที่ล็อกอิน (เก็บไว้เป็น session-attribute)