ตกลง. นี่จะเป็นหนึ่งในกรณีที่ฉันจะทำงานผ่านกระบวนการเพื่อให้ชัดเจนขึ้น มันจะค่อนข้างยาว แต่หวังว่าจะไม่นานเจ็บปวด
เริ่มกันที่จุดเริ่มต้นกันเถอะ
เริ่มต้นจากสิ่งที่เรารู้เกี่ยวกับวิธีการทำงานของ Google โดยเริ่มจากบทความวิจัยของ Brin และ Page back ในปี 1997 เรารู้บางสิ่งที่ยังคงมีอยู่ในปัจจุบัน
Google มี URL อยู่ในดัชนีและดึงข้อมูลคิวและดึงข้อมูลหน้า รหัสสำหรับหน้าถูกเก็บไว้ในฐานข้อมูลสำหรับการประมวลผลในรูปแบบต่างๆ หนึ่งในกระบวนการจะหาลิงค์ใหม่ ลิงค์ใด ๆ ที่ Google ค้นพบจะอยู่ในดัชนีลิงก์ก่อนหากมีอยู่ มันไม่ได้แล้วลิงค์จะถูกเพิ่มลงในตารางลิงค์และเพิ่มลงในคิวการดึงข้อมูล
ลิงก์ใด ๆ ภายในตารางลิงค์มีองค์ประกอบเหล่านี้อย่างน้อยที่สุดลิงก์ URL, URL ต้นทางและข้อความลิงก์ มีโอกาสที่จะมีองค์ประกอบข้อมูลอื่น ๆ อย่างไรก็ตามสิ่งเหล่านี้ไม่ได้เป็นการอภิปรายล่วงหน้า ลิงค์ใด ๆ ที่ถูกเพิ่มไปยังตารางลิงค์มี URL แหล่งที่ตรวจสอบแล้ว แต่ไม่จำเป็นต้องเป็น URL เป้าหมาย การใช้ฐานข้อมูลเชิงสัมพันธ์เป็นตัวอย่าง URL ต้นทางและเป้าหมายอาจเป็นรหัส URL ภายในตาราง URL และตารางการเข้าร่วมจะเข้าร่วม URL ต้นทางของตารางลิงก์และองค์ประกอบ URL เป้าหมายโดยใช้ ID กลับไปที่ตาราง URL สับสน? อย่าเป็น
สำหรับกรณีใด ๆ ที่ไม่ได้ดึงหน้าเป้าหมายลิงก์ภายในตารางลิงค์จะถูกกล่าวว่าเป็นลิงค์ห้อยต่องแต่ง เมื่อดึงหน้าแล้วลิงค์ภายในตารางลิงค์จะเสร็จสมบูรณ์ หากไม่มีหน้าเป้าหมายแสดงว่าลิงก์ภายในตารางลิงค์นั้นเป็นลิงก์ที่เสีย ง่าย?
ลิงก์ที่สมบูรณ์เท่านั้นที่สามารถส่งผ่านค่าได้ อัลกอริทึม PageRank ต้องการลิงค์ที่สมบูรณ์เพื่อคำนวณค่า ลิงก์ที่ห้อยและหักทั้งหมดจะหยุดการคำนวณโดยใช้ลิงก์ ก่อนหน้านี้ PR เป็นกระบวนการแบบเรียกซ้ำที่จะคำนวณค่าลิงก์โดยใช้ตารางลิงก์ซ้ำไปซ้ำมาจนกว่าค่าที่สามารถปรับเปลี่ยนเป็นลิงค์ใด ๆ จะอยู่ภายในค่าตัวเลขที่เล็กจนไม่สามารถสร้างความแตกต่างได้อย่างมีประสิทธิภาพ ฉันแน่ใจว่าสิ่งนี้ยังคงเกิดขึ้นในกระบวนการดูแลรักษาบ้าน อย่างไรก็ตาม PR วันนี้คำนวณโดยใช้วิธีอื่นที่คล้ายกับ hops ในเครือข่ายที่วัดระยะทางจากหน้าหนึ่งไปอีกหน้าหนึ่งที่มีความสำคัญสัมพัทธ์ มันขึ้นอยู่กับรุ่นเครือข่ายที่ไว้วางใจซึ่งเป็นวิธีที่ PageRank แบบดั้งเดิมได้รับการออกแบบเพื่อเลียนแบบ ลิงค์คือคะแนนความเชื่อถือจากเอนทิตี้หนึ่งไปอีกลิงค์หนึ่ง ในขณะที่มันซับซ้อนกว่านี้ คุณได้รับรูปภาพ มันทำสิ่งเดียวกันได้อย่างมีประสิทธิภาพเหมือนกับกระบวนการวนซ้ำโดยใช้การคำนวณแบบเรียลไทม์มากขึ้น แต่มีความแม่นยำน้อยกว่า แต่แม่นยำเพียงพอที่จะเชื่อถือได้ สิ่งนี้ต้องมีลิงก์ที่สมบูรณ์เนื่องจากค่าความน่าเชื่อถือ (ใช้รูปแบบเครือข่ายที่เชื่อถือได้) ไม่สามารถส่งผ่านได้หากไม่ได้สร้างความเชื่อถือ โปรดจำไว้ว่าลิงก์คือคะแนนความน่าเชื่อถือหรือลิงค์ในรูปแบบเครือข่ายที่เชื่อถือได้ PageRank แสดงเป็นค่าความน่าเชื่อถือในเครือข่ายที่เชื่อถือได้
เมื่อคุณเข้าใจลิงก์และความสำคัญของลิงก์เหล่านั้นแล้วให้ดำเนินการต่อไป
สำหรับเครื่องมือค้นหามันไม่เหมาะสมเลยที่จะลบ URL ใด ๆ หาก URL ไม่มีอยู่ในตาราง URL คุณจะไม่สามารถรู้อะไรเกี่ยวกับ URL ได้และจะสูญเสียไป โดยทั่วไปแล้ว URL จะไม่ถูกลบเว้นแต่ว่าเหมาะสมถ้าไม่มี URL อยู่อีกต่อไป อย่างไรก็ตามเมื่อหน้าถูกตั้งค่าเป็น NOINDEX เครื่องมือค้นหาจะได้รับคำแนะนำอย่างชัดเจนว่าห้ามทำดัชนีหน้าเว็บ เนื่องจากหน้าเว็บภายในดัชนีประกอบด้วยสองสิ่ง URL และซอร์สโค้ด HTML จึงทำให้ NOINDEX ลบหน้าได้อย่างมีประสิทธิภาพ ณ จุดนี้ ลิงค์ไปยังหน้า NOINDEX เป็นอย่างน้อยห้อยต่องแต่ง
ตอนนี้คุณรู้ว่าหน้าการจัดทำดัชนีเป็นอย่างไรให้ย้ายไปอีก
มีหลายวิธีที่เครื่องมือค้นหาจะลงโทษหน้าเว็บหรือเว็บไซต์ หนึ่งคือการเพิกถอน นี่คือบทลงโทษที่รุนแรงที่สุดและใช้เวลาในการฟื้นตัวนาน บทลงโทษประเภทนี้คุณสามารถพิสูจน์ได้เนื่องจากหน้าจะไม่พบและไม่สามารถพบได้ นอกจากนี้ Googles Search Console จะแจ้งให้คุณทราบว่าหน้าเว็บถูกเพิกถอน จากบทลงโทษที่เหลืออยู่บทลงโทษจะถูกนำไปใช้ในตัวกรอง SERP
เมื่อมีการดำเนินการค้นหาจะมีการค้นหาหลายครั้งในดัชนีพร้อมกันซึ่งจะถูกรวมเข้ากับชุดผลลัพธ์ตามส่วนของอัลกอริทึม อัลกอริทึมที่เหลือซึ่งเรามักเรียกว่าเป็นเอนทิตี้เดียวคือชุดของอัลกอริทึม SERP ที่ค่อนข้างง่าย อัลกอริทึมหลักซึ่งจะเรียงลำดับชุดผลลัพธ์ใหม่ตามการวัดแบบเรียลไทม์เช่นแนวโน้ม ของอัลกอริทึมรายการที่ลบรายการออกจากชุดผลลัพธ์หรือปรับลดการจัดวางรายการในชุดผลลัพธ์อย่างจริงจังจะเรียกว่าตัวกรอง สิ่งหนึ่งที่นำไปใช้คือตัวกรองที่จัดการ DMCA ตามหลักฐาน...we have removed 1 result(s) from this page...
ตอนนี้คุณรู้แล้วว่าการลงโทษนั้นมีการเชื่อมโยงกันอย่างไรเชื่อมโยงตัวกรอง PR และ DMCA?
ด้วยสิ่งนี้เรารู้ว่ามีการใช้ตัวกรองอย่างไรก็ตามสิ่งนี้ไม่เกี่ยวข้องกับดัชนีลิงก์ซึ่งเป็นวิธีคำนวณ PageRank มันจะถูกลบออกไปจากกระบวนการเชื่อมโยง / PR เท่าที่จะทำได้ ลิงก์และ PR เป็นจุดเริ่มต้นของกระบวนการสร้างดัชนีในขณะที่การลบหน้าเว็บที่ถูกลงโทษ DMCA อยู่ที่ท้ายกระบวนการสืบค้น ในความเป็นจริงเหล่านี้เป็นสองเครื่องยนต์ที่แยกจากกันอย่างสมบูรณ์ ดังนั้นในขณะที่หน้าอาจถูกลบเนื่องจากข้อร้องเรียน DMCA มันไม่ได้ถูกลบจริงออกจากดัชนีและดังนั้นจึงมีการคำนวณลิงก์ไปยังและจากหน้า
ชัดเจนเหมือนโคลนไหม ฉันหวังว่าฉันจะอธิบายได้ดี โปรดแจ้งให้เราทราบหากฉันสามารถชี้แจงบางอย่างให้คุณ
[Update]
ข้อยกเว้นที่ใช้ไม่ได้กับสถานการณ์ของ OP
@StephenOstermiller นำเสนอจุดดีที่ไม่ทำลายข้างต้นอย่างไรก็ตามฉันต้องการเพิ่มให้ครบถ้วน
อย่างที่คุณทราบกันดีว่าการให้คะแนนเว็บไซต์หรือหน้าเว็บในการค้นหานั้นมีปัจจัยหลายอย่าง แม้ว่าสิ่งนี้จะไม่เป็นเรื่องทางเทคนิคหรือลึกลับอย่างที่คุณอาจจินตนาการ แต่ก็ยังมีอีกหลายสิ่งที่จะต้องพิจารณา ฉันลืมเกี่ยวกับผลของคะแนนความน่าเชื่อถือส่วนใหญ่เพราะมันไม่ได้ใช้ในกรณีของ OP ดังนั้นฉันจะเพิ่มที่นี่
เห็นได้ชัดว่ามีเว็บไซต์ที่ไม่ดีเช่นเว็บไซต์สแปม ภายในหมวดหมู่ของเว็บไซต์นี้เป็นเว็บไซต์ที่มีผู้ละเมิดเนื้อหาลิขสิทธิ์ นี่เป็นปัญหาใหญ่เมื่อหลายปีก่อนที่ผู้คัดลอกเนื้อหาจะสร้างเว็บไซต์จากการทำงานหนักของคุณ เป็นเวลานานไม่มีอะไรทำ เว็บไซต์ที่มีเนื้อหาต้นฉบับจะสูญเสียไปยังไซต์มีดโกนอย่างสม่ำเสมอ ฉันควรจะรู้. ฉันมีสองเว็บไซต์ประชาสัมพันธ์ 8 ที่สูญเสียการเข้าชมเกือบทั้งหมดเนื่องจากไซต์มีดโกนไม่มีการขอความช่วยเหลือ
อย่างไรก็ตามสิ่งต่าง ๆ มีการเปลี่ยนแปลง และมันก็เป็นเพียงประมาณสี่ปีนับตั้งแต่การเปลี่ยนแปลงที่สำคัญได้เริ่มขึ้น
สำหรับการจำแนกเว็บไซต์พิเศษเหล่านี้คะแนนความน่าเชื่อถือของไซต์จะลดลงอย่างมีนัยสำคัญ เรื่องนี้เป็นที่รู้จักกันดี ใช้เวลาหลายปีในการสร้างคะแนนความน่าเชื่อถือและสำหรับบางเว็บไซต์สิ่งนี้อาจไม่เกิดขึ้น ยกตัวอย่างเช่นทำไมคุณถึงคิดว่าตัวสร้างรายได้จากโดเมนยินดีที่จะทิ้งเว็บไซต์อย่างละเอียดโดยมีคนนับแสนรอคอยที่จะทำสิ่งเดียวกัน เป็นเพราะความจริงก็คือโดเมนสามารถทำลายมันเป็นมูลค่าเกินกว่าการไถ่ถอน
มีปัจจัยหลายอย่างที่สร้างความเชื่อมั่น ฉันจะไม่เข้าไปที่นี่ อย่างไรก็ตามรู้ว่าความน่าเชื่อถือเป็นองค์ประกอบหลักของการสร้างอันดับสำหรับเว็บไซต์ใด ๆ
ที่กล่าวว่าสำหรับเว็บไซต์ใด ๆ ที่เป็นผู้ฝ่าฝืนอย่างร้ายแรงของ DMCA ที่มีประวัติที่กว้างขวางพอสมควรจะได้รับคะแนนความน่าเชื่อถือสูง นี่ไม่ใช่ภาพจำลองที่ OP อธิบาย อย่างไรก็ตามมันเป็นสถานการณ์ที่ฉันสมมติที่นี่
ลิงก์และการสร้าง PageRank มีมากกว่าหนึ่งองค์ประกอบ หนึ่งคือ PageRank (สิทธิ) ของหน้าตัวเอง สำหรับหน้าเว็บที่มีสิทธิ์สูงมีขีด จำกัด สิทธิ์ หน้า PR 8 จะไม่แชร์ค่า 8 ท่ามกลางลิงค์ต่างๆในหน้านั้น นี่เป็นส่วนหนึ่งของอัลกอริทึม PageRank ดั้งเดิมที่ตั้งใจจะทำให้เส้นโค้งเป็นธรรมชาติมากขึ้นในการประชาสัมพันธ์ ไม่เช่นนั้นจะเป็นไปไม่ได้ที่หน้าใหม่จะแข่งขันกับหน้าเว็บที่มีสิทธิ์สูงแม้จะใช้เวลานานก็ตาม ค่าของลิงค์นั้นมีการทำคะแนนโดยใช้ปัจจัยหลายประการรวมถึงค่าความหมายของข้อความลิงค์, URL ลิงค์, ที่ตั้งของลิงค์ (สำคัญ), ค่าความหมายของบล็อกเนื้อหาที่มีลิงค์ถ้ามันใช้ ฯลฯ ลิงค์ทั้งหมด ได้คะแนนจาก 0 ถึง. 9 การคำนวณของผู้มีอำนาจและคะแนนลิงค์คือค่าที่ผ่านการเชื่อมโยงใด ๆ
ดีและดี ดังนั้นสิ่งนี้จะส่งผลต่อเว็บไซต์ที่เป็นผู้ละเมิด DMCA ได้อย่างไร
ค่าของลิงก์ขาเข้าใด ๆ จะไม่จำเป็นต้องได้รับผลกระทบจากคะแนนความเชื่อถือของไซต์เป้าหมายเนื่องจากค่าลิงก์มาจากไซต์ต้นทาง อย่างไรก็ตามลิงก์ขาออกอาจเป็นได้ อำนาจของเว็บไซต์ใด ๆ ที่เป็นผู้กระทำความผิด DMCA ที่สำคัญจะได้รับผลกระทบจากคะแนนความเชื่อถือ หลังจากนั้นผู้มีอำนาจมาจากความไว้วางใจ ดังนั้นด้วยวิธีนี้ค่าของลิงค์ขาเข้าจะไม่ถูกส่งผ่านลิงก์ขาออกโดยไม่ลดระดับลงตามคะแนนความน่าเชื่อถือ
นี่เปลี่ยนคำตอบบ้าง
แม้ว่าจะไม่ได้ใช้กับสถานการณ์ของ OP แต่ก็มีสถานการณ์ที่ค่าการเชื่อมโยงขาเข้าไม่ผ่านเว็บไซต์ที่มีการละเมิด DMCA อย่างสมบูรณ์ อย่างไรก็ตามนี่เป็นกรณีที่ยากและดังนั้นเกณฑ์ก่อนเกิดเหตุการณ์นี้จึงมีความสำคัญ