ฉันจะให้ Google จัดทำดัชนีเอกสาร PDF ของฉันได้อย่างไร


14

เรากำลังมีปัญหาในการทำให้ Google จัดทำดัชนีไฟล์ PDF ในเว็บไซต์ของเรา มี PDF ประมาณ 50 ขนาดและขนาดสำหรับ 20 KB ถึงน้อยกว่าสอง megs พวกเขาไม่ได้รับการป้องกันสามารถอ่านโดยไม่ระบุชื่อและภายใน PDF Reader คุณสามารถค้นหาเอกสาร

พวกเขาอยู่ใน SiteMap.xml ฉันสามารถดูบันทึก IIS และดู Googlebot ที่อ่านไฟล์ PDF ได้ แต่ยกเว้นห้ารายการนั้นจะไม่รวมอยู่ในผลการค้นหา

ถ้าฉันทำ filetye: pdf มีเพียงห้า PDF เท่านั้นที่ปรากฏขึ้น หากฉันค้นหาข้อความที่ฉันรู้ว่าอยู่ใน PDF ไฟล์ PDF จะไม่ปรากฏขึ้น (ยกเว้นห้ารายการที่มีการจัดทำดัชนี)

ไม่มีใครมีความคิดใด ๆ ว่าทำไมเอกสาร PDF มากกว่า 45 รายการไม่รวมอยู่ในดัชนีแม้ว่าจะอยู่ในแผนผังไซต์และ Googlebot กำลังอ่านอยู่


คุณกำลังระบุประเภทเนื้อหาสำหรับ Google หรือไม่
Chris Ballance

คำตอบ:


4

PDF ทั้งหมดอยู่ที่จุดเดียวกันหรือไม่ ฉันเคยมีปัญหาว่าหนึ่งในสถานที่ pdf ของฉันอยู่ในโฟลเดอร์ที่ถูกยกเว้นโดย robots.txt ส่งแผนผังไซต์ของคุณโดยตรงไปยังเว็บไซต์เครื่องมือ google-webmaster และคุณอาจได้รับข้อมูลที่มีค่าเกี่ยวกับสาเหตุที่ไฟล์ PDF ไม่ปรากฏ ในกรณีของฉัน google บอกฉันว่า 'เฮ้เอกสาร PDF 54 รายการเหล่านี้อยู่บนแผนผังไซต์ของคุณ แต่เนื่องจากข้อ จำกัด ของ robots.txt เราจึงไม่สามารถจัดทำดัชนีได้ " ดังนั้นมันจึงเป็นประโยชน์ แต่โปรดทราบสิ่งที่ผู้วิจารณ์กล่าวว่าอาจใช้เวลาสักครู่จนกว่าข้อมูลนี้จะปรากฏ

Google Webmaster Tools: https://www.google.com/webmasters/tools


ฉันจะเพิ่มว่า Google Webmaster Tools ไม่ได้ให้ข้อมูลทั้งหมดแบบเรียลไทม์ มันยังคงเป็นทรัพยากรที่สำคัญ
เลียม

ไม่ไฟล์ PDF นั้นอยู่หลายแห่งในเว็บไซต์ ฉันได้ตรวจสอบแล้วและไม่มีใครถูกบล็อกโดย robots.txt ฉันใช้เครื่องมือของผู้ดูแลเว็บและส่งแผนผังไซต์และจะทำเช่นนั้น ขอบคุณสำหรับคำติชม จิม

1

อาจมีความล่าช้าระหว่าง google ในขั้นต้นในการอ่านเนื้อหาของคุณและมันจะปรากฏในดัชนี เราเพิ่งเปิดตัวเว็บไซต์ใหม่ส่งแผนผังไซต์ไปยัง google เมื่อเปิดตัวและใช้เวลาประมาณ 3 สัปดาห์กว่าที่หน้าใหม่จะเริ่มปรากฏในผลการค้นหา

นานแค่ไหนที่คุณส่งไฟล์ PDF เหล่านี้ผ่านแผนผังไซต์ของคุณ?

(ยกเว้นห้ารายการที่จัดทำดัชนี)

ดูเหมือนว่าไฟล์ PDF ของคุณจะได้รับการจัดทำดัชนี แต่ใช้เวลาพอสมควร สมมติว่าไม่มีความแตกต่างในวิธีการสร้าง PDF ที่ไม่ได้จัดทำดัชนีจากนั้นฉันสงสัยว่าเป็นเพียงดัชนีที่ใช้เวลาสักครู่ในการอัปเดต

เครื่องมือที่มีประโยชน์อย่างหนึ่งที่ฉันขอแนะนำให้ลงชื่อสมัครใช้คือGoogle Webmasterซึ่งจะแสดงอัตราการรวบรวมข้อมูลปัญหาเกี่ยวกับไซต์ของคุณแผนผังไซต์และการจัดทำดัชนีภายในหนึ่งวันหรือนับจาก Googlebot ที่เข้าชมเว็บไซต์ของคุณ มันสามารถช่วยคุณประหยัดเวลาสักเล็กน้อยในการใช้บันทึก IIS


ประมาณสี่สัปดาห์ตั้งแต่เราส่งแผนผังไซต์ของเราเป็นครั้งแรก ฉันเพิ่งสังเกตเห็นว่าเมื่อคืนพวกเขาจัดทำดัชนีอีกสี่; ดังนั้นฉันอาจจะต้องรอต่อไป :)

เมื่อคุณเปิดใช้งานไซต์อีกครั้งหากใช้เวลา 3 สัปดาห์เพื่อให้หน้าใหม่เริ่มปรากฏขึ้นในการค้นหา rusults นั่นไม่ได้หมายความว่าเป็นเวลา 3 สัปดาห์การค้นหาส่งคืนผลลัพธ์ไปยังหน้าเว็บที่ไม่มีอยู่ในไซต์ของคุณอีกต่อไปหรือ ไม่ได้ผลลัพธ์ในเงื่อนไข 'ไม่พบหน้าเว็บ' มากหรือไม่

ในสถานการณ์ของเราการเปิดตัวใหม่ร่วมกับการเปิดตัวส่วนใหม่ลิงก์เก่ายังคงทำงาน - 3 สัปดาห์เป็นเวลาที่ส่วนใหม่จะเริ่มปรากฏขึ้น เวลารอแบบสุ่มอาจเป็นเรื่องที่น่าหงุดหงิดเล็กน้อย!
ConroyP

0

สแกนไฟล์ OCR ของคุณเป็นไฟล์ PDF หรือไม่จึงเลือกข้อความและค้นหาได้ หรือไฟล์ PDF ถูกสแกนโดยไม่มี OCR ในกรณีนี้ข้อความจะถูกจัดเก็บเป็นภาพขนาดใหญ่หรือไม่? หาก PDF เป็นรูปภาพทั้งหมดฉันไม่คิดว่า Google จะสามารถจัดทำดัชนีได้ (ยัง) หรือ Google พบหน้าเว็บของคุณแล้วหรือยัง


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.