เมื่อมีเหตุการณ์ในเกมความล่าช้าสูงสุดในการสร้างเสียงที่ผู้เล่นจะต้องเชื่อมโยงเสียงกับเหตุการณ์นั้นคืออะไร (และไม่เข้าใจความล่าช้า)
เมื่อมีเหตุการณ์ในเกมความล่าช้าสูงสุดในการสร้างเสียงที่ผู้เล่นจะต้องเชื่อมโยงเสียงกับเหตุการณ์นั้นคืออะไร (และไม่เข้าใจความล่าช้า)
คำตอบ:
ผลดังต่อไปนี้จะถูกคำนวณสำหรับการประสานริมฝีปากซึ่งเป็น concidered จะเป็น"ส่วนใหญ่ที่เห็นได้ชัด A / V ข้อผิดพลาดการซิงค์"
Wikipediaพูดว่า
สำหรับแอปพลิเคชั่นโทรทัศน์เสียงควรนำไปสู่วิดีโอไม่เกิน 15 มิลลิวินาทีและเสียงควรล่าช้าวิดีโอไม่เกิน 45 มิลลิวินาที สำหรับภาพยนตร์ลิปซิงค์ที่ยอมรับได้นั้นจะต้องไม่เกิน 22 มิลลิวินาทีในทิศทางใดทิศทางหนึ่ง
ห้องปฏิบัติการสื่อและอะคูสติกรับรู้พูดว่า
ผลการทดลองพบว่าเกณฑ์เสียงนำเฉลี่ยสำหรับการตรวจจับการซิงค์ a / v คือ 185.19 ms โดยมีค่าเบี่ยงเบนมาตรฐานเท่ากับ 42.32 ms
ATSCพูดว่า
เมื่อดูอย่างรวดเร็วดูเหมือนว่าหลวม: +90 ms ถึง -185 ms ในฐานะ“ Window of Acceptability”
และ
- ตรวจจับไม่ได้ตั้งแต่ -100 ms ถึง +25 ms
- ตรวจพบได้ที่ -125 ms & +45 ms
- ไม่สามารถยอมรับได้ที่ -185 ms & +90 ms
(- เสียงล่าช้า + เสียงขั้นสูง)
สรุป
ผลลัพธ์ไม่ได้อยู่ไกลกัน ดูเหมือนว่าการหน่วงเวลาที่ยอมรับได้สูงสุดอยู่ที่ประมาณ 150ms ซึ่งก็คือ 9 เฟรมที่ 60 เฟรมต่อวินาที
รู้สึกว่าการระเบิดที่คุณเห็นและได้ยินเป็นเหตุการณ์เดียวที่จะมีความคลาดเคลื่อนที่อธิบายไว้ในคำตอบอื่น ๆ - ไม่เกิน ~ 50ms; บางคนอาจมีความละเอียดอ่อนมากขึ้น (เช่นนักดนตรี) ดังนั้นฉันขอแนะนำให้ตั้งเป้าหมายที่ 30ms หรือไม่เกิน 2 เฟรมที่ 60fps
ฉันเชื่อว่าระยะทางที่รับรู้ควรมีผลต่อความคลาดเคลื่อนเหล่านั้น ผู้คนคาดหวังว่าเสียงจากระยะไกลจะล่าช้าเล็กน้อยเนื่องจากในชีวิตจริงเสียงจะมองเห็นได้ไกลประมาณ 1ms ต่อฟุตแต่ละระยะ ดังนั้นการระเบิดของแผนที่ RTS ของเกม RTS ที่ถูกย่ออาจมีความทนทานต่อเสียงที่ช้ากว่าผู้เล่นที่ยิงปืนของตัวเองใน FPS
กรณีพิเศษเช่นการมีความรู้สึกที่เหมาะสมสำหรับเกมดนตรี / จังหวะอาจต้องใช้ความคลาดเคลื่อนที่เข้มงวดมากขึ้น 15-20ms หรือต่ำกว่า - ตัวอย่างเช่นหากผู้เล่นได้ยินทั้ง "อินพุตแอ็คชั่น" เช่นการร้องเพลงในไมค์หรือการต่อสู้ เครื่องดนตรีพลาสติกและเสียงที่สร้างโดยระบบของคุณสำหรับเหตุการณ์เดียวกันความล่าช้า 50ms จะทำให้เสียง "ต้นฉบับ" และ "เล่น" ผสมกันอย่างน่าประหลาด
นอกจากนี้โปรดจำไว้ว่าความล่าช้าระหว่างการเริ่มต้นไฟล์เสียงและ "เหตุการณ์" ในไฟล์เสียงนั้น - ในคลิปเสียงหลายรายการ "เหตุการณ์" จะไม่อยู่บนขอบคุณอาจมีเสียงฟ้าผ่า การนัดหยุดงานที่ 'ตี' ที่เกิดขึ้นหลังจากการเริ่มต้น 200ms ซึ่งจะเห็นได้ชัดให้กับทุกคนและสวยมากไฟล์เสียงทั้งหมดแม้กลองตีจะมีบางอย่างล่าช้ามี
การมองเห็นและการได้ยินนั้นเชื่อมโยงกันอย่างลึกซึ้งในการรับรู้ของมนุษย์และหากหนึ่งในนั้น stutters ค่อนข้างที่จะอื่น ๆ ก็จะสามารถรับรู้ ไม่เป็นไรถ้าเวลาส่วนใหญ่จะเร็วมาก แต่บางครั้งก็มีการหน่วงเวลา 0.2 วินาทีในขณะที่บางสิ่งกำลังโหลด - ผู้คนจะสังเกตเห็นสถานการณ์ดังกล่าว นี่คือเหตุผลที่เสียงมักจะถูกเรียกใช้บนเธรดแยกต่างหากแยกต่างหากจากกิจกรรมอื่น ๆ และเพิ่งได้รับการแจ้งเตือนอย่างรวดเร็วว่าควรเล่นคลิปใดที่โหลดไว้ล่วงหน้า
สถานการณ์ใด ๆ ที่ผู้เล่นทำให้เกิดเสียง (เพลงเกมปืนใน FPS) จะต้องมีความล่าช้าน้อยมากเนื่องจากผู้เล่นได้ส่งแรงกระตุ้นเพื่อให้มันเกิดขึ้นในช่วงเวลานั้นเช่นเดียวกับนักดนตรีที่ได้ยินเครื่องมือของพวกเขาล่าช้า ของความล่าช้าน้อยมาก วิศวกรเสียงกังวลเกี่ยวกับความล่าช้าในการบันทึกที่ต่ำกว่า 5 m วินาทีทำลาย "ร่อง"
วารสารของ American Academy of Audiology ระบุว่าผู้คน (ไม่ใช่แค่นักดนตรี) เมื่อฟังเสียงของตัวเองล่าช้าจะรับรู้ถึงความล่าช้าสั้น ๆ เป็น 3 mSec และการล่าช้าเกิน 10 mSec นั้นเป็นที่น่ารังเกียจ 90% ของเวลา
มนุษย์ใช้การหน่วงเวลาระหว่างหูของพวกเขาสำหรับข้อมูลทิศทางและดังนั้นจะต้องสามารถประมวลผลและดึงข้อมูลจากความล่าช้าต่ำกว่า 1mSec
185.19 ms ที่ยกมาข้างต้นนั้นไม่เกี่ยวข้องเนื่องจากอ้างถึงข้อผิดพลาดของเสียงชั้นนำและสิ่งที่ผู้คนพบว่ายอมรับได้เมื่อดูภาพยนตร์อย่างอดทนไม่ได้มีส่วนร่วมในเกม
คำตอบที่ได้รับการยอมรับที่นี่ส่วนใหญ่กล่าวถึงการรับรู้ของการประสานเสียงในการรับชมวิดีโออย่างอดทน ในกรณีเหล่านี้ผู้ชมจะไม่สามารถตรึงลงได้อย่างง่ายดายเมื่อเสียงควรเล่นยกเว้นการเข้าร่วมเพื่อบอกสัญญาณในวิดีโอ ซึ่งหมายความว่าพวกเขามีความคาดหวังที่ จำกัด ของเสียง
มีสองกรณีที่สำคัญในเกมที่ไม่มีการคาดหมายต่ำนี้:
เมื่อผู้เล่นเองทำให้เกิดเสียง (ตามที่ SamB ชี้) ดังนั้นจากช่วงเวลาที่พวกเขาตั้งใจจะกดปุ่มที่พวกเขารู้ว่าเมื่อพวกเขาคาดหวังว่าจะได้ยินเสียง
เมื่อเสียงที่ควรจะขึ้นอยู่กับจังหวะเป็นจังหวะเช่นเดียวกับในเกมเพลงหรืออะไรก็ตามที่มีการจับเวลา / เคาน์เตอร์ฟ้องจังหวะนี้ช่วยให้ผู้เล่นที่คาดการณ์เสียงถัดไปและสังเกตเห็นถ้าเล่นนอกเวลา
ในการพูดคุยนี้จาก GDC 2013, Mathieu Pavageau ให้เหตุผลว่าผู้เล่นสามารถรับรู้ความแตกต่างของความแม่นยำในการซิงค์สูงกว่า 5msซึ่งน้อยกว่าตัวอย่างจากการซิงก์ริมฝีปาก ลองดูหัวข้อ "ตัวอย่างของการรับรู้เวลา" และ "ตัวอย่างของเกม Ubisoft" เพื่อรับฟังด้วยตัวคุณเอง คุณสามารถได้ยินเมนู Rayman Origins ไม่ได้ "laggy" ต่อ se เมื่อซิงค์ภายใน 16 ms (เฟรมวิดีโอ) แต่เมื่อ synched ภายใน 5 ms มันฟังดูดีขึ้น & แน่นขึ้น
Pavageau สนับสนุนการใช้การโทรกลับด้วยเสียงระดับต่ำเพื่อรับความแม่นยำของเฟรมย่อยแบบนี้หากคุณต้องการเพลย์ลีลาจังหวะที่หลากหลาย
สำหรับเกมที่ต้องใช้บุคคลในการตอบสนองต่อสัญญาณเสียงทุกมิลลิวินาทีโดยที่เสียงล่าช้าจะทำให้การตอบสนองของบุคคลนั้นล่าช้าเช่นกัน คนที่เป็นเพียงการดูหนังหรือตัดฉากไม่อาจสังเกตเห็นมากเกินไปถ้าเสียงและวิดีโอจะไม่ตรงกับในซิงค์ แต่ก็มักจะมีความสำคัญและบางครั้งสำคัญที่ยิ่งเสียงในซิงค์กับสิ่งที่ผู้เล่นที่คาดว่าจะทำ
ในทางทฤษฎีทุกอย่างที่สูงกว่า 50ms สามารถสังเกตได้เมื่อมันมาพร้อมกับความสัมพันธ์กับรูปภาพที่ 25ms คุณสามารถเริ่มได้ยินเสียงและความล่าช้าของมันเป็นเสียงที่แยกกันสองเสียงดังนั้นฉันจะบอกว่าฉันขอแนะนำให้คุณอยู่ต่ำกว่า 50 มิลลิวินาที สามารถอยู่ที่บางสิ่งบางอย่างตั้งแต่ 5ms ถึง 15ms มันจะดีจริงๆ
ฉันหวังว่านี่จะช่วยคุณได้!