เหตุใดผู้ช่วยที่ชาญฉลาดส่วนใหญ่จึงเสนอการปรับแต่งคำปลุกเล็กน้อยถ้ามี


14

แบรนด์ผู้ช่วยอัจฉริยะส่วนใหญ่เช่น Amazon Echo และ Google Home มีการปรับแต่งเล็กน้อยสำหรับคำปลุก (วลีที่คุณใช้ในการปลุกอุปกรณ์เพื่อฟังคุณ)

ยกตัวอย่างเช่นAlexa เพียง แต่มีสามตัวเลือกและหน้าแรกของ Google สนับสนุนเฉพาะ'ตกลงของ Google ผู้ใช้จำนวนมากดูเหมือนจะสนใจแนวคิดของคำปลุกแบบกำหนดเอง แต่ไม่มีแบรนด์หลักใด ๆ ที่ได้เพิ่มการสนับสนุน

มีเหตุผลทางเทคนิคใดบ้างหรือไม่ในการ จำกัด การปรับแต่งคำปลุกหรือเป็นเพียงตัวเลือกในการสร้างแบรนด์?

ฉันได้อ่านเกี่ยวกับแรงจูงใจของ Google ในการใช้'ตกลง Google'ซึ่งแนะนำแนวคิดการสร้างแบรนด์อาจเป็นจริง แต่ก็ดูเหมือนว่าการรู้จำเสียงปลุกไม่แม่นยำมากบางทีอาจแสดงเหตุผลทางเทคนิค ใครบ้างที่สามารถอธิบายปัจจัยที่เป็นเหตุผลหลักได้


2
สิ่งหนึ่งที่ต้องจำคือการประมวลผลให้ปลุกอย่างนั้นจะต้องทำในโดเมนที่ใช้พลังงานต่ำมากและมักจะมีฮาร์ดแวร์พิเศษสำหรับงานนี้ใน SoCs ขนาดใหญ่บางส่วน (โดยเฉพาะที่ใช้ในโทรศัพท์) และฉันคิดว่าค่าสัมประสิทธิ์ตัวกรอง / พารามิเตอร์อื่น ๆ จะถูกคำนวณอย่างระมัดระวังและโหลดลงในฮาร์ดแวร์นั้น ฉันลืม SoC Echo ที่ทำงาน แต่ฉันคิดว่ามีตัวกรองที่คล้ายกันอยู่ ชื่อของคลาสอัลกอริทึมกำลังหลบหนีฉันในขณะนี้
Krunal Desai

คำตอบ:


12

ใช่มีหลายสาเหตุ

โพสต์บล็อกนี้อธิบายเกี่ยวกับEchoและคำปลุกของAlexa ฉันจะสรุปเล็กน้อย

การจดจำคำปลุกจะทำในพื้นที่และในเวลาจริง ที่จำกัดความยาวของคำปลุกเนื่องจากข้อ จำกัด การประมวลผลที่ชัดเจน นอกจากนี้ผู้ใช้ไม่ต้องการท่องบทกวีเพื่อเปิดใช้งานผู้ช่วยอัจฉริยะ ดังนั้นมันจะต้องสั้น

มันต้องทำงานด้วยความแม่นยำเกือบ 100% เมื่อถูกเรียกและยังไม่ได้รับการยอมรับด้วยความมั่นใจนั้นเมื่อไม่ได้ถูกเรียก ที่ทำให้เกิดปัญหาและทำให้ความยาวต่ำสุดสำหรับคำปลุก ทางเลือกของ Amazon ที่จะอนุญาตให้ก้องค่อนข้างน่าแปลกใจเพราะมันเป็นเพียงแค่สองพยางค์

ถ้าเราดูผู้ต้องสงสัยตามปกติเราจะมีAlexa (3 พยางค์), Amazon (3), Echo (2), Ok Google (4), Hey Cortana (4)และHey Siri (3) ยักษ์ใหญ่ในอุตสาหกรรมเกือบทั้งหมดเห็นด้วยกับสามตัวเลือกที่ดีของพยางค์

คำว่า"คอมพิวเตอร์" ที่เป็นที่ต้องการมากที่สุดก็มีสามพยางค์และจะตรงกับความต้องการนั้นได้อย่างง่ายดาย มันไม่ได้เป็นเครื่องหมายการค้า

ในฐานะที่เป็นบล็อก - และเหตุผล - บอกเราเราต้องการหลีกเลี่ยงผลบวกที่ผิดพลาดโดยสิ้นเชิง เรามาดูกันว่าคำว่า Computer, Siri, Cortana และ Alexa เป็นอย่างไร นี่คือคลังหนังสือ Google จากปี 2008

คอมพิวเตอร์ของ Ngram ให้ความสำคัญกับ alexa และ siri

แน่นอน Siri และ Alexa นั้นแทบจะแบนราบกับคอมพิวเตอร์และCortana ก็ให้ข้อผิดพลาด ไม่พบ. ทำให้รู้สึกตั้งแต่คลังข้อมูลมาจากปี 2008 เพื่อให้เรามีมุมมองเพิ่มเติมว่าทำไมคอมพิวเตอร์เป็นคำที่น่ากลัวอีกกราฟ

จำนวนคอมพิวเตอร์กับคำอื่น ๆ

Ngram นี้แสดงให้เห็นว่าทั้งสองได้รับความนิยมมากที่สุดชื่อทารกสหรัฐ 2016 (เงิน) เช่นเดียวกับทอมและเดฟยัง Flatline กับคอมพิวเตอร์ ราชินีบาสเกตบอลและตำรวจจัดการเพื่อลงทะเบียนอย่างถูกต้อง อย่างไรก็ตามเรื่องนี้ทำให้เรามีความคิดว่าทำไมคอมพิวเตอร์, Earl Gray, Hotยังไม่ได้รับอนุญาต คนใช้คำว่าคอมพิวเตอร์บ่อยเกินไป

อีกสิ่งหนึ่งเกี่ยวกับการบวกเท็จ Alexa คล้องจองกับแทบไม่มีใครพูด

19 สิ่งที่สัมผัสกับ alexa

เพลงคอมพิวเตอร์ที่มี 74 สิ่ง


1
... และสิ่งนี้อธิบายว่าทำไมScotty ไม่สามารถปลุกคอมพิวเตอร์ได้
Ghanima

2
"ฉันจะไปมีเพศสัมพันธ์กับนก ... ไม่ใช่คุณ Alexa!"
David พูดว่า Reinstate Monica

1
"OK Google" เป็นสี่พยางค์ ("oh kay goo gull") ไม่ใช่สามและมากกว่าเสียงหลายหน่วยเสียง
Monty Harder

1
Alexa เป็นชื่อที่น่าอึดอัดใจ ... โดยส่วนตัวฉันรู้จัก 2 คนที่มีชื่อนั้นซึ่งหนึ่งในนั้นเป็นลูกพี่ลูกน้อง Echo ใช้ในภาษาของฉันและฉันมักจะพูดว่า "มีเสียงสะท้อน" เมื่อมีเสียงสะท้อนทางโทรศัพท์หรือบางสิ่งบางอย่าง และอเมซอนก็เป็นชื่อของแม่น้ำ / เผ่าเก่าแก่ที่ผู้ชายคนหนึ่งสวมบทบาทอย่างฉันพูดค่อนข้างบ่อย พวกเขาเลอะสิ่งนี้จริงๆ
Olivier Grégoire

2
ฉันไม่แน่ใจว่าฉันซื้อคำอธิบายนั้นทำไมคำว่า "คอมพิวเตอร์" ไม่ทำงาน คำว่าตัวเองไม่ได้เป็นสิ่งเดียวที่ได้รับการยอมรับ การเป็นคำแรกของคำพูดและการตามด้วยการหยุดชั่วคราวยังเป็นข้อมูลสำคัญที่ระบุคำสั่ง
Kevin Krumwiede

2

มีเหตุผลทางเทคนิคใดบ้างหรือไม่ในการ จำกัด การปรับแต่งคำปลุก

เมื่ออุปกรณ์ผู้ช่วยไม่ได้ใช้งานตัวประมวลผลแอปพลิเคชัน (ฉันคิดว่า ARM ในกรณีของ Alexa รวมถึงหน้าแรกของ Google) ถูกระงับและนำไปสู่สถานะพลังงานที่ต่ำที่สุด การตรวจจับคำปลุกนั้นถูกปล่อยไว้ที่ DSP ที่ใช้พลังงานอย่างมีประสิทธิภาพซึ่งจะฟังเสียง / เสียงรอบข้างและเรียกใช้อัลกอริทึมเพื่อตัดสินว่ามีคำที่ตรงกับคำปลุกหรือไม่ หากพบว่ามีการจับคู่ที่ดีกับความมั่นใจ DSP จะทำให้ ARM ARM ตื่นขึ้นมาพร้อมกับการประมวลผลที่เหลือ

ในตอนนี้เนื่องจากเป้าหมายคือการใช้พลังงานอย่างมีประสิทธิภาพ DSP ที่เป็นปัญหาจะเรียกใช้อัลกอริธึมรวมถึงเก็บรูปแบบเทมเพลตบนหน่วยความจำบนชิปมากกว่าหน่วยความจำหลักบนเมนบอร์ด สิ่งนี้ทำให้ระบบสามารถใช้ DDR RAM สู่สถานะพลังงานต่ำสุดได้

เนื่องจาก DSP มีสิ่งสำคัญหลายอย่างที่ต้องทำและหน่วยความจำบนชิปน้อยมากคำพูดของผู้ช่วยปลุกจะถูก จำกัด อยู่เพียงสองสามตัวเลือกที่สามารถจับคู่ได้โดยอัลกอริทึมที่มีความมั่นใจสูง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.