คำถามติดแท็ก algorithms

อัลกอริทึมเป็นวิธีการแสดงในรายการที่ จำกัด ของขั้นตอนของคำแนะนำที่กำหนดไว้อย่างดีในการประมวลผลสัญญาณ

4
การอ้างอิงใด ๆ สำหรับการแลกเปลี่ยนระหว่างซอฟต์แวร์และกลไก / เลนส์ในระบบวิชันซิสเต็มอุตสาหกรรม
ฉันอธิบายคำถามของฉันด้วยตัวอย่างง่าย ๆ ฉันสามารถออกแบบระบบวิชันซิสเต็มสำหรับการตรวจสอบสินค้าโดยอัตโนมัติด้วยข้อกำหนดหลักเหล่านี้: รูปภาพของชิ้นส่วนที่ดีจะต้องเป็นพื้นหลังสีดำและชิ้นส่วนต้องเป็นสีเทา ข้อบกพร่องจะต้องปรากฏเป็นพื้นที่สีขาวภายในพื้นที่สีเทา ความต้องการเหล่านี้ทำให้ส่วนซอฟต์แวร์ของระบบง่ายขึ้น: เพื่อจัดประเภทรายการเป็นอัลกอริธึมที่บกพร่องเพียงแค่นับพิกเซลสีขาว แต่เพื่อให้ได้อัลกอริธึมที่ตรงไปตรงมานี้ฉันจะต้องมีความสามารถในการออกแบบส่วนแสง / ออปติคอล / กลไกของระบบและส่วนนั้นอาจมีค่าใช้จ่ายมากกว่าซอฟต์แวร์ ในอดีตฉันอาจจะอ่านประโยคอย่าง"ทำมากที่สุดเท่าที่จะทำได้ด้วยกลไกและซอฟต์แวร์ให้น้อยที่สุด" ; ดูเหมือนว่าฉันจะอยู่ในหนังสือของปี 1990 (หรือ 1980) เกี่ยวกับการมองเห็นเครื่องจักรที่ใช้งานได้จริง แต่ฉันไม่พบการอ้างอิง / การอ้างอิงที่เหมาะสม

2
อัลกอริทึมการเรียนรู้ของเครื่องชนิดใดเป็นโมเดลซ่อนมาร์คอฟ?
ฉันใช้อัลกอริทึมแบบซ่อนมาร์คอฟสำหรับการรู้จำเสียงอัตโนมัติในระดับการประมวลผลสัญญาณ ตอนนี้จะผ่านวรรณคดีการเรียนรู้ของเครื่องฉันเห็นว่าอัลกอริทึมจัดเป็น "การจำแนก", "การจัดกลุ่ม" หรือ "การถดถอย" ถังใดบ้างที่ HMM ตกลงไป ฉันไม่ได้พบกับรุ่นมาร์คอฟที่ซ่อนอยู่ที่ปรากฏในวรรณกรรม
12 algorithms 

1
การพิจารณาว่าเสียงที่คล้ายกันนั้นเกี่ยวกับคำพูดของมนุษย์
ในขณะที่กำลังมองหาคำตอบสำหรับปัญหานี้ฉันพบว่าบอร์ดนี้จึงตัดสินใจที่จะข้ามโพสต์คำถามของฉันนี้จาก Stack Overflow ฉันกำลังค้นหาวิธีการกำหนดความคล้ายคลึงกันระหว่างเซ็กเมนต์เสียงและเสียงของมนุษย์ซึ่งแสดงเป็นตัวเลข ฉันค้นหาค่อนข้างน้อย แต่สิ่งที่ฉันพบจนถึงขณะนี้ (รายละเอียดด้านล่าง) ไม่ตรงกับสิ่งที่ฉันต้องการ: วิธีหนึ่งคือการใช้ซอฟต์แวร์รู้จำเสียงพูดเพื่อให้ได้คำจากส่วนเสียง อย่างไรก็ตามวิธีนี้ไม่สามารถเกิดขึ้นได้ว่าเสียง "คล้ายกัน" นั้นเป็นอย่างไรสำหรับการพูดของมนุษย์ บ่อยครั้งที่สามารถบอกได้ว่ามีคำในเสียงหรือไม่ แต่ถ้าไม่มีคำที่ชัดเจนก็ไม่สามารถบอกได้ว่าเสียงนั้นมีคำดังกล่าวหรือไม่ ตัวอย่าง: CMU Sphinx , Dragonfly , SHoUT วิธีการที่มีแนวโน้มมากขึ้นเรียกว่าVoice Activity Detection (VAD) อย่างไรก็ตามสิ่งนี้มีปัญหาเหมือนกัน: อัลกอริธึม / โปรแกรมที่ใช้ VAD มักจะส่งคืนว่ากิจกรรมถึงขีด จำกัด หรือไม่และไม่มีค่า "ความคล้ายคลึงกัน" ก่อนหรือหลังเกณฑ์ดังกล่าว อีกทางเลือกหนึ่งคือมองหาปริมาณไม่คล้ายกับคำพูดของมนุษย์ ตัวอย่าง: Speex , Listener , FreeSWITCH ความคิดใด ๆ

2
การตรวจจับ drum bpm ในไฟล์. wav ที่มีเสียงดัง
ฉันกำลังมองหาอัลกอริทึม (s) เพื่อแก้ปัญหาต่อไปนี้: ด้วยการจับเสียง. wav ที่มีเสียงดัง (เสียงลม + เสียงเสียดสีบนไมโครโฟน) วิธีการตรวจสอบ BPM ของการตีกลองแบบนุ่ม ฉันพยายามทำเรื่องนี้แล้ว แต่ผลลัพธ์ค่อนข้างแย่เนื่องจากซอฟต์แวร์ mp3 ที่เกี่ยวข้องจำนวนมากสำหรับการวิเคราะห์และการสร้างรหัสลายนิ้วมือ ไม่มีใครให้ข้อมูลเกี่ยวกับวิธีการใช้งานจริง ฉันตระหนักถึงอัลกอริทึมในการลบเสียงรบกวน แต่ยังทำให้ฉันมีปัญหาในการตรวจจับ BPM และขึ้นอยู่กับวิธีแก้ไขปัญหา BPM เป็นไปได้ว่าฉันไม่จำเป็นต้อง denoise (เนื่องจากกลองมีแนวโน้มที่จะอยู่ในความถี่และเสียงรบกวนที่ต่ำกว่าในระดับที่สูงกว่า low-pass แบบง่ายอาจเพียงพอในการประมวลผลล่วงหน้า)

1
ตระหนักถึงฟังก์ชั่นคณิตศาสตร์ภายในเพลง
ฉันใหม่กับ DSP และเพิ่งค้นพบ StackExchange นี้ดังนั้นขออภัยหากนี่ไม่ใช่สถานที่ที่เหมาะสมในการโพสต์คำถามนี้ มีทรัพยากรที่อธิบายประเภทในแง่คณิตศาสตร์มากกว่าหรือไม่? ตัวอย่างเช่นถ้าฉันแสดง FFT บนสัญญาณในส่วนนี้ของเพลง (2:09 ถ้าลิงก์ไม่เริ่มต้นที่นั่น) จะมีวิธีใดบ้างที่ฉันสามารถตรวจพบว่าส่วนนี้มีการเรียงลำดับคร่าวๆ ของเสียง เสียงเช่นนี้ติดตามฟังก์ชั่นทางคณิตศาสตร์ที่ฉันสามารถเปรียบเทียบได้หรือไม่? http://www.youtube.com/watch?v=SFu2DfPDGeU&feature=player_detailpage#t=130s (ลิงก์เริ่มเล่นเสียงทันที) เป็นวิธีเดียวที่จะใช้เทคนิคการเรียนรู้แบบมีผู้สอนหรือมีวิธีการอื่นที่แตกต่างกัน ขอบคุณสำหรับคำแนะนำใด ๆ

5
เมื่อใดที่ต้องพิจารณาจุดลอยตัวคู่ (64 บิต) สำหรับเสียง
เมื่อทำการสังเคราะห์และประมวลผลเสียงบนตัวประมวลผลที่ทันสมัยใครจะพิจารณาใช้สิ่งอื่นนอกเหนือจากจุดลอยตัวที่มีความแม่นยำ (32 บิต) เดี่ยว เห็นได้ชัดว่าเสียงที่เข้ามาและออกไปสู่โลกแห่งความจริงคือ 16/24 บิตดังนั้นฉันแค่พูดถึงความแม่นยำของสัญญาณ (ทั้งเสียงและสิ่งต่าง ๆ เช่นค่าสัมประสิทธิ์ตัวกรอง) ในซอฟต์แวร์ สมมติว่า: CPU / DSP มีจุดลอยฮาร์ดแวร์รองรับทั้งความแม่นยำเดี่ยวและคู่ ลำดับความสำคัญคือเสียงที่มีคุณภาพไม่ได้ประสิทธิภาพสูง ตัวอย่างเช่นความแม่นยำสองเท่าจะได้รับการพิจารณาหากนำเสนอคุณภาพที่ดีขึ้น (การรับรู้)

6
เทคนิคการประมาณค่าใดที่มีอยู่สำหรับการคำนวณค่ารูตที่สอง?
ฉันมีทรัพยากรที่ จำกัด มากเพราะฉันทำงานกับไมโครคอนโทรลเลอร์ มีการขยายตัวของเทย์เลอร์ชุดตารางการค้นหาทั่วไปหรือวิธีการเรียกซ้ำ? ฉันต้องการทำบางอย่างโดยไม่ใช้ sqrt ของ math.h () http://www.cplusplus.com/reference/cmath/sqrt/

2
อัลกอริทึมพัดโบกคุณภาพสูง
ฉันค้นหาเว็บไซต์นี้เล็กน้อย แต่น่าประหลาดใจฉันไม่พบข้อมูลที่เกี่ยวข้องมากนักและความรู้เกี่ยวกับ DSP ของฉันนั้นมี จำกัด มาก เป้าหมายของฉันค่อนข้างเรียบง่าย: ฉันต้องการตั้งค่าเสียงสะท้อนจากอัลกอริทึมใน C ++ ซึ่งฟังดูดีจริงๆ ตัวเลือกที่ดีที่สุดคือให้ผู้ใช้เลือกการแลกเปลี่ยนระหว่างคุณภาพและการใช้งาน cpu จากสิ่งที่ฉันค้นพบจนถึงตอนนี้คือในการสร้างเสียงสะท้อนคุณต้องป้อนสัญญาณแบบแห้งในอัลกอริธึมการสะท้อนก่อน ถูกต้องหรือไม่ ตอนนี้ฉันได้พบบทความมากมายในส่วนของการสะท้อนปลายโดยใช้เครือข่ายตอบรับล่าช้า (การลดความต้องการการคืนค่าการจำลองการประดิษฐ์โดยใช้เครือข่ายการตอบกลับล่าช้าที่หลากหลาย ) จากสิ่งที่ฉันได้อ่าน FDN เป็นวิธีที่มีคุณภาพสูงไม่ฉลาดเกินไป (cpu ชาญฉลาด) ในการจำลองการสะท้อนกลับในช่วงปลาย นอกจากนี้ฉันคิดว่าคุณสามารถควบคุมคุณภาพ / การเรียกเก็บเงิน cpu โดยการเปลี่ยนจำนวนของสายการล่าช้า อย่างไรก็ตามฉันไม่มีความคิดอย่างแน่นอนว่าจะเขียนโปรแกรมอัลโกสะท้อนต้น (จำได้ไหมฉันไม่รู้จริงๆในโดเมน DSP) มันฟังดูมีเหตุผลสำหรับฉันที่จะใช้การหน่วงเวลาแบบมัลติซึ่งมีข้อดีที่ง่ายต่อการโปรแกรมและการคำนวณราคาไม่แพง แต่ฟังดูง่ายเกินไปที่จะเป็นจริง นอกจากนี้สัญชาตญาณของฉันบอกฉันว่าต้องมีตัวกรองหนึ่งหรือหลายตัวในเส้นทางสัญญาณ บางคนช่วยอธิบายหัวข้อนี้ให้ฉันหน่อยได้ไหม? หมายเหตุสองประการ: ฉันไม่ได้หลังจากเสียงก้องกังวานเลย ฉันไม่สนใจเกี่ยวกับความสมจริงของ reverb แต่ฉันต้องการให้เสียงที่ฟังดูดีบิดเบี้ยวไม่ใช่เพื่อ reverb cpu หิว นอกจากนี้ส่วนการเข้ารหัสไม่ได้เป็นสิ่งที่ฉันกังวลฉันจะถามใน stackoverflow เป็นอย่างอื่น มันเป็นส่วน DSP จริงๆและเพียงแค่ส่วนนั้นซึ่งฉันหลังจาก …
11 algorithms 

4
การเขียนโปรแกรม Vocoder
ฉันต้องการตั้งโปรแกรมตัวสังเคราะห์เสียงของฉันเองเช่น"Songify"แต่ฉันไม่สามารถหาอัลกอริธึมของตัวแปลได้อย่างง่าย บางทีคุณสามารถอธิบายหรือบอกตำแหน่งที่จะหาข้อมูลเกี่ยวกับวิธีการทำงานของ Vocoder

3
ความสัมพันธ์อัตโนมัติในการวิเคราะห์เสียง
ฉันกำลังอ่านข้อมูลเกี่ยวกับAutocorrelationแต่ฉันไม่แน่ใจว่าฉันเข้าใจอย่างแน่ชัดว่ามันทำงานอย่างไรและควรคาดหวังอะไรจากผลลัพธ์ ฉันคิดถูกแล้วว่าฉันควรป้อนสัญญาณของฉันไปยังฟังก์ชัน AC และมีอินพุตหน้าต่างแบบเลื่อน แต่ละหน้าต่าง (ตัวอย่าง 1024 ตัวอย่าง) จะส่งออกสัมประสิทธิ์ระหว่าง -1 ถึง 1 เครื่องหมายจะระบุว่าเส้นตรงขึ้นหรือลงและค่าจะระบุว่าค่าสหสัมพันธ์นั้นแข็งแกร่งแค่ไหน สำหรับความเรียบง่ายสมมติว่าฉันไม่มีเหลื่อมกันและเพียงแค่ย้ายหน้าต่าง 1024 ตัวอย่างทุกครั้ง ในตัวอย่าง 44100 ฉันจะได้ 43 สัมประสิทธิ์และฉันจำเป็นต้องรักษาทั้งหมดหรือไม่ ให้บอกว่าฉันทำสิ่งนี้เพื่อสัญญาณ 200 วินาทีให้ค่าสัมประสิทธิ์ 8600 กับฉัน ฉันจะใช้สัมประสิทธิ์เหล่านี้เพื่อตรวจสอบการทำซ้ำและในทางกลับกันความเร็วได้อย่างไร ฉันควรสร้างเครือข่ายประสาทบางอย่างเพื่อจัดกลุ่มพวกเขาหรือว่า overkill นั้น? ขอบคุณสำหรับความช่วยเหลือ

3
วิธีการวัดข้อตกลงระหว่างกับเส้นโค้ง?
ฉันมีค่า RSSI (พล็อตด้านล่าง) ของค่าที่คาดหวังในช่วงเวลาที่ฉันต้องการเปรียบเทียบกับค่า RSSI ที่วัดได้ของฉัน สิ่งที่ฉันกำลังมองหาคือวิธีการหาปริมาณเพื่อให้ฉันสามารถเปลี่ยนพารามิเตอร์และสามารถเปรียบเทียบ / เปรียบเทียบวิธีที่แตกต่างกัน มันเป็นปัญหาที่ยากในใจของฉันเพราะฉันไม่รู้วิธีเปรียบเทียบสัญญาณและยังคำนึงถึงสัญญาณขนาดใหญ่ (รูปร่างโดยรวม) และสัญญาณขนาดเล็ก (ความผันผวนของแต่ละบุคคล) ตัวอย่างเช่นนี่คือสัญญาณพล็อตหนึ่งชุด: ในภาพฉันเห็นได้ว่าสัญญาณการวัดสีแดงตามแบบจำลองคร่าวๆ แต่มันก็เป็นงานที่ดีในการจำลองคุณสมบัติไซน์บางส่วนของแบบจำลอง (ในบางแห่ง) ความคิดใด ๆ <> ในการตอบสนองต่อความคิดเห็นของ pichenettes (ซึ่งดูสมเหตุสมผล) ฉันใช้ความต่างของสองค่าและพล็อต abs (fft (diff)) และได้สิ่งนี้: ฉันไม่แน่ใจว่าจะทำอย่างไร เนื่องจากเราไม่มีความถี่จริงใด ๆ ฉันไม่แน่ใจว่าจะปรับขนาดแกนแล้วถ้าเป็นเช่นนั้นคุณจะใช้เมตริกอะไร

2
อัลกอริทึมที่อยู่เบื้องหลังการปรับเลเยอร์“ ขาวดำ” ของ Photoshop คืออะไร?
บางคนสามารถอธิบายอัลกอริทึมที่อยู่เบื้องหลังเลเยอร์การปรับ "ขาวดำ" ใน photoshop ได้ไหม? ฉันต้องทำซ้ำโดยใช้ C ++ สำหรับแอปพลิเคชันที่เน้นพิกเซลที่ไม่ใช่สีแดง / สีม่วงแดง (ish) จากรูปภาพ (ที่มีความอดทนร้อยละเหมือนกำหนดค่าได้) และทรัพยากรนี้แสดงพฤติกรรมที่ฉันคาดหวัง ยังคงทำซ้ำไม่ได้ แต่ฉันพบเบาะแส: แต่ละพิกเซลถูกกำหนดโดยตัวควบคุมมากถึงสองตัวเสริมหนึ่ง (RGB) และหนึ่งลบ (CMY)

1
การใช้ A-weighting
ฉันต้องการคำนวณความดังของสัญญาณที่กำหนดและฉันได้พบกับเธรดนี้ ฉันสับสนเล็กน้อยเกี่ยวกับมุมมอง A-Weighting ของมัน ฉันไม่สามารถโพสต์ภาพได้ แต่ฉันคิดว่าเว็บไซต์นี้มีสูตรที่ฉันต้องการ (Wa = 10log ... ) สิ่งที่ฉันไม่เข้าใจคือวิธีใช้งานจริงในโปรแกรมของฉัน ถ้าค่าfย่อมาจากความถี่ก็น่าจะสามารถ hardcode ค่าเพราะพวกเขาจะคงที่ หากเป็นกรณีนี้ฉันWaจะนำไปใช้กับค่าตัวอย่างของฉันได้อย่างไรและฉันจะใช้ค่าใดได้อย่างไร ฉันคำนวณสเปกตรัมพลังงานเพื่อรับWINDOW_SIZE/2ค่าและคูณแต่ละค่าในแถบความถี่ด้วยWaค่าที่คำนวณล่วงหน้าที่เกี่ยวข้องหรือเป็นวิธีที่ผิดในการทำหรือไม่? ขอบคุณล่วงหน้า.
11 algorithms  audio 

3
อัลกอริทึมผลบิดเบือนดิจิตอล
ฉันอ่านหนังสือ DAFX โดย Udo Zölzerเกี่ยวกับผลการบิดเบือนที่หน้า 124-125 และมันบอกว่าฟังก์ชั่นการจำลองการบิดเบือนที่เหมาะสมได้รับจากฟังก์ชั่น: ฉ( x ) = x| x |( 1 - ex2/ | x |)f(x)=x|x|(1−ex2/|x|)f(x)=\frac{x}{|x|}\left(1-e^{x^2/|x|}\right) ใครสามารถอธิบายสูตรนี้และสัญญาณที่เราได้รับ จากสิ่งที่ฉันเข้าใจ 'x' คือสัญญาณตัวอย่างดังนั้นนี่คือลำดับของตัวเลข | x | อะไร หมายความว่าอย่างไร มันหมายถึงค่าสัมบูรณ์ของ x สำหรับแต่ละค่าตัวอย่าง? ดังนั้นหากฉันต้องการใช้การจำลองผลกระทบการบิดเบือนนี้ ฉันจำเป็นต้องรู้ความยาวของ x (ได้จากจำนวนตัวอย่าง) ในลูปฉันต้องคำนวณสูตรนี้สำหรับค่าตัวอย่างแต่ละค่า หลังจากลูปสิ้นสุดฉันได้รับสัญญาณที่บิดเบี้ยว (ในรูปแบบดิจิตอล) หลังจากนั้นฉันต้องแปลงเป็นสัญญาณอะนาล็อกเพื่อให้ฉันได้ยิน

1
ฉันจะใช้อัลกอริทึม thresholding ที่ปรับได้อย่างไรสำหรับโซนาร์ใต้น้ำ
ฉันต้องการใช้อัลกอริทึม thresholding แบบปรับตัวได้ใน MATLAB สำหรับการกรองข้อมูลที่ได้รับจากเครื่องรับโซนาร์ใต้น้ำ ข้อมูลที่ได้รับมีองค์ประกอบเสียงแบบโต้ตอบที่เกิดจากเสียงใต้น้ำและการสะท้อนแสง วิธีCFARDใกล้ แต่ไม่ตอบสนองวัตถุประสงค์ของฉัน ฉันต้องถ่ายภาพข้อมูลเพื่อที่ฉันจะสามารถมองเห็นวัตถุบนหน้าจอซึ่งวางอยู่ใต้น้ำภายใต้ scandepth ของโซนาร์ ความช่วยเหลือใด ๆ จะได้รับการชื่นชมอย่างมาก แก้ไข: มันเป็นสภาพแวดล้อมใต้น้ำ ฉันกำลังพยายามหาสัญญาณที่ได้รับจากตัวแปลงสัญญาณโซนาร์หลังจากที่ได้รับการสะท้อนจากเป้าหมายที่มั่นคงซึ่งตั้งอยู่ในสภาพแวดล้อมเดียวกับตัวแปลงสัญญาณ ปัญหาที่เป็นของโดเมน sonar Underwater Acoustic Imaging ปัญหาคือฉันไม่สามารถจำลองเสียงสิ่งแวดล้อมใต้น้ำได้ จากสิ่งที่ฉันได้อ่านจนถึงตอนนี้เกี่ยวกับหัวข้อนี้รูปแบบสัญญาณรบกวนดังต่อไปนี้ -distributionKKK. เสียงสิ่งแวดล้อมนั้นไม่ได้เติมแต่งในธรรมชาติ ดังนั้นเกณฑ์จะต้องมีการปรับตัว ฉันยังกล่าวถึงวิธีการ CFARD ในคำถามของฉัน มันมีประโยชน์สำหรับการประมวลผลสัญญาณในแอปพลิเคชั่นเรดาร์เนื่องจากเราสนใจที่จะหาจุดเดียวในพื้นที่ขนาดใหญ่ที่มีพลังงานสูง เดียวกันไม่สามารถพูดเกี่ยวกับโซนาร์ถ่ายภาพอะคูสติกใต้น้ำที่เราพยายามแสดงเป้าหมายบนหน้าจอเป็นวิดีโอ ฉันหวังว่าฉันจะทำให้ชัดเจนยิ่งขึ้นในขณะนี้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.