การประมวลผลสัญญาณ

ถามตอบสำหรับผู้ปฏิบัติงานด้านศิลปะและวิทยาศาสตร์ของการประมวลผลสัญญาณภาพและวิดีโอ

10
การเรียนรู้อย่างลึกซึ้งนั้นเป็นการฆ่าการประมวลผลภาพ / การมองเห็นคอมพิวเตอร์หรือไม่?
ฉันรอคอยที่จะลงทะเบียนในปริญญาโทในการประมวลผลสัญญาณและภาพหรือบางทีคอมพิวเตอร์วิสัยทัศน์ (ฉันยังไม่ได้ตัดสินใจ) และคำถามนี้เกิดขึ้น ความกังวลของฉันคือเนื่องจากการเรียนรู้ลึกไม่ต้องการการแยกคุณลักษณะและแทบจะไม่มีการประมวลผลล่วงหน้าอินพุตมันฆ่าการประมวลผลภาพ (หรือการประมวลผลสัญญาณโดยทั่วไป) หรือไม่? ฉันไม่ใช่ผู้เชี่ยวชาญในการเรียนรู้อย่างลึกซึ้ง แต่ดูเหมือนว่าจะทำงานได้ดีมากในการจดจำและจัดประเภทงานถ่ายภาพโดยตรงแทนที่จะเป็นเวกเตอร์คุณลักษณะเช่นเทคนิคอื่น ๆ มีกรณีใดบ้างที่วิธีการแยกคุณสมบัติแบบดั้งเดิม + การจำแนกประเภทจะดีกว่าใช้เทคนิคการประมวลผลภาพหรือสิ่งนี้กำลังจะตายเพราะการเรียนรู้อย่างลึกซึ้ง?

4
Analogous Library to OpenCV สำหรับการประมวลผล / วิเคราะห์เสียง
ฉันเข้าใจ OpenCV เป็นห้องสมุด de พฤตินัยสำหรับการเขียนโปรแกรมการประมวลผลภาพใน C / C ++; ฉันสงสัยว่ามีไลบรารี C หรือ C ++ เช่นนั้นสำหรับการประมวลผลเสียงหรือไม่ โดยทั่วไปฉันต้องการกรองคลื่นที่ไม่ต้องการจากไมโครโฟนและวิเคราะห์ด้วยอัลกอริทึมการเรียนรู้ของเครื่อง แต่ในที่สุดฉันก็อาจต้องการ: การจับเสียงหลายแพลตฟอร์มและการเล่นเสียง DSP - ฟิลเตอร์เสียง ตรวจจับเสียง การวิเคราะห์คุณสมบัติของวรรณยุกต์ การสังเคราะห์เสียง การรับรู้ที่ได้รับการรับรู้คลังและรูปแบบบางอย่าง การสังเคราะห์เสียงพูด / ดนตรี คำแนะนำใด ๆ ที่จะได้รับการชื่นชม.


10
อัลกอริทึมเพื่อผสมสัญญาณเสียงโดยไม่ต้องตัด
ฉันต้องการผสมผสานช่องสัญญาณเสียง PCM สองช่องขึ้นไป (เช่นตัวอย่างที่บันทึก) แบบดิจิทัลในลักษณะที่แสดงถึงความเชื่อทางเสียงโดยเฉพาะอย่างยิ่งในเวลาใกล้เคียงแบบเรียลไทม์ วิธีที่ "ถูกต้อง" ทางกายภาพในการทำเช่นนี้คือการสรุปตัวอย่าง อย่างไรก็ตามเมื่อคุณเพิ่มสองตัวอย่างโดยพลการค่าผลลัพธ์อาจเป็นค่าสูงสุดสองเท่า ตัวอย่างเช่นหากตัวอย่างของคุณมีค่า 16 บิตผลลัพธ์จะมากถึง 65536 * 2 ผลลัพธ์นี้ในรูปวาด ทางออกที่ไร้เดียงสาที่นี่คือการหารด้วย N โดยที่ N คือจำนวนช่องสัญญาณที่ถูกผสม อย่างไรก็ตามผลลัพธ์นี้ในแต่ละตัวอย่างมีค่า 1 / Nth ดังซึ่งไม่สมจริงอย่างสมบูรณ์ ในโลกแห่งความจริงเมื่อทั้งสองเครื่องดนตรีเล่นพร้อมกันแต่ละเครื่องดนตรีจะไม่กลายเป็นครึ่งดัง จากการอ่านรอบ ๆ วิธีการผสมทั่วไปคือ: result = A + B - AB โดยที่ A และ B เป็นสองตัวอย่างที่ถูกทำให้เป็นมาตรฐานและ AB เป็นคำศัพท์เพื่อให้แน่ใจว่าเสียงดังดังขึ้น อย่างไรก็ตามสิ่งนี้แนะนำการบิดเบือนของสัญญาณ ระดับการบิดเบือนนี้ยอมรับได้ในการสังเคราะห์เสียงคุณภาพสูงหรือไม่? มีวิธีอื่นใดอีกบ้างในการแก้ไขปัญหานี้ ฉันสนใจอัลกอริธึมที่มีคุณภาพต่ำกว่าและอัลกอริธึมคุณภาพสูงที่มีประสิทธิภาพน้อยลง ฉันกำลังถามคำถามของฉันในบริบทของการสังเคราะห์เพลงดิจิทัลเพื่อจุดประสงค์ในการผสมแทร็กที่หลากหลายเข้าด้วยกัน เพลงสามารถสังเคราะห์เสียงตัวอย่างที่บันทึกล่วงหน้าหรืออินพุตไมโครโฟนแบบเรียลไทม์

4
อะไรคือความแตกต่างระหว่างการบิดและการสหสัมพันธ์แบบข้าม?
ฉันพบในเว็บไซต์หลายแห่งที่มีการเชื่อมโยงและการเชื่อมโยงข้ามกันคล้ายกัน (รวมถึงแท็กวิกิสำหรับการบิด) แต่ฉันไม่พบว่ามันมีความแตกต่างกันอย่างไร ความแตกต่างระหว่างสองคืออะไร? คุณบอกได้ไหมว่าความสัมพันธ์อัตโนมัติเป็นสังวัตนาด้วยเช่นกัน?

6
วิธีที่ดีที่สุดในการแบ่งกลุ่มเส้นเลือดในใบไม้?
ฉันได้ทำการวิจัยจำนวนมากและค้นพบวิธีการเช่นการปรับเปลี่ยนตามธรรมชาติ, การทำสันปันน้ำเป็นต้นซึ่งสามารถใช้ในการตรวจจับหลอดเลือดดำในใบ อย่างไรก็ตามการกำหนดเกณฑ์ไม่ดีเพราะมันมีเสียงรบกวนมาก ภาพทั้งหมดของฉันเป็นภาพสีเทาใคร ๆ ก็สามารถแนะนำวิธีการที่จะนำมาใช้ในขณะที่พิจารณาปัญหานี้ในความต้องการความช่วยเหลือเร่งด่วน แก้ไข: ภาพต้นฉบับของฉัน หลังจากการนวดแป้ง ตามคำแนะนำของคำตอบฉันได้ลองการตรวจจับขอบต่อไปนี้ แสนรู้ เสียงรบกวนมากเกินไปและสิ่งรบกวนที่ไม่พึงประสงค์ โชเบล โรเบิร์ต แก้ไข: พยายามอีกหนึ่งการดำเนินการฉันได้รับผลลัพธ์ต่อไปนี้ดีกว่าสิ่งที่ฉันพยายามด้วยแสนรู้และปรับตัวคุณรู้สึกอย่างไร

3
การแปลงฟูริเยร์คืออะไร?
เมื่อไม่นานมานี้ MIT ได้สร้างเสียงรบกวนเล็กน้อยเกี่ยวกับอัลกอริธึมใหม่ที่แปลงร่างเป็นฟูริเยร์ที่เร็วกว่าซึ่งทำงานบนสัญญาณบางชนิดเช่น: "การแปลงฟูริเยร์เร็วขึ้นชื่อหนึ่งในเทคโนโลยีเกิดใหม่ที่สำคัญที่สุดของโลก " นิตยสาร MIT Technology Review กล่าวว่า : ด้วยอัลกอริธึมใหม่ที่เรียกว่าการกระจัดกระจายฟูริเยร์ (SFT) สตรีมข้อมูลสามารถประมวลผลได้เร็วขึ้น 10 ถึง 100 เท่าเมื่อใช้ FFT การเร่งความเร็วสามารถเกิดขึ้นได้เนื่องจากข้อมูลที่เราสนใจส่วนใหญ่มีโครงสร้างที่มากมาย: ดนตรีไม่ใช่เสียงรบกวนแบบสุ่ม สัญญาณที่มีความหมายเหล่านี้มักจะมีเพียงเศษเสี้ยวของค่าที่เป็นไปได้ที่สัญญาณสามารถทำได้ ศัพท์เทคนิคสำหรับเรื่องนี้ก็คือข้อมูลนั้น "กระจัดกระจาย" เนื่องจากอัลกอริทึม SFT ไม่ได้มีวัตถุประสงค์เพื่อทำงานกับสตรีมข้อมูลที่เป็นไปได้ทั้งหมดจึงสามารถใช้ทางลัดบางอย่างที่ไม่สามารถใช้ได้ ในทางทฤษฎีอัลกอริทึมที่สามารถรองรับสัญญาณกระจัดกระจายนั้นมี จำกัด มากกว่า FFT แต่ "กระจัดกระจายอยู่ทั่วไป" Katabi ศาสตราจารย์ด้านวิศวกรรมไฟฟ้าและวิทยาการคอมพิวเตอร์กล่าว "มันอยู่ในธรรมชาติมันเป็น ' s ในสัญญาณวิดีโอ มันอยู่ในสัญญาณเสียง " ใครบางคนที่นี่สามารถให้คำอธิบายทางเทคนิคเพิ่มเติมเกี่ยวกับอัลกอริธึมที่แท้จริงและที่ใดที่อาจใช้งานได้ แก้ไข: ลิงค์บางส่วน: กระดาษ: " การแปลงฟูริเยร์ที่กระจัดกระจายเกือบที่สุด " (arXiv) โดย …

10
รูปแบบ JPG ที่บีบอัดได้น้อยที่สุดคืออะไร (ชิ้นส่วนที่ถ่ายจากกล้องผ้าขนาด / มุม / แสงอาจแตกต่างกัน)
ฉันพยายามออกแบบผ้าซึ่งจากมุมมองของกล้องเป็นการยากที่จะบีบอัดด้วย JPG ทำให้เกิดไฟล์ขนาดใหญ่ (หรือนำไปสู่คุณภาพของภาพต่ำหากขนาดไฟล์ถูกแก้ไข) มันต้องใช้งานแม้ว่าผ้าจะอยู่ไกลจากกล้องหรือหมุน (สมมุติว่าเครื่องชั่งสามารถเปลี่ยนจาก 1x เป็น 10 เท่า) เสียงรบกวนค่อนข้างดี (บีบอัดยาก) แต่มันกลายเป็นสีเทาเมื่อมองจากที่ไกลกลายเป็นบีบอัดได้ง่าย ลวดลายที่ดีจะเป็นเศษส่วนดูคล้ายกับเกล็ดทุกใบ ใบไม้ดีกว่า (ใบไม้กิ่งเล็กกิ่งเล็กกิ่งใหญ่) แต่ใช้สีน้อยเกินไป นี่คือความพยายามครั้งแรก: ฉันแน่ใจว่ามีรูปแบบที่เหมาะสมกว่านี้ บางทีหกเหลี่ยมหรือรูปสามเหลี่ยมtessellationsจะทำงานได้ดีขึ้น JPG ใช้พื้นที่สี Y ′Cb Crฉันคิดว่า Cb Cr สามารถสร้างได้ในลักษณะที่คล้ายกัน แต่ฉันคิดว่ามันจะดีกว่าถ้าไม่ใช้ขอบเขตทั้งหมดของ Y' (ความสว่าง) อย่างสม่ำเสมอเพราะกล้องจะอิ่มตัวในบริเวณที่สว่างหรือมืด ( แสงไม่สมบูรณ์แบบ) คำถาม:ลวดลายผ้าที่เหมาะสมสำหรับปัญหานี้คืออะไร

5
การจดจำรูปแบบจุด
การมีขนาดของชุดคะแนนที่แตกต่างกันสองมิติ (2D เพื่อความง่าย) จะกระจายไปภายในสี่เหลี่ยมขนาดต่างกันสองคำถามคือ: 1- วิธีการหาการเกิดขึ้นของเล็ก ๆ ผ่านใหญ่ได้อย่างไร 2- ความคิดใด ๆ เกี่ยวกับวิธีการจัดอันดับเหตุการณ์ที่แสดงในรูปต่อไปนี้? ต่อไปนี้เป็นการสาธิตคำถามอย่างง่ายและวิธีแก้ปัญหาที่ต้องการ: อัปเดต 1: รูปต่อไปนี้แสดงมุมมองที่สมจริงยิ่งขึ้นเกี่ยวกับปัญหาที่กำลังตรวจสอบ เกี่ยวกับความคิดเห็นคุณสมบัติต่อไปนี้ใช้: ตำแหน่งที่แน่นอนของจุดที่มีอยู่ ขนาดที่แน่นอนของจุดที่มีอยู่ ขนาดสามารถเป็นศูนย์ (~ 1) = เพียงจุดเดียว จุดทั้งหมดเป็นสีดำบนพื้นหลังสีขาว ไม่มีเอฟเฟกต์สีเทา / การลดรอยหยัก นี่คือการใช้งานวิธีการที่นำเสนอโดยendolithมีการเปลี่ยนแปลงเล็กน้อย (ฉันหมุนเป้าหมายแทนแหล่งที่มาเนื่องจากมีขนาดเล็กและหมุนเร็วขึ้น) ฉันยอมรับคำตอบของ endolith เพราะฉันคิดถึงเรื่องนั้นมาก่อน เกี่ยวกับ RANSAC ฉันไม่เคยมีประสบการณ์มาก่อน นอกจากนี้การใช้งานของ RANSAC ต้องการรหัสจำนวนมาก

3
Google ใช้อัลกอริทึมสำหรับไซต์ "ค้นหาภาพ" อย่างไร
อะไรคือสิ่งที่คุณคาดเดาได้ดีว่า Google Image Search ทำงานอย่างไร ฉันสามารถอัปโหลดภาพถ่ายและสามารถค้นหาภาพที่คล้ายกันได้ อัลกอริทึมใดที่ใช้ระบุรูปภาพที่คล้ายกัน

6
วิธีตรวจจับที่ง่ายที่สุดในการเริ่มและหยุดซองจดหมายเสียง
ด้านล่างเป็นสัญญาณที่แสดงถึงการบันทึกการพูดคุยของใครบางคน ฉันต้องการสร้างชุดสัญญาณเสียงขนาดเล็กตามนี้ แนวคิดในการตรวจจับเมื่อเสียง 'สำคัญ' เริ่มต้นและสิ้นสุดและใช้สิ่งเหล่านี้เป็นเครื่องหมายเพื่อสร้างตัวอย่างข้อมูลเสียงใหม่ กล่าวอีกนัยหนึ่งฉันต้องการใช้ความเงียบเป็นตัวบ่งชี้ว่าเมื่อใด 'เสียงอัน' เริ่มหรือหยุดและสร้างบัฟเฟอร์เสียงใหม่ตามสิ่งนี้ ตัวอย่างเช่นถ้ามีคนบันทึกตัวเองพูด Hi [some silence] My name is Bob [some silence] How are you? ฉันต้องการทำคลิปเสียงสามคลิปจากนี้ หนึ่งที่กล่าวว่าHiหนึ่งที่กล่าวว่าและหนึ่งที่กล่าวว่าMy name is BobHow are you? แนวคิดเริ่มต้นของฉันคือการเรียกใช้บัฟเฟอร์เสียงตรวจสอบอย่างสม่ำเสมอว่ามีพื้นที่ของแอมพลิจูดต่ำ บางทีฉันสามารถทำได้โดยการหาสิบตัวอย่างแรกโดยเฉลี่ยค่าและถ้าผลลัพธ์ต่ำแล้วติดป้ายว่าเงียบ ฉันจะลงบัฟเฟอร์ด้วยการตรวจสอบอีกสิบตัวอย่าง การเพิ่มขึ้นด้วยวิธีนี้ฉันสามารถตรวจจับได้ว่าซองจดหมายเริ่มต้นและหยุดที่ใด หากใครมีคำแนะนำใด ๆ เกี่ยวกับความดี แต่วิธีง่ายๆในการทำสิ่งนี้ก็คงจะดี สำหรับวัตถุประสงค์ของฉันการแก้ปัญหาสามารถเป็นพื้นฐานค่อนข้าง ฉันไม่ใช่มืออาชีพที่ DSP แต่เข้าใจแนวคิดพื้นฐานบางอย่าง นอกจากนี้ฉันจะทำสิ่งนี้ทางโปรแกรมดังนั้นควรพูดคุยเกี่ยวกับอัลกอริทึมและตัวอย่างดิจิทัล ขอบคุณสำหรับความช่วยเหลือ! แก้ไข 1 การตอบสนองยอดเยี่ยมจนถึงตอนนี้! แค่อยากจะอธิบายว่านี่ไม่ใช่เสียงสดและฉันจะเขียนอัลกอริธึมด้วยตัวเองใน C หรือ Objective-C ดังนั้นการแก้ปัญหาใด …

5
ความแตกต่างระหว่างความล่าช้าเฟสและความล่าช้าของกลุ่มคืออะไร?
ฉันกำลังศึกษา DSP บางอย่างและฉันมีปัญหาในการทำความเข้าใจความแตกต่างระหว่างความล่าช้าขั้นตอนและความล่าช้ากลุ่ม ดูเหมือนว่าพวกเขาทั้งคู่จะวัดเวลาหน่วงของไซนัสที่ส่งผ่านตัวกรอง ฉันถูกต้องในการคิดสิ่งนี้หรือไม่? ถ้าเป็นเช่นนั้นการวัดทั้งสองจะแตกต่างกันอย่างไร ใครช่วยยกตัวอย่างสถานการณ์ที่การวัดหนึ่งจะมีประโยชน์มากกว่าอีกสถานการณ์หนึ่ง? UPDATE อ่านหนังสือไปข้างหน้าในจูเลียสมิ ธรู้เบื้องต้นเกี่ยวกับตัวกรองดิจิตอลฉันได้พบสถานการณ์ที่ทั้งสองวัดอย่างน้อยให้ผลที่แตกต่างกัน: ฟิลเตอร์เลียนแบบเฟส นั่นเป็นคำตอบบางส่วนสำหรับคำถามของฉันฉันเดา

6
ความแตกต่างระหว่างอัตลักษณ์และเครื่องเขียนคืออะไร?
ฉันมีปัญหาในการแยกแยะระหว่างแนวคิดทั้งสองนี้ นี่คือความเข้าใจของฉันจนถึงตอนนี้ กระบวนการคงที่เป็นกระบวนการสโตแคสติกซึ่งคุณสมบัติทางสถิติไม่เปลี่ยนแปลงตามเวลา สำหรับกระบวนการคงที่ที่เข้มงวดซึ่งหมายความว่าการกระจายความน่าจะเป็นร่วมนั้นคงที่ สำหรับกระบวนการหยุดนิ่งที่กว้างซึ่งหมายความว่าช่วงเวลาที่ 1 และ 2 นั้นคงที่ กระบวนการ ergodic เป็นกระบวนการที่คุณสมบัติทางสถิติของมันเช่นความแปรปรวนสามารถอนุมานได้จากตัวอย่างที่มีความยาวเพียงพอ ตัวอย่างค่าเฉลี่ยตัวอย่างมาบรรจบกับค่าเฉลี่ยจริงของสัญญาณถ้าคุณเฉลี่ยนานพอ สำหรับฉันตอนนี้ดูเหมือนว่าสัญญาณจะต้องหยุดนิ่งเพื่อให้เป็นไปตามหลักสรีรศาสตร์ และสัญญาณประเภทใดบ้างที่คงที่ แต่ไม่เหมาะกับการใช้งาน? หากสัญญาณมีความแปรปรวนเท่ากันตลอดเวลาตัวอย่างเช่นความแปรปรวนแบบเวลาเฉลี่ยจะไม่แปรเป็นค่าที่แท้จริงได้อย่างไร ดังนั้นอะไรคือความแตกต่างที่แท้จริงระหว่างแนวคิดทั้งสองนี้ คุณสามารถยกตัวอย่างของกระบวนการที่ไม่หยุดยั้งโดยไม่ต้อง ergodic หรือ ergodic โดยไม่หยุดนิ่งได้หรือไม่?
41 random  ergodic 

1
จะทำให้ภาพของฉลากบนขวดอาหารแบนได้อย่างไร?
ฉันต้องการถ่ายภาพฉลากบนขวดอาหารและสามารถเปลี่ยนมันได้ดังนั้นฉลากจะแบนโดยด้านขวาและซ้ายจะถูกปรับขนาดให้อยู่กับศูนย์กลางของภาพ โดยหลักการแล้วฉันต้องการใช้ความแตกต่างระหว่างฉลากและพื้นหลังเพื่อค้นหาขอบและใช้การแก้ไข มิฉะนั้นฉันสามารถขอให้ผู้ใช้ระบุมุมและด้านข้างของภาพได้ ฉันกำลังมองหาเทคนิคทั่วไปและอัลกอริทึมเพื่อถ่ายภาพที่เอียงเป็นทรงกลม (รูปทรงกระบอกในกรณีของฉัน) และสามารถทำให้ภาพเรียบ ขณะนี้ภาพของฉลากที่ล้อมรอบขวดหรือขวดจะมีคุณสมบัติและข้อความที่หดตัวเมื่อลดขนาดไปทางซ้ายหรือขวาของภาพ เส้นที่แสดงถึงขอบของฉลากจะขนานกันตรงกลางของภาพและจะเอียงไปทางกันทางด้านขวาและด้านซ้ายสุดของฉลาก หลังจากจัดการกับภาพแล้วฉันอยากจะเหลือสี่เหลี่ยมที่เกือบสมบูรณ์แบบซึ่งข้อความและฟีเจอร์ต่าง ๆ มีขนาดเท่ากันราวกับว่าฉันถ่ายภาพฉลากเมื่อไม่ได้อยู่ในขวดหรือขวด นอกจากนี้ฉันต้องการถ้าเทคนิคสามารถตรวจจับขอบของฉลากโดยอัตโนมัติเพื่อใช้การแก้ไขที่เหมาะสม ไม่เช่นนั้นฉันจะต้องขอให้ผู้ใช้ระบุขอบเขตของป้ายกำกับ ฉันได้ Googled แล้วและพบบทความเช่นนี้: เอกสารโค้งงอเรียบแต่ฉันกำลังมองหาบางสิ่งที่เรียบง่ายกว่าเล็กน้อย

6
คุณสมบัติใดที่ทำให้เวฟเล็ตบางตัว“ ดีขึ้น” กว่าแบบอื่นในการบีบอัดภาพ
ฉันพยายามสอนตัวเองเกี่ยวกับการบีบอัดภาพโดยใช้วิธีการแปลงเวฟเล็ต คำถามของฉันคืออะไรเกี่ยวกับเวฟเล็ตบางตัวที่ทำให้พวกมันเป็นที่นิยมเมื่อทำการบีบอัดภาพ? ง่ายต่อการคำนวณหรือไม่ พวกเขาผลิตภาพที่นุ่มนวลขึ้นหรือไม่? ฯลฯ ... ตัวอย่าง: JPEG 2000ใช้เวฟเล็ตCohen-Daubechies-Feauveau 9/7 ... ทำไมจึงเป็นเช่นนี้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.