คำถามติดแท็ก audio

เสียงหรือในแง่ของการประมวลผลสัญญาณสัญญาณเสียงเป็นการแทนเสียงแบบอะนาล็อกหรือดิจิตอลโดยทั่วไปเป็นแรงดันไฟฟ้า

1
การประมาณเวลาที่เริ่มมีอาการของเสียงระเบิดในเสียงหรือไม่
เทคนิคใดที่เราจะใช้ในการประมาณเวลาที่เริ่มมีอาการของเสียงไซนัสออกมาในสัญญาณที่มีเสียงดัง สมมติว่าเสียงระเบิดมีความถี่คงที่ที่ทราบ (แต่ไม่ทราบระยะ) และเวลาเพิ่มขึ้นที่คมชัดมากและเป้าหมายคือการประเมินเวลาเริ่มต้นภายในเวลาที่ดีกว่าครึ่งเวลาเพิ่มขึ้นและ / หรือระยะเวลาหนึ่งของความถี่ของเสียง , ถ้าเป็นไปได้. เทคนิคการประมาณค่าจะเปลี่ยนไปอย่างไรถ้าอัตราส่วน S / N ต่ำมาก (น้อยกว่า 1) เพิ่ม: สมมติว่าความดังของเสียงนั้นมีความยาวไม่ทราบ แต่นานกว่าตัวคูณเล็ก ๆ ของเวลาที่เพิ่มขึ้นและช่วงความถี่ เพิ่มเติม: DFT / FFT แสดงการมีอยู่ของเสียง ปัญหาคือการหาอย่างแม่นยำตรงที่ในหน้าต่าง FFT เสียง (หรืออาจมีหลายเสียงระเบิดของความถี่เดียวกัน) อาจเริ่มต้นภายในหน้าต่าง FFT หรือพิจารณาว่าเสียงปัจจุบันเริ่มนอกหน้าต่าง DFT นั้นถ้าฉันมีทุกสิ่งที่ ข้อมูลโดเมนเวลาเพิ่มเติม ความแม่นยำในการตรวจจับเรดาร์ของพัลส์นั้นใกล้เคียงกับความละเอียดที่ฉันต้องการยกเว้นฉันมีเพียงขอบเนื่องจากโทนเสียงนั้นมีความยาวที่ไม่รู้จัก ตัวกรองผ่านแถบแคบทำให้เวลาที่เพิ่มขึ้นผิดเพี้ยนและทำให้ความละเอียดการประมาณค่าการมาถึงของการทำลายขอบลดลง

2
แผนการเรียนรู้สำหรับผู้เริ่มต้นการประมวลผลสัญญาณเสียง
ฉันต้องการเริ่มเรียนรู้การประมวลผลสัญญาณเสียง มีหนังสือหลายเล่มที่ออนไลน์และเอกสารทางวิชาการซึ่งดูเหมือนว่าจะข้ามพื้นฐานของหัวข้อ ฉันต้องการทราบแผนการทำงานอย่างคร่าวๆดังนั้นเพื่อพูดคุยเพื่อติดตามการเรียนรู้การประมวลผลสัญญาณเสียงได้สำเร็จ ฉันได้อ่านแล้วว่าแคลคูลัสเป็นขั้นตอนแรกก่อนเริ่มต้นด้วยการวิเคราะห์สัญญาณ ฉันรู้สึกว่าการวิเคราะห์สัญญาณเสียงเป็นเพียงส่วนหนึ่งของความรู้โดยรวมที่จำเป็น ในขณะที่หัวข้ออื่น ๆ คือทฤษฎีดนตรีวิศวกรรมเสียงและการเขียนโปรแกรม หากฉันอาจขอให้ผู้ที่มีความรู้ในเรื่องนี้แนะนำขั้นตอนที่เป็นไปได้ในการทำความเข้าใจวิธีการวิเคราะห์และจัดการ / สร้างสัญญาณเสียง
13 audio 

3
ส่งข้อมูลผ่านเสียงระหว่างคอมพิวเตอร์ 2 เครื่อง (ระยะทางใกล้มาก)
ฉันกำลังเขียนตัวอย่างเกี่ยวกับการส่งข้อมูลผ่านเสียงระหว่างคอมพิวเตอร์ 2 เครื่อง ข้อกำหนดบางประการ: ระยะทางอยู่ใกล้มากนั่นคือคอมพิวเตอร์ 2 เครื่องนั้นอยู่ติดกัน เสียงรบกวนน้อยมาก (ฉันไม่คิดว่าครูของฉันจะเปิดเพลงร็อคเป็นแหล่งเสียง) ข้อผิดพลาดเป็นที่ยอมรับได้: ตัวอย่างเช่นถ้าฉันส่ง "การสื่อสารด้วยวิทยุ" ถ้าคอมพิวเตอร์อีกเครื่องได้รับ "RadiQ CommunEcation" ก็ไม่เป็นไร ถ้าเป็นไปได้: ไม่มีส่วนหัว, ธง, checksum, .... เนื่องจากฉันต้องการตัวอย่างพื้นฐานที่แสดงให้เห็นถึงพื้นฐานของการส่งข้อมูลผ่านเสียง ไม่จำเป็นต้องแฟนซี ฉันลองใช้การเปลี่ยนความถี่เสียงตามลิงค์นี้: Lab 5 APRS (ระบบรายงานแพ็กเกจอัตโนมัติ) และได้ผลลัพธ์บางส่วน: หน้า Github ของฉัน แต่มันก็ไม่เพียงพอ ฉันไม่ทราบวิธีการกู้คืนนาฬิกาการซิงโครไนซ์ ... (ลิงก์มี Phase Locked Loop เป็นกลไกการกู้คืนเวลา แต่ดูเหมือนจะไม่เพียงพอ) ดังนั้นฉันคิดว่าฉันควรหาวิธีที่ง่ายกว่า พบลิงค์ที่นี่: ข้อมูลเสียงและกลับ Modulation / demodulation พร้อม source code …
12 audio  modulation  sound  fsk 

2
เพิ่มฮาร์โมนิกส์คี่ / คู่เพื่อส่งสัญญาณ?
ฉันจะเพิ่มคี่หรือฮาร์โมนิกส์ในสัญญาณทศนิยมได้อย่างไร? ฉันต้องใช้ tanh หรือบาปหรือไม่? สิ่งที่ฉันพยายามจะทำคือการใช้เอฟเฟ็กต์การบิดเบือนที่ง่ายมาก แต่ฉันมีปัญหาในการหาข้อมูลอ้างอิงที่แน่นอน สิ่งที่ฉันต้องการคือสิ่งที่คล้ายกับที่Culture Vultureทำโดยการเพิ่มคี่และฮาร์โมนิกส์ในเพนโทดและการตั้งค่า triode ค่าลอยตัวเป็นเพียงตัวอย่างเดียวในการไหลของตัวอย่าง

1
การพิจารณาว่าเสียงที่คล้ายกันนั้นเกี่ยวกับคำพูดของมนุษย์
ในขณะที่กำลังมองหาคำตอบสำหรับปัญหานี้ฉันพบว่าบอร์ดนี้จึงตัดสินใจที่จะข้ามโพสต์คำถามของฉันนี้จาก Stack Overflow ฉันกำลังค้นหาวิธีการกำหนดความคล้ายคลึงกันระหว่างเซ็กเมนต์เสียงและเสียงของมนุษย์ซึ่งแสดงเป็นตัวเลข ฉันค้นหาค่อนข้างน้อย แต่สิ่งที่ฉันพบจนถึงขณะนี้ (รายละเอียดด้านล่าง) ไม่ตรงกับสิ่งที่ฉันต้องการ: วิธีหนึ่งคือการใช้ซอฟต์แวร์รู้จำเสียงพูดเพื่อให้ได้คำจากส่วนเสียง อย่างไรก็ตามวิธีนี้ไม่สามารถเกิดขึ้นได้ว่าเสียง "คล้ายกัน" นั้นเป็นอย่างไรสำหรับการพูดของมนุษย์ บ่อยครั้งที่สามารถบอกได้ว่ามีคำในเสียงหรือไม่ แต่ถ้าไม่มีคำที่ชัดเจนก็ไม่สามารถบอกได้ว่าเสียงนั้นมีคำดังกล่าวหรือไม่ ตัวอย่าง: CMU Sphinx , Dragonfly , SHoUT วิธีการที่มีแนวโน้มมากขึ้นเรียกว่าVoice Activity Detection (VAD) อย่างไรก็ตามสิ่งนี้มีปัญหาเหมือนกัน: อัลกอริธึม / โปรแกรมที่ใช้ VAD มักจะส่งคืนว่ากิจกรรมถึงขีด จำกัด หรือไม่และไม่มีค่า "ความคล้ายคลึงกัน" ก่อนหรือหลังเกณฑ์ดังกล่าว อีกทางเลือกหนึ่งคือมองหาปริมาณไม่คล้ายกับคำพูดของมนุษย์ ตัวอย่าง: Speex , Listener , FreeSWITCH ความคิดใด ๆ

4
การคำนวณค่าสัมพันธ์อัตโนมัติอย่างมีประสิทธิภาพโดยใช้ FFT
ฉันกำลังพยายามคำนวณความสัมพันธ์อัตโนมัติบนแพลตฟอร์มที่มีการเร่งความเร็วแบบดั้งเดิมที่ฉันมีอยู่คือ (I) FFT ฉันมีปัญหาว่า ฉันเป็นต้นแบบในMATLAB อย่างไรก็ตามฉันสับสนเล็กน้อย ฉันคิดว่ามันใช้งานได้ง่ายดังต่อไปนี้ (มาจากความทรงจำดังนั้นขอโทษถ้าฉันทำผิดเล็กน้อย) autocorr = ifft( complex( abs( fft( inputData ) ), 0 ) ) อย่างไรก็ตามฉันได้รับผลลัพธ์ที่แตกต่างจากการใช้xcorrฟังก์ชั่น ตอนนี้ฉันคาดหวังอย่างเต็มที่ว่าจะไม่ได้รับทางด้านซ้ายของความสัมพันธ์แบบอัตโนมัติ (เนื่องจากเป็นภาพสะท้อนของทางด้านขวามือและไม่จำเป็นต้องมีอยู่แล้ว) อย่างไรก็ตามปัญหาคือด้านขวามือของฉันดูเหมือนจะสะท้อนตัวเองรอบจุดกึ่งกลาง ซึ่งหมายความว่าฉันได้รับข้อมูลประมาณครึ่งหนึ่งอย่างที่ฉันคาดไว้ ดังนั้นฉันแน่ใจว่าฉันจะต้องทำสิ่งที่ผิดง่าย ๆ แต่ฉันก็ไม่สามารถหาอะไรได้

2
ลดระดับเสียงพูดเพื่อลบเนื้อหาทางอารมณ์
ฉันยินดีที่จะรับข้อเสนอแนะทั้งใน R หรือ Matlab แต่รหัสที่ฉันแสดงด้านล่างคือ R-only ไฟล์เสียงที่แนบมาด้านล่างเป็นการสนทนาสั้น ๆ ระหว่างคนสองคน เป้าหมายของฉันคือการบิดเบือนคำพูดของพวกเขาเพื่อให้เนื้อหาทางอารมณ์จะกลายเป็นไม่รู้จัก ความยากลำบากคือฉันต้องการพื้นที่ว่างสำหรับการบิดเบือนนี้พูดได้ตั้งแต่ 1 ถึง 5 โดยที่ 1 คือ 'อารมณ์ที่จดจำได้สูง' และ 5 คือ 'อารมณ์ที่ไม่รู้จัก' มีสามวิธีที่ฉันคิดว่าฉันสามารถใช้เพื่อให้บรรลุด้วยอาร์ 'ความสุข' คลื่นเสียงดาวน์โหลดได้จากที่นี่ ดาวน์โหลด 'โกรธ' คลื่นเสียงจากที่นี่ วิธีแรกคือการลดความเข้าใจโดยรวมโดยการลดเสียงรบกวน โซลูชันนี้มีการนำเสนอด้านล่าง (ขอบคุณ @ carl-witthoft สำหรับคำแนะนำของเขา) สิ่งนี้จะลดทั้งความเข้าใจและเนื้อหาทางอารมณ์ของคำพูด แต่มันเป็นวิธีที่ 'สกปรก' - ยากที่จะทำให้ถูกต้องเพื่อให้ได้พื้นที่พาราเมทริกเพราะสิ่งเดียวที่คุณสามารถควบคุมได้คือความกว้างของเสียง require(seewave) require(tuneR) require(signal) h <- readWave("happy.wav") h <- cutw(h.norm,f=44100,from=0,to=2)#cut down to …
12 matlab  audio  noise 

2
การตรวจจับ drum bpm ในไฟล์. wav ที่มีเสียงดัง
ฉันกำลังมองหาอัลกอริทึม (s) เพื่อแก้ปัญหาต่อไปนี้: ด้วยการจับเสียง. wav ที่มีเสียงดัง (เสียงลม + เสียงเสียดสีบนไมโครโฟน) วิธีการตรวจสอบ BPM ของการตีกลองแบบนุ่ม ฉันพยายามทำเรื่องนี้แล้ว แต่ผลลัพธ์ค่อนข้างแย่เนื่องจากซอฟต์แวร์ mp3 ที่เกี่ยวข้องจำนวนมากสำหรับการวิเคราะห์และการสร้างรหัสลายนิ้วมือ ไม่มีใครให้ข้อมูลเกี่ยวกับวิธีการใช้งานจริง ฉันตระหนักถึงอัลกอริทึมในการลบเสียงรบกวน แต่ยังทำให้ฉันมีปัญหาในการตรวจจับ BPM และขึ้นอยู่กับวิธีแก้ไขปัญหา BPM เป็นไปได้ว่าฉันไม่จำเป็นต้อง denoise (เนื่องจากกลองมีแนวโน้มที่จะอยู่ในความถี่และเสียงรบกวนที่ต่ำกว่าในระดับที่สูงกว่า low-pass แบบง่ายอาจเพียงพอในการประมวลผลล่วงหน้า)

2
เอาท์พุทเซ็นเซอร์ลบที่มีการเหนี่ยวนำร่วมกันระหว่างพวกเขา
ความเป็นมา: ซอฟต์แวร์ที่ฉันใช้ในการวิเคราะห์สัญญาณของฉันคือ matlab ฉันมีสัญญาณเสียงสองสัญญาณที่ถูกบันทึกโดยใช้เซ็นเซอร์แม่เหล็กสองตัว ให้เรียกเซ็นเซอร์ตัวหนึ่งว่า A และอีกอันหนึ่ง B. A และ B มีการเหนี่ยวนำร่วมกันระหว่างพวกมัน ในขณะที่เซ็นเซอร์ A และ B ทำงานฉันต้องการลบข้อมูลที่ได้รับในเซ็นเซอร์ A เนื่องจากการเหนี่ยวนำร่วมกันจากเซ็นเซอร์ B ฉันพยายามลบสัญญาณ B จากสัญญาณ A เพียงแค่เขียนใน matlab (AB) แต่มันก็ให้คำตอบที่แปลกประหลาด ฉันคิดว่ามันมาจากการเปลี่ยนแปลงที่ฉันมีในระยะ เวลาในการบันทึกเริ่มต้นของแทร็กทั้งสองเท่ากันดังนั้นฉันจึงคิดว่ามันไม่ล่าช้า ฉันอยากจะรู้วิธีการทำกระบวนการลบในทางทฤษฎีและถ้าใครมีเคล็ดลับวิธีการใช้งานได้อย่างง่ายดายใน MATLAB ฉันอยากจะรู้ ฉันจะซาบซึ้งในความช่วยเหลือจริงๆ ขอบคุณล่วงหน้า. ด้านล่างฉันแนบรูปภาพของกราฟสัญญาณ ในรูปแรกคุณสามารถเห็นสัญญาณที่ได้รับจากเซ็นเซอร์ A และเซ็นเซอร์ B ในภาพที่สองฉันพล็อตเซ็นเซอร์ A เป็นสีแดงและเซ็นเซอร์ B เป็นสีน้ำเงินในช่วง 2.12: 2.16 และซูมเข้าไปอีก
12 audio 

1
ตระหนักถึงฟังก์ชั่นคณิตศาสตร์ภายในเพลง
ฉันใหม่กับ DSP และเพิ่งค้นพบ StackExchange นี้ดังนั้นขออภัยหากนี่ไม่ใช่สถานที่ที่เหมาะสมในการโพสต์คำถามนี้ มีทรัพยากรที่อธิบายประเภทในแง่คณิตศาสตร์มากกว่าหรือไม่? ตัวอย่างเช่นถ้าฉันแสดง FFT บนสัญญาณในส่วนนี้ของเพลง (2:09 ถ้าลิงก์ไม่เริ่มต้นที่นั่น) จะมีวิธีใดบ้างที่ฉันสามารถตรวจพบว่าส่วนนี้มีการเรียงลำดับคร่าวๆ ของเสียง เสียงเช่นนี้ติดตามฟังก์ชั่นทางคณิตศาสตร์ที่ฉันสามารถเปรียบเทียบได้หรือไม่? http://www.youtube.com/watch?v=SFu2DfPDGeU&feature=player_detailpage#t=130s (ลิงก์เริ่มเล่นเสียงทันที) เป็นวิธีเดียวที่จะใช้เทคนิคการเรียนรู้แบบมีผู้สอนหรือมีวิธีการอื่นที่แตกต่างกัน ขอบคุณสำหรับคำแนะนำใด ๆ

3
ฉันจะเปรียบเทียบไฟล์เสียง 2 ไฟล์ได้อย่างไรโดยคืนเปอร์เซ็นต์ความแตกต่าง
มีวิธีเปรียบเทียบไฟล์เสียง 2 ไฟล์โดยจะมีการคืนเปอร์เซ็นต์ที่แตกต่างกันหรือไม่? ฉันใช้C # VS08,. NET Framework 3.5 แก้ไข: ความแตกต่างของเสียง (เช่นเช่นเสียง 1 "HELP":, เสียง 2 "HELP ME PLEASE":, จะคืนความแตกต่างเป็นเปอร์เซ็นต์ระหว่างเสียง 2 นี้) ขณะนี้ฉันกำลังบันทึกไฟล์ที่บันทึกในรูปแบบ wav และอัตราบิตและคุณภาพของไฟล์จะเหมือนกับสิ่งที่จะถูกบันทึกและเปรียบเทียบกับ ฉันต้องการถามว่ามีวิธีเปรียบเทียบเสียง (ไม่ใช่เฉพาะไบนารี) ในไฟล์เสียง 2 ไฟล์ที่มีคุณสมบัติเหมือนกันและรูปแบบเดียวกัน (WAV) และแสดงความแตกต่างเปอร์เซ็นต์ระหว่าง 2 เสียงในไฟล์เสียง 2 ไฟล์ ความช่วยเหลือจะได้รับการชื่นชมอย่างมาก
12 audio  c# 

5
เมื่อใดที่ต้องพิจารณาจุดลอยตัวคู่ (64 บิต) สำหรับเสียง
เมื่อทำการสังเคราะห์และประมวลผลเสียงบนตัวประมวลผลที่ทันสมัยใครจะพิจารณาใช้สิ่งอื่นนอกเหนือจากจุดลอยตัวที่มีความแม่นยำ (32 บิต) เดี่ยว เห็นได้ชัดว่าเสียงที่เข้ามาและออกไปสู่โลกแห่งความจริงคือ 16/24 บิตดังนั้นฉันแค่พูดถึงความแม่นยำของสัญญาณ (ทั้งเสียงและสิ่งต่าง ๆ เช่นค่าสัมประสิทธิ์ตัวกรอง) ในซอฟต์แวร์ สมมติว่า: CPU / DSP มีจุดลอยฮาร์ดแวร์รองรับทั้งความแม่นยำเดี่ยวและคู่ ลำดับความสำคัญคือเสียงที่มีคุณภาพไม่ได้ประสิทธิภาพสูง ตัวอย่างเช่นความแม่นยำสองเท่าจะได้รับการพิจารณาหากนำเสนอคุณภาพที่ดีขึ้น (การรับรู้)

3
วิธี resample เสียงโดยใช้ FFT หรือ DFT
ฉันทำการสุ่มตัวอย่างเสียงด้วยการแสดง FFT ก่อนจากนั้นจึงนำเฉพาะส่วนของผลลัพธ์ที่ฉันต้องการจากนั้นจึงแสดง FFT ที่ตรงกันข้าม อย่างไรก็ตามมันทำงานได้อย่างถูกต้องเมื่อฉันใช้ความถี่ที่มีทั้งสองกำลังพูดตัวอย่างจาก 32768 ถึง 8192 ฉันทำการ FFT กับข้อมูล 32k ทิ้ง 3/4 ของข้อมูลแล้วทำ FFT ผกผันในส่วนที่เหลือ 1/4 อย่างไรก็ตามเมื่อใดก็ตามที่ฉันพยายามทำสิ่งนี้กับข้อมูลที่ไม่สอดคล้องกันหนึ่งในสองสิ่งที่เกิดขึ้น: ห้องสมุดคณิตศาสตร์ที่ฉันใช้ (Aforge.Math) โดยใช้แบบเต็มเพราะตัวอย่างของฉันไม่ใช่พลังของทั้งสอง ถ้าฉันพยายามทำให้แผ่นตัวอย่างเป็นศูนย์เพื่อให้พวกมันกลายเป็นพลังของ twos มันจะพูดพล่อยๆที่ปลายอีกด้าน ฉันพยายามใช้ DFT แทน แต่มันก็ช้าลงอย่างบ้าคลั่ง (ต้องทำแบบเรียลไทม์) ฉันจะไปยังศูนย์ข้อมูล FFT อย่างถูกต้องทั้งใน FFT เริ่มต้นและ FFT ผกผันในตอนท้ายได้อย่างไร สมมติว่าฉันมีตัวอย่างที่ 44.1 กิโลเฮิร์ตซ์ที่ต้องไปถึง 16 กิโลเฮิร์ตซ์ตอนนี้ฉันลองแบบนี้ตัวอย่างที่มีขนาด 1,000 แพดข้อมูลอินพุตที่ 1024 ในตอนท้าย ดำเนินการ FFT อ่าน …
12 c#  audio 

2
สถานะปัจจุบันของศิลปะในการแก้ไขสัญญาณเสียง
คำถามสามข้อ: เมตริกทั้งหมดสามารถใช้เพื่อวัดคุณภาพการแก้ไขด้วยเสียงได้อย่างเป็นกลางหรือไม่ (แต่ในแง่ของจิตวิเคราะห์หากเป็นไปได้) จากการวัดเหล่านั้นสถานะปัจจุบันของศิลปะในการแก้ไขเสียงคืออะไร สมมติว่าฉันต้องเรนเดอร์สองไฟล์จากลำดับของบันทึกย่อจากเครื่องมือเสมือนในความละเอียดสองค่าจากนั้นเปรียบเทียบการอัปแซมปลิงของไฟล์หนึ่งไฟล์กับเวอร์ชันที่เรนเดอร์ความถี่สูงซอฟต์แวร์ใดที่สามารถใช้เปรียบเทียบ - เป็นการดีที่ใช้เมตริกที่กล่าวถึงก่อนหน้านี้ จนถึงตอนนี้จากที่ฉันได้รวบรวมผู้ทดลองใช้เหล่านี้มีคุณภาพที่ดีที่สุด http://www.mega-nerd.com/SRC/ http://sox.sourceforge.net/SoX/ http://www.izotope.com/tech/src/ หนึ่งในปัญหาที่ resamplers เหล่านี้ดูเหมือนจะมีก่อนและหลังการเรียกเข้า ฉันควรทราบว่าสิ่งที่น่าสนใจที่สำคัญคือการสร้างสัญญาณใหม่ (ตราบเท่าที่คำนั้นสมเหตุสมผล) ดังนั้นการสุ่มสัญญาณมากกว่าการสุ่มตัวอย่าง แก้ไข: ประสิทธิภาพเวลาการแก้ไขไม่เกี่ยวข้องในบริบทนี้ ขอแสดงความนับถือ :-)
11 audio  sampling 

4
การเขียนโปรแกรม Vocoder
ฉันต้องการตั้งโปรแกรมตัวสังเคราะห์เสียงของฉันเองเช่น"Songify"แต่ฉันไม่สามารถหาอัลกอริธึมของตัวแปลได้อย่างง่าย บางทีคุณสามารถอธิบายหรือบอกตำแหน่งที่จะหาข้อมูลเกี่ยวกับวิธีการทำงานของ Vocoder

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.