อะไรคืออัลกอริธึมที่พบได้บ่อยที่สุดสำหรับการปรับเปลี่ยนสัญญาณ


38

มีการพูดคุยเกี่ยวกับการปรับเกณฑ์ตามเกณฑ์ได้ในคำถามสองสามข้อก่อนหน้านี้:

Thresholding แบบปรับตัวสำหรับการแบ่งส่วนตับโดยใช้ Matlab

อัลกอริทึมที่ดีที่สุดสำหรับการทำสำเนารูปภาพเอกสารในตัวอย่างนี้คืออะไร?

แน่นอนว่ามีอัลกอริธึมมากมายสำหรับการปรับเปลี่ยนแบบ ฉันต้องการที่จะรู้ว่าคนที่คุณพบว่ามีประสิทธิภาพและมีประโยชน์มากที่สุด

อัลกอริทึม Adaptive ใดที่คุณใช้มากที่สุดและแอปพลิเคชันใด คุณมาเลือกอัลกอริทึมนี้อย่างไร

คำตอบ:


24

ฉันไม่คิดว่าของฉันจะเป็นคำตอบที่สมบูรณ์ แต่ฉันจะเสนอสิ่งที่ฉันรู้และเนื่องจากนี่เป็นไซต์ที่แก้ไขโดยชุมชนฉันหวังว่าจะมีคนให้คำตอบฟรีในเร็ว ๆ นี้ :)

วิธีการ thresholding การปรับตัวเป็นคนที่ไม่ได้ใช้เกณฑ์เดียวกันทั่วทั้งภาพ

แต่สำหรับบางคนที่ใช้งานง่ายบางครั้งก็มากพอที่จะเพียงแค่เลือกเกณฑ์ด้วยวิธีที่ฉลาดกว่าที่ง่ายที่สุดวิธีการซ้ำแล้วซ้ำอีก วิธีโอตสึเป็นวิธีที่นิยม thresholding ที่ถือว่าภาพที่มีสองชั้นของพิกเซล - เบื้องหน้าและพื้นหลังและมีhistogram สองกิริยา จากนั้นจะพยายามลดการแพร่กระจายรวมของพวกเขา (ความแปรปรวนภายในคลาส)

อัลกอริธึมที่ง่ายที่สุดที่สามารถพิจารณาได้ว่าวิธีการปรับเปลี่ยนสัญญาณอย่างแท้จริงนั้นเป็นวิธีที่แบ่งภาพออกเป็นกริดของเซลล์และจากนั้นใช้วิธีการกำหนดค่าแบบง่าย ๆ (เช่นวิธีวนซ้ำหรือวิธีของโอสึ) ในแต่ละเซลล์ ฮิสโตแกรม bi-modal) หากไม่สามารถสร้างเกณฑ์ย่อยภาพที่ดีเกณฑ์จากหนึ่งในเซลล์ใกล้เคียงสามารถใช้

วิธีทางเลือกในการหาเกณฑ์ท้องถิ่นคือการตรวจสอบสถิติค่าความเข้มของย่านท้องถิ่นของแต่ละพิกเซล เกณฑ์แตกต่างกันสำหรับแต่ละพิกเซลและคำนวณจากพื้นที่ใกล้เคียงท้องถิ่น (อาจเป็นค่ามัธยฐานค่าเฉลี่ยและตัวเลือกอื่น ๆ ) มีการใช้วิธีการประเภทนี้รวมอยู่ในห้องสมุด OpenCVในcv::adaptiveThresholdingฟังก์ชั่น

ผมพบว่าวิธีการอื่นที่คล้ายกันเรียกว่าแบรดลีย์ Thresholding ท้องถิ่น นอกจากนี้ยังตรวจสอบพื้นที่ใกล้เคียงของแต่ละพิกเซลตั้งค่าความสว่างเป็นสีดำหากความสว่างของพิกเซลต่ำกว่าความสว่างเฉลี่ยของพิกเซลโดยรอบ กระดาษที่สอดคล้องกันสามารถพบได้ที่นี่

คำตอบแบบสแต็กโอเวอร์โฟลว์นี้พูดถึงวิธีการ thresholding ในพื้นที่ (ปรับตัว) ที่เรียกว่าNiblackแต่ฉันไม่เคยได้ยินมาก่อน

สุดท้ายมีวิธีการที่ฉันได้ใช้ในหนึ่งในโครงการขนาดเล็กก่อนหน้าของฉันเรียกว่าThresholding ภาพโดยแปรผัน Minimax การเพิ่มประสิทธิภาพ มันเป็นวิธีการวนซ้ำตามการปรับฟังก์ชั่นพลังงานให้เหมาะสมซึ่งเป็นการรวมกันที่ไม่เชิงเส้นของส่วนประกอบทั้งสอง องค์ประกอบหนึ่งมีวัตถุประสงค์เพื่อคำนวณเกณฑ์ตามตำแหน่งของการเปลี่ยนแปลงความเข้มที่แข็งแกร่งที่สุดในภาพ องค์ประกอบอื่น ๆ มีวัตถุประสงค์เพื่อทำให้ธรณีประตูเรียบที่บริเวณชายแดน (วัตถุ) มันได้รับการพิสูจน์แล้วว่าค่อนข้างดีในภาพของเครื่องมืออะนาล็อก (การแรเงาและการสะท้อนต่าง ๆ จากแก้ว / พลาสติกปัจจุบัน) แต่จำเป็นต้องมีทางเลือกอย่างระมัดระวังในการคำนวณซ้ำ

แก้ไขล่าช้า : ได้รับแรงบันดาลใจจากความคิดเห็นต่อคำตอบนี้ มีอีกวิธีที่ฉันรู้ที่จะหลีกเลี่ยงสภาพแสงที่ไม่สม่ำเสมอ ฉันจะเขียนที่นี่เกี่ยวกับวัตถุที่สดใสบนพื้นหลังสีดำ แต่เหตุผลเดียวกันสามารถนำไปใช้ได้หากสถานการณ์กลับกัน เกณฑ์สีขาวบนหมวกเปลี่ยนของภาพที่มีเกณฑ์คง แทนภาพต้นฉบับ หมวกสีขาวด้านบนของภาพคืออะไร แต่ความแตกต่างระหว่างภาพและมันเปิด(ฉ) เป็นคำอธิบายเพิ่มเติมให้ฉันเสนอราคาจากP. Soille: การวิเคราะห์ภาพก้าน :fγ(f)

การเปิดภาพต้นฉบับที่มี SE ขนาดใหญ่จะเป็นการลบโครงสร้างรูปภาพที่เกี่ยวข้องทั้งหมด แต่ยังคงไว้ซึ่งฟังก์ชันการส่องสว่าง หมวกทรงกลมสีขาวของภาพต้นฉบับหรือการลบฟังก์ชั่นการส่องสว่างจากภาพต้นฉบับจะส่งสัญญาณออกมาด้วยภาพที่เป็นเนื้อเดียวกัน


14

คุณสามารถค้นหากระดาษที่มีการเปรียบเทียบจำนวนวิธีการกำหนดเกณฑ์ขั้นต่ำได้ที่นี่:

  • M. Sezgin, B. Sankur - สำรวจเทคนิคการกำหนดเกณฑ์ภาพและการประเมินประสิทธิภาพเชิงปริมาณ, วารสารการถ่ายภาพอิเล็กทรอนิกส์, 2004 - pdf

ต่อไปนี้เป็นกระดาษอีกฉบับหนึ่งที่ประเมินวิธีการ binarization

  • P. Stathis, E. Kavallieratou และ N. Papamarkos - เทคนิคการประเมินผลสำหรับอัลกอริทึม Binarization, วารสารวิทยาศาสตร์คอมพิวเตอร์สากล, 2008, - pdf

วิธีการปรับเปลี่ยนแบบไบนาไรเซชั่นที่ฉันใช้ในโครงการสุดท้ายของฉันใช้อิมเมจอินทิกรัลเพื่อการคำนวณอย่างรวดเร็วของฟังก์ชันขีด จำกัด ที่ใช้โดยวิธี Sauvola วิธี Sauvola อธิบายไว้ใน:

  • J. Sauvola และ M. Pietikainen, การปรับภาพเอกสารแบบไบนาไนเซชั่น, การจดจำรูปแบบ 33, 2000. - pdf

การดัดแปลงที่ใช้ภาพรวมที่ให้การเพิ่มความเร็ว 20 เท่า (ตามกระดาษ) ได้อธิบายไว้ในบทความนี้:

  • F. Shafait, D. Keysers, และ TM Breuel, การใช้งานเทคนิคการปรับเปลี่ยนความเร็วสัญญาณได้อย่างมีประสิทธิภาพโดยใช้ภาพที่เป็นส่วนประกอบ, การรับรู้เอกสารและการดึงข้อมูล XV, 2008 - pdf

เอกสารเหล่านี้เป็นเพียงเอกสารที่ฉันใช้เมื่อเลือกวิธีการแบบไบนาไนเซชันสำหรับโครงการของฉัน (สำหรับการค้นหาข้อความในภาพ) ฉันไม่ใช่ผู้เชี่ยวชาญดังนั้นฉันไม่สามารถพูดได้ว่าวิธีใดดีที่สุดสำหรับแอปพลิเคชันใด


6

คำถามนี้ได้รับการตอบรับเป็นอย่างดีจากมุมมองที่แตกต่างกันและฉันต้องการที่จะสรุปประสบการณ์ของฉันและยังเน้นปัญหาบางอย่างที่เกี่ยวข้องกับการปรับไบนาไนเซชัน

Adaptive binarization สามารถแบ่งออกเป็นสามประเภท:

1) วิธีการทั่วโลก: ประมาณด้วยวิธีนี้ก่อนของพื้นหลังของภาพที่คาด; หลังจากนั้นภาพปกติจะถูกสร้างขึ้นด้วยความช่วยเหลือของข้อมูลพื้นหลัง จากนั้นใช้วิธีการแลกเปลี่ยนข้อมูลระดับโลก

2) วิธีการแก้ไขโดยใช้: เป็นชื่อบ่งชี้วิธีการแก้ไขโดยใช้โปรแกรมแก้ไขจะทำการปรับปรุง binarization โดยโปรแกรมแก้ไข ในแต่ละแพทช์จะมีการประมาณระดับไบนาไรเซชันด้วยวิธีการแบบไบนาไนเซชันระดับโลก หลังจากนั้นจะมีการดำเนินการหลังการประมวลผลบางอย่างเพื่อให้ฟ้องว่าเกณฑ์การแปลงข้อมูลในระดับแพชช์ที่อยู่ใกล้เคียงนั้นมีการเปลี่ยนแปลงที่ราบรื่น

3) วิธีการย้ายหน้าต่าง: ด้วยวิธีนี้การแปลงข้อมูลแบบไบนาไนซ์จะทำแบบพิกเซลต่อพิกเซล หน้าต่างย้ายถูกตั้งค่าเพื่อคำนวณสถิติพิกเซลภายในหน้าต่างและคำนวณจากค่าสถิติที่ขีด จำกัด สำหรับพิกเซลกลางภายในหน้าต่างคำนวณ

เป็นการยากที่จะบอกว่าวิธีใดดีที่สุดเนื่องจากขึ้นอยู่กับแอปพลิเคชัน เมื่อคุณนึกถึงการปรับไบนาไนเซชันอย่าลืมพิจารณาคำถามต่อไปนี้:

1) การตั้งค่าพารามิเตอร์: วิธีนี้มีขั้นตอนการตั้งค่าพารามิเตอร์อัตโนมัติหรือไม่ เราจะตั้งค่าพารามิเตอร์ได้เป็นอย่างดีเพื่อให้สามารถทำงานในกรณีส่วนใหญ่ได้อย่างไร?

2) อะไรคือเกณฑ์ในการตัดสินให้มีการปรับตัวในระดับที่ดี ในหลายกรณีความแตกต่างระหว่างวิธีการแบบไบนารีที่แตกต่างกันนั้นเล็กมาก อย่างไรก็ตามความแตกต่างเล็กน้อยอาจนำไปสู่ความแตกต่างใหญ่ในที่สุด

3) binarization สามารถทำงานในบางสถานการณ์ได้หรือไม่? ยกตัวอย่างเช่นสมมติว่าเป้าหมายของการปรับตัวแบบไบนาไรเซชันคือการแยกขณะที่วัตถุจากพื้นหลังสีดำ หรือวีซ่ารอง

4) วิธีการปรับตัวมีแนวโน้มที่จะมุ่งเน้นไปที่การกำหนดค่าท้องถิ่นเท่านั้นดังนั้นผลลัพธ์ไบนารีจะไม่ได้รับการปรับให้เหมาะสม ตัวอย่างเช่นวิธี Sauvola ที่มีชื่อเสียงจะสร้างวัตถุกลวงหากวัตถุที่จะปรับให้เหมาะสมนั้นใหญ่กว่าหน้าต่างที่เคลื่อนไหว วิธีการปรับตัวของคุณสามารถเอาชนะข้อ จำกัด นี้ได้หรือไม่?

5) การประมวลผลล่วงหน้า การสัมมนาที่ดีควรรวมถึงการประมวลผลข้อมูลภายในด้วย หากภาพเบลอเกินไปก็สามารถปรับพารามิเตอร์ของอัลกอริทึมโดยอัตโนมัติหรือเรียกใช้การประมวลผลล่วงหน้าบางส่วนเพื่อหลีกเลี่ยงการ binarization ที่ไม่ดี

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.