รูปแบบของภาพ (png, jpg, gif) มีผลต่อวิธีการฝึกอบรมการรับรู้ภาพของโครงข่ายประสาทหรือไม่?


22

ฉันทราบว่ามีความก้าวหน้ามากมายเกี่ยวกับการจดจำรูปภาพการจำแนกภาพและอื่น ๆ ด้วยอวนประสาทที่ซับซ้อน

แต่ถ้าฉันฝึกเน็ตให้บอกว่าภาพ PNG มันจะใช้ได้กับภาพที่เข้ารหัสเท่านั้นเหรอ? คุณสมบัติรูปภาพอื่น ๆมีผลกับสิ่งนี้อย่างไร (ช่องอัลฟาการพัวพันความละเอียด ฯลฯ )


2
ฉันมีประสบการณ์ไม่เพียงพอกับสถิติของรูปภาพเพื่อให้คำตอบที่มั่นใจ แต่ฉันคาดหวังว่ารุ่นที่แตกต่างกันจะใช้รูปแบบที่แตกต่างกันอย่างสิ้นเชิงในการโค้ดอิมเมจลงในฟีเจอร์ซึ่งบางส่วนจะได้รับผลกระทบจากการบีบอัด JPEG . และบางอย่างจะไม่พร้อมด้วยรายละเอียดเฉพาะรุ่น ฉันรู้ว่ามีทั้งสองรุ่นที่ปฏิบัติต่อแต่ละพิกเซลเป็นคุณสมบัติและรุ่นที่แกะสลักภาพลงในภูมิภาคและใช้คุณสมบัติของภูมิภาคเป็นคุณสมบัติ
Kodiologist

คำตอบ:


20

ตอบสั้น ๆ คือไม่มี

รูปแบบที่เข้ารหัสภาพนั้นเกี่ยวข้องกับคุณภาพของมัน โครงข่ายประสาทเทียมเป็นแบบจำลองทางคณิตศาสตร์ที่ใช้ในการปฏิบัติการมากมาย (การคูณเมทริกซ์การเพิ่มเติมองค์ประกอบที่ชาญฉลาดและฟังก์ชั่นการแมป) โครงข่ายประสาทเทียมเห็นเทนเซอร์เป็นอินพุต (เช่นอาร์เรย์หลายมิติ) รูปร่างของมันมักจะเป็น 4-D (จำนวนภาพต่อหนึ่งชุดความสูงของภาพความกว้างของภาพจำนวนช่อง)

รูปแบบภาพที่แตกต่างกัน (โดยเฉพาะอย่างยิ่งคนที่สูญเสีย) อาจสร้างอาร์เรย์อินพุตที่แตกต่างกัน แต่อวนพูดประสาทอย่างเคร่งครัดดูอาร์เรย์ในอินพุตของพวกเขาและไม่ใช่ภาพ


4

ในขณะที่คำตอบของ Djib2011 นั้นถูกต้อง แต่ฉันเข้าใจคำถามของคุณว่าเน้นไปที่คุณภาพของภาพ / คุณสมบัติที่มีผลต่อการเรียนรู้เครือข่ายประสาทโดยทั่วไป มีการวิจัยเพียงเล็กน้อยในหัวข้อนี้ (afaik) แต่อาจมีการวิจัยเพิ่มเติมในอนาคต ผมพบว่าเพียงนี้บทความเกี่ยวกับมัน ปัญหาในขณะนี้คือว่านี่เป็นปัญหาที่ปรากฏในการใช้งานจริงและน้อยกว่าในสาขาการวิจัยทางวิชาการ ฉันจำพอดคาสต์ปัจจุบันหนึ่งที่นักวิจัยสังเกตว่าแม้แต่กล้องที่เคยถ่ายภาพอาจมีผลกระทบขนาดใหญ่


คุณช่วยชี้ฉันไปที่พอดแคสต์ได้ไหม
David Ernst

มันเป็นตอนหนึ่งชั่วโมงของ "Talking machines" ซึ่งพวกเขาได้พูดคุยกับนักวิจัยฝึกการเรียนรู้เครื่องในแอฟริกา (แคลิฟอร์เนียกลางถึงปลาย) ลิงค์ iTunes: itunes.apple.com/de/podcast/talking-machines/ ......
Bobipuegi

2

นี่เป็นคำตอบแรกจาก Djib2011 คำตอบสั้น ๆ ต้องไม่ใช่ อีกต่อไป - ภาพแรกจะถูกเข้ารหัสเป็นเทนเซอร์ดังนี้ รูปภาพมีจำนวนพิกเซล หากภาพถ่ายถือเป็นแถว m และคอลัมน์ n แต่ละพิกเซลจะถูกระบุโดยตำแหน่งแถวและคอลัมน์นั่นคือโดยคู่ (m, n) โดยเฉพาะอย่างยิ่งมี m * n พิกเซลซึ่งมีขนาดใหญ่มากแม้สำหรับภาพถ่าย 'เล็ก' แต่ละพิกเซลของภาพถ่ายจะถูกเข้ารหัสด้วยตัวเลขระหว่างศูนย์ถึงหนึ่ง (ความเข้มของความมืด) หากภาพถ่ายเป็นขาวดำ มันถูกเข้ารหัสด้วยตัวเลขสามตัว (ความเข้มของ RGB) หากภาพถ่ายเป็นสี ดังนั้นหนึ่งลมกับเมตริกซ์ที่เป็น 1xmxn หรือ 3xmxn การรับรู้ภาพจะกระทำผ่านซีเอ็นเอ็นซึ่งการใช้ประโยชน์จากความจริงที่ว่าภาพไม่เปลี่ยนแปลงมากว่าจากพิกเซลพิกเซลลูกประคบข้อมูลผ่านตัวกรองและการรวมกำไร ดังนั้นประเด็นก็คืองานของ CNN โดยการบีบอัดจุดข้อมูลจำนวนมากอย่างไม่น่าเชื่อ (หรือฟีเจอร์) ของภาพถ่ายเป็นค่าที่น้อยลง ดังนั้นรูปแบบใดก็ตามที่คุณเริ่มต้นด้วย CNN เริ่มต้นด้วยการบีบอัดข้อมูลของรูปถ่ายเพิ่มเติม ดังนั้นความเป็นอิสระต่อ se จากขนาดของการเป็นตัวแทนของภาพถ่าย
อย่างไรก็ตามซีเอ็นเอ็นจะเรียกร้องให้ภาพทั้งหมดที่ถูกเรียกใช้นั้นมีขนาดเท่ากันทั้งหมด ดังนั้นจึงมีการพึ่งพาที่จะเปลี่ยนแปลงขึ้นอยู่กับวิธีบันทึกภาพ นอกจากนี้ในกรณีที่รูปแบบไฟล์ที่แตกต่างกันที่มีขนาดเท่ากันให้ค่าที่แตกต่างกันสำหรับเทนเซอร์ของพวกเขาหนึ่งไม่สามารถใช้โมเดล CNN เดียวกันเพื่อระบุภาพถ่ายที่เก็บไว้โดยวิธีการที่แตกต่างกัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.