วิธีใดเป็นวิธีที่ดีที่สุดในการตรวจจับภาพโป๊โดยใช้โปรแกรม [ปิด]


120

Akismet ทำงานได้อย่างยอดเยี่ยมในการตรวจจับความคิดเห็นที่เป็นสแปม แต่ความคิดเห็นไม่ใช่รูปแบบเดียวของสแปมในปัจจุบัน จะเป็นอย่างไรถ้าฉันต้องการให้ akismet ตรวจจับภาพโป๊บนเว็บไซต์โซเชียลเน็ตเวิร์กโดยอัตโนมัติซึ่งอนุญาตให้ผู้ใช้อัปโหลดรูปภาพอวตาร ฯลฯ

มีเครื่องมือค้นหาที่ใช้รูปภาพและเครื่องมือจดจำใบหน้าอยู่แล้วดังนั้นฉันคิดว่ามันจะไม่เป็นวิทยาศาสตร์จรวดและสามารถทำได้ อย่างไรก็ตามฉันไม่มีเงื่อนงำเกี่ยวกับวิธีการทำงานของสิ่งนั้นและฉันควรดำเนินการอย่างไรหากต้องการพัฒนาตั้งแต่เริ่มต้น

ฉันควรเริ่มต้นอย่างไร?

มีโครงการโอเพ่นซอร์สสำหรับสิ่งนี้หรือไม่?


82
จริงๆแล้วฉันจะบอกว่ามันฟังดูยากกว่าวิทยาศาสตร์จรวด! เรามีจรวดมากมายแล้ว แต่ AFAIK ไม่มี "เครื่องตรวจจับสื่อลามก" แบบนั้น :)
GaZ

4
ฮ่า ๆ. มีการจดจำใบหน้า แต่ยังไม่มีเทคโนโลยีสำหรับการจดจำอวัยวะเพศและเต้านม โชคดี
Jon Limjap

11
ภาพอนาจารเป็นเรื่องของภูมิศาสตร์ - นอกจากนี้ฉันแน่ใจว่ามีรูปภาพมากมายที่ไม่แสดงอวัยวะเพศหรือภาพเปลือยเลยซึ่งถือว่าค่อนข้างฮาร์ดคอร์ (อีกครั้ง - ในบางที่) ดูเหมือนงานสำหรับ AI ขั้นสูงไม่ใช่อัลกอริทึมธรรมดา ๆ
Noam Gal

2
ฉันเพิ่งสะดุดกับยูทิลิตี้นี้ที่ทำให้ฉันจำหัวข้อนี้ได้ สงสัยว่ามันใช้งานได้หรือไม่? proofpronto.com/porn-detection-stick-by-paraben.html
Martin Smith

1
@ jm666 ถ้าปัญหานั้นร้ายแรงสำหรับคุณและคุณคิดว่าสถานะของศิลปะในพื้นที่นี้ดีขึ้นในช่วงสองปีที่ผ่านมาคุณจะวางค่าหัวให้กับผู้หลอกลวงที่อ้างถึงได้อย่างไร? คุณควรรวบรวมความสนใจและอาจจะมีคำตอบด้วยวิธีนั้น
Michael Petrotta

คำตอบ:


69

สิ่งนี้เขียนขึ้นในปี 2000 ไม่แน่ใจว่าความล้ำสมัยในการตรวจจับสื่อลามกนั้นก้าวหน้าหรือไม่ แต่ฉันสงสัย

http://www.dansdata.com/pornsweeper.htm

PORNsweeper ดูเหมือนจะมีความสามารถบางอย่างในการแยกแยะภาพของผู้คนจากภาพของสิ่งที่ไม่ใช่คนตราบใดที่ภาพนั้นมีสี ประสบความสำเร็จน้อยกว่าในการแยกแยะภาพสกปรกของผู้คนออกจากภาพที่สะอาด

ด้วยค่าเริ่มต้นที่มีความอ่อนไหวปานกลางหากฝ่ายทรัพยากรบุคคลส่งภาพของบทใหม่ในบัญชีคุณมีโอกาสประมาณ 50% ที่จะได้รับ หากพี่สาวของคุณส่งรูปของเธออายุหกเดือนมาให้คุณก็มีแนวโน้มที่จะถูกกักขังเช่นเดียวกัน

เป็นเรื่องยุติธรรมที่จะชี้ให้เห็นข้อผิดพลาดที่น่าขบขันเช่นการเรียกสื่อลามกโมนาลิซ่าหากสิ่งเหล่านี้เป็นตัวแทนของพฤติกรรมของซอฟต์แวร์ หากผู้ผลิตยอมรับว่าระบบจดจำภาพอัลกอริทึมของพวกเขาจะทิ้งลูกบอลลง 15% ของเวลาดังนั้นการสนุกกับมันเมื่อมันทำอย่างนั้นเป็นเรื่องโง่

แต่ PORNsweeper ดูเหมือนจะปฏิบัติตามข้อกำหนดที่ระบุไว้ในแผนกเดียวเท่านั้น - การตรวจจับสื่อลามกจริง การตรวจจับภาพอนาจารทำได้ดีเพียงครึ่งเดียว แต่การตรวจจับภาพที่สะอาดนั้นไม่ดี และฉันจะไม่แปลกใจเลยถ้าไม่มีการก้าวกระโดดครั้งใหญ่ในพื้นที่นี้ในอนาคตอันใกล้นี้


จากนั้นการตรวจจับภาพอนาจารก็ก้าวหน้าขึ้น มีความคิดที่แตกต่างมากมายในการจดจำวัตถุ / ความคลาสสิกของภาพ / การมองเห็นด้วยคอมพิวเตอร์ 2000 ให้ความรู้สึกเหมือนยุคหินสำหรับฉัน
Maarten

89

นี่เป็นเรื่องง่ายพอสมควร คุณสามารถตรวจจับโทนสีผิวโดยทางโปรแกรมได้และภาพโป๊มักจะมีผิวเยอะ สิ่งนี้จะสร้างผลบวกลวง แต่หากเป็นปัญหาคุณสามารถส่งภาพที่ตรวจพบผ่านการกลั่นกรองจริง สิ่งนี้ไม่เพียงลดการทำงานของผู้ดูแล แต่ยังช่วยให้คุณมีสื่อลามกฟรีมากมาย มันชนะ

#!python    
import os, glob
from PIL import Image

def get_skin_ratio(im):
    im = im.crop((int(im.size[0]*0.2), int(im.size[1]*0.2), im.size[0]-int(im.size[0]*0.2), im.size[1]-int(im.size[1]*0.2)))
    skin = sum([count for count, rgb in im.getcolors(im.size[0]*im.size[1]) if rgb[0]>60 and rgb[1]<(rgb[0]*0.85) and rgb[2]<(rgb[0]*0.7) and rgb[1]>(rgb[0]*0.4) and rgb[2]>(rgb[0]*0.2)])
    return float(skin)/float(im.size[0]*im.size[1])

for image_dir in ('porn','clean'):
    for image_file in glob.glob(os.path.join(image_dir,"*.jpg")):
        skin_percent = get_skin_ratio(Image.open(image_file)) * 100
        if skin_percent>30:
            print "PORN {0} has {1:.0f}% skin".format(image_file, skin_percent)
        else:
            print "CLEAN {0} has {1:.0f}% skin".format(image_file, skin_percent)

รหัสนี้วัดโทนสีผิวตรงกลางภาพ ฉันได้ทดสอบภาพ "โป๊" ที่ค่อนข้างเชื่อง 20 ภาพและภาพที่ไร้เดียงสาอย่างสมบูรณ์ 20 ภาพ มันแจ้งว่า "ภาพอนาจาร" 100% และ 4 ภาพจาก 20 ภาพที่สะอาดตา นั่นเป็นอัตราผลบวกที่ผิดพลาดค่อนข้างสูง แต่สคริปต์มีจุดมุ่งหมายที่จะค่อนข้างระมัดระวังและสามารถปรับแต่งเพิ่มเติมได้ ใช้ได้กับโทนสีผิวที่สว่างมืดและเอเชีย

จุดอ่อนหลักที่มีผลบวกลวงคือวัตถุสีน้ำตาลเช่นทรายและไม้และแน่นอนว่ามันไม่ทราบความแตกต่างระหว่างเนื้อ "ซน" และ "ดี" (เช่นภาพใบหน้า)

ความอ่อนแอด้วยฟิล์มเนกาทีฟปลอมจะเป็นภาพที่ไม่มีเนื้อสัมผัสมาก (เช่นหนังหุ้ม) ผิวหนังที่มีสีหรือรอยสักภาพขาวดำ ฯลฯ

ซอร์สโค้ดและรูปภาพตัวอย่าง


ต้องการโพสต์แนวคิดการพิสูจน์ Python 20 บรรทัดของคุณหรือไม่? (-1)
bobobobo

ไม่เลว +1 ภาพที่น่าสนใจของพื้นผิวปกติ (เช่นพรมหรือพื้นผิวตู้เย็น) แสดงว่ามีผิวจำนวนมาก
bobobobo

6
สปอยเลอร์: ไม่มีภาพเปลือยที่แท้จริงในตัวอย่างรูปภาพ
Luc

นอกจากนี้ยังถือว่าไม้เป็นผิว เพราะมีสีเหมือนกันทุกประการ แต่พื้นผิวต่างกัน. ไม่ต้องพูดถึง portaits
Maarten

45

ฉันขออนุญาตให้ผู้ใช้รายงานเกี่ยวกับภาพที่ไม่ดี การพัฒนาการจดจำภาพอาจใช้ความพยายามและเวลามากเกินไปและจะไม่แม่นยำเท่ากับสายตามนุษย์ การจ้างงานการกลั่นกรองนั้นถูกกว่ามาก

ลองดูที่: Amazon Mechanical Turk

" Amazon Mechanical Turk (MTurk) เป็นหนึ่งในชุดของ Amazon Web Services ซึ่งเป็นตลาดที่มีผู้คนจำนวนมากซึ่งช่วยให้โปรแกรมคอมพิวเตอร์สามารถประสานการใช้ปัญญาของมนุษย์เพื่อทำงานที่คอมพิวเตอร์ไม่สามารถทำได้"


4
อาจมีตลาดสำหรับเว็บไซต์สไตล์ Amazon Mechanical Turk แต่เป็นเว็บไซต์ที่เชี่ยวชาญในเรื่องประเภทนี้ .... :)
รวย

6
Amazon Mechanical Turk อาจต้องเสียเงิน เมื่อพิจารณาถึงหัวข้อที่คุณคิดว่ามีรูปแบบธุรกิจที่ชาญฉลาดซึ่งคุณสามารถทำได้ฟรี
Ankur

1
ฉันคิดว่านี่เป็นวิธีการที่ผิดจรรยาบรรณทีเดียว
เที่ยงผ้าไหม

2
@ อังเครฮ่า ๆ ! ความคิดที่ดี. ไปที่ nic.com เพื่อตรวจสอบว่ายังมี PornOrNot.com อยู่หรือไม่
Pekka

9
@ นู๋นซิลค์ทำไมรู้สึกว่าเป็นแนวทางที่ผิดจรรยาบรรณ
Mazatec

22

15

BOOM! นี่คือเอกสารไวท์เปเปอร์ที่มีอัลกอริทึม

ไม่มีใครรู้ว่าจะรับซอร์สโค้ดสำหรับการใช้งาน java (หรือภาษาใดก็ได้)

ที่จะร็อค

อัลกอริทึมหนึ่งที่เรียกว่า WISE มีอัตราความแม่นยำ 98% แต่มีอัตราบวกเท็จ 14% ดังนั้นสิ่งที่คุณทำคือคุณปล่อยให้ผู้ใช้ตั้งค่าสถานะเชิงลบที่เป็นเท็จ 2% โดยเป็นการลบโดยอัตโนมัติหากผู้ใช้จำนวนหนึ่งตั้งค่าสถานะและให้ผู้ดูแลดูผลบวกเท็จ 14%


คุณพบอัลกอริทึม นั่นค่อนข้างดี ซอร์สโค้ดมักถูกปล่อยให้เป็นแบบฝึกหัด ท้ายที่สุดเราไม่ได้ระบุภาษาโปรแกรมใด ๆ เป็นพิเศษใช่หรือไม่?
เอียน


8

มีซอฟต์แวร์ที่ตรวจจับความน่าจะเป็นของสื่อลามก แต่นี่ไม่ใช่วิทยาศาสตร์ที่แน่นอนเนื่องจากคอมพิวเตอร์ไม่สามารถจดจำสิ่งที่มีอยู่จริงในรูปภาพได้ (รูปภาพเป็นเพียงค่าชุดใหญ่บนเส้นตารางที่ไม่มีความหมาย) คุณสามารถสอนคอมพิวเตอร์ว่าอะไรเป็นสื่อลามกและอะไรไม่ได้โดยการยกตัวอย่าง ซึ่งมีข้อเสียคือจะจดจำภาพเหล่านี้หรือคล้ายกันเท่านั้น

ด้วยลักษณะที่ซ้ำซากของสื่อลามกคุณมีโอกาสที่ดีหากคุณฝึกระบบด้วยผลบวกที่ผิดพลาดเล็กน้อย ตัวอย่างเช่นหากคุณฝึกระบบกับคนเปลือยก็อาจตั้งค่าสถานะภาพชายหาดที่มีคนเปลือย "เกือบ" เป็นภาพอนาจารเช่นกัน

ซอฟต์แวร์ที่คล้ายกันคือซอฟต์แวร์ facebook ที่เพิ่งออกมา เชี่ยวชาญเฉพาะบนใบหน้า หลักการสำคัญก็เหมือนกัน

ในทางเทคนิคคุณจะใช้ตัวตรวจจับคุณลักษณะบางอย่างที่ใช้การกรองเบย์ เครื่องตรวจจับคุณสมบัติอาจมองหาคุณสมบัติเช่นเปอร์เซ็นต์ของพิกเซลสีเนื้อหากเป็นเครื่องตรวจจับแบบธรรมดาหรือเพียงแค่คำนวณความคล้ายคลึงกันของภาพปัจจุบันด้วยชุดภาพโป๊ที่บันทึกไว้

แน่นอนว่านี่ไม่ จำกัด เฉพาะสื่อลามก แต่เป็นกรณีที่หักมุมมากกว่า ฉันคิดว่าระบบที่พยายามค้นหาสิ่งอื่น ๆ ในภาพเป็นเรื่องปกติมากขึ้น ;-)


1
ทำไมคนถึงโหวตคำตอบนี้
Patrick Cornelissen

เนื่องจากไม่มีอะไรเลยเช่นอัลกอริทึมสูตรอาหารหรือข้อมูลอ้างอิง
เอียน

7
ดังนั้นจึงไม่ใช่คำตอบที่ถูกต้องในการอธิบายผู้ใช้ที่ถามคำถามว่ามันเป็นไปไม่ได้จริง ๆ ในสิ่งที่เขาพยายามจะบรรลุ? เพื่อนคุณอาจจะถูกปล่อยปละละเลยมากขึ้น ...
Patrick Cornelissen

นอกจากนี้ยังสร้างข้อความเท็จ "เนื่องจากคอมพิวเตอร์ไม่สามารถจดจำสิ่งที่อยู่บนรูปภาพได้"
Daveth3Cat

เพราะทำไม่ได้. คุณสามารถเรียนรู้ที่จะตรวจจับภาพบางภาพเท่านั้นและยิ่งฐานข้อมูลเชิงบวกและเชิงลบของคุณมีขนาดใหญ่เท่าใดก็ยิ่งดีเท่านั้น แต่โดยทั่วไปแล้วคุณจะไม่มีทางได้รับโซลูชันที่แม่นยำเท่ากับมนุษย์ดังนั้นคุณจะต้องพบกับจำนวนมาก ผลบวกเท็จและเชิงลบ
Patrick Cornelissen

5

คำตอบนั้นง่ายมาก: ค่อนข้างปลอดภัยที่จะบอกว่าจะไม่มีทางเป็นไปได้ในอีกสองทศวรรษข้างหน้า ก่อนหน้านั้นเราอาจจะได้รับเครื่องมือแปลภาษาดีๆ ครั้งสุดท้ายที่ฉันตรวจสอบพวก AI กำลังดิ้นรนเพื่อระบุรถคันเดียวกันในรูปถ่ายสองรูปที่ถ่ายจากมุมที่เปลี่ยนแปลงเล็กน้อย ดูว่าพวกเขาใช้เวลานานแค่ไหนในการรับ OCR หรือการรู้จำเสียงร่วมกันที่ดีพอ ปัญหาเหล่านี้เป็นปัญหาการรับรู้ซึ่งจะได้รับประโยชน์อย่างมากจากพจนานุกรมและยังห่างไกลจากการแก้ปัญหาที่เชื่อถือได้อย่างสมบูรณ์แม้ว่าจะมีผู้คนหลายล้านคนโยนทิ้งไปหลายเดือนก็ตาม

ที่ถูกกล่าวว่าคุณสามารถเพิ่มคำว่า "รุก?" ลิงก์ถัดจากการโต้แย้งที่ผู้ใช้สร้างขึ้นและมีม็อดตรวจสอบข้อร้องเรียนที่เข้ามา

แก้ไข:

ฉันลืมบางอย่าง: หากคุณจะใช้ตัวกรองบางประเภทคุณจะต้องมีตัวกรองที่เชื่อถือได้ หากโซลูชันของคุณถูกต้อง 50% ผู้ใช้ 2,000 คนจาก 4000 คนที่มีภาพที่เหมาะสมจะถูกบล็อก คาดหวังความชั่วร้าย


5

นักศึกษาระดับบัณฑิตศึกษาจากมหาวิทยาลัยแห่งชาติ Cheng Kung ในไต้หวันได้ทำการวิจัยเกี่ยวกับเรื่องนี้ในปี 2547 เขาสามารถตรวจพบภาพเปลือยที่ดาวน์โหลดจากอินเทอร์เน็ตได้ถึง 89.79% นี่คือลิงค์ไปยังวิทยานิพนธ์ของเขา: The Study on Naked People Image Detection based on Skin Color
เป็นภาษาจีนดังนั้นคุณอาจต้องใช้นักแปลในกรณีที่คุณอ่านไม่ออก


4

คำตอบสั้น ๆ : ใช้ผู้ดูแล;)

คำตอบแบบยาว: ฉันไม่คิดว่าจะมีโครงการสำหรับสาเหตุนี้สื่อลามกคืออะไร? ขาเท่านั้นเปลือยเต็มตัวคนแคระ ฯลฯ มันเป็นเรื่องส่วนตัว


3
คำถามคือ "วิธีใดที่ดีที่สุดในการตรวจจับภาพโป๊โดยใช้โปรแกรม" โดยใช้โปรแกรม ...
Agusti-N

5
ฉันรู้คำถาม แต่อย่างที่บอกว่าไม่มีตัวบล็อกสื่อลามกที่ถูกต้อง 100% เพราะสื่อลามกเป็นเรื่องส่วนตัว อัตนัยต้องไม่เกี่ยวข้องกับรหัส 1 คิดว่าเป็นเพียงภาพเปลือยคนอื่น ๆ คิดว่าสื่อลามก ทางออกที่ดีกว่าคือการมีปุ่ม "รายงานภาพ" แนวคิดเดียวกับ Koistya Navin .NET
RvdK

1
“ คนแคระเป็นต้น”? Holy non-sequitur, Batman
Doug McClean

มีอย่างเช่นหนังโป๊คนแคระ
Chris Sherlock

4

เพิ่มลิงก์ที่ไม่เหมาะสมและจัดเก็บ md5 (หรือแฮชอื่น ๆ ) ของรูปภาพที่ไม่เหมาะสมเพื่อให้สามารถติดแท็กโดยอัตโนมัติในอนาคต

จะเจ๋งแค่ไหนถ้าใครสักคนมีฐานข้อมูลสาธารณะขนาดใหญ่ของรูปภาพ md5 พร้อมกับแท็กอธิบายที่ทำงานเป็นบริการเว็บ สื่อลามกจำนวนมากไม่ใช่งานต้นฉบับ (เพราะคนที่มีตอนนี้อาจไม่ได้สร้าง) และภาพยอดนิยมมักจะลอยไปตามสถานที่ต่างๆดังนั้นสิ่งนี้จึงสามารถสร้างความแตกต่างได้อย่างแท้จริง


8
ฉันสงสัยมัน. มีสื่อลามกมากมายอยู่ที่นั่น (และมีจำนวนมากขึ้นในแต่ละวัน) ซึ่งโอกาสที่คุณจะได้เห็นภาพเดียวกันสองครั้งคือ (IMHO) ค่อนข้างใกล้เคียงกับศูนย์
Vilx-

ลองนึกดูว่าสาวอ่างปรากฏตัวบ่อยแค่ไหนสักพัก มันจะได้รับการตั้งค่าสถานะครั้งหนึ่งแล้วทุกคนสามารถหลีกเลี่ยงได้
rfusca

3
เว้นแต่จะถูกครอบตัดปรับขนาดหรือเพิ่งเปิดและบันทึกอีกครั้งก่อนที่จะอัปโหลด ..
Blorgbeard ออก

ฉันคิดเกี่ยวกับเรื่องนั้น :( เอ๊ะมันเป็นความคิด
rfusca

1
ดีกว่า md5 ใบอนุญาต TinEye ของidée
Tobu

2

หากคุณมีเวลาและเงินจริงๆ:

วิธีหนึ่งในการทำคือ 1) การเขียนอัลกอริธึมการตรวจจับภาพเพื่อค้นหาว่าวัตถุนั้นเป็นของมนุษย์หรือไม่ ซึ่งสามารถทำได้โดยการบิตแมสก์ภาพเพื่อดึง "รูปทรง" และดูว่ารูปทรงนั้นเหมาะกับรูปร่างของมนุษย์หรือไม่

2) ข้อมูลขุดภาพโป๊จำนวนมากและใช้เทคนิคการขุดข้อมูลเช่นอัลกอริธึม C4 หรือการเพิ่มประสิทธิภาพอนุภาคเพื่อเรียนรู้การตรวจจับรูปแบบที่ตรงกับภาพโป๊

สิ่งนี้จะกำหนดให้คุณต้องระบุว่ารูปร่างของชาย / หญิงที่เปลือยเปล่าของร่างกายมนุษย์จะต้องมีลักษณะอย่างไรในรูปแบบดิจิทัล (สามารถทำได้ในลักษณะเดียวกับที่อัลกอริธึมการจดจำภาพ OCR ทำงาน)

หวังว่าคุณจะสนุก! :-)


2

สำหรับฉันแล้วดูเหมือนว่าอุปสรรคสำคัญคือการกำหนด "ภาพโป๊" ถ้าให้นิยามง่ายๆคุณอาจจะเขียนอะไรที่ใช้ได้ แต่แม้แต่มนุษย์ก็ไม่สามารถตกลงกันได้ว่าสื่อลามกคืออะไร แอปพลิเคชันจะรู้ได้อย่างไร? การกลั่นกรองผู้ใช้อาจเป็นทางออกที่ดีที่สุดของคุณ


1

ฉันเคยเห็นแอปพลิเคชั่นกรองเว็บที่กรองภาพโป๊ขออภัยฉันจำชื่อไม่ได้ ค่อนข้างมีแนวโน้มที่จะเกิดผลบวกที่ผิดพลาด แต่ส่วนใหญ่แล้วมันใช้งานได้

ฉันคิดว่าเคล็ดลับหลักคือการตรวจจับ "ผิวหนังบนรูปภาพมากเกินไป :)


1
ฉันจำการศึกษาไม่ได้เช่นกัน - แต่มันตรวจจับขอบและจับคู่สิ่งที่ดูเหมือนจะเป็นรูปแบบของช่องคลอดที่หมุนหรือบดบัง ค่อนข้างน่าสนใจจากด้านการประมวลผลภาพ
jim

-1 สิ่งนี้ให้ความเห็น แต่ไม่ได้ให้คำตอบมากมาย
Brad Koch

1

การตรวจจับภาพโป๊ยังคงเป็นงาน AI ที่แน่นอนซึ่งยังคงเป็นทฤษฎีอยู่มาก

เก็บเกี่ยวพลังร่วมและสติปัญญาของมนุษย์โดยการเพิ่มปุ่ม / ลิงก์ "รายงานสแปม / การละเมิด" หรือจ้างผู้ดูแลหลายคนเพื่อทำงานนี้

ปล. แปลกใจจริงๆที่มีคนถามคำถามโดยสมมติว่าซอฟต์แวร์และอัลกอริทึมมีประสิทธิภาพมากโดยไม่ได้คิดว่าสิ่งที่พวกเขาต้องการจะทำได้หรือไม่ พวกเขาเป็นตัวแทนของโปรแกรมเมอร์สายพันธุ์ใหม่ที่ไม่มีความเข้าใจเกี่ยวกับฮาร์ดแวร์การเขียนโปรแกรมระดับต่ำและ "เวทมนตร์เบื้องหลัง" ทั้งหมดหรือไม่?

ป.ล. # 2. ฉันยังจำได้ว่ามีบางสถานการณ์เกิดขึ้นเป็นระยะเมื่อผู้คนไม่สามารถตัดสินได้ว่าภาพนั้นเป็นภาพอนาจารหรือเป็นภาพศิลปะถูกนำไปขึ้นศาล แม้จะเป็นไปตามกฎของศาล แต่ก็มีโอกาสครึ่งหนึ่งของคนที่จะพิจารณาตัดสินผิด สถานการณ์ที่โง่เขลาล่าสุดเกิดขึ้นเมื่อไม่นานมานี้เมื่อหน้า Wikipedia ถูกแบนในสหราชอาณาจักรเนื่องจากภาพหน้าปกซีดีที่มีการเปลือยกาย


1

สองตัวเลือกที่ฉันคิดได้ (แม้ว่าทั้งสองตัวจะไม่ตรวจพบสื่อลามกทางโปรแกรม):

  1. บล็อกรูปภาพที่อัปโหลดทั้งหมดจนกว่าผู้ดูแลระบบคนใดคนหนึ่งของคุณจะดู ไม่มีเหตุผลว่าทำไมจึงควรใช้เวลานาน: คุณสามารถเขียนซอฟต์แวร์บางตัวที่แสดงภาพ 10 ภาพต่อวินาทีเกือบเป็นภาพยนตร์ได้แม้ในความเร็วนี้มนุษย์จะมองเห็นภาพที่อาจลามกได้โดยง่าย จากนั้นคุณกรอกลับในซอฟต์แวร์นี้และมองใกล้ ๆ
  2. เพิ่มตัวเลือก "ตั้งค่าสถานะภาพนี้ว่าไม่เหมาะสม" ตามปกติ

1

Brightcloud บริการเว็บ APIเป็นที่สมบูรณ์แบบสำหรับการนี้ มันเป็น REST API สำหรับการค้นหาเว็บไซต์เช่นนี้ มันมีฐานข้อมูลการกรองเว็บที่ใหญ่และแม่นยำมากและหนึ่งในหมวดหมู่ผู้ใหญ่มีเว็บไซต์ลามกมากกว่า 10 ล้านแห่ง!


1

ฉันเคยได้ยินเกี่ยวกับเครื่องมือที่ใช้อัลกอริทึมที่เรียบง่าย แต่มีประสิทธิภาพมาก อัลกอริทึมคำนวณจำนวนพิกเซลสัมพัทธ์ที่มีค่าสีใกล้เคียงกับสี "ผิว" ที่กำหนดไว้ล่วงหน้า หากจำนวนนั้นสูงกว่าค่าที่กำหนดไว้ล่วงหน้าภาพจะถือว่ามีเนื้อหาที่เร้าอารมณ์ / ลามกอนาจาร แน่นอนว่าอัลกอริทึมนั้นจะให้ผลลัพธ์ที่ผิดพลาดสำหรับภาพถ่ายใบหน้าระยะใกล้และสิ่งอื่น ๆ อีกมากมาย
เนื่องจากคุณกำลังเขียนเกี่ยวกับโซเชียลเน็ตเวิร์กจะมีรูปถ่าย "ปกติ" จำนวนมากที่มีสีผิวจำนวนมากดังนั้นคุณจึงไม่ควรใช้อัลกอริทึมนี้เพื่อปฏิเสธรูปภาพทั้งหมดที่มีผลบวก แต่คุณสามารถใช้เพื่อให้ความช่วยเหลือสำหรับผู้ดูแลเช่นตั้งค่าสถานะรูปภาพเหล่านี้ด้วยลำดับความสำคัญสูงกว่า


ฉันเคยเห็นระบบที่คล้ายกับที่ใช้อยู่ มันไม่น่าเชื่อถือพอที่จะปล่อยให้เป็นของตัวเอง แต่มันทำงานได้ดีมากในการแจ้งเตือนผู้ดูแลเมื่อเหมาะสม ไม่ใช่ข้อพิสูจน์โดยเฉพาะอย่างยิ่งหากบุคคลนั้นถูกปกคลุมด้วยพื้นที่สัมผัสเพียงเล็กน้อย อัตราส่วนนี้ไม่ได้ผลในทางกลับกันอย่างน่าเชื่อถือ
Tim Post

1

อันนี้ดูมีอนาคต โดยทั่วไปจะตรวจจับผิวหนัง (ด้วยการปรับเทียบโดยการจดจำใบหน้า) และกำหนด "เส้นทางผิว" (เช่นการวัดสัดส่วนของพิกเซลผิวเทียบกับพิกเซลผิวหน้า / พิกเซลผิว) สิ่งนี้มีประสิทธิภาพที่ดี http://www.prip.tuwien.ac.at/people/julian/skin-detection


0

ดูชื่อไฟล์และคุณสมบัติต่างๆ มีข้อมูลไม่เพียงพอที่จะตรวจจับภาพที่ซุกซนแม้แต่ 20% แต่อย่างน้อยบัญชีดำของคำหลักง่ายๆก็จะตรวจจับภาพที่มีป้ายกำกับหรือข้อมูลเมตาที่สื่อความหมายได้ การเขียนโค้ด 20 นาทีเพื่อให้ได้อัตราความสำเร็จ 20% ไม่ใช่ข้อตกลงที่ไม่ดีโดยเฉพาะอย่างยิ่งเมื่อเป็นหน้าจอล่วงหน้าที่อย่างน้อยก็สามารถจับภาพง่ายๆก่อนที่คุณจะส่งส่วนที่เหลือไปให้ผู้ดูแลเพื่อตัดสิน

เคล็ดลับที่มีประโยชน์อื่น ๆ นั้นตรงกันข้ามแน่นอนรักษารายการแหล่งที่มาของภาพที่อนุญาตพิเศษเพื่ออนุญาตโดยไม่ต้องกลั่นกรองหรือตรวจสอบ หากรูปภาพส่วนใหญ่มาจากผู้อัปโหลดหรือแหล่งที่มาที่ปลอดภัยซึ่งเป็นที่รู้จักคุณก็สามารถยอมรับได้โดยผูกมัด


0

ในวันนี้ฉันจะไม่พยายามกำหนดประเภทของเนื้อหาที่ฉันเข้าใจเพิ่มเติมว่าจะรวมเอาไว้ในคำอธิบายชวเลขนั้น ["สื่อลามกแบบฮาร์ดคอร์"]; และบางทีฉันอาจจะไม่ประสบความสำเร็จในการทำเช่นนั้นอย่างชาญฉลาด แต่ฉันรู้เมื่อฉันเห็นมันและภาพเคลื่อนไหวที่เกี่ยวข้องกับคดีนี้ไม่ใช่อย่างนั้น

- พอตเตอร์สจ๊วตผู้พิพากษาศาลฎีกาแห่งสหรัฐอเมริกา พ.ศ. 2507



0

ไม่ใช่วิทยาศาสตร์จรวด ไม่อีกแล้ว. คล้ายกับการจดจำใบหน้ามาก ฉันคิดว่าวิธีที่ง่ายที่สุดในการจัดการกับปัญหานี้คือการใช้แมชชีนเลิร์นนิง และเนื่องจากเรากำลังจัดการกับรูปภาพฉันจึงสามารถชี้ไปที่เครือข่ายเซลล์ประสาทเพราะสิ่งเหล่านี้ดูเหมือนจะเป็นที่ต้องการสำหรับรูปภาพ คุณจะต้องมีข้อมูลการฝึกอบรม และคุณสามารถค้นหาข้อมูลการฝึกอบรมมากมายบนอินเทอร์เน็ต แต่คุณต้องครอบตัดภาพไปยังส่วนเฉพาะที่คุณต้องการให้อัลกอริทึมตรวจพบ แน่นอนว่าคุณจะต้องแบ่งปัญหาออกเป็นส่วนต่างๆของร่างกายที่คุณต้องการตรวจจับและสร้างข้อมูลการฝึกสำหรับแต่ละส่วนและนี่คือจุดที่ทำให้สิ่งต่างๆน่าขบขัน

อย่างที่ใครบางคนกล่าวไว้ข้างต้นไม่สามารถทำได้ 100% เปอร์เซ็นต์ จะมีบางกรณีที่อัลกอริทึมดังกล่าวล้มเหลว ความแม่นยำที่แท้จริงจะถูกกำหนดโดยข้อมูลการฝึกของคุณโครงสร้างของเครือข่ายเซลล์ประสาทของคุณและวิธีที่คุณจะเลือกจัดกลุ่มข้อมูลการฝึก (อวัยวะเพศชายช่องคลอดหน้าอก ฯลฯ และการรวมกัน) ไม่ว่าในกรณีใดฉันมั่นใจมากว่าสิ่งนี้สามารถทำได้ด้วยความแม่นยำสูงสำหรับภาพโป๊ที่โจ่งแจ้ง



-1

ไม่มีทางที่คุณจะทำสิ่งนี้ได้ 100% (ฉันจะบอกว่าอาจจะเป็นไปได้ 1-5%) ด้วยความรู้ในปัจจุบัน คุณจะได้ผลลัพธ์ที่ดีกว่ามาก (มากกว่า 1-5%) เพียงแค่ตรวจสอบชื่อภาพสำหรับคำที่เกี่ยวข้องกับเพศ :)

@SO Troll: จริง


-1 สิ่งนี้ให้ความเห็น แต่ไม่ได้ให้คำตอบมากมาย
Brad Koch
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.