มีวิธีใดที่จะให้ผู้ส่งอีเมลขยะทำคะแนนให้บรรทัดบนสุดของเนื้อหาได้มากขึ้นหรือไม่

สแปมจำนวนมากกำลังผ่านตัวกรองบนเมลเซิร์ฟเวอร์ที่ฉันเรียกใช้ด้วยวิธีง่าย ๆ ในการเริ่มต้นด้วยการลดน้ำหนัก (ชัดเจนอย่างไม่น่าเชื่อ) หรือการหลอกลวงข้อความอื่น ๆ ที่ด้านบนตามด้วยการเขียนเนื้อหาเอกสารขนาดใหญ่กว่า - หรือความชั่วร้ายที่สุดของทุกข้อความที่คัดลอกมาจากกองแลกเปลี่ยน อย่างดีที่สุด Spamassassin ถือว่านี่คือ BAYES_50 และมันเกิดขึ้นว่าข้อความที่เหลือถูกสร้างขึ้นอย่างระมัดระวังพอที่จะไม่ถูกทริกเกอร์อื่น ๆ (ตัวอย่างเช่นส่วนหัวมีค่าน้อยที่สุดและถูกต้อง) บ่อยครั้งข้อความที่ตัดตอนมารวมอยู่ในแนวเดียวกันอย่างใกล้ชิดกับความสนใจที่ถูกต้องตามกฎหมายของฉันว่าข้อความโดยรวมมีคะแนนเป็น BAYES_00 เนื่องจากโทเค็นสแปมมาก

ส่วนบนเป็นสแปมอย่างเห็นได้ชัด (และในความเป็นจริงมีแนวโน้มที่จะคล้ายกับที่ได้รับก่อนหน้านี้และได้รับการฝึกอบรมเป็นข้อความสแปม) ที่ฉันประหลาดใจว่ามันผ่าน - แต่เห็นได้ชัดว่ามันเป็น ดูเหมือนว่าผ่านแยกซึ่งให้คะแนน 25 บรรทัด (หรือมากกว่านั้น) ของข้อความและชั่งน้ำหนักที่หนักจะแก้ปัญหา มีวิธีทำเช่นนี้หรือไม่?

หลายคนแนะนำให้เขียนนิพจน์ทั่วไปที่กำหนดเอง ฉันไม่ต้องการเข้าร่วมในเรื่องนี้เพราะนี่คือการต่อสู้ที่พ่ายแพ้อย่างต่อเนื่อง มันเป็นสิ่งที่ผู้คนทำก่อนการเรียงลำดับสแปมแบบเบย์มีการใช้กันอย่างแพร่หลายและโดยทั่วไปก็แย่มาก ไม่มีมนุษย์คนใดสามารถให้ทัน มันไม่ได้มีประสิทธิภาพมากกว่าแค่กดปุ่มลบสำหรับแต่ละข้อความสแปมและทำงานได้มากขึ้นในส่วนของฉัน

การกรองสแปมแบบเบย์ทำงาน มันยังใช้งานได้กับสแปมนี้ถ้าฉันแยกส่วน " เหนือครึ่งหน้าบน " และเพิ่งวิเคราะห์ส่วนนั้นโดยถอดล่อ / แกลบออก คำถามคือ: ฉันจะทำให้ Spamassassin ทำเช่นนั้นได้อย่างไร

spam spamassassin

— mattdm
แหล่งที่มา

ตัวกรองแบบเบส์เปิดใช้งานหรือไม่

— Kondybas

@kondybas ใช่ และนี่คือส่วนหนึ่งของปัญหาเนื่องจากข้อความที่เติมเต็มนั้นมีค่ามากกว่าส่วนที่เป็นสแปมตามปริมาณที่แท้จริง

— mattdm

คุณใช้ MTA อะไร

— Kondybas

คุณฝึกเบย์มากแค่ไหนในเกมสแปม? ฉันคาดว่าอัลกอริทึมแบบเบย์จะทำงานออกมาไม่นาน

— mc0e

@ mc0e มันทำไม่ได้ มันไม่ได้ฉลาดอย่างน่าอัศจรรย์ ระบบการเรียนรู้ด้วยเครื่องจักรที่ซับซ้อนกว่านี้อาจทำได้ แต่ฉันคิดว่าอืม "เคล็ดลับง่ายๆ" ที่ฉันขอได้ที่นี่ก็เช่นกัน

— mattdm

ฉันเป็นนักสู้ป้องกันสแปมที่มีชีวิตชีวา และเนื่องจากปัญหามากมายที่คุณพบฉันจึงลงเอยทำสิ่งสกปรกด้วยตัวเองเมื่อหลายปีก่อน

ตอนนี้นี่ไม่ใช่คำตอบสำหรับคำถามเฉพาะของคุณ แต่สำหรับปัญหาเฉพาะของคุณ ดังนั้นโปรดอย่าลงคะแนนเพราะสิ่งนี้

ฉันจะแก้ไขปัญหานี้ได้อย่างไรเพื่อแก้ไขสคริปต์ sa_filter-post.pl ซึ่งใช้โดยเซิร์ฟเวอร์ XMail ซึ่งเรียก spamc ในไฟล์อีเมลและทำบางสิ่งเล็กน้อยเพื่อประมวลผลไฟล์ทั้งหมด แต่เฉพาะส่วนของมันโดยอ้างอิงจาก กฎเฉพาะบางอย่าง (hardcoded โดยฉัน) ใช่ regex'es แต่จนถึงตอนนี้พวกเขาทำงานให้ฉัน (ฉันมีสคริปต์อื่น ๆ มากมายทั้งก่อนและหลังสคริปต์นี้เพื่อให้มีบทบาท)

ตัวอย่างเช่นฉันมี regex ที่จับปลา ผู้ส่งสแปมทิ้งไว้เต็มจำนวนเพื่อที่จะประมวลผลเฉพาะไฟล์ขนาดกลาง 400 ตัวอักษร (ฉันได้ถึง 400 โดยการทดลองและข้อผิดพลาดจริง ๆ เริ่มจาก 200) โปรดทราบว่ามันค่อนข้างยากที่จะเลือกกลางสิ่งที่คุณเห็นเมื่อเทียบกับสิ่งที่อยู่ในไฟล์

มีอีกอันหนึ่งที่มีโครงสร้างเดียวกันของตาราง html ที่มี "ผลิตภัณฑ์" ส่วนหัวจำลองและส่วนท้ายที่ไม่สามารถใช้งานได้ดังนั้นฉันจึงตัดส่วนที่ออกมาออกฉันจะตัดคอลัมน์ความคิดเห็น "ผลิตภัณฑ์" ออกแล้วส่งต่อไปยังสแปม

และอื่น ๆ คุณจะได้รับรูปภาพ

แต่ไม่ใช่ว่าทุกกฎจะสมบูรณ์แบบดังนั้นฉันจึงทำเวทมนตร์เล็กน้อยที่นี่โดยการกำหนดคะแนนส่วนตัวให้กับแต่ละกฎซึ่งฉันฮาร์ดโค้ดและปรับแต่งขึ้นหรือลงเมื่อจำเป็นขึ้นอยู่กับว่ากฎทำงานอย่างไร (และบางครั้งฉันก็สิ้นสุดการลบกฎทั้งหมด) ) ฉันปรับเปลี่ยนคะแนน SA ด้วยคะแนนส่วนตัว เหตุผลที่ฉันทำเช่นนี้ก็เพราะเหตุผลบางอย่างที่ SA ให้คะแนนเช่นเดียวกับ 4. สิ่งที่ทำให้สแปมชัดเจนในกฎที่ฉันมีความรู้สึกรุนแรงในการจับพวกเขาอย่างถูกต้อง ดังนั้นฉันจึงให้การสนับสนุนมากกว่า 5.0 เล็กน้อยควบคู่ไปกับสคริปต์หลังการประมวลผลที่พิจารณาตัวแปรอื่น ๆ (ที่มาของอีเมลเป้าหมายของอีเมลโครงสร้างของส่วนหัวและอื่น ๆ ) ฆ่าสแปมได้มากขึ้นหรือน้อยลง ออก.

ตอนนี้ฉันรู้แล้วว่านี่ไม่ใช่สิ่งที่คุณหวังไว้ แต่ในกรณีของฉันมันทำให้ฉันมีอำนาจเหนือสิ่งที่ถูกสแกนมันเป็นเรื่องที่ฉันต้องตั้งค่าด้วยตนเองและทุก ๆ คราวแล้วสัมผัสเล็กน้อย - เพิ่มค่า / regex'es

แต่ในกรณีของคุณสิ่งต่าง ๆ นั้นง่ายกว่ามากเพราะคุณต้องใช้สคริปต์ทุบตีง่ายๆที่ MX ของคุณจะเรียกแทน spamc และให้สคริปต์นั้นใช้คำสั่ง head เพื่อให้ได้จำนวนไบต์แรกที่คุณต้องการและ ส่งไฟล์ชั่วคราวไปที่ spamc

เนื้อหาของสคริปต์จะขึ้นอยู่กับเซิร์ฟเวอร์อีเมลของคุณเล็กน้อย แต่ไม่ควรที่จะเข้าใจ

(โปรดทราบว่าฉันเพิ่งพูดถึงการตั้งค่าส่วนใหญ่ของฉันเพื่อให้คุณเห็นความเป็นไปได้ของตัวเลือกนี้)

PS: โดยส่วนตัวฉันไม่เคยได้รับอีเมลขยะประเภทนี้ (ที่มีสารพัดรายการที่เกี่ยวข้องในการเขียนโปรแกรม) ดังนั้นฉันสงสัยว่าถ้าคุณไม่โกรธใครเลยและตอนนี้คุณตกเป็นเป้าหมายแล้ว นั่นจะอธิบายอีเมลที่สร้างขึ้นเป็นพิเศษ เหตุผลที่ฉันคิดเกี่ยวกับความเป็นไปได้นี้ก็คือเมื่อหลายปีก่อนเมื่อฉันมีความกระตือรือร้นในฟอรัมและกลุ่ม IT ต่าง ๆ ฉันฉี่คนบางคนและทุก ๆ ครั้งจากนั้นฉันก็เคยถูกโจมตีบนเซิร์ฟเวอร์ของฉัน . แต่กลับกลายมาว่าพวกโง่เขลาไม่ใช่สมาร์ทตัวนี้ :)

— ciuly
แหล่งที่มา