ความแตกต่างระหว่างวิธีการบีบอัดข้อมูลทั่วโลกและสากลคืออะไร?


12

ฉันเข้าใจว่าวิธีการบีบอัดอาจแบ่งออกเป็นสองชุดหลัก:

  1. ทั่วโลก
  2. ในประเทศ

ชุดแรกทำงานโดยไม่คำนึงถึงข้อมูลที่กำลังประมวลผลกล่าวคือพวกมันไม่ได้อาศัยคุณสมบัติใด ๆ ของข้อมูลจึงไม่จำเป็นต้องทำการประมวลผลล่วงหน้าในส่วนใด ๆ ของชุดข้อมูล (ก่อนการบีบอัดเอง) ในขณะที่วิธีการในท้องถิ่นวิเคราะห์ข้อมูลการแยกข้อมูลที่มักจะปรับปรุงอัตราการบีบอัด

ในขณะที่อ่านเกี่ยวกับวิธีการเหล่านี้บางอย่างฉันสังเกตเห็นว่าวิธีการที่ไม่เป็นเอกเทศนั้นไม่เป็นสากลซึ่งทำให้ฉันประหลาดใจเนื่องจากฉันคิดว่า วิธีเอกภาพไม่ได้ขึ้นอยู่กับลักษณะของข้อมูลเพื่อให้เกิดการเข้ารหัส (เช่นเป็นวิธีสากล) และดังนั้นจึงควรเป็นสากล / สากลใช่ไหม?

คำถามหลักของฉัน:

  • ความแตกต่างระหว่างวิธีสากลและสากลคืออะไร?
  • คำพ้องความหมายของการจำแนกประเภทเหล่านี้ไม่ใช่

2
คุณสามารถลิงค์ไปยัง / การอ้างอิงที่คุณอ่านว่าวิธีการเอกภาพนั้นไม่ใช่สากลหรือไม่? บริบทอาจช่วยได้
อากาศ

3
ฉันไม่แน่ใจว่าสิ่งนี้เกี่ยวข้องกับศาสตร์ข้อมูลได้อย่างไร ดูเหมือนจะไม่เป็นหัวข้อสำหรับการแลกเปลี่ยนสแต็กนี้ คุณสามารถเชื่อมโยงสิ่งนี้กลับไปที่วิทยาศาสตร์ข้อมูลได้หรือไม่?
ตำหนิ Victoroff

@SlaterTyranus ฉัน ... ก็ไม่แน่ใจเหมือนกัน (และนั่นทำให้ฉันคิดถึงคำถามอีกสองคำถามที่ฉันโพสต์) ความคิดของฉันคือการเพิ่มคำถามนี้เนื่องจากวิธีการบีบอัดส่วนใหญ่จะใช้ในการดึงข้อมูล (ส่วนใหญ่ในระหว่างการจัดทำดัชนี) โดยทั่วไปแล้วฉันพบว่าสิ่งนี้เกี่ยวข้องกับประสิทธิภาพและอาจอยู่ในทักษะการแฮ็คของแผนภาพ Vennนี้ อย่างไรก็ตามฉันเดาว่าคงจะเป็นการดีที่จะหารือว่าคำถามประเภทนี้อยู่ในหัวข้อหรือไม่
รูเบนส์

@Rubens นั่นดูเหมือนว่าการอภิปรายที่เหมาะสมในประสิทธิภาพใจของฉันเหมาะกับการพูดคุยมากขึ้นเป็นสิ่งที่ต้องการทฤษฎี CS กว่าอย่างชัดเจนทักษะการแฮ็ค ในใจของฉันทักษะการแฮ็คนั้นเกี่ยวข้องกับสิ่งต่างๆมากมายเช่นฐานข้อมูลการปรับใช้และความรู้เกี่ยวกับเครื่องมือ
ตำหนิ Victoroff

1
@SvanBalen สองประเด็นที่สำคัญ: 1. ทฤษฎีสารสนเทศมีความสำคัญในวิธีการบางอย่างเกี่ยวกับวิทยาศาสตร์ข้อมูล แต่ไม่เกี่ยวข้องกับคนอื่น ๆ 2. ความรู้พื้นฐานอยู่นอกหัวข้อโดยเนื้อแท้การถามคำถามโดยละเอียดเกี่ยวกับสถิติหรือพีชคณิตเชิงเส้นจะคล้ายกับหัวข้อแม้ว่าทั้งสองอย่างนั้นจำเป็นสำหรับวิทยาศาสตร์ข้อมูลที่มีประโยชน์อย่างเคร่งครัด
ตำหนิ Victoroff

คำตอบ:


3

พิจารณากลุ่มข้อมูลต่อไปนี้:

1010010110100101

สากล - เป็นอัลกอริธึมการบีบอัดข้อมูลทั่วไปที่ไม่เชื่อเรื่องข้อมูล การเข้ารหัสการรันความยาวแบบหยาบจะอยู่ในหมวดหมู่นี้ ข้อดีคือมันเร็วมากในการบีบอัดและคลายการบีบอัด ข้อเสียคืออาจไม่ได้ผลอย่างมากจากข้อมูลที่ถูกบีบอัด

111111111111111111 -> 16 1 (กรณีโชคดี)

1010010110100101 -> 1010010110100101 (กรณีโชคร้าย)

Local - วิธีนี้จะพิจารณากลุ่มที่มีความยาวน้อยกว่านั้นให้บอกว่า 4 หารูปแบบและบีบอัดมัน เช่น. ข้อมูลนี้มีรูปแบบสองประเภทเท่านั้น - 1010 และ 0101 รูปแบบเหล่านี้สามารถแสดงเป็น 0s และ 1s และข้อมูลโดยรวมจะเป็นตารางที่แสดงถึงการแมปและบางอย่างเช่น 0101 นี่มีศักยภาพที่จะทำให้มีขนาดเล็กลงมาก ขนาดบีบอัด

1010010110100101 -> 1010 0101 1010 0101 -> 0101 (0 = 1010,1 = 0101)

ทั่วโลก - วิธีนี้จะดูข้อมูลทั้งหมดและหารูปแบบที่เหมาะสมที่สุด / ดีกว่ามากในการบีบอัดข้อมูล ข้อมูลตัวอย่างมีเพียงรูปแบบเดียว 10100101 และแสดงเป็น 00 พร้อมกับตารางการแมป สิ่งนี้มีความเป็นไปได้ที่จะได้ขนาดบีบอัดที่เล็กที่สุดเท่าที่จะเป็นไปได้ แต่ก็ยังคำนวณได้ว่าหนักที่สุด

1010010110100101 -> 10100101 10100101 -> 00 (0 = 10100101)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.