คำถามติดแท็ก data-compression

5
มีค่าสูงสุดที่ทราบสำหรับจำนวนของ 0 และ 1 ที่สามารถบีบอัดได้หรือไม่?
นานมาแล้วฉันอ่านบทความในหนังสือพิมพ์ที่อาจารย์บางคนกล่าวว่าในอนาคตเราจะสามารถบีบอัดข้อมูลเป็นสองบิต (หรืออะไรทำนองนั้น) แน่นอนว่านี่ไม่ถูกต้อง (และอาจเป็นได้ว่าความทรงจำของฉันในสิ่งที่เขาระบุไว้นั้นไม่ถูกต้อง) เป็นที่เข้าใจกันว่ามันจะไม่เกิดประโยชน์ในการบีบอัดสตริงใด ๆของ 0 และ 1 ถึงเพียงสองบิตเพราะ (แม้ว่าจะเป็นไปได้ทางเทคนิค) สตริงที่แตกต่างกันมากเกินไปจะจบลงด้วยการบีบอัดให้เป็นสองบิตเดียวกัน 'และ' 10 'เพื่อเลือก) อย่างไรก็ตามสิ่งนี้ทำให้ฉันคิดเกี่ยวกับความเป็นไปได้ของการบีบอัดสตริงความยาวโดยพลการของ 0 และ 1 ตามรูปแบบบางอย่าง สำหรับสตริงชนิดนี้มีความสัมพันธ์ที่รู้จักระหว่างความยาวสตริง (อัตราส่วนระหว่าง 0 ถึง 1 อาจไม่สำคัญ) และการบีบอัดสูงสุดหรือไม่ กล่าวอีกนัยหนึ่งมีวิธีพิจารณาความยาวต่ำสุด (น้อยที่สุดที่เป็นไปได้) ที่สตริงของ 0 และ 1 สามารถบีบอัดได้อย่างไร (ที่นี่ฉันสนใจในการบีบอัดสูงสุดทางคณิตศาสตร์ไม่ใช่สิ่งที่เป็นไปได้ทางเทคนิคในปัจจุบัน)

7
PRNG สามารถใช้ในการบีบอัดข้อมูลได้หรือไม่?
ความคิดนี้เกิดขึ้นกับฉันในขณะที่เด็กเรียนรู้ที่จะเขียนโปรแกรมและพบกับ PRNG เป็นครั้งแรก ฉันยังไม่รู้ว่ามันสมจริงแค่ไหน แต่ตอนนี้มีการแลกเปลี่ยนกองซ้อน นี่คือโครงร่างของอายุ 14 ปีสำหรับอัลกอริทึมการบีบอัดที่น่าทึ่ง: ใช้ PRNG และ seed ด้วย seed sเพื่อให้ได้ลำดับไบต์แบบสุ่มหลอกยาว ในการส่งลำดับนั้นไปยังบุคคลอื่นคุณต้องสื่อสารเพียงคำอธิบายของ PRNG เมล็ดที่เหมาะสมและความยาวของข้อความ สำหรับลำดับที่ยาวพอคำอธิบายนั้นจะสั้นกว่ามาก ตอนนี้สมมติว่าฉันสามารถกลับกระบวนการได้ เนื่องจากมีเวลาและทรัพยากรในการคำนวณเพียงพอฉันสามารถทำการค้นหาที่ดุร้ายและค้นหาเมล็ดพันธุ์ (และ PRNG หรือกล่าวอีกนัยหนึ่งว่า: โปรแกรม) ที่สร้างลำดับที่ฉันต้องการ (สมมติว่ารูปแมวน่ารักกำลังซุกซน) PRNG ทำซ้ำหลังจากสร้างบิตจำนวนมากพอ แต่เมื่อเทียบกับรอบ "ปกติ" ข้อความของฉันค่อนข้างสั้นดังนั้น dos นี้ดูเหมือนจะไม่เป็นปัญหามากนัก Voila วิธีบีบอัดข้อมูล ดังนั้นสมมติว่า: ลำดับที่ฉันต้องการบีบอัดมี จำกัด และทราบล่วงหน้า ฉันไม่สั้นเรื่องเงินสดหรือเวลา (แค่ต้องการจำนวน จำกัด ของทั้งสองอย่าง) ฉันอยากรู้: มีข้อบกพร่องพื้นฐานในการให้เหตุผลเบื้องหลังโครงการหรือไม่ วิธีมาตรฐานในการวิเคราะห์การทดลองทางความคิดเหล่านี้คืออะไร สรุป บ่อยครั้งที่คำตอบที่ดีไม่เพียง แต่ชัดเจนคำตอบเท่านั้น …

6
อัลกอริธึมการบีบอัดแบบ lossless ลดเอนโทรปีหรือไม่?
ตามที่Wikipedia : เอนโทรปีของแชนนอนวัดข้อมูลที่มีอยู่ในข้อความซึ่งตรงข้ามกับส่วนของข้อความที่ถูกกำหนด (หรือคาดเดาได้) ตัวอย่างหลัง ได้แก่ ความซ้ำซ้อนในโครงสร้างภาษาหรือคุณสมบัติทางสถิติที่เกี่ยวข้องกับความถี่ที่เกิดขึ้นของตัวอักษรคู่หรือคำคู่สามเท่าเป็นต้น ดังนั้นเอนโทรปีคือการวัดปริมาณข้อมูลที่มีอยู่ในข้อความ เอนโทรปี coders ถูกใช้เพื่อ losslessy บีบอัดข้อความเช่นนี้ไปยังจำนวนบิตขั้นต่ำที่จำเป็นในการแสดงมัน (เอนโทรปี) สำหรับฉันแล้วดูเหมือนว่าเอนโค้ดปีที่สมบูรณ์แบบจะเป็นสิ่งที่จำเป็นสำหรับการบีบอัดข้อความแบบไม่สูญเสียให้มากที่สุดเท่าที่จะทำได้ อัลกอริธึมการบีบอัดจำนวนมากใช้ขั้นตอนก่อนที่จะทำการเข้ารหัสเอนโทรปีเพื่อลดการส่งข้อความ ตามที่วิกิพีเดียภาษาเยอรมัน Entropiekodierer werden häufig mit anderen Kodierern kombiniert. คลิกที่นี่เพื่อดูข้อมูลเพิ่มเติมเกี่ยวกับ Verfahren dazu, Entropie der Daten zu verringern เป็นภาษาอังกฤษ: เอนโทรปีโคเดอร์มักจะถูกรวมเข้ากับเอนโค้ดเดอร์อื่น ๆ ขั้นตอนก่อนหน้านี้ทำหน้าที่ลดปริมาณข้อมูลของเอนโทรปี ie bzip2 ใช้ Burrows-Wheeler-Transform แล้วตามด้วย Move-to-Front-Transform ก่อนที่จะใช้การเข้ารหัสแบบเอนโทรปี (Huffman การเข้ารหัสในกรณีนี้) ขั้นตอนเหล่านี้ลดความเป็นเอนโทรปีของข้อความซึ่งจะลดปริมาณข้อมูลที่มีอยู่ในข้อความหรือไม่ ดูเหมือนจะขัดแย้งกับฉันเพราะนั่นหมายความว่าข้อมูลสูญหายระหว่างการบีบอัดป้องกันการบีบอัดแบบไม่สูญเสีย หรือพวกเขาเพียงแปลงข้อความเพื่อปรับปรุงประสิทธิภาพของอัลกอริทึมการเข้ารหัสเอนโทรปี? หรือเอนโทรปีไม่สอดคล้องกับปริมาณข้อมูลในข้อความโดยตรงหรือไม่?

4
แจกแจงกราฟที่ไม่ใช่ isomorphic ทั้งหมดในขนาดที่กำหนด
ฉันต้องการที่จะระบุกราฟไม่มีทิศทางทั้งหมดของขนาดแต่ฉันต้องการเพียงหนึ่งตัวอย่างของแต่ละชั้นเรียนมอร์ฟ กล่าวอีกนัยหนึ่งฉันต้องการระบุกราฟที่ไม่ใช่ isomorphic (undirected) ทั้งหมดในn vertices ฉันจะทำสิ่งนี้ได้อย่างไรnnnnnn แม่นยำมากขึ้นฉันต้องการขั้นตอนวิธีการที่จะสร้างลำดับของกราฟไม่มีทิศทางมีคุณสมบัติดังต่อไปสำหรับทุกกราฟไม่มีทิศทางGบนnจุดมีอยู่ดัชนีฉันเช่นที่Gคือ isomorphic เพื่อGฉัน ฉันต้องการอัลกอริทึมให้มีประสิทธิภาพมากที่สุด กล่าวอีกนัยหนึ่งตัวชี้วัดที่ฉันสนใจคือเวลาที่ใช้ในการสร้างและทำซ้ำผ่านรายการของกราฟนี้ เป้าหมายรองคือจะดีถ้าอัลกอริทึมไม่ซับซ้อนเกินกว่าที่จะนำมาใช้G1,G2,…,GkG1,G2,…,GkG_1,G_2,\dots,G_kGGGnnniiiGGGGiGiG_i โปรดสังเกตว่าฉันต้องมีกราฟอย่างน้อยหนึ่งกราฟจากแต่ละคลาส isomorphism แต่มันก็โอเคถ้าอัลกอริทึมสร้างมากกว่าหนึ่งอินสแตนซ์ โดยเฉพาะอย่างยิ่งมันก็โอเคถ้าลำดับเอาต์พุตประกอบด้วยกราฟ isomorphic สองกราฟถ้าสิ่งนี้ช่วยให้ค้นหาอัลกอริทึมดังกล่าวได้ง่ายขึ้นหรือทำให้อัลกอริทึมมีประสิทธิภาพมากขึ้นตราบใดที่กราฟนั้นครอบคลุมกราฟที่เป็นไปได้ทั้งหมด ใบสมัครของฉันจะเป็นดังนี้: ฉันมีโปรแกรมที่ฉันต้องการที่จะทดสอบกราฟทั้งหมดของขนาดnฉันรู้ว่าถ้าสองกราฟ isomorphic โปรแกรมของฉันจะทำงานเหมือนกันทั้งคู่ (มันอาจจะถูกต้องทั้งบนหรือไม่ถูกต้องทั้งสองอย่าง) ดังนั้นมันจะพอเพียงที่จะระบุตัวแทนอย่างน้อยหนึ่งตัวแทนจากแต่ละชั้น isomorphism แล้วทดสอบ โปรแกรมในอินพุตเหล่านั้น ในใบสมัครของฉันnค่อนข้างเล็กnnnnnn อัลกอริทึมผู้สมัครบางส่วนที่ฉันได้พิจารณา: ฉันสามารถระบุเมทริกซ์ adjacency ที่เป็นไปได้ทั้งหมดเช่นเมทริกซ์สมมาตร 0-or-1 ทั้งหมดที่มี 0 ทั้งหมดบน diagonals อย่างไรก็ตามจำเป็นต้องมีเมทริกซ์2 n ( n - 1 ) / 2 เมทริกซ์เหล่านั้นจำนวนมากจะแสดงกราฟไอโซมอร์ฟิคดังนั้นดูเหมือนว่ามันจะต้องใช้ความพยายามอย่างมากn×nn×nn\times n2n(n−1)/22n(n−1)/22^{n(n-1)/2} ฉันสามารถแจกแจงเมทริกซ์ …

6
การบีบอัดข้อมูลไบนารีอย่างง่าย
ฉันมีไฟล์ที่มีเลขฐานสองเรียงจากถึง2 n - 1 :0002n−12n−12^n - 1 0000000000 0000000001 0000000010 0000000011 0000000100 ... 1111111111 7zไม่บีบอัดไฟล์นี้อย่างมีประสิทธิภาพมาก (สำหรับ n = 20, 22 MB ถูกบีบอัดเป็น 300 kB) มีอัลกอริทึมที่สามารถรับรู้โครงสร้างข้อมูลที่ง่ายมากและบีบอัดไฟล์เป็นหลายไบต์หรือไม่? นอกจากนี้ฉันต้องการทราบว่าสาขาใดของ CS หรือทฤษฎีสารสนเทศศึกษาอัลกอริทึมอัจฉริยะเช่นนั้น "AI" กว้างเกินไปโปรดแนะนำคำหลักที่เป็นรูปธรรมมากขึ้น แนวคิดเรื่องความสมมาตรควรมีบทบาทพื้นฐานในการบีบอัดข้อมูล แต่เคียวรีค้นหา "สมมาตรในการบีบอัดข้อมูล" และ "ทฤษฎีกลุ่มในการบีบอัดข้อมูล" กลับมาอย่างน่าประหลาดใจแทบไม่มีอะไรเกี่ยวข้องเลย

11
การอ้างความผิดบาปของ von Neumann ไม่สามารถใช้ได้อีกต่อไป?
บางคนพูดว่าต่อไปนี้: ใครก็ตามที่พยายามสร้างตัวเลขสุ่มด้วยวิธีการที่กำหนดขึ้นมาแน่นอนว่าอยู่ในสภาพบาป นั่นหมายความว่าคุณไม่สามารถสร้างตัวเลขสุ่มจริงด้วยคอมพิวเตอร์ได้ และเขาบอกว่าเมื่อคอมพิวเตอร์มีขนาดเท่ากับไมโครโปรเซสเซอร์ Intel 8080 (ประมาณ 6,000 วาล์ว) คอมพิวเตอร์มีความซับซ้อนมากขึ้นและฉันเชื่อว่าคำสั่งของ von Von Neumann อาจไม่เป็นจริงอีกต่อไป พิจารณาว่าอัลกอริทึมที่ใช้งานซอฟต์แวร์เท่านั้นเป็นไปไม่ได้ พวกเขาทำงานบนฮาร์ดแวร์ทางกายภาพ เครื่องกำเนิดเลขสุ่มที่แท้จริงและแหล่งข้อมูลเอนโทรปีของพวกเขายังทำจากฮาร์ดแวร์ ส่วนของ Java นี้ใส่ลงในลูป: file.writeByte((byte) (System.nanoTime() & 0xff)); สามารถสร้างไฟล์ข้อมูลที่ฉันแสดงเป็นภาพ: คุณสามารถเห็นโครงสร้าง แต่มีการสุ่มมากมายเช่นกัน สิ่งที่น่าสนใจคือไฟล์ PNG นี้มีขนาด 232KB แต่มีพิกเซลสีเทาขนาด 250,000 พิกเซล ระดับการบีบอัด PNG สูงสุด นั่นเป็นเพียงอัตราส่วนการอัด 7% คือ ไม่สามารถบีบอัดได้ สิ่งที่น่าสนใจก็คือไฟล์นั้นมีเอกลักษณ์ ทุกรุ่นของไฟล์นี้มีรูปแบบที่แตกต่างกันเล็กน้อยและมีความสามารถในการบีบอัดประมาณ 7% ฉันเน้นสิ่งนี้ตามที่สำคัญต่อการโต้แย้งของฉัน นั่นคือเอนโทรปี ~ 7bits / byte …

5
การบีบอัดข้อมูลโดยใช้ตัวเลขเฉพาะ
ฉันเพิ่งพบบทความที่น่าสนใจต่อไปนี้ซึ่งอ้างว่าบีบอัดชุดข้อมูลแบบสุ่มได้อย่างมีประสิทธิภาพมากกว่า 50% เสมอโดยไม่คำนึงถึงประเภทและรูปแบบของข้อมูล โดยทั่วไปจะใช้หมายเลขเฉพาะเพื่อสร้างการแทนค่าของ data data ขนาด 4 ไบต์ซึ่งง่ายต่อการแตกไฟล์เนื่องจากทุกหมายเลขเป็นผลิตภัณฑ์เฉพาะของ primes เพื่อเชื่อมโยงลำดับเหล่านี้กับช่วงเวลาที่มันใช้พจนานุกรม คำถามของฉันคือ: เป็นไปได้จริง ๆ ตามที่ผู้เขียนแนะนำหรือไม่ ตามกระดาษที่ผลของพวกเขามีประสิทธิภาพมากและเสมอข้อมูลบีบอัดให้มีขนาดเล็ก ขนาดพจนานุกรมจะใหญ่หรือไม่ สิ่งนี้ไม่สามารถใช้ในการบีบอัดข้อมูลที่ถูกบีบอัดซ้ำโดยใช้อัลกอริทึมเดียวกันซ้ำได้หรือไม่ เป็นที่ชัดเจนและได้รับการพิสูจน์แล้วว่าเทคนิคดังกล่าว (ซึ่งข้อมูลที่ถูกบีบอัดถูกบีบอัดซ้ำหลาย ๆ ครั้งที่เป็นไปได้ลดขนาดไฟล์ลงอย่างมาก) เป็นไปไม่ได้ จริง ๆ แล้วจะไม่มี bijection ระหว่างชุดของข้อมูลสุ่มทั้งหมดและข้อมูลที่บีบอัด เหตุใดจึงรู้สึกเช่นนี้เป็นไปได้ แม้ว่าเทคนิคจะยังไม่สมบูรณ์แบบ แต่ก็สามารถปรับให้เหมาะสมและปรับปรุงให้ดีขึ้นอย่างเห็นได้ชัด ทำไมสิ่งนี้จึงไม่เป็นที่รู้จัก / ศึกษาอย่างกว้างขวางมากขึ้น? หากการอ้างสิทธิ์และผลการทดลองเหล่านี้เป็นจริงการคำนวณแบบใหม่นี้ไม่สามารถนำมาคำนวณได้หรือไม่

3
ประมาณความซับซ้อนของ Kolmogorov
ฉันได้ศึกษาเกี่ยวกับความซับซ้อนของ Kolmogorovอ่านบทความและหนังสือจากVitanyi และ Liและใช้แนวคิดของNormalized Compression Distanceเพื่อตรวจสอบ stilometry ของผู้เขียน (ระบุว่าผู้เขียนแต่ละคนเขียนข้อความและเอกสารกลุ่มอย่างไรด้วยความคล้ายคลึงกัน) ในกรณีดังกล่าวเครื่องอัดข้อมูลถูกใช้เพื่อประมาณความซับซ้อนของ Kolmogorov เนื่องจากเครื่องอัดข้อมูลสามารถใช้เป็นเครื่องทัวริงได้ นอกเหนือจากการบีบอัดข้อมูลและภาษาการเขียนโปรแกรม (ซึ่งคุณจะเขียนโปรแกรมบีบอัดบางชนิด) สิ่งอื่น ๆ ที่สามารถนำมาใช้เพื่อประมาณความซับซ้อนของ Kolmogorov ได้? มีวิธีการอื่นใดที่สามารถนำมาใช้ได้หรือไม่?

7
ทำไมวิธีการบีบอัด (ไม่สูญเสีย) เหล่านี้ของรูปภาพ png ที่คล้ายกันหลาย ๆ แบบจึงไม่มีประสิทธิภาพ
ฉันเพิ่งเจอสิ่งต่อไปนี้: ฉันใส่รูปภาพ png ที่เหมือนกันหลายชุดลงในโฟลเดอร์แล้วพยายามบีบอัดโฟลเดอร์นั้นด้วยวิธีการต่อไปนี้: tar czf folder.tar.gz folder/ tar cf folder.tar folder/ && xz --stdout folder.tar > folder.tar.xz (อันนี้ทำงานได้ดีสำหรับภาพที่เหมือนกัน แต่สำหรับภาพที่คล้ายกันกำไรจะเป็นศูนย์) zip -r folder.zip folder/ เมื่อผมตรวจสอบขนาดของ.tar.gz, .tar.xz, ฉันรู้ว่ามันเป็นเกือบเดียวกันเป็นหนึ่งใน.zip ฉันเข้าใจว่ารูปภาพ png เองอาจมีการบีบอัดในระดับสูงดังนั้นจึงไม่สามารถบีบอัดเพิ่มเติมได้ อย่างไรก็ตามเมื่อรวมภาพ png ที่คล้ายกันจำนวนมาก (ในกรณีนี้เหมือนกัน) ไปยังไฟล์เก็บถาวรแล้วบีบอัดไฟล์เก็บถาวรฉันคาดว่าขนาดที่ต้องการจะลดลงอย่างชัดเจน ในกรณีของภาพที่เหมือนกันฉันคาดว่าจะมีขนาดประมาณขนาดของภาพเดียวfolder/

1
บีบอัดชื่อโดเมน
ผมอยากรู้ว่าวิธีหนึ่งอาจมากดานบีบอัดโดเมนของพลIDNชื่อโฮสต์ (ตามที่กำหนดโดยRFC5890 ) และสงสัยว่านี้อาจจะกลายเป็นความท้าทายที่น่าสนใจ โฮสต์ Unicode หรือชื่อโดเมน (U-label) ประกอบด้วยสตริงของอักขระ Unicode โดยทั่วไปจะถูก จำกัด ให้เป็นหนึ่งภาษาขึ้นอยู่กับโดเมนระดับบนสุด (เช่นตัวอักษรกรีกภายใต้.gr) ซึ่งเข้ารหัสเป็นสตริง ASCII ที่ขึ้นต้นด้วยxn--(ที่สอดคล้องกัน A-ฉลาก) หนึ่งสามารถสร้างแบบจำลองข้อมูลไม่เพียง แต่จากข้อกำหนดอย่างเป็นทางการที่ แต่ละป้ายที่ไม่ใช่ Unicode จะจับคู่สตริง^[a-z\d]([a-z\d\-]{0,61}[a-z\d])?$; แต่ละ A-label เป็นการจับคู่สตริง^xn--[a-z\d]([a-z\d\-]{0,57}[a-z\d])?$; และ ความยาวรวมของโดเมนทั้งหมด (ป้ายกำกับ A และป้ายกำกับที่ไม่ใช่ IDN ตัดแบ่งด้วย '.' ตัวคั่น) ไม่เกิน 255 อักขระ แต่จากการวิเคราะห์พฤติกรรมต่าง ๆ รวมไปถึง: ลดการสั่งซื้อ U-ฉลากมักจะ lexically, ไวยากรณ์และความหมายวลีที่ถูกต้องในภาษาธรรมชาติบางอย่างรวมทั้งคำนามที่เหมาะสมและตัวเลข (unpunctuated ยกเว้นยัติภังค์ปลดออกจากช่องว่างและพับต่อNameprep ) มีการตั้งค่าสำหรับวลีสั้น; และ …

4
การบีบอัดจำนวนเต็มสองจำนวนโดยไม่สนใจคำสั่ง
การเปรียบเทียบคู่ที่สั่ง (x, y) กับคู่ที่ไม่ได้เรียงลำดับ {x, y} (ชุด) จากนั้นข้อมูลตามหลักเหตุผลความแตกต่างเป็นเพียงหนึ่งบิตราวกับว่า x มาก่อนหรือ y ต้องการบิตเพียงเล็กน้อยในการเป็นตัวแทน ดังนั้นถ้าเราได้ชุด {x, y} โดยที่ x, y เป็นจำนวนเต็ม 32- บิตที่แตกต่างกันสองชุดเราสามารถแพ็คมันเป็น 63 บิต (แทนที่จะเป็น 64) ได้ไหม? คุณควรกู้คืนจำนวนเต็ม 32 บิตต้นฉบับจากผลลัพธ์ 63 บิต แต่ไม่สามารถกู้คืนคำสั่งซื้อได้

7
ข้อมูลการ์ดเล่น
ฉันมีข้อมูลจริงที่ฉันใช้สำหรับเกมไพ่จำลอง ฉันสนใจเฉพาะอันดับของการ์ดไม่ใช่ชุดสูท อย่างไรก็ตามมันเป็นสำรับไพ่มาตรฐาน525252ใบดังนั้นจึงมีเพียง444ของแต่ละอันดับที่เป็นไปได้ในสำรับ สำรับถูกสับสำหรับแต่ละมือดีแล้วจากนั้นฉันเอาท์พุทเด็คทั้งหมดไปยังไฟล์ ดังนั้นจึงมีเพียง131313สัญลักษณ์เป็นไปได้ในไฟล์ที่ส่งออกซึ่งเป็น2,3,4,5,6,7,8,9,T,J,Q,K,A2,3,4,5,6,7,8,9,T,J,Q,K,A2,3,4,5,6,7,8,9,T,J,Q,K,A( TTT= สิบอันดับ) แน่นอนว่าเราสามารถบิตแพ็คเหล่านี้โดยใช้444บิตต่อสัญลักษณ์ แต่แล้วเราก็สิ้นเปลืองการเข้ารหัส333จาก161616เป็นไปได้ ที่เราสามารถทำได้ดีกว่าถ้าเรากลุ่ม444สัญลักษณ์ที่เวลาและจากนั้นบีบอัดพวกเขาเพราะ13413413^4 = 28,56128,56128,561และที่สามารถใส่ค่อนข้าง "อบอุ่น" ใน151515บิตแทน16161616ข้อ จำกัด ทางทฤษฎีของ bitpacking คือ log ( 131313 ) / log ( 222 ) = 3.700443.700443.70044สำหรับข้อมูลที่มี131313สัญลักษณ์สุ่มสำหรับแต่ละการ์ดที่เป็นไปได้ อย่างไรก็ตามเราไม่สามารถมี525252ยกตัวอย่างเช่นกษัตริย์ในเด็คนี้ เราจะต้องมีเพียง444ของแต่ละตำแหน่งในแต่ละดาดฟ้าเพื่อการเข้ารหัสเอนโทรปีลดลงประมาณครึ่งหนึ่งบิตต่อสัญลักษณ์ประมาณ3.23.23.23.2 ตกลงดังนั้นนี่คือสิ่งที่ฉันคิด ข้อมูลนี้ไม่ได้สุ่มทั้งหมด เรารู้ว่ามี444ของแต่ละอันดับดังนั้นในแต่ละบล็อกของ525252ใบ (เรียกว่าสำรับสับไพ่) ดังนั้นเราจึงสามารถตั้งสมมติฐานและเพิ่มประสิทธิภาพได้หลายอย่าง หนึ่งในนั้นคือเราไม่ต้องเข้ารหัสการ์ดใบสุดท้ายเพราะเราจะรู้ว่ามันควรจะเป็นอะไร การออมอีกอย่างก็คือถ้าเราจบอันดับหนึ่ง ตัวอย่างเช่นหากไพ่333ใบสุดท้ายในเด็คเป็น777777777เราจะไม่ต้องเข้ารหัสเหล่านั้นเพราะตัวถอดรหัสจะนับไพ่จนถึงจุดนั้นและดูว่าตำแหน่งอื่นทั้งหมดได้รับการเติมและจะถือว่า333 " การ์ด "ที่หายไปทั้งหมด777วินาที ดังนั้นคำถามของฉันไปยังเว็บไซต์นี้คือสิ่งที่เพิ่มประสิทธิภาพอื่น ๆ ที่เป็นไปได้ที่จะได้รับไฟล์ที่ส่งออกแม้มีขนาดเล็กอยู่กับชนิดของข้อมูลนี้และถ้าเราใช้พวกเขาเราสามารถที่เคยเอาชนะทางทฤษฎี (แบบง่าย) bitpacking เอนโทรปีของ3.700443.700443.70044บิตต่อสัญลักษณ์หรือ แม้แต่ใกล้ถึงขีด จำกัด …

4
สามารถบีบอัดข้อมูลให้มีขนาดเล็กกว่าขีด จำกัด การบีบอัดข้อมูลของแชนนอนได้หรือไม่?
ฉันอ่านเกี่ยวกับอัลกอริธึมการบีบอัดข้อมูลและขีด จำกัด ทางทฤษฎีสำหรับการบีบอัดข้อมูล เมื่อเร็ว ๆ นี้ฉันพบวิธีการบีบอัดที่เรียกว่า "Combinatorial Entropy Encoding" แนวคิดหลักของวิธีนี้คือการเข้ารหัสไฟล์เป็นอักขระที่แสดงในไฟล์ความถี่และดัชนีของการเปลี่ยนแปลงอักขระของไฟล์เหล่านี้ เอกสารเหล่านี้อาจช่วยอธิบายวิธีการนี้: https://arxiv.org/pdf/1703.08127 http://www-video.eecs.berkeley.edu/papers/vdai/dcc2003.pdf https://www.thinkmind.org/download.php?articleid=ctrq_2014_2_10_70019 อย่างไรก็ตามในเอกสารแรกฉันได้อ่านว่าโดยใช้วิธีนี้พวกเขาสามารถบีบอัดข้อความบางส่วนให้น้อยกว่าขีด จำกัด แชนนอน (พวกเขาไม่ได้พิจารณาพื้นที่ที่จำเป็นในการบันทึกความถี่ของตัวละครและพื้นที่ที่จำเป็นในการบันทึกเมตาดาต้า ข้อมูลของไฟล์) ฉันคิดเกี่ยวกับมันและฉันพบว่าวิธีนี้จะไม่มีประสิทธิภาพมากสำหรับไฟล์ที่มีขนาดเล็กมาก แต่ในทางกลับกันมันอาจทำงานได้ดีกับไฟล์ขนาดใหญ่ ที่จริงฉันไม่เข้าใจอัลกอริธึมนี้หรือขีด จำกัด แชนนอนดีมากฉันแค่รู้ว่ามันคือผลรวมของความน่าจะเป็นของตัวละครแต่ละตัวคูณด้วยของความน่าจะเป็นแบบกลับกันlog2log2log_2 ดังนั้นฉันมีคำถาม: วิธีการบีบอัดนี้บีบอัดไฟล์ให้เล็กกว่าขีด จำกัด ของแชนนอนจริงๆหรือไม่? มีอัลกอริทึมการบีบอัดใด ๆ ที่บีบอัดไฟล์ให้น้อยกว่าขีด จำกัด แชนนอนหรือไม่ (คำตอบของคำถามนี้เท่าที่ฉันรู้คือไม่มี) วิธีการบีบอัดที่บีบอัดไฟล์ให้เล็กกว่าขีด จำกัด Shannon เคยมีอยู่หรือไม่? หากการเข้ารหัส combinatorial บีบอัดไฟล์เกินขีด จำกัด ของแชนนอนจริงๆแล้วมันเป็นไปไม่ได้ที่จะบีบอัดไฟล์ซ้ำแล้วซ้ำอีกจนกว่าจะถึงขนาดที่เราต้องการ?

1
ทำไมอัตราส่วนการบีบอัดโดยใช้ bzip2 สำหรับลำดับของ“ a” น่ากลัวมาก?
library(ggplot2) compress <- function(str) { length(memCompress(paste(rep("a", str), collapse=""), type="bzip2")) / nchar(paste(rep("a", str), collapse="")) } cr <- data.frame(i = 1:10000, r = sapply(1:10000, compress)) ggplot(cr[cr$i>=5000 & cr$i<=10000,], aes(x=i, y=r)) + geom_line() อัตราการบีบอัดเริ่มต้นที่ 37 สำหรับ "a" และกระทบกับจุดคุ้มทุนที่ 39 "a" (อัตราส่วนการบีบอัด = 1) แผนภูมิเริ่มออกมาเรียบสวยและหงุดหงิดในเวลา 98 "a" และจากจุดนั้นไปเรื่อย ๆ ระดับต่ำสุดในพื้นที่และส่วนที่ราบรื่นดูเหมือนค่อนข้างผิดปกติและสุ่ม ใครสามารถอธิบายให้ฉันฟังได้ว่าทำไม bzip2 แสดงพฤติกรรมนี้ในตัวอย่างนี้

4
มีอัลกอริธึมการบีบอัดใด ๆ ที่อิงกับ PI หรือไม่
สิ่งที่เรารู้ก็คือπนั้นไม่มีที่สิ้นสุดและมีแนวโน้มว่ามันจะมีสตริงจำนวน จำกัด ทุกตัวที่เป็นไปได้ ( ลำดับที่แยกออก ) ฉันได้เห็นต้นแบบของπfsซึ่งสมมติว่าทุกไฟล์ที่คุณสร้าง (หรือใคร ๆ ) หรือคุณจะสร้างมันมีอยู่แล้วดังนั้นมันจึงเป็นเรื่องของการแตกไฟล์ นอกจากนี้ยังมีpiFileซึ่งสามารถแปลงไฟล์ของคุณเป็น pi metadata มีสูตรประเภท BBPอยู่แล้ว(ซึ่งเป็นส่วนหนึ่งของการทดลองทางคณิตศาสตร์) ซึ่งช่วยให้เราสามารถคำนวณเลขฐานสองที่nของไพ ดังนั้นการจัดเก็บตำแหน่งเริ่มต้นและความยาวของข้อมูลเราสามารถแยกข้อมูลที่เราสนใจตามหลักวิชาได้ มีข้อโต้แย้งว่าข้อมูลเมตาของเรา(เช่นการชดเชยข้อมูลของเรา) อาจมีขนาดใหญ่กว่าข้อมูลที่แยกออกมา สัญลักษณ์เมทริกซ์และπสามารถเข้ารหัสในฐาน 256 เพื่อให้มีประสิทธิภาพมากขึ้น (ดูเรื่องตลก ) จากคำถามข้างต้นคำถามหลักของฉันคือ: มีอัลกอริธึมการบีบอัดใด ๆ ที่อิงกับ PI หรือไม่ ถ้าไม่มันทำให้รู้สึก? หรือมีงานวิจัยในบริเวณนั้นบ้าง? หรือบางทีπไม่ใช่สิ่งที่ถูกต้องดังนั้นค่าคงที่ของออยเลอร์หรือTau (τ) ล่ะ? มันจะสร้างความแตกต่างหรือไม่? เครดิตภาพ: ไดโนเสาร์การ์ตูน ดูสิ่งนี้ด้วย: สตริงบิต จำกัด ใด ๆ สามารถพบได้ใน pi ภายในระยะเวลาที่เหมาะสมหรือไม่? ที่ดังนั้น จะไม่จัดเก็บดัชนีไว้ในπจะใหญ่ (หรือใหญ่กว่า) …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.