การบีบอัดข้อความและการบีบอัด -“ ไม่อีกแล้ว”


38

จากการอภิปรายเมื่อเร็ว ๆ นี้เกี่ยวกับการใช้เครื่องมือบีบอัดในโค้ดกอล์ฟฉันคิดว่ามันเป็นความท้าทายที่ดีในการเขียนตัวบีบอัดข้อความและตัวขยายการบีบอัดของคุณเอง

ท้าทาย:

เขียนโปรแกรมสองโปรแกรม : โปรแกรมหนึ่งเพื่อบีบอัดข้อความ ASCII เป็นลำดับไบต์และอีกโปรแกรมหนึ่งเพื่อขยายไฟล์ โปรแกรมไม่จำเป็นต้องเป็นภาษาเดียวกัน

โปรแกรมแรกควรอ่านส่วนของข้อความ ASCII (จากไฟล์หรือจากอินพุตมาตรฐานหรือใช้กลไกใดก็ตามที่เป็นธรรมชาติที่สุดในภาษา) และส่งออกเวอร์ชันบีบอัดของมัน (เอาท์พุทที่บีบอัดอาจประกอบด้วยหรือโดยพลการไบต์ไม่จำเป็นต้องอ่าน) โปรแกรมที่สองควรอ่านผลลัพธ์ของแรกและสร้างข้อความอินพุตเดิม

เกณฑ์การให้คะแนน:

คะแนนของการแก้ปัญหาจะเป็นผลรวมของการนับสามต่อไปนี้:

  1. ความยาวของคอมเพรสเซอร์โปรแกรมในตัวละคร
  2. ความยาวของการส่งออกของคอมเพรสเซอร์ได้รับการป้อนข้อมูลการทดสอบด้านล่างไบต์
  3. ความยาวของ decompressorโปรแกรม (ถ้าแตกต่างจากคอมเพรสเซอร์) ในตัวละคร

คุณควรสังเกตการนับทั้งสามและผลรวมของคำตอบของคุณ ตั้งแต่นี้เป็นรหัสกอล์ฟที่ต่ำกว่าคะแนนที่ดีกว่า

กฎและข้อ จำกัด :

  • คุณไม่สามารถใช้เครื่องมือหรือไลบรารีการบีบอัดหรือการคลายการบีบอัดใด ๆ ที่มีอยู่ก่อนแม้ว่าจะมาพร้อมกับภาษาที่คุณเลือก หากมีข้อสงสัยเกี่ยวกับการอนุญาตให้ใช้เครื่องมือหรือฟังก์ชั่นที่กำหนดโปรดถาม

  • โปรแกรมคอมเพรสเซอร์ของคุณต้องสามารถจัดการอินพุตที่ประกอบด้วยข้อความ ASCII ที่พิมพ์ได้รวมถึงแท็บ (ASCII 9) และฟีดบรรทัด (ASCII 10) คุณอาจ แต่ไม่จำเป็นต้องจัดการกับ Unicode และ / หรืออินพุตแบบไบนารีโดยพลการ

  • โปรแกรมตัวขยายการบีบอัดของคุณจะต้องสร้างเอาต์พุตที่ตรงตามที่ได้รับกับคอมเพรสเซอร์เหมือนกับอินพุต โดยเฉพาะอย่างยิ่งระวังอย่าให้มีการป้อนบรรทัดต่อท้ายหากอินพุตไม่มี (อินพุตทดสอบด้านล่างมีฟีดบรรทัดต่อท้ายดังนั้นคุณจะต้องทดสอบแยกต่างหากเคล็ดลับสำหรับ GolfScript:. '':n)

  • คอมเพรสเซอร์และเครื่องคลายการบีบอัดของคุณอาจเป็นโปรแกรมเดียวกัน (เมื่อเลือกโหมดที่เหมาะสมเช่นด้วยสวิตช์บรรทัดคำสั่ง) ในกรณีที่ความยาวของมันจะถูกนับเพียงครั้งเดียว

  • โปรแกรมไม่ควรช้าหรือหิวมากเกินไป หากการบีบอัดหรือคลายการบีบอัดอินพุตทดสอบใช้เวลามากกว่าหนึ่งนาทีบนเดสก์ท็อปที่ไม่ใหม่ของฉัน (2.2GHz AMD Athlon64 X2) หรือกินเนื้อที่มากกว่ากิกะไบต์กิกะไบต์ฉันจะปกครองโซลูชันที่ไม่ถูกต้อง ข้อ จำกัด เหล่านี้เข้มงวดเกินไปโปรดอย่าพยายามดันพวกเขา (ดูการแก้ไขด้านล่าง: คุณต้องสามารถจัดการอินพุตอย่างน้อย 100 kB ภายในขีด จำกัด เหล่านี้)

  • แม้ว่าเพียงอินพุตทดสอบมีความสำคัญสำหรับการให้คะแนน แต่อย่างน้อยคุณควรพยายามบีบอัดข้อความอินพุตโดยพลการ วิธีการแก้ปัญหาที่ประสบความสำเร็จในอัตราการบีบอัดที่ดีเท่านั้นสำหรับการป้อนข้อมูลการทดสอบและไม่มีอะไรที่ถูกต้องในทางเทคนิค แต่จะไม่ได้รับ upvote จากฉัน

  • คอมเพรสเซอร์และขยายการบีบอัดโปรแกรมของคุณควรจะอยู่ในตัวเอง โดยเฉพาะอย่างยิ่งหากพวกเขาขึ้นอยู่กับความสามารถในการอ่านไฟล์หรือทรัพยากรเครือข่ายที่ไม่ได้เป็นส่วนหนึ่งของสภาพแวดล้อมรันไทม์มาตรฐานของภาษาที่คุณเลือกความยาวของไฟล์หรือทรัพยากรนั้นควรนับเป็นส่วนหนึ่งของความยาวของโปรแกรม (นี่เป็นการไม่อนุญาต "compressors" ที่เปรียบเทียบอินพุตกับไฟล์บนเว็บและเอาท์พุทเป็นศูนย์ไบต์ถ้าตรงกันขออภัย แต่นั่นไม่ใช่เคล็ดลับใหม่อีกต่อไป)

การแก้ไขและการชี้แจง:

  • คอมเพรสเซอร์ของคุณจะต้องสามารถจัดการไฟล์ที่ประกอบด้วยข้อความภาษาอังกฤษทั่วไปอย่างน้อย 100 kBภายในเวลาที่เหมาะสมและการใช้หน่วยความจำ (อย่างน้อยหนึ่งนาทีและหนึ่ง GB ของหน่วยความจำ) ตัวขยายการบีบอัดของคุณจะต้องสามารถขยายขนาดผลลัพธ์ที่ได้ภายในขีด จำกัด เดียวกัน แน่นอนว่าความสามารถในการจัดการไฟล์ได้นานกว่านั้นเป็นสิ่งที่ดีและน่ายกย่อง มันก็โอเคที่จะแบ่งไฟล์อินพุตยาวเป็นชิ้น ๆ และบีบอัดทีละไฟล์หรือใช้วิธีการอื่นเพื่อแลกเปลี่ยนประสิทธิภาพการบีบอัดสำหรับความเร็วสำหรับอินพุตยาว

  • คอมเพรสเซอร์ของคุณอาจต้องป้อนข้อมูลโดยใช้การขึ้นบรรทัดใหม่ของแพลตฟอร์มที่คุณต้องการ(LF, CR + LF, CR, ฯลฯ ) ตราบใดที่ตัวขยายการบีบอัดของคุณใช้การขึ้นบรรทัดใหม่แบบเดียวกันในเอาต์พุต แน่นอนว่ามันก็ดีสำหรับคอมเพรสเซอร์ที่จะรับบรรทัดใหม่ใด ๆ (หรือแม้แต่บรรทัดใหม่ของ Unix โดยไม่คำนึงถึงแพลตฟอร์ม) ตราบใดที่ตัวขยายการบีบอัดของคุณจะแสดงบรรทัดขึ้นใหม่เหมือนกับในอินพุตดั้งเดิม

ทดสอบอินพุต:

ในการตัดสินประสิทธิภาพการบีบอัดของคำตอบเราจะใช้อินพุตการทดสอบต่อไปนี้ ( The Ravenโดย Edgar Allan Poe ซึ่งได้รับความอนุเคราะห์จาก Project Gutenberg ):

Once upon a midnight dreary, while I pondered, weak and weary,
Over many a quaint and curious volume of forgotten lore,
While I nodded, nearly napping, suddenly there came a tapping,
As of some one gently rapping, rapping at my chamber door.
"'T is some visiter," I muttered, "tapping at my chamber door--
                                          Only this, and nothing more."

Ah, distinctly I remember it was in the bleak December,
And each separate dying ember wrought its ghost upon the floor.
Eagerly I wished the morrow:--vainly I had sought to borrow
From my books surcease of sorrow--sorrow for the lost Lenore--
For the rare and radiant maiden whom the angels name Lenore--
                                          Nameless here for evermore.

And the silken sad uncertain rustling of each purple curtain
Thrilled me--filled me with fantastic terrors never felt before;
So that now, to still the beating of my heart, I stood repeating
"'T is some visiter entreating entrance at my chamber door
Some late visiter entreating entrance at my chamber door;--
                                          This it is, and nothing more."

Presently my soul grew stronger; hesitating then no longer,
"Sir," said I, "or Madam, truly your forgiveness I implore;
But the fact is I was napping, and so gently you came rapping,
And so faintly you came tapping, tapping at my chamber door,
That I scarce was sure I heard you"--here I opened wide the door;--
                                          Darkness there, and nothing more.

Deep into that darkness peering, long I stood there wondering, fearing,
Doubting, dreaming dreams no mortal ever dared to dream before;
But the silence was unbroken, and the darkness gave no token,
And the only word there spoken was the whispered word, "Lenore!"
This I whispered, and an echo murmured back the word, "Lenore!"
                                          Merely this and nothing more.

Back into the chamber turning, all my soul within me burning,
Soon again I heard a tapping, somewhat louder than before.
"Surely," said I, "surely that is something at my window lattice;
Let me see, then, what thereat is, and this mystery explore--
Let my heart be still a moment and this mystery explore;--
                                          'T is the wind and nothing more!"

Open here I flung the shutter, when, with many a flirt and flutter,
In there stepped a stately Raven of the saintly days of yore.
Not the least obeisance made he; not a minute stopped or stayed he;
But, with mien of lord or lady, perched above my chamber door--
Perched upon a bust of Pallas just above my chamber door--
                                          Perched, and sat, and nothing more.

Then this ebony bird beguiling my sad fancy into smiling,
By the grave and stern decorum of the countenance it wore,
"Though thy crest be shorn and shaven, thou," I said, "art sure no craven,
Ghastly grim and ancient Raven wandering from the Nightly shore,--
Tell me what thy lordly name is on the Night's Plutonian shore!"
                                          Quoth the Raven, "Nevermore."

Much I marvelled this ungainly fowl to hear discourse so plainly,
Though its answer little meaning--little relevancy bore;
For we cannot help agreeing that no living human being
Ever yet was blessed with seeing bird above his chamber door--
Bird or beast upon the sculptured bust above his chamber door,
                                          With such name as "Nevermore."

But the Raven, sitting lonely on the placid bust, spoke only
That one word, as if his soul in that one word he did outpour.
Nothing further then he uttered--not a feather then he fluttered--
Till I scarcely more than muttered, "Other friends have flown before--
On the morrow _he_ will leave me, as my hopes have flown before."
                                          Then the bird said, "Nevermore."

Startled at the stillness broken by reply so aptly spoken,
"Doubtless," said I, "what it utters is its only stock and store,
Caught from some unhappy master whom unmerciful Disaster
Followed fast and followed faster till his songs one burden bore--
Till the dirges of his Hope that melancholy burden bore
                                          Of 'Never--nevermore.'"

But the Raven still beguiling all my sad soul into smiling,
Straight I wheeled a cushioned seat in front of bird and bust and door;
Then, upon the velvet sinking, I betook myself to linking
Fancy unto fancy, thinking what this ominous bird of yore--
What this grim, ungainly, ghastly, gaunt and ominous bird of yore
                                          Meant in croaking "Nevermore."

This I sat engaged in guessing, but no syllable expressing
To the fowl whose fiery eyes now burned into my bosom's core;
This and more I sat divining, with my head at ease reclining
On the cushion's velvet lining that the lamplight gloated o'er,
But whose velvet violet lining with the lamplight gloating o'er
                                          _She_ shall press, ah, nevermore!

Then, methought, the air grew denser, perfumed from an unseen censer
Swung by seraphim whose foot-falls tinkled on the tufted floor.
"Wretch," I cried, "thy God hath lent thee--by these angels he hath sent thee
Respite--respite and nepenthe from thy memories of Lenore!
Quaff, oh quaff this kind nepenthe, and forget this lost Lenore!"
                                          Quoth the Raven, "Nevermore."

"Prophet!" said I, "thing of evil!--prophet still, if bird or devil!--
Whether Tempter sent, or whether tempest tossed thee here ashore,
Desolate yet all undaunted, on this desert land enchanted--
On this home by Horror haunted--tell me truly, I implore--
Is there--_is_ there balm in Gilead?--tell me--tell me, I implore!"
                                          Quoth the Raven, "Nevermore."

"Prophet!" said I, "thing of evil--prophet still, if bird or devil!
By that Heaven that bends above, us--by that God we both adore--
Tell this soul with sorrow laden if, within the distant Aidenn,
It shall clasp a sainted maiden whom the angels name Lenore--
Clasp a rare and radiant maiden whom the angels name Lenore."
                                          Quoth the Raven, "Nevermore."

"Be that word our sign of parting, bird or fiend!" I shrieked, upstarting--
"Get thee back into the tempest and the Night's Plutonian shore!
Leave no black plume as a token of that lie thy soul hath spoken!
Leave my loneliness unbroken!--quit the bust above my door!
Take thy beak from out my heart, and take thy form from off my door!"
                                          Quoth the Raven, "Nevermore."

And the Raven, never flitting, still is sitting, still is sitting
On the pallid bust of Pallas just above my chamber door;
And his eyes have all the seeming of a demon's that is dreaming,
And the lamplight o'er him streaming throws his shadow on the floor;
And my soul from out that shadow that lies floating on the floor
                                          Shall be lifted--nevermore!

ที่ถูกต้องป้อนข้อมูลการทดสอบ (เข้ารหัสด้วยการขึ้นบรรทัดใหม่ Unix สไตล์ LF) ควรจะเป็น 7043 ไบต์นานและมีฐานสิบหก MD5 286206abbb7eca7b1ab69ea4b81da227กัญชา ( md5sum -tควรสร้างค่าแฮชเดียวกันแม้ว่าคุณจะใช้บรรทัดใหม่ CR + LF บน DOS / Windows) เอาต์พุตของตัวขยายการบีบอัดของคุณควรมีความยาวและแฮชเดียวกัน

ps โปรดจำไว้ว่าความท้าทายนี้ยากพอ ๆ กับที่คุณทำ จริงๆแล้วทุกอย่างที่ต่ำกว่า 7043 ถือเป็นคะแนนที่ดี (ในตอนท้ายของมาตราส่วนฉันจะรู้สึกประทับใจอย่างยิ่งถ้าใครได้คะแนนต่ำกว่า 2500)


ดังนั้นฉันคิดว่าคุณไม่ต้องการที่จะเห็นการบีบอัดที่สูญเสียใด ๆ?
นาย Llama

2
ข้อควรระวังสำหรับผู้ที่ไม่สามารถจับคู่ MD5 ได้: ไฟล์ข้อความมีบรรทัดใหม่ของ Unix สำหรับผู้วางสาย และให้แน่ใจว่าคุณมีบรรทัดใหม่สุดท้ายในไฟล์สำหรับความยาวเต็ม 7043 ไบต์
นาย Llama

@GigaWatt: ใช่ฉันควรจะชัดเจนมากขึ้นเกี่ยวกับการขึ้นบรรทัดใหม่ เนื่องจากฉันได้ จำกัด การป้อนข้อความ ASCII เท่านั้นฉันเดาว่าฉันสามารถอนุญาตให้ผู้ใช้ใช้สิ่งที่ระเบียบการขึ้นบรรทัดใหม่รู้สึกเป็นธรรมชาติที่สุดสำหรับพวกเขาตราบใดที่พวกเขาใช้มันอย่างสม่ำเสมอ ฉันจะพยายามคิดหาวิธีที่ดีที่จะพูดถึงสิ่งที่ท้าทาย และไม่คอมเพรสเซอร์ไม่ควรสูญเสีย
Ilmari Karonen

ความยาวของไฟล์จำเป็นต้องใช้ในการเรียกใช้ (ในเวลาที่ยอมรับได้) สำหรับไฟล์ตามขนาดของตัวอย่างเท่านั้นหรือสำหรับไฟล์ที่มีขนาดใหญ่กว่า (> MB บางส่วน)
หยุดที่จะหมุนกลับใน

1
หากเอาท์พุทเป็นโปรแกรมในภาษาเดียวกับคอมเพรสเซอร์เราสามารถนับความยาวของตัวขยายการบีบอัดเป็นศูนย์ได้หรือไม่?
Peter Taylor

คำตอบ:


19

Perl, 3502 = 133 + 3269 + 100

ตัวเข้ารหัส:

#!/usr/bin/perl -0
$_=<>;for$e(map{~chr}0..255){++$p{$_}for/..|.\G./gs;
%p=$s=(sort{$p{$a}<=>$p{$b}}keys%p)[-1];$d.=/\Q$e/?$/:s/\Q$s/$e/g&&$s}print$_,$d

และตัวถอดรหัส:

#!/usr/bin/perl -0777
sub d{($p=$d{$_})?d(@$p):print for@_}
sub r{%d=map{chr,ord($c=pop)&&[pop,$c]}0..255;&d}r<>=~/./gs

สำหรับนักสอนที่ต้องการหลีกเลี่ยงการใช้สวิตช์บรรทัดคำสั่ง: คุณสามารถลบบรรทัด shebang และเพิ่ม$/=chr;ไปยังตัวเข้ารหัสและ$/=$,;ตัวถอดรหัสเพื่อให้ได้ผลเหมือนกัน (ซึ่งจะทำให้ได้คะแนนสูงสุด 3510)

รหัสนี้ใช้รูปแบบการบีบอัดดั้งเดิมมาก:

  • ค้นหา bigram แบบสองอักขระที่ปรากฏบ่อยที่สุดในข้อความต้นฉบับ
  • แทนที่ bigram ด้วยค่าไบต์ที่ไม่ได้ใช้ในปัจจุบัน
  • ทำซ้ำจนกว่าจะไม่มีกราฟขนาดใหญ่ซ้ำอีก (หรือไม่มีค่าไบต์ที่ไม่ได้ใช้อีก)

บางคนอาจจำได้ว่านี่เป็นเวอร์ชั่นย่อของการบีบอัด "คู่ใหม่" (ย่อมาจากคู่แบบเรียกซ้ำ)

มันไม่ใช่รูปแบบการบีบอัดทั่วไปที่ดีมาก ทำได้ดีกับสิ่งต่าง ๆ เช่นข้อความ ASCII ซึ่งมีค่าไบต์ที่ไม่ได้ใช้จำนวนมากและโดยทั่วไปแล้วจะได้รับอัตราส่วนไม่เกิน 45-50% อย่างไรก็ตามมันมีข้อได้เปรียบของการใช้งานได้กับรหัสขั้นต่ำ ตัวบีบอัดโดยเฉพาะสามารถมีขนาดค่อนข้างเล็ก (ตัวอักษรส่วนใหญ่ในสคริปต์ตัวถอดรหัสของฉันใช้สำหรับเรียกพจนานุกรม bigram)

นี่คือรหัสเวอร์ชันที่ไม่เลวร้าย:

#!/usr/bin/perl
use strict;
use warnings;
# Run with -d to decode.
if ($ARGV[0] eq "-d") {
    shift;
    $_ = join "", <>;
    my @in = split //;
    my %dict;
    foreach my $n (0 .. 255) {
        my $c = shift @in;
        $dict{chr $n} = [ $c, shift @in ] if ord $c;
    }
    sub decode {
        foreach (@_) {
            if ($dict{$_}) {
                decode(@{$dict{$_}});
            } else {
                print $_;
            }
        }
    }
    decode @in;
} else {
    $_ = join "", <>;
    my @dict;
    for (my $n = 255 ; $n >= 0 ; --$n) {
        my $symbol = chr $n;
        if (!/\Q$symbol/) {
            my %pop;
            ++$pop{$_} for /../gs, /(?!^)../gs;
            my $str = (sort { $pop{$b} <=> $pop{$a} } keys %pop)[0];
            s/\Q$str/$symbol/g;
            $dict[$n] = $str;
        }
    }
    for (0..255) { $dict[$_] ||= "\0" }
    print @dict, $_;
}

นิพจน์หนึ่งในตัวเข้ารหัส golfed ต้องการคำอธิบายฉันคิดว่าและนั่นคือ(sort{$p{$a}<=>$p{$b}}keys%p)[-1]เพื่อรับกุญแจที่มีค่าสูงสุด ดูเหมือนว่าควรเขียนเป็น(sort{$p{$b}<=>$p{$a}}keys%p)[0]ซึ่งทำสิ่งเดียวกันและสั้นกว่าหนึ่งอักขระ เหตุผลที่ฉันไม่ได้เขียนอย่างนั้นก็เพราะมันจะเปลี่ยนคีย์ที่เลือกในกรณีที่มีหลายปุ่มที่มีค่าสูงสุด โดยโอกาสที่แท้จริงสิ่งนี้ทำให้ผลลัพธ์ที่ได้สำหรับอินพุตการทดสอบมีความยาว 10 ไบต์ ฉันเกลียดที่จะสวมบทบาทพิเศษที่ไร้ประโยชน์ แต่ไม่มากพอที่จะเสียสละ 9 คะแนนจากคะแนนของฉัน

ในใบหน้าของคุณ Golfscript! (ฮ่าฮ่า Golfscript จะมาที่นี่ทั้งหมดและเตะตูดของฉันถ้ามันได้ยินฉัน)


3
ว้าวนั่นมันค่อนข้างน่าประทับใจ! ps นี่เป็นคำตอบที่ยอมรับกันโดยทั่วไปเกี่ยวกับการนับสวิตช์บรรทัดคำสั่ง
Ilmari Karonen

แดงฉันอ่านก่อนหน้านี้ แต่ฉันไม่เห็นบิตนั้นอยู่ตรงกลาง ดูเหมือนว่าผลที่สุดคือ: คุณไม่นับอักขระยัติภังค์เริ่มต้น (เพราะคุณสามารถเพิ่มลงใน-eกลุ่มตัวเลือก) ยกเว้นว่ารหัสของคุณมีอักขระเครื่องหมายคำพูดเดี่ยวซึ่งในกรณีนี้คุณจะนับยัติภังค์ (เพราะ ตอนนี้คุณต้องเรียกใช้จากไฟล์ที่มีบรรทัด shebang เพื่อหลีกเลี่ยงการจ่ายเพื่อหนีการอ้างคำพูดเดี่ยวในบรรทัดคำสั่ง)
breadbox

1
เทคนิคจะเรียกว่าไบต์เข้ารหัสคู่ การใช้งานที่ดี
roblogic

@roblogic ขอบคุณสำหรับการอ้างอิง; ดีที่รู้
breadbox

20

Python, 3514 = 294 + 2894 + 326

โดยทั่วไปการใช้งานbzip2 มันทำการแปลงBurrows-Wheeler การแปลงแบบย้ายไปด้านหน้าการเข้ารหัส Huffmanแบบง่าย ๆเป็นการสตรีมบิตแปลงบิตสตรีมนั้นเป็นจำนวนเต็มและเขียนไบต์

Encoder:

import sys
S=range(128)
H={0:'0'}
for b in range(7):
 for i in range(1<<b,2<<b):H[i]='1'*b+'10'+bin(i)[3:]
I=sys.stdin.read()+'\0'
N='1'
for x in sorted(I[i:]+I[:i]for i in range(len(I))):i=S.index(ord(x[-1]));N+=H[i];S=[S[i]]+S[:i]+S[i+1:]
N=int(N,2)
while N:sys.stdout.write(chr(N%256));N>>=8

Sเป็นคิวที่ย้ายไปด้านหน้าHเป็นตัวเข้ารหัส Huffman และNเป็นบิตสตรีม

การเข้ารหัสจะลดอินพุตการทดสอบลงประมาณ 41% ของขนาดดั้งเดิม

ถอดรหัส:

import sys
N=0
b=1
for c in sys.stdin.read():N+=ord(c)*b;b<<=8
N=bin(N)[3:]
S=range(128)
L=''
while N:
 n=N.find('0')
 if n:i=2**n/2+int('0'+N[n+1:2*n],2);N=N[2*n:]
 else:i=0;N=N[1:]
 L+=chr(S[i]);S=[S[i]]+S[:i]+S[i+1:]
S=''
i=L.find('\0')
for j in L:S=L[i]+S;i=L[:i].count(L[i])+sum(c<L[i]for c in L)
sys.stdout.write(S[:-1])

1
ฉันถูกล่อลวงให้ติดตั้ง BWT และทำการบีบอัดในรูปแบบที่แท้จริง แต่ขี้เกียจเกินไป : P
Mr. Llama

8

8086 Assembler / MS_DOS

คอมเพรสเซอร์: 155

jNiAxBCO2I7AM/+9/QW5AAGK2TPAq4rDqv7D4va6AQkz9lK0BrL/zSFadDK7
/f+DwwM733QNOTd19ThHAnXwid7r34k1iEUC6BMAtACKRQJr8AODxwPryrQC
zSHrxFIz0ovGuwMA9/Nai9iKztPL0ePQ0nMWgPr+cgtSsv60Bs0hWoDq/rQG
zSGyAf7JdeA5/XUHA+2DxQP+xsM=

ข้อมูล: 3506

เครื่องบีบอัด: 203

ieWD7CCM2IDEEI7YjsAz/7kAAYrZM8CrisOq/sPi9rYJxkb0Abn9BehtAIl2
/uhTAOhkAIl28Dv3cy3oRgCLRv6JBYt28Il2/oM8AHQEizTr94pEAohFAoPH
AznPddL+xgPJg8ED68mLdv6JNYM8AHQEizTr94pEAohFAol+/on+aFgBgzwA
dAdWizTo9f9etAaKVALNIcMz9ojz/k70dRu0BrL/zSF0IDz+cgi0BrL/zSEE
/sZG9AiIRvLQZvLR1v7Ldddr9gPDzSA=

รวม: 3864

ใช้ตัวถอดรหัส Base64 นี้และบันทึกไฟล์ไบนารีเป็น 'compress.com' และ 'decompress.com' จากนั้นทำ:

compress < source > compressed_file
decompress < compressed_file > copy_of_source

ในเชลล์ DOS (ทดสอบด้วย WinXP) ไม่มีการตรวจสอบข้อผิดพลาดดังนั้นการบีบอัดไฟล์ขนาดใหญ่จะสร้างผลลัพธ์ที่ไม่ถูกต้อง ส่วนเพิ่มเติมเล็กน้อยและสามารถรับมือกับไฟล์ขนาดใดก็ได้ นอกจากนี้มันไม่สามารถแยกย่อยเป็นไบนารีได้เนื่องจากไม่สามารถส่งออกค่า 0xff (ข้อมูลที่บีบอัดหนีค่า 0xff เป็น 0xfe 0xff กับ 0xfe หนีเป็น 0xfe 0xfe) การใช้ชื่อไฟล์บรรทัดคำสั่งจะเอาชนะปัญหาเอาต์พุตไบนารี่ได้ แต่จะเป็นไฟล์ปฏิบัติการที่ใหญ่กว่า


โปรแกรมใช้อัลกอริธึมการบีบอัดชนิดใด
Sir_Lagsalot

@Sir_Lagsalot: ใช้ความกว้างบิตของตัวแปร LZW (อันที่ใช้ในไฟล์ GIF)
Skizz

6

Bash Poem (566 + 117) + 4687 = 5370

เพื่อความสนุกฉันได้ปิดบังคอมเพรสเซอร์เป็นบทกวี:

for I in my chamber nodded, nearly napping, suddenly heard rapping, tapping upon my door    \
"'T is some visiter" \ I\  muttered, o\'er lamplight "nothing more" \
just this sainted maiden whom the angels name Lenore    \
And "Prophet!" said me "thing of evil" -- "prophet still, if bird or devil!"    \
Leave no token of that lie thy soul hath spoken and sitting take thy ore from This floor    \
But you velvet bird from some shore above   \
here this with sad raven before his word still spoke nothing    \
"                                          " Quoth the Raven Never more;                    do C=$[C+1];E=`perl -e "print chr($C+128)"`;echo "s/$I/$E/g">>c;echo "s/$E/$I/g">>d;done;LANG=C sed -f $1;rm c d

นี่คือคอมเพรสเซอร์แบบรวม: เรียกใช้ด้วยตัวเลือก "c" มันจะบีบอัดและด้วย "d" มันจะคลายการบีบอัด มันมีสองส่วน: บทกวี 566 ไบต์ "อ่านย่อย" ของบทกวีและ (2) ส่วนต่อท้าย 117 ไบต์ที่ทุบตี "ของจริง" ทั้งหมด

ด้วยความระมัดระวัง (เช่นการเริ่มต้นบทกวีด้วย "สำหรับฉันใน") ทุบตีจะตีความรุ่น "สูญเสีย" ของบทกวีเป็นอาร์เรย์ มันจะแทนที่แต่ละองค์ประกอบของอาร์เรย์ด้วยอักขระที่ไม่ใช่ ASCII (เราถือว่าอินพุตเป็น ASCII ดังนั้นจึงไม่มีการชนกัน) ข้อได้เปรียบเล็กน้อยอย่างหนึ่งของการแก้ปัญหานี้: เนื่องจากเราใช้ประโยชน์จากข้อเท็จจริงที่ว่าเราสามารถสันนิษฐานได้ว่าอินพุตคือ ASCII ผลลัพธ์ของการบีบอัดนี้จะไม่นานกว่าอินพุตของมันโดยไม่คำนึงว่าอินพุตและ / หรือส่วนที่สูญเสียคืออะไร

กฎที่ว่านี้ใกล้เคียงกับการละเมิดมากที่สุดคือกฎเกี่ยวกับการให้อัตราส่วนการบีบอัดที่เหมาะสมกับข้อความอื่น ๆ แต่มันโกน 1386 ไบต์ปิดข้อความ GPL V2, decentดีกว่าขนาดของตัวเองซึ่งดูเหมือนว่าจะตรงกับความหมายของการตรวจการณ์ ดังนั้นจึงดูเหมือนว่าจะให้การdecentบีบอัดที่เรียกว่าข้อความทั่วไป นี่เป็นเพราะข้อความภาษาอังกฤษส่วนใหญ่จะมี "ตัว" "ที่" เป็นต้นชัดเจนว่ามันจะทำงานได้ดีขึ้นถ้าคุณแทนที่ส่วน "lossy" ด้วยข้อความที่คล้ายกับต้นฉบับที่คุณต้องการบีบอัดแบบไม่สูญเสีย

การแยกภาพและเสียงออกเป็นส่วนที่สูญเสียและไม่สูญเสียเป็นเทคนิคที่รู้จักกันดี สิ่งนี้ใช้งานได้ไม่ดีสำหรับข้อความ: 4687 ไบต์นั้นยอดเยี่ยมแม้ว่าเราจะแยก 566 ไบต์ออกจากรุ่นที่สูญเสียไปและเราไม่สามารถสร้างข้อความที่สูญเสียไปโดยอัตโนมัติแบบเดียวกับที่เราได้ยิน ในแง่บวกสิ่งนี้หมายความว่าทุกครั้งที่คุณบีบอัดบางสิ่งด้วยเครื่องอัดนี้คุณสามารถสนุกกับการสร้างรุ่นที่สูญเสียไปได้ด้วยมือ ดังนั้นนี่จึงเป็นคำตอบที่สมเหตุสมผล "เพื่อความสนุก"


5

C ++, 4134 ไบต์ (รหัส = 1357, บีบอัด = 2777)

นี้ไม่ได้ Burrows-Wheeler เปลี่ยน + ย้าย-To-Front เช่นคีแรนดัล แต่แล้วบีบอัดลำดับไบต์ที่เกิดขึ้นโดยใช้การปรับตัวช่วง Coder น่าเสียดายที่การบีบอัดที่ได้รับการปรับปรุงจาก coder ช่วงนั้นไม่เพียงพอที่จะชดเชยการใช้คำฟุ่มเฟื่อยของ C ++ ฉันสามารถเขียนโค้ดนี้ได้มากกว่านี้คือใช้วิธีการอินพุต / เอาท์พุตที่แตกต่างกัน แต่มันก็ไม่เพียงพอที่จะเอาชนะสิ่งที่ส่งมาอื่น ๆ ด้วยอัลกอริทึมปัจจุบัน รหัสนี้เป็นรหัสเฉพาะ Windows และรองรับเฉพาะข้อความ ascii
ในการบีบอัด: "C text_file compression_file"
หากต้องการคลายบีบอัด: "D Compress_file uncompressed_file"
ข้อผิดพลาดบรรทัดคำสั่งหรือข้อผิดพลาดของไฟล์ค่อนข้างมากจะทำให้โปรแกรมขัดข้องและใช้เวลาส่วนหนึ่งในการเข้ารหัสหรือถอดรหัสบทกวีที่ดีกว่า

#include <windows.h>
#include <algorithm>
typedef DWORD I;typedef BYTE u;
#define W while
#define A(x)for(a=0;a<x;a++)
#define P(x)*o++=x;
I q,T=1<<31,B=T>>8,a,l,f[257],b,G=127,p=G,N=255;I Y(u*i,u*j){return
memcmp(i,j,l)<0;}I E(u*i,u*o){b=0;I L=0,h=0,R=T;u*c=o,*e=i+l;W(i<e){I
r=R/p,s=0;A(*i)s+=f[a];s*=r;L+=s;R=*i<N?r*f[*i++]++:R-s;p++;W(R<=B){if((L>>23)<N){for(;h;h--)P(N)P(L>>23)}else{if(L&T){o[-1]++;for(;h;h--)P(0)P(L>>23)}else
h++;}R<<=8;L<<=8;L&=T-1;}}P(L>>23)P(L>>15)P(L>>7)return
o-c;}void D(u*i,u*o){I R=128,L=*i>>1;u*e=o+l;W(o<e){W(R<=B){L<<=8;L|=((*i<<7)|(i++[1]>>1))&N;R<<=8;}I
h=R/p,m=L/h,x=0,v=0;W(v<=m)v+=f[x++];P(--x);L-=h*(v-f[x]);R=h*f[x]++;p++;}}void
main(I Z,char**v){u d[1<<16];I c=*v[1]<68,s;HANDLE F=CreateFileA(v[2],T,0,0,3,0,0),o=CreateFileA(v[3],T/2,0,0,2,0,0);ReadFile(F,d,GetFileSize(F,0),&l,0);l=c?l:*(I*)d;A(G)f[a]=1;u M[256];A(G)M[a]=a+1;u*g=new u[l*3],*h=g+l;if(c){memcpy(d+l,d,l);u**R=new
u*[l];A(l)R[a]=d+a;std::sort(R,R+l,Y);A(l){b=R[a][l-1];I
i=strchr((char*)M,b)-(char*)M;memmove(M+1,M,i);*M=g[a]=b;h[a]=i;}s=E(h,d+l+8);}else{D(d+8,g);A(l){I
k=g[a];g[a]=M[k];memmove(M+1,M,k);*M=g[a];}}u**j=new u*[l];A(l)j[a]=new
u[l*2],memset(j[a],0,l*2),j[a]+=l;A(l){for(b=0;b<l;)*--j[b]=g[b++];std::sort(j,j+l,Y);}if(c){A(l){if(!memcmp(j[a],d,l)){I*t=(I*)(d+l);*t=l;t[1]=a;g=d+l,l=s+8;}}}else
g=j[*(I*)(d+4)];WriteFile(o,g,l,&q,0);}

5

JavaScript, 393 (รหัส) + 3521 (ทดสอบ) = 3914 (ทั้งหมด)

โปรแกรมนี้ใช้แทนค่าไบต์ที่ไม่ได้ใช้ซ้ำสำหรับจำนวนอักขระ 2- ถึง 4- ตัวของอินพุต การเปลี่ยนตัวแต่ละครั้งจะทำคะแนนตามความถี่และความยาวของชิ้นดั้งเดิมและเลือกการทดแทนที่ดีที่สุดในแต่ละครั้ง ฉันจะเพิ่มขั้นตอนการเข้ารหัส Huffman ขั้นสุดท้ายหากฉันสามารถหาวิธีการทำในจำนวนอักขระที่ค่อนข้างน้อย การบีบอัดเป็นชุดของการดำเนินการค้นหาและแทนที่

การใช้

C () ให้การบีบอัด; U () แสดงการบีบอัด ในฐานะที่เป็นสตริงของจาวาสคริปต์จะขึ้นอยู่กับหน่วยรหัส Unicode 16 บิตเพียง 8 บิตที่สำคัญน้อยที่สุดของแต่ละหน่วยรหัสจะใช้ในรูปแบบข้อมูลที่บีบอัด; สิ่งนี้เข้ากันได้กับฟังก์ชั่น btoa () และ atob () ของ Firefox สำหรับการเข้ารหัส Base64 ( ตัวอย่างการใช้งาน )

โปรแกรมนี้อาจทำงานใน Firefox ได้เนื่องจากตัวเลือก "g" ที่ไม่ใช่แบบมาตรฐานเป็น. แทนที่ ()

รหัส

รหัส Golfed:

S=String.fromCharCode;function C(c){h=[];for(f=0;129>f;++f){g='';i=0;for(e=2;5>e;++e){d={};for(a=0;a<=c.length-e;a+=e)b="K"+c.substr(a,e),d[b]=d[b]?d[b]+1:1;for(b in d)a=d[b],a=a*e-(1+e+a),a>i&&(g=b.slice(1),i=a)}if(!g)break;h[f]=g;c=c.replace(g,S(127+f),"g")}return h.join("\1")+"\1"+c}function U(a){c=a.split("\1");a=c.pop();for(b=c.length,d=127+b;b--;)a=a.replace(S(--d),c[b],"g");return a}

ก่อนเล่นกอล์ฟ:

function compress(str) {

    var hash, offset, match, iteration, expansions, bestMatch, bestScore, times, length, score;

    expansions = [];

    for (iteration = 0; iteration < 129; ++iteration) {

        bestMatch = null;
        bestScore = 0;

        for (length = 2; length < 5; ++length) {

            hash = {};

            for (offset = 0; offset <= str.length - length; offset += length) {
                match = 'K' + str.substr(offset, length);
                hash[match] = hash[match] ? hash[match] + 1 : 1;
            }

            for (match in hash) {
                times = hash[match];
                score = times * length - (1 + length + times);
                if (score > bestScore) {
                    bestMatch = match.slice(1);
                    bestScore = score;
                }
            }

        }

        if (!bestMatch) {
            break;
        }

        expansions[iteration] = bestMatch;
        str = str.replace(bestMatch, String.fromCharCode(127 + iteration), 'g');

    }

    return expansions.join('\u0001') + '\u0001' + str;
}

function uncompress(str) {
    var i, j, expansions;

    expansions = str.split('\u0001');
    str = expansions.pop();

    for (j = expansions.length, i = 127 + j; j--;) {
        str = str.replace(String.fromCharCode(--i), expansions[j], 'g');
    }

    return str;
}

ทำไมฉันถึงได้รับC(text).length=7301? (FF 60.0.2)
l4m2

3

PHP, (347 + 6166 + 176) = 6689

ดังนั้นฉันจึงใช้วิธีแทนที่พจนานุกรม + แบบง่าย

หากคำปรากฏหลายครั้งและสั้นกว่า (เข้ารหัสคำ + บันทึกรายการทดแทน) ก็จะทำการแทนที่ หากคำว่า "คำว่า" เป็นตัวเลขมันจะเป็นการป้องกันการทดแทนโดยไม่ตั้งใจระหว่างการบีบอัด "พจนานุกรม" ของการแทนที่ถูกรวมเข้าด้วย null null ตามด้วยสอง null null ตามด้วยเนื้อหาที่การแทนที่ทำงานอยู่

การปรับปรุงที่เป็นไปได้:

  • Windows ไม่ชอบไปป์ไลน์มากกว่า 4kb ของข้อมูลดังนั้นหาวิธีที่ดีกว่าการใช้ไฟล์
  • ความสามารถในการจับคู่สตริงของช่องว่างที่ยาวและนับเป็น "คำ" โดยไม่ต้องเพิ่มโค้ดมากเกินไป
  • การหาสิ่งทดแทนที่ดีกว่าแทนที่จะใช้ตัวเลข

การใช้งาน:คอมเพรสเซอร์ค้นหาไฟล์ชื่อ "i" และเขียนข้อมูลที่บีบอัดไปที่ "o" ตัวขยายการบีบอัดค้นหา "o" และเขียนข้อมูลที่ไม่บีบอัดไปยัง "d" นี่เป็นวิธีแก้ปัญหาของฉันกับ Windows ที่ไม่ชอบการส่งข้อมูลไปรอบ ๆ


compress.php (347)

<?$d=file_get_contents('i');$z=chr(0);preg_match_all('|\b(\w+)\b|',$d,$m);$n=0;foreach($m[0]as$w){$l=strlen($w);$q[$w]=isset($q[$w])?$q[$w]+$l:$l;}arsort($q);foreach($q as$w=>$s){$l=strlen($w);$c=$s/$l;if($c*strlen($n)+$l<$s||is_int($w)){$d=preg_replace('|\b'.preg_quote($w).'\b|',$n++,$d);$f[]=$w;}}file_put_contents('o',implode($z,$f).$z.$z.$d);

เวอร์ชันขยายพร้อมความคิดเห็นและคำอธิบาย


ตัวอย่างผลลัพธ์ที่ไม่มีพจนานุกรม ค่อนข้างตลกที่จะดู
ขนาดปกติ: 6166

Ah, distinctly I remember it 45 in 0 bleak December,
25 each separate dying ember wrought its ghost 39 0 37.
Eagerly I wished 0 88:--vainly I had sought to borrow
From 9 books surcease of 43--43 for 0 lost 8--
For 0 rare 1 67 40 54 0 26 38 8--
                                          Nameless 63 for evermore.

25 0 silken sad uncertain rustling of each purple curtain
Thrilled me--filled me 19 fantastic terrors never felt 17;
So 4 now, to 13 0 beating of 9 64, I stood repeating
"'T is 57 31 36 49 at 9 2 5
Some late 31 36 49 at 9 2 5;--
                                          58 it is, 1 10 16."

decompress.php (176)

<?$z=chr(0);$d=file_get_contents('o');list($w,$d)=explode($z.$z,$d);$w=explode($z,$w);$n=0;foreach($w as$r){$d=preg_replace('|\b'.$n++.'\b|',$r,$d);};file_put_contents('d',$d);

เวอร์ชันขยายพร้อมคำอธิบาย


ข้อเสนอแนะใด ๆ สำหรับการปรับปรุงยินดีต้อนรับ

แก้ไข:เพิ่มรหัสเวอร์ชัน "ที่ไม่ได้ลงทะเบียน" และเพิ่มความคิดเห็นมากมาย ควรทำตามง่าย


Gah! ภาษาและวิธีการเดียวกันกับที่ฉันใช้! บ้า แม้ว่าฉันจะไม่ได้ไปไกลแค่ข้ามคำเดียว
Gareth

เกิดอะไรขึ้นเมื่อมีตัวเลขอยู่ในข้อความ มันจะจบลงด้วยการแทนที่ตัวเลขเดิมด้วยคำที่ไม่เข้าที่ แม้ว่าฉันจะใช้วิธีการที่คล้ายกัน (แยก regex การค้นหาคำทั่วไปเพื่อทดแทนและสร้างพจนานุกรมทดแทนและติดกาวด้วยค่า Null) ฉันใช้อักขระ unicode แทนตัวเลข (เริ่มจาก chr (128) เนื่องจากอะไรก็ตามหลังจากนั้นไม่สามารถพิมพ์ได้ มาตรฐาน ascii)
Blazer

@Blazer: ที่จริงมีรหัสในสถานที่ (คือ||is_int($w)) ไปยังหมายเลขที่จับโดยมักจะเพิ่มพวกเขาไปยังพจนานุกรม แต่มันน่าจะเป็นรถ: หลังจากการบีบอัดและทั้ง Gutenberg The 4 3 EBook 2 The Raven, by Edgar Allan PoeE-ข้อความเริ่มต้นการส่งออกด้วย :-( ฉันสงสัยว่าปัญหาคือมีบางสิ่งที่กำลังถูกแทนที่สองครั้งคุณอาจต้องการใช้strtr()แทนเพื่อหลีกเลี่ยงปัญหานั้น
Ilmari Karonen

@Ilmari หากคุณมีเอกสารจำนวนมากการเพิ่มหมายเลขเหล่านั้นลงในพจนานุกรมอาจส่งผลให้การบีบอัดมีขนาดใหญ่กว่าเดิม ในการจัดเก็บรายการยาว 1-2 ตัวอักษรหลายตัวไม่มีประสิทธิภาพ เช่นถ้าคุณต้องการแทนที่คำว่า 'a' ในเอกสาร
Blazer

@Blazer - สำหรับอัลกอริธึมการบีบอัดทั้งหมดมีอินพุตบางตัวที่จะส่งผลให้มีขนาดใหญ่ขึ้น มันมีอยู่ในการบีบอัดแบบไม่มีการสูญเสียเช่นเดียวกับที่ไม่สามารถบีบอัดข้อมูลของ Entrop ได้อย่างน่าเชื่อถือ
Mr. Llama

3

GolfScript, 3647 (ขนาดบีบอัด 3408 + รหัสขนาด 239)

128,{[.;]''+}%:d;8:k;{2k?={1k+:k;}*}:|;{2base}:b;{.[0]*@b+0@->}:$;.0=
{'':&,:i;1/{.d&@+?.0<{;d,i@d&@:&.0=:i;[+]+:d;k$\|}{:i;&\+:&;}if}%[0]k*+[]*8/{b}%"\0"\+}
{1>{8$}/][]*:^;{^k<b^k>:^;}:r~{.}{d,|d=:&r..d,<{d=}{;&}if[1<&\+]d\+:d;}while;}if

อัลกอริทึมที่ใช้คือการบีบอัด LZW พร้อมรหัสความกว้างของตัวแปร บรรทัดแรกคือรหัสที่ใช้ร่วมกันที่สองคือรหัสการบีบอัดและที่สามคือรหัสการบีบอัด

มันจัดการไฟล์ที่มีตัวอักษร ASCII ในช่วง 1-127 และมันจะรับรู้ไฟล์บีบอัดโดยอัตโนมัติ (พวกเขาเริ่มต้นด้วย 0 ไบต์) ดังนั้นจึงไม่มีพารามิเตอร์ที่จำเป็นในการคลายการบีบอัด

ตัวอย่างการเรียกใช้:

$ md5sum raven.txt
286206abbb7eca7b1ab69ea4b81da227  raven.txt
$ ruby golfscript.rb compress.gs < raven.txt > raven.lzw
$ ls -l raven.lzw
-rw-r--r-- 1 ahammar ahammar 3408 2012-01-27 22:27 raven.lzw
$ ruby golfscript.rb compress.gs < raven.lzw | md5sum
286206abbb7eca7b1ab69ea4b81da227  -

หมายเหตุ:ฉันเริ่มต้นเมื่อไม่นานนี้ก่อนที่จะเพิ่มความต้องการจัดการ 100kb ดังนั้นฉันจึงไม่ได้ทดสอบกับขนาดที่ป้อน อย่างไรก็ตามจะใช้เวลาประมาณ 30 วินาทีในการบีบอัดอินพุตทดสอบและ 5 วินาทีในการคลายการบีบอัดโดยใช้หน่วยความจำประมาณ 20MB ที่จุดสูงสุด


การบีบอัดไฟล์ 76 kB ดูเหมือนจะใช้เวลาประมาณ 19 นาทีในขณะที่คลายการบีบอัดใช้เวลา 10 นั่นเป็นชนิดที่ช้า แต่แล้วอีกครั้งมันจะผ่านกฎดั้งเดิมดังนั้น ... ฉันไม่รู้ ดูเหมือนว่าไม่ยุติธรรมที่จะไม่อนุญาตภายใต้สถานการณ์ ฉันคิดว่าฉันสามารถเรียกประโยค "ปู่" ที่ชัดเจนสำหรับคุณหรือบางสิ่งบางอย่าง
Ilmari Karonen

3

Haskell, 3973

ไปงานปาร์ตี้สายและไม่ชนะ แต่ฉันสนุกที่จะเขียนมันดังนั้นฉันก็อาจโพสต์ได้

มันเป็นการนำความกว้างของตัวแปรไปใช้อย่างตรงไปตรงมาของ LZW โดยพจนานุกรม จำกัด อย่างชัดเจนถึง ASCII, แท็บและการป้อนบรรทัดที่สามารถพิมพ์ได้ Cทำงานกับการขัดแย้งใดมันบีบอัดเข้ามาตรฐานไปยังแฟ้ม เรียกใช้ด้วยอาร์กิวเมนต์ใด ๆ (แต่ "--decompress" จะเป็นการเดิมพันที่สมเหตุสมผล) มันขยายไฟล์Cไปยังเอาต์พุตมาตรฐาน

import List
import System
import Data.Binary
q=head
main=getArgs>>=m
m[]=getContents>>=encodeFile"C".s 97 128 1 0.e 97h
m _=decodeFile"C">>=putStr.d tail""96h.u 97 128
h=zip[0..].map(:[])$"\t\n"++[' '..'~']
e _ _[]=[]
e n s y=c:e(n+1)((n,take(1+l)y):s)(drop(l)y)where{Just(c,p)=find((`isPrefixOf`y).snd)s;l=length p}
d _ _ _ _[]=""
d f p n s(x:y)=t++d id t(n+1)(f$(n,p++[q t]):s)y where t=maybe(p++[q p])id$lookup x s
s _ _ _ a[]=a::Integer
s n w o a y|n>w=s n(2*w)o a y|0<1=s(n+1)w(o*w)(a+o*q y)(tail y)
u _ _ 0=[]
u n w x|n>w=u n(2*w)x|0<1=(x`mod`w::Integer):u(n+1)w(x`div`w)
  • ขนาดรหัส: 578
  • ขนาดตัวอย่างที่บีบอัด: 3395
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.