ความแตกต่างระหว่าง“ ข้อมูล” และ“ ข้อมูลที่เป็นประโยชน์” ในทฤษฎีข้อมูลอัลกอริทึม


16

ตามที่Wikipedia :

อย่างไม่เป็นทางการจากมุมมองของทฤษฎีข้อมูลอัลกอริทึมเนื้อหาข้อมูลของสตริงนั้นเทียบเท่ากับความยาวของการแสดงตัวเองที่สั้นที่สุดที่เป็นไปได้ของสตริงนั้น

คำจำกัดความที่ไม่เป็นทางการของ "ข้อมูลที่เป็นประโยชน์" คืออะไร? เหตุใด "ข้อมูลที่เป็นประโยชน์" จึงไม่ถือเป็นแนวคิดที่เป็นธรรมชาติหรือพื้นฐานมากขึ้น ไร้เดียงสาดูเหมือนว่าสตริงสุ่มล้วนๆต้องมีข้อมูลเป็นศูนย์ดังนั้นฉันจึงพยายามที่จะเข้าใจความจริงที่ว่ามันถูกพิจารณาว่ามีข้อมูลสูงสุดตามคำจำกัดความมาตรฐาน


2
ยินดีต้อนรับ! โปรดทราบว่าคุณสามารถเปลี่ยนชื่อผู้ใช้ของคุณเป็นสิ่งที่ผู้คนมักจะจดจำได้เมื่อคุณเป็นผู้เข้าชมปกติ
ราฟาเอล

คำตอบ:


12

แนวคิดหลักที่นี่คือความซับซ้อน Kolmogorovและมากขึ้นโดยเฉพาะการอัด ที่จะได้รับความรู้สึกที่ใช้งานง่ายของการอัดพิจารณาสองสายB *และB B *ที่B = { 0 , 1 } ปล่อยAB* * * *BBB={0,1}

1010 1010 1010และA=1010 1010 1010 1010

0110 0111 1001B=1011 0110 0111 1001

สังเกตว่า 16 เราจะหาปริมาณข้อมูลAหรือBได้อย่างไร ถ้าเราคิดเกี่ยวกับทฤษฎีสารสนเทศคลาสสิกโดยทั่วไปส่งสตริงของความยาวnใช้เวลาnบิตโดยเฉลี่ย แต่เราไม่สามารถพูดได้ว่าหลายบิตเราจำเป็นต้องส่งเฉพาะสตริงของความยาวn|A|=|B|=16ABnnn

ทำไมเนื้อหาข้อมูลของสตริงสุ่มไม่เป็นศูนย์

เมื่อมองใกล้เราจะเห็นว่าในความเป็นจริง= 10 8 แต่มันเป็นเรื่องยากที่จะบอกว่าถ้าBมีรูปแบบที่ชัดเจนใด ๆ ในโครงสร้างของมันอย่างน้อยก็ดูเหมือนและรู้สึกแบบสุ่มมากกว่า เนื่องจากเราสามารถหารูปแบบในAเราจึงสามารถบีบอัดAและแทนด้วยน้อยกว่า16บิต ในทำนองเดียวกันเนื่องจากมันไม่ง่ายที่จะตรวจจับลวดลายใด ๆ ในBเราจึงไม่สามารถบีบอัดได้มาก ดังนั้นเราจึงสามารถพูดได้ว่าBมีข้อมูลมากกว่า ยิ่งกว่านั้นสตริงที่มีความยาวแบบสุ่มnA=108BAAA16BBAnมีข้อมูลมากที่สุดเนื่องจากไม่มีวิธีที่เราสามารถบีบอัดได้และด้วยเหตุนี้จึงแสดงว่ามีบิตน้อยกว่าบิตn

ข้อมูลที่เป็นประโยชน์คืออะไร?

สำหรับข้อมูลที่เป็นประโยชน์ใช่มีความหมายที่ใช้เครื่องทัวริงTข้อมูลที่เป็นประโยชน์ในx BคือTxB* * * *

นาทีT { ล.(T)+(x|T):T{T0,T1,...}},

ที่หมายถึงความยาวของการเข้ารหัสตัว จำกัด สำหรับเครื่องทัวริงT สัญกรณ์เป็นปกติเช่นที่C ( x )หมายถึงความซับซ้อนของ Kolmogorov xและC ( x | Y )ความซับซ้อน Kolmogorov เงื่อนไขของxรับYล.(T)T(x)x(x|Y)xY

นี่คาดเดาปริมาณของข้อมูลที่เป็นประโยชน์ที่มีอยู่ในx สิ่งที่เราสามารถถามได้คือตัวไหนที่Tเลือกระหว่างคนที่ตอบสนองความต้องการ ปัญหาที่เกิดขึ้นคือการแยกโปรแกรมที่สั้นที่สุดx *เป็นส่วนx * = P Qเซนต์พีแสดงให้เห็นถึงความเหมาะสมT นี้เป็นจริงความคิดที่ดีที่มาจากกระบอกไม้ไผ่ยาวคำอธิบายขั้นต่ำ (MDL)TxTx* * * *x=pqpT


4

อาจเป็นเพราะ "ประโยชน์" ยากที่จะกำหนด บอกว่าเรามีสูงโครงสร้างข้อความข้อมูลที่อุดมซึ่งจะสามารถบีบอัดที่มากที่สุดโดยมีปัจจัยของαข้อความY โดยสังเขปxและyมีจำนวนข้อมูลที่เป็นประโยชน์เท่ากัน อันที่จริงมันมีข้อมูลจำนวนเท่ากันตามคำจำกัดความปกติ ทีนี้ลองนึกภาพคำนำหน้าzของxของความยาวเท่ากับy ; มันควรจะมีไม่มีข้อมูลที่เป็นประโยชน์มากขึ้นกว่าxจึงไม่เกินปี อย่างไรก็ตามyเป็น "สุ่ม" มากกว่าzตั้งแต่zxαYxYZxYxYYZZ can be compressed and Y can't. So if we try to associate "useful" information with compressibility, we could run into the following paradox: a prefix of a message could have higher "useful" information than the entire message, seemingly a contradiction.


It may be hard to define, and it may be that it cannot rely trivially on compressibility the way "information" does, but it seems like the more important definition! As it stands, "information" seems to be an alias for "Kolmogorov complexity", rather than a serious attempt to define information in the usual sense, which in other contexts must, by definition, be useful! Is this an active area of research? Are there any proposed definitions?
user1247

@user1247 Why do you see Kolmogorov complexity as not being serious?
Juho

@mrm ฉันเห็นว่ามันเป็นแนวคิดที่จริงจังและน่าสนใจมาก แต่ฉันรู้สึกไม่สบายใจที่จะเรียกแนวคิด "ข้อมูล" การสุ่มมีสตริงข้อมูลอย่างสมบูรณ์หมายความว่าอย่างไร "ข้อมูลที่เป็นประโยชน์" ดูเหมือนจะมีประโยชน์มากกว่าและน่าสนใจเมื่อพูดถึงข้อมูล (ที่ "มีประโยชน์" โดยนัย) ในโลกแห่งความเป็นจริงในการสนทนาเชิงกลศาสตร์หรือเชิงควอนตัมเกี่ยวกับข้อมูลที่ถูกส่งหรือรับ
user1247

1
@ user1247 วิธีที่น่าสนใจในการตีความคำตอบของฉันคือ: ข้อมูลมีประโยชน์หรือไร้ประโยชน์ตามวิธีการตีความ สำหรับการตีความที่แน่นอนข้อความหนึ่งอาจมีข้อมูลที่เป็นประโยชน์มากกว่าหรือน้อยกว่าอีกข้อความหนึ่ง ทฤษฏีของข้อมูลที่เป็นประโยชน์ใด ๆ ในความคิดของฉันจะต้องคำนึงถึงการตีความดังกล่าว (มาตรการปกติเช่นเอนโทรปีทำสิ่งนี้เช่นกันแม้ว่าโดยปริยาย)
Patrick87

@Patrick87 I absolutely agree that any good theory of "useful information" should take into account the decryption mechanism. That's what makes it an interesting problem! If you send me a bit string, and in principle I can't decrypt it, then it should be defined to contain no useful information.
user1247

4

From a less formal point of view, I think it may help if you detach yourself from the word "random," as you're correct that a set of truly random bits don't store any information in a practical sense. (If I encrypt a set of names and send the encrypted values to you, they may have very high Kolmogorov complexity but it's not going to help you figure out the names).

But think about it in this way. If you see a website in a foreign language (say Swedish, assuming you don't speak it) it's going to look more or less random. There will be some order to the words, but not much. However, if you look at a webpage with text that looks like this: 123456123456123456123456... and so on, you'll be able to understand it more quickly. If you don't speak Swedish you'll probably be able to get much more out of it, even if the Swedish webpage said the equivalent of "the first six numbers repeated sequentially". The websites contain the same information, but one looks random to you. And for the amount of space, the one you understand is way less efficient than the Swedish webpage, even though it stores the same information. You may not find this information "useful" because it's in Swedish, but the information is still there.

แนวคิดเกี่ยวกับ "ข้อมูล" นั้นมีความเป็นสากลดังนั้นสิ่งที่ดูเหมือนสุ่มและไม่มีประโยชน์อะไรสำหรับคุณคุณอาจเก็บข้อมูลจำนวนมากไว้กับคนอื่น การวัดข้อมูลมีวัตถุประสงค์เพื่อเป็นคุณสมบัติที่แท้จริงของสตริงและไม่สามารถขึ้นอยู่กับสิ่งที่ทำและไม่สมเหตุสมผลกับคุณและสิ่งที่คุณสามารถและไม่สามารถตีความได้

อีกจุด (ทางเทคนิคเพิ่มเติม) ที่อาจช่วยได้ก็คือฉันไม่ชอบตรงนี้เล็กน้อย เมื่อ Juho ชี้ให้เห็นข้อมูลก็คือนิยามโดยสัมพันธ์กับผู้ที่ตีความมัน คุณอาจพบว่าหน้าเว็บภาษาสวีเดนไม่มีประโยชน์อย่างสมบูรณ์ในฐานะยานพาหนะสำหรับให้ข้อมูล แต่บางคนที่พูดภาษาสวีเดนอาจพบว่ามีข้อมูลจำนวนมาก คำจำกัดความสะท้อนถึงสิ่งนี้ อย่างไรก็ตามจากคณิตศาสตร์เราสามารถเรียนรู้ว่าความแตกต่างระหว่างหน้าเว็บที่สั้นที่สุด (ข้อมูลมากที่สุดสำหรับพื้นที่) เพื่อสื่อสารเว็บไซต์นี้กับคุณและหน้าเว็บที่สั้นที่สุดที่สามารถสื่อสารกับคนที่พูดภาษาสวีเดนอาจแตกต่างกันเพียงค่าคงที่เพิ่มเติม ทำไม? เพราะสำหรับคุณในฐานะวิทยากรที่ไม่ใช่ชาวสวีเดนวิธีที่สั้นที่สุดในการจัดเก็บหน้าเว็บที่คุณสามารถเข้าใจได้คือ "จำนวนเต็มหกตัวแรกที่ซ้ำกันตามลำดับ นี่อาจจะนานกว่าภาษาสวีเดนนิดหน่อย

แต่แม้ว่าคุณจะสามารถพูดภาษาสวีดิชได้คุณก็สามารถตัดค่าคงที่เพิ่มเติมได้จากความยาว! ทำไม? เพราะคุณสามารถไปซื้อพจนานุกรมภาษาสวีเดน - ภาษาอังกฤษได้เสมอ จากนั้นหน้าเว็บภาษาสวีเดนระยะสั้นสุดจะเข้าท่าสำหรับคุณ แน่นอนว่าพวกเขาจะสมเหตุสมผลเมื่อคุณมีพจนานุกรมเท่านั้น แต่พจนานุกรมนั้นมีความยาวคงที่ ดังนั้น

(การนำเสนอข้อมูลที่มีประสิทธิภาพมากที่สุดในภาษาอังกฤษ)(การเป็นตัวแทนที่มีประสิทธิภาพมากที่สุดในสวีเดน)+(ความยาวของพจนานุกรมภาษาสวีเดน - ภาษาอังกฤษ)
. นี่เป็นประเด็นเล็กน้อยจากคำถามเดิมของคุณ แต่ประเด็นที่ฉันพยายามทำก็คือมันไม่สำคัญว่าใครกำลังอ่านข้อมูลมากเกินไป เว็บเพจภาษาสวีเดนที่ดูสุ่มไม่ได้ "มีประโยชน์" สำหรับคุณ แต่เป็น "ประโยชน์" สำหรับคนอื่นและคุณเป็นเพียงข้อมูลจำนวนหนึ่งที่คงที่ไม่สามารถใช้ประโยชน์ได้ด้วยตัวเอง
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.