การแยกคำด้วย DFA แบบสุ่ม


15

หนึ่งในปัญหาเปิดที่น่าสนใจเกี่ยวกับ DFA ที่อยู่ในรายการมีปัญหาแบบเปิดที่เหลืออยู่เกี่ยวกับ DFA หรือไม่ คือขนาดของ DFA ที่จำเป็นในการแยกสองสายของความยาวnฉันอยากรู้ว่ามีผลลัพธ์ใด ๆ เกี่ยวกับความสามารถของ DFA แบบสุ่มในการแยกสตริงที่กำหนด (ไม่ใช่สุ่ม) สองสตริงn

เห็นได้ชัดว่า DFA แบบสุ่มที่มีหลายสถานะเพียงพอจะแยกสตริงที่มีความน่าจะเป็นสูง โดยเฉพาะถ้า , สุ่ม DFA กับกล่าวไม่น่าจะเคยทบทวนสถานะเดียวกันเมื่อมันมาถึงสถานที่แรกที่และที่แตกต่างกันและดังนั้นจึงแยกและVu,vΣnO(n)uvuv

เราทำได้ดีกว่านี้ไหม ตามหลักแล้วอะไรคือ st ที่เล็กที่สุดที่ DFA แบบสุ่มที่มีระบุแยกสตริงของความยาวด้วยความน่าจะเป็นในเชิงบวก (หรือความน่าจะเป็น ) การค้นหาสั้น ๆ ไม่ได้ทำให้เกิดผลลัพธ์มากมายในคุณสมบัติของ DFA แบบสุ่ม ทั้งหมดที่ผมสามารถหาได้http://arxiv.org/abs/1311.6830f(n)f(n)n1/2


ความน่าจะเป็นเชิงบวกไม่ใช่เงื่อนไขที่มีประโยชน์เป็นพิเศษที่นี่เนื่องจากเป็นเพียงการกล่าวถึงปัญหาเปิดใหม่ ความน่าจะเป็นสูงยังคงน่าสนใจ
Geoffrey Irving

1
"แยก" หมายความว่าอะไร ยอมรับหนึ่งและปฏิเสธอีกหรือไม่ หากเป็นเช่นนั้นเห็นได้ชัดว่าระบุว่าเพียงพอหรือไม่ O(n)
usul

ใช่การแยกหมายความว่ายอมรับอย่างใดอย่างหนึ่ง และคุณพูดถูก: การถกเถียงเรื่องการแยกเรื่องไม่สำคัญที่สุดนั้นจริง ๆ แล้วต้องการรัฐ (สิ่งที่ฉันเขียนด้านบนผิด) แม้ว่าฉันจะแปลกใจถ้าน้อยกว่านั้นไม่พอเพียง O(n2)
Geoffrey Irving

1
คุณจะไม่คาดหวังว่าขอบเขตจะขึ้นอยู่กับจำนวนคำที่ต่างกันหรือไม่ ดูเหมือนว่าคำที่แตกต่างกันด้วยตัวอักษรเดียวนั้นจะยากต่อการแยกแยะแบบสุ่มเพราะคุณต้องแยกแยะในช่วงการเปลี่ยนภาพนั้นและคำที่แตกต่างกันมากจะง่ายกว่า [เพื่อพูดคุยคุณสามารถลืมเกี่ยวกับคำนำหน้าทั่วไปที่ยาวที่สุด (คุณถึงสถานะสุ่มจากนั้น); จากนั้นตัวอักษรที่แตกต่างกันส่งคุณไปยังสถานะเดียวกันหรือไปยังรัฐอื่น ถ้ารัฐแตกต่างกันคุณต้องดู proba ของ resyncing และอยู่ในซิงค์ (เริ่มขึ้นอีกครั้งตามคำ) ... ]
a3nm

ใช่เช่นเดียวกับปัญหาแบบเปิดฉันสนใจคำที่เป็นไปได้ยากที่สุดในการแยกแยะ คำที่แตกต่างกันในสถานที่เพียงไม่กี่แห่งสามารถถูกแยกด้วยสถานะดังนั้นจึงไม่น่าจะเป็นกรณีที่ยาก O(logn)
Geoffrey Irving

คำตอบ:


2

[แก้ไข: คำตอบนี้ใช้งานไม่ได้ดูความคิดเห็น]

นี่เป็นเพียงแนวคิดที่ไม่เป็นทางการและฉันไม่รู้ว่ามันจะช่วยได้หรือไม่ แต่มันนานเกินไปที่จะได้รับความคิดเห็น นอกจากนี้ฉันไม่คุ้นเคยกับการสุ่ม DFA ดังนั้นฉันอาจมีสัญชาตญาณผิด ๆ ว่าคุณควรให้เหตุผลเกี่ยวกับความน่าจะเป็นกับพวกเขาอย่างไร แต่หวังว่านี่จะไม่ไร้ค่าทั้งหมด

ฉันจะสมมติว่าขอบเขตของคุณควรขึ้นอยู่กับว่ากับแตกต่างกันมากแค่ไหน ถ้าพวกเขาทำไม่ได้มันก็ชัดเจนสำหรับฉันว่ากรณีที่เลวร้ายที่สุดคือสตริงที่แตกต่างกันโดยตัวละครแรกของพวกเขาเท่านั้น (สตริงที่แตกต่างกันในเซตที่ตำแหน่งมีโอกาสที่จะถูกบอกแยกมากกว่าสตริงที่ต่างกันในเซตของ ตำแหน่งที่ฉันพูดและวางความแตกต่างให้เร็วที่สุดเท่าที่จะเป็นไปได้ให้โอกาสคุณในการซิงโครไนซ์ใหม่)uvXYX

ฉันจะดูความน่าจะเป็นที่คำเหล่านั้นแตกต่างกล่าวคือพวกเขาไปถึงสถานะที่แตกต่างกัน ฉันเดาว่าคุณจะต้องปรับตัวให้เข้ากับการยอมรับหรือถูกปฏิเสธโดยพิจารณาจากวิธีการ DFA แบบสุ่มของคุณจัดสรรสถานะขั้นสุดท้าย หากแต่ละรัฐมีความน่าจะเป็น 1/2 ของการเป็นคนสุดท้ายแล้วเมื่อสตริงจบลงที่สถานะเดียวกันพวกเขาจะไม่โดดเด่นและเมื่อพวกเขาจบลงที่รัฐที่แตกต่างกันพวกเขามีความน่าจะเป็น 1/2 ของการแยก

ตอนนี้ฉันจะพิจารณาคำได้จากและดังนี้:ถ้า , และอย่างอื่น ฉันคิดว่ามันเป็นที่ชัดเจนว่าเป็นสิ่งที่น่าสนใจเท่านั้นที่จะต้องพิจารณาเกี่ยวกับและVwuvwi=1ui=viwi=0wuv

ตอนนี้กำหนดน่าจะเป็นที่เราอยู่ที่รัฐเดียวกันหลังจากที่ได้อ่านคำนำหน้าของความยาวของและและความน่าจะเป็นว่าเราไม่ได้p(i)iuvq(i)=1p(i)

ผมคิดว่าเรามีเมื่อคือ1โดยสังหรณ์ใจเราอยู่ในสถานะเดียวกันหลังจากอ่านตัวอักษรทั้งเมื่อเราอยู่ในสถานะเดียวกันหลังจากอ่านหรือเมื่อเราอยู่ในสถานะที่แตกต่างกันสองสถานะ (สุ่ม) เราดึงการเปลี่ยนสถานะเป็นแบบสุ่มสองครั้ง เป็นคนเดียวกัน ในทำนองเดียวกันเรามีเมื่อเป็น : คุณกำลังวาดสองสถานะสุ่มไม่ว่าคุณจะเริ่มจากที่ใดp(i+1)=p(i)+q(i)/nwi+11i+1ip(i+1)=1/nwi+10

จากนี้ผมคิดว่าคุณสามารถคำนวณความน่าจะเป็นของการที่รัฐเดียวกันหลังจากที่ได้อ่านและVuv


แต่น่าเสียดายที่มันอยู่ไกลจากที่ชัดเจนว่าเป็นที่น่าสนใจเพียงทรัพย์สินของและVวิธีที่ง่ายที่สุดในการดูสิ่งนี้คือมีความเป็นไปได้ที่ไม่ใช่ศูนย์ในการจำแนกความแตกต่างระหว่างจาก ; แน่นอนเพียงสองรัฐพอเพียงโดยไม่คำนึงถึงnอย่างไรก็ตามตามที่กล่าวไว้ในarxiv.org/pdf/1103.4513.pdfมีคำว่าของความยาว st noสถานะ DFA สามารถแยกแยะได้ นี้ขัดแย้งกับสูตรของคุณสำหรับ(i) wuvw0nnu,vno(logn)p(i)
Geoffrey Irving

1
เพื่อให้ชัดเจนสูตรของคุณจะถูกต้องหากการเปลี่ยน DFA เป็นฟังก์ชันสุ่มของดัชนีสตริง เนื่องจากมันเป็นอิสระจากดัชนีความน่าจะเป็นมีความสัมพันธ์ในแบบที่ค่อนข้างซับซ้อน
Geoffrey Irving

ฉันเกรงว่าฉันจะไม่ได้รับตัวอย่างของคุณ มี prba, ที่มีสองสถานะของการแยก0 nและw 0 n , OK; และอาจจะมีคำพูดของความยาวnที่ไม่สามารถบอกออกจากกันด้วยo ( บันทึกn )รัฐ แต่มันขัดแย้งกับข้อเรียกร้องของฉันอย่างไรว่าwเป็นสิ่งสำคัญเพียงอย่างเดียวหรือสูตรของฉันสำหรับp ( i )>00nw0nno(logn)wp(i)? สำหรับความสัมพันธ์ฉันเห็นว่าอาจมีสิ่งที่คุณพูดถึง แต่ฉันก็ยังไม่เข้าใจว่าทำไมมันถึงล้มเหลว หากคุณผ่านสถานะเดิมสองครั้งมีความสัมพันธ์กัน แต่มีเหตุผลที่จะคิดว่ามันจะมีอิทธิพลในทิศทางที่แน่นอนโดยเฉลี่ยหรือไม่
a3nm

ถ้า , uและvมีความแตกต่างกับความน่าจะเป็นเชิงบวก แต่สำหรับขนาดใหญ่พอnและตัวเลขเล็ก ๆ ของรัฐเรารู้ว่าP ( n ) = 1สำหรับบางUและV เนื่องจากสูตรของคุณบอกเป็นนัยว่าหากp ( i ) < 1ดังนั้นp ( i + 1 ) = p ( i ) + ( 1 - pp(n)<1uvnp(n)=1uvp(i)<1สูตรของคุณไม่ได้รวบรวมความจริงที่ว่า uและ vบางอย่างไม่สามารถแยกแยะได้ p(i+1)=p(i)+(1p(i))/n=p(i)(11/n)+1/n<1uv
Geoffrey Irving

อ่า ... ใช่ฉันเข้าใจ หากไม่มี DFA ขนาดเล็กสามารถแยกความแตกต่างสองคำได้ดังนั้นDFA แบบสุ่มไม่สามารถแยกความแตกต่างได้ทั้งสองคำ แน่นอนว่ามีปัญหากับวิธีการของฉันความน่าจะเป็นควรลดลงเหลือศูนย์ในที่สุดเนื่องจากความสัมพันธ์เหล่านั้นดูเหมือน ขออภัยที่ให้คำตอบที่ไม่ถูกต้อง q(i)
a3nm
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.