ขอบเขตกับขนาดของ NFA ที่เล็กที่สุดสำหรับ L_k-different


18

พิจารณาภาษาL k - วันที่ฉันs T ฉันn ทีLkdistinctประกอบด้วยทั้งหมดkk -letter สตริงมากกว่าΣΣเช่นว่าไม่มีตัวอักษรสองตัวมีค่าเท่ากัน:

L k - วันที่ฉันs T ฉันn ที : = { W = σ 1 σ 2 . . σ k | ฉัน[ k ] : σ ฉันΣ  และ  เจฉัน: σ เจσ ฉัน }  

Lkdistinct:={w=σ1σ2...σki[k]:σiΣ  and  ji:σjσi}

ภาษานี้มี จำกัด และดังนั้นจึงเป็นปกติ โดยเฉพาะถ้า| Σ | = n|Σ|=nจากนั้น| L k - วันที่ฉันs T ฉันn ที | = ( nk ) k! |Lkdistinct|=(nk)k!.

ออโตเมติก จำกัด แบบไม่ จำกัด ขนาดเล็กที่สุดที่ยอมรับภาษานี้คืออะไร

ปัจจุบันฉันมีขอบเขตบนและล่างที่หลวมดังต่อไปนี้:

  • NFA ที่เล็กที่สุดที่ฉันสามารถสร้างได้มี4 k ( 1 + o ( 1 ) )p o l y l o g ( n )4k(1+o(1))polylog(n)สถานะ

  • บทแทรกต่อไปนี้แสดงถึงขอบเขตล่างของ2 k2kฯ :

ให้เป็นภาษาปกติ สมมติว่ามีคู่เช่นนั้นถ้าหากเท่านั้น ดังนั้น NFA ใดที่รับ L มีสถานะอย่างน้อย n รัฐL Σ *LΣ nnP = { ( x i , w i ) 1 i n } x iw jL i = jP={(xi,wi)1in}xiwjLi=j

  • ขอบล่างอีกเล็กน้อย (เล็กน้อย) คือซึ่งเป็นบันทึกของขนาดของ DFA ที่เล็กที่สุดสำหรับภาษาl o g ( nlogk )(nk)

ฉันยังสนใจใน NFA ที่ยอมรับเฉพาะเศษส่วนคงที่ ( ) ของถ้าขนาดของออโตมาตามีขนาดเล็กกว่า(n)0<ϵ<10<ϵ<1LkdistinctLkdistinctϵ4k(1+o(1))polylog(n)ϵ4k(1+o(1))polylog(n)


แก้ไข: ฉันเพิ่งเริ่มรางวัลที่มีข้อผิดพลาดในข้อความ

ฉันหมายความว่าเราอาจคิดในขณะที่ผมเขียน(n))k = p o l y l o g ( n ) k=polylog(n)k = O ( l o g ( n ) )k=O(log(n))

Edit2:

เงินรางวัลจะสิ้นสุดลงในไม่ช้าดังนั้นหากใครสนใจสิ่งที่อาจเป็นวิธีที่ง่ายกว่าในการหารายได้ให้พิจารณาภาษาต่อไปนี้:

L ( R , k ) - วันที่ฉันs T ฉันn ที : = { W : W k R }L(r,k)distinct:={w:wมีสัญลักษณ์ที่แตกต่างกันและเป็นสัญลักษณ์ไม่ปรากฏมากกว่าครั้ง\}kr}

(เช่น )L(1,k)distinct=LkdistinctL(1,k)distinct=Lkdistinct

สิ่งก่อสร้างที่คล้ายกันในความคิดเห็นให้โตขนาดใหญ่สำหรับ .O(ek2klog(1+r)poly(n))O(ek2klog(1+r)poly(n))L(r,k)distinctL(r,k)distinct

สามารถปรับปรุงได้ไหม ขอบล่างที่ดีที่สุดที่เราสามารถแสดงให้กับภาษานี้คืออะไร?


2
คุณสามารถอธิบาย NFA ที่มีขอบเขตสูงได้หรือไม่
mjqxxxx

ฉันยังไม่สามารถเขียนเกี่ยวกับเรื่องนี้ได้ในขณะที่เรายังคงดำเนินการอยู่และยังไม่สามารถพิสูจน์ได้ แต่ฉันจะอธิบายออโตเมติกง่ายๆที่มีขนาดO ( ( 2 e ) k2 O ( l o g ( k ) )l o g ( n ) ) : ใช้( n , k ) - แฮชที่สมบูรณ์แบบ . ทุกแฮชดังกล่าวเป็นฟังก์ชันh : [ n ] [ k ]O((2e)k2O(log(k))log(n))(n,k)Hh:[n][k]. นี่หมายความว่าสำหรับทุกเซตย่อยที่มีขนาด[ n ]มากที่สุดk จะมีฟังก์ชันh H อยู่เพื่อให้แมปทุกรายการของชุดย่อยเป็นจำนวนที่แตกต่างกัน หลังจากแปลงแป้นพิมพ์ตัวอักษรส่งผลให้มีkตัวอักษรด้วยเหตุนี้ autumaton ขนาด2 kสามารถยอมรับL k - d ฉันs T ฉันn ทีภาษา [n]khHk2kLkdistinct
RB

4
ขอบเขตล่างให้( 2 - o ( 1 ) ) kเพียงแค่นับจำนวนสถานะที่ NFA สามารถอยู่ในขั้นตอนk / 2 ฉันไม่คิดว่าฉันรู้วิธีหลักฐานใด ๆ ที่ทำให้ขอบเขตอย่างมีนัยสำคัญที่ดีกว่าสำหรับขนาดรวมกว่าสิ่งที่สามารถรับได้มากกว่าโดยเพียงแค่มองหาสิ่งที่เกิดขึ้นหลังจากทีขั้นตอนสำหรับบางคนที แต่ที่นี่ทุกทีมี NFA ที่สามารถเป็นเพียงหนึ่ง( 2 + o ( 1 ) ) kรัฐหลังตรงเสื้อรัฐ(2o(1))kk/2ttt(2+o(1))kt
โนม

3
หลักฐาน (จากการอ้างสิทธิ์ก่อนหน้าของฉัน): กรณีที่ยากที่สุดคือt = k / 2 ; เลือก2 kP o L Y ( k , บันทึกn )ย่อยสุ่มที่แตกต่างกันS ฉัน (ของnสัญลักษณ์ตัวอักษร) ที่มีขนาดตรงtแต่ละคนและสร้าง NFA ที่มีรัฐสำหรับแต่ละฉันมีเส้นทางบางส่วนนำไปสู่ IFF สัญลักษณ์tแรกจะแตกต่างกันทั้งหมดและมีอยู่ในS iและมีเส้นทางการยอมรับจากมันถ้า iff kต่อไปนี้-t=k/22kpoly(k,logn)SintitSi tktสัญลักษณ์ทั้งหมดที่แตกต่างกันและมีอยู่ในส่วนประกอบของSฉัน อาร์กิวเมนต์การนับจะแสดงให้เห็นว่า whp (มากกว่าตัวเลือกแบบสุ่มของS i ) NFA นี้จะยอมรับภาษาที่ต้องการทั้งหมดอย่างแท้จริง SiSi
โนม

3
ในการก่อสร้างก่อนหน้านี้วิธีที่ง่ายที่สุดในการสร้าง NFA จะมีรัฐสำหรับแต่ละคำนำหน้าเป็นไปได้ของความยาวJ < Tและสำหรับแต่ละคำต่อท้ายที่เป็นไปได้ของความยาวJ > k -เสื้อ แต่ส่วนคำนำหน้าและคำต่อท้ายส่วนหนึ่งของ NFA สามารถสร้างซ้ำโดยใช้การก่อสร้างแบบสุ่มเดียวกัน ( แต่ตอนนี้เฉพาะภายในS ฉันและส่วนประกอบตามลำดับ) และนี้จะให้( 4 + o ( 1 ) ) kขนาดรวม j<tj>ktSi(4+o(1))k
โนม

คำตอบ:


2

นี่ไม่ใช่คำตอบ แต่เป็นวิธีการที่ฉันเชื่อว่าจะทำให้ขอบเขตล่างที่ดีขึ้น ให้เราตัดปัญหาหลังจากตัวอักษรจะอ่าน แสดงว่าครอบครัวของชุดองค์ประกอบของ[ n ]โดยและครอบครัวของ= k -ชุดองค์ประกอบของ[ n ]โดยB แสดงถึงสถานะที่สามารถเข้าถึงได้หลังจากอ่านองค์ประกอบของA (ในลำดับใด ๆ ) โดยS Aและรัฐที่รัฐยอมรับสามารถเข้าถึงได้หลังจากอ่านองค์ประกอบของB (ในลำดับใด ๆ ) โดยT Baa[n]Ab=ka[n]BASABTB. เราต้องการS AT Bถ้าA B = เท่านั้น นี่ทำให้ขอบเขตที่ต่ำกว่าสำหรับจำนวนรัฐที่ต้องการและฉันคิดว่ามันอาจให้บางสิ่งที่ไม่สำคัญSATBAB=

ปัญหานี้จะขอขอบเขตที่ต่ำกว่ากับจำนวนของจุดยอดของไฮเปอร์กราฟที่กราฟของเส้น (บางส่วน) ทราบ มีการศึกษาปัญหาที่คล้ายกันเช่นโดยBollobasและมีวิธีการพิสูจน์หลายวิธีที่สามารถใช้ประโยชน์ได้

ปรับปรุง 2014/03/24: ในความเป็นจริงถ้า hypergraph ข้างต้นสามารถตระหนักในsจุดแล้วเรายังได้รับไม่ใช่กำหนดโปรโตคอลการสื่อสารความซับซ้อนของความยาวล็อกsสำหรับชุด disjointness กับปัจจัยการผลิตชุดขนาดและ (ในความเป็นจริงทั้งสองปัญหา เทียบเท่า) คอขวดเป็นของหลักสูตรเมื่อ= B = k / 2สำหรับนี้ฉันเท่านั้นที่สามารถหาต่อไปนี้ใน Eyal และโนมของหนังสือ: N 1 ( D ฉันS J ) ล็อก( 2 k ล็อกอี(slogsaba=b=k/2na ) )พิสูจน์โดยอาร์กิวเมนต์ความน่าจะเป็นมาตรฐาน น่าเสียดายที่ฉันไม่สามารถ (หา) พบว่าขอบเขตที่ต่ำกว่าดีพอสำหรับปัญหานี้ แต่ถ้าสมมติว่าข้างต้นมีความคมชัดมันจะให้ขอบเขตที่ต่ำกว่าΩ(2klogn) เพื่อรวมสองขอบเขตล่างที่คุณกล่าวถึงN1(DISJa)log(2kloge(na))Ω(2klogn)


1
ขอบคุณ @domotorp สำหรับคำตอบของคุณ ดูเหมือนว่าจะเหมือนกับหลักฐานของบทแทรกที่ฉันใช้สำหรับขอบเขตล่างในคำถามเดิม แต่ไม่ได้ระบุx iและy ที่แท้จริงของฉัน ความคิดเห็นของคุณเกี่ยวกับคำถามข้างต้นแสดงให้เห็นว่าวิธีนี้ไม่สามารถปรับปรุงขอบเขต2 kได้คุณคิดว่าวิธีนี้ทำได้ดีกว่านี้หรือไม่ xiyi2k
RB

3
The whole point of my comment above was that these techniques can not give a lower bound above (2+o(1))k(2+o(1))k. This is really what makes this problem interesting to me.
Noam

@Noam: Let k=2, a=b=1. Already then we get a lognlogn lower bound as every SASA has to be different.
domotorp

1
@domotorp: The o(1)o(1) hides a O(klogn)O(klogn) factor: Here is the analysis for the worst case where a=b=k/2a=b=k/2: Start with a fixed AA and BB and pick at random a subset SS of the nn letters then we have Pr[ASandBSc]=2kPr[ASandBSc]=2k. Now pick r2kr2k such sets at random then the probability that for at least one of them this happens is 1exp(r)1exp(r). If we choose r=O(log(nk))=O(klogn)r=O(log(nk))=O(klogn) then we get that whp this is so for ALL disjoint sets AA and BB (of size k/2k/2). The total number of such SS's in this construction is O(2kklogn)O(2kklogn).
Noam

2
@Noam: I am sorry but I have never seen a lognlogn hidden in an o(1)o(1), especially as the problem is also interesting imho for k<<lognk<<logn. But you are right that R B asked about k=polylognk=polylogn.
domotorp

0

Some work in progress:

I'm trying to prove a lower bound of 4k4k. Here is a question that I'm pretty sure would give such a lower bound: find the minimum tt such that there exists a function f:{S[n],|S|=k/2}{0,1}tf:{S[n],|S|=k/2}{0,1}t that preserves disjointness, i.e. that S1S2= iff f(S1)f(S2)=. I'm pretty sure a lower bound of t2k would almost immediately imply a lower bound of 22k=4k for our problem. f(S) roughly corresponds to the set of nodes the NFA can get to after reading the first k/2 symbols of the input, when the set of these k/2 symbols is S.

I think the solution to this question might already be known, either in the communication complexity literature (especially in papers dealing with the disjointness problem; maybe some matrix rank arguments will help), or in literature about encodings (e.g. like this).


2
My comments above show that this approach cannot beat (2+o(1))n
Noam
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.