ภาษาอังกฤษทั่วไปสามารถใช้ชุดของกฎไวยากรณ์ได้หรือไม่?


10

ในภาษาการเขียนโปรแกรมมีชุดของกฎไวยากรณ์ที่ควบคุมการสร้างคำสั่งที่ถูกต้องและการแสดงออก กฎเหล่านี้ช่วยในการแยกวิเคราะห์โปรแกรมที่เขียนโดยผู้ใช้

สามารถมีชุดของกฎไวยากรณ์ที่สมบูรณ์แบบที่ใช้งานได้ซึ่งสามารถแยกคำสั่งเป็นภาษาอังกฤษ (เฉพาะโลแคล) ได้อย่างถูกต้องและสามารถนำไปใช้เพื่อใช้ในโครงการที่ใช้ AI ได้หรือไม่?

ฉันรู้ว่ามีชุดเครื่องมือ NLP ออนไลน์มากมาย แต่ไม่มีประสิทธิภาพ ส่วนใหญ่ได้รับการฝึกอบรมโดยใช้อวัยวะเฉพาะซึ่งบางครั้งไม่สามารถอนุมานความสัมพันธ์ที่ซับซ้อนระหว่างส่วนต่าง ๆ ของการแสดงออก

สิ่งที่ฉันขอคือถ้าเป็นไปได้ที่คอมพิวเตอร์จะแยกประโยคที่รอบรู้ที่เขียนเป็นภาษาอังกฤษราวกับว่ามันถูกแยกวิเคราะห์โดยมนุษย์ที่พูดภาษาอังกฤษผู้ใหญ่

แก้ไข: ถ้ามันไม่สามารถแสดงโดยใช้กฎไวยากรณ์ง่าย ๆ , โครงสร้างความหมายประเภทใดที่สามารถใช้ในการสรุปมันได้?

EDIT2: บทความนี้พิสูจน์การขาดบริบทในภาษาธรรมชาติ ฉันกำลังมองหาวิธีแก้ปัญหาแม้ว่ามันซับซ้อนเกินไป


2
ฉันไม่มีข้อมูลอ้างอิงเพื่อสำรองสิ่งนี้ แต่ฉันคิดว่ามันได้รับการพิสูจน์ทางคณิตศาสตร์แล้วว่าคุณไม่สามารถทำสิ่งนี้ได้ - การเข้าใจภาษาอังกฤษอย่างสมบูรณ์ต้องใช้ตัวชี้นำบริบทที่ต้องการเหตุผลเชิงความหมายในระดับที่สูงกว่า กฎไวยากรณ์
antlersoft

ตามวิกิพีเดียส่วนใหญ่ของภาษาธรรมชาติไม่มีบริบท: en.wikipedia.org/wiki/ …
inf3rno

คำตอบ:


8

สามารถมีชุดของกฎไวยากรณ์ที่ใช้งานได้อย่างสมบูรณ์ซึ่งสามารถแยกคำสั่งเป็นภาษาอังกฤษ (เฉพาะโลแคล) ได้อย่างถูกต้องและสามารถนำไปใช้เพื่อใช้ในโครงการที่ใช้ AI ได้หรือไม่?

แยกมันใช่ถูกต้องที่สุดไม่มี

ทำไม

จากความเข้าใจของฉันเกี่ยวกับวิธีที่เราได้รับความหมายจากเสียงมี 2 กลยุทธ์เสริม:

กฎไวยากรณ์: ระบบที่ใช้กฎสำหรับการเรียงลำดับคำเพื่ออำนวยความสะดวกในการสื่อสารความหมายที่นี่มาจากการทำงานร่วมกันของเสียงที่ไม่ต่อเนื่องและความหมายที่เป็นอิสระของพวกเขาดังนั้นคุณสามารถแยกประโยคตามหนังสือกฎ

EG "นี่คือชัยชนะ" : parser จะแยกคำสรรพนาม ( นี่ ) ด้วยความหมายที่สอดคล้องกัน (บุคคลหรือสิ่งที่เฉพาะเจาะจง); กริยา ( เคย ) ที่มีความหมายตรงกัน (เกิดขึ้น); ( a ) และที่นี่เราเริ่มต้นด้วยปัญหาการแยกวิเคราะห์บางส่วนแยก parser, คำนามหรือบทความไม่ จำกัด อะไร ดังนั้นเราจึงอ่านหนังสือกฎไวยากรณ์และตัดสินความหมาย (บทความใด ๆ ที่ไม่มีกำหนด) คุณจะต้องแยกคำต่อไปและอ้างถึงมัน แต่ขอให้ปัดความในตอนนี้และในที่สุด ( ชัยชนะ ) คำนาม (มันอาจเป็นคำกริยา แต่ต้องขอบคุณหนังสือกฎไวยากรณ์ที่เราตัดสินให้เป็นรูปธรรมที่มีความหมาย: (ชัยชนะพิชิต) ดังนั้นในที่สุดเราก็มี (เข้าร่วมความหมาย):

สิ่งที่เฉพาะเจาะจงเกิดขึ้นจากชัยชนะ ใกล้พอและฉันกำลังคัดสรรกฎอื่น ๆ อยู่เล็กน้อย แต่นั่นไม่ใช่ประเด็นกลยุทธ์อื่น ๆ คือ:

พจนานุกรมศัพท์ (หรือศัพท์) ที่คำหรือเสียงที่เกี่ยวข้องกับความหมายเฉพาะ ความหมายที่นี่มาจากคำหรือเสียงหนึ่งคำหรือมากกว่าหนึ่งหน่วย สิ่งนี้จะแนะนำปัญหาให้กับ parser เนื่องจากไม่ควรแยกวิเคราะห์อะไร

EG "Non Plus Ultra"ดังนั้นตัวแยกวิเคราะห์ AI จะรับรู้ว่าวลีนี้ไม่ควรถูกแยกวิเคราะห์และจับคู่กับความหมายแทน:

จุดสูงสุดหรือจุดสูงสุด

หน่วยคำศัพท์แนะนำปัญหาอื่นที่พวกเขาเองอาจเป็นส่วนหนึ่งของตัวอย่างแรกและดังนั้นคุณจึงจบลงด้วยการเรียกซ้ำ

หากเป็นไปได้ที่คอมพิวเตอร์จะแยกประโยคที่มีความเชี่ยวชาญเป็นภาษาอังกฤษราวกับว่ามันถูกแยกวิเคราะห์โดยมนุษย์ที่พูดภาษาอังกฤษได้

ฉันเชื่อว่ามันเป็นไปได้ตัวอย่างส่วนใหญ่ที่ฉันเห็นได้อย่างมีประสิทธิภาพกับหนังสือกฎไวยากรณ์หรือส่วนพจนานุกรม แต่ฉันไม่ได้ตระหนักถึงการรวมกันของทั้งสอง แต่ในแง่ของการเขียนโปรแกรมก็อาจเกิดขึ้น

น่าเสียดายที่แม้ว่าคุณจะแก้ปัญหานี้ AI ของคุณจะไม่เข้าใจสิ่งต่าง ๆ ในความหมายที่เข้มงวด แต่นำเสนอคุณด้วยคำพ้องความหมายที่ซับซ้อนมากบริบทเพิ่มเติม (ดังที่กล่าวไว้ในความคิดเห็น) มีบทบาทในกลยุทธ์ไวยากรณ์และพจนานุกรม

หากไม่สามารถแสดงโดยใช้กฎไวยากรณ์อย่างง่ายโครงสร้างความหมายประเภทใดที่สามารถใช้เพื่อทำให้เป็นมาตรฐาน

แบบผสมที่มีทั้งกฎไวยากรณ์และคำศัพท์และทั้งสองสามารถเปลี่ยนแปลงและได้รับอิทธิพลจากบริบทและประสบการณ์เฉพาะของ AI รวมทั้งระบบสำหรับจัดการกับวัตถุเหล่านี้อาจเป็นวิธีหนึ่ง


ขอบเขตของภาษาอังกฤษของฉันถูก จำกัด ให้ใช้อย่างเป็นทางการ หากครั้งหนึ่งเราข้ามเอนทิตีที่ซับซ้อนมากเช่นคำอุปมาอุปมัยหรือสำนวนจะกำหนดไวยากรณ์ตามบริบทเพื่อให้บรรลุวัตถุประสงค์หรือไม่
skrtbhtngr

@skrtbhtngr: ในทางทฤษฎีใช่มันจะเป็นส่วนย่อยตามภาษาที่เป็นทางการบริบทจะยังคงเป็นปัญหาที่ยาก
Keno

กล่องด้านข้าง: "มันเป็นชัยชนะ" ที่พูดถึงมอเตอร์ไซค์ด้วยเหตุผลหลายประการ (จักรยานคันแรก, จักรยานที่ถูกไฟไหม้), บางทีเราอาจจะเถียงว่ามันต้องใช้ตัวพิมพ์ใหญ่เพื่อแยกแบรนด์จากคำนาม
Tensibai

ฉันยอมรับว่าความเข้าใจความหมายของข้อความเป็นส่วนที่ยาก เพียงแค่ประโยคง่ายๆ: "ปีเตอร์ไปดูหนัง" มีข้อมูลที่ซ่อนอยู่มากมาย: ปีเตอร์เป็นผู้ชายเขามักจะไปดูหนังกับแฟนของเขาตำแหน่งของเขาเปลี่ยนไป ฯลฯ ... การสร้างแบบจำลองตัวอย่างเช่นกราฟตามข้อความไม่เพียงพอเพราะมันเป็น ไม่ใช่สิ่งคงที่มันสามารถอธิบายเหตุการณ์ต่าง ๆ ระยะเวลาเหตุการณ์และบริบทรวมทั้งมีข้อมูลที่ซ่อนอยู่ในทุกประโยคที่คุณสามารถอนุมานและใช้เพื่อทำความเข้าใจประโยคก่อนหน้าหรือต่อไปนี้
inf3rno

2

ฉันค่อนข้างมั่นใจว่าคำตอบคือ "ไม่" ในความหมายที่เข้มงวดที่สุดเนื่องจากภาษาอังกฤษไม่มีคำจำกัดความที่เป็นทางการ นั่นคือไม่มีใครควบคุมภาษาอังกฤษและเผยแพร่ไวยากรณ์อย่างเป็นทางการที่ทุกคนต้องปฏิบัติตาม ภาษาอังกฤษถูกสร้างขึ้นผ่านกระบวนการประสบการณ์และมีความขัดแย้งและข้อบกพร่อง แต่ธรรมชาติที่น่าจะเป็นไปได้ของจิตใจมนุษย์ช่วยให้เราสามารถแก้ไขปัญหาเหล่านั้นได้

ตัวอย่างเช่น "ประโยค" นี้:

ประโยคนี้ไม่มีคำกริยา

ในทางเทคนิคแล้วมันไม่ใช่ประโยคเลยเพราะมันไม่มีคำกริยา แต่ไม่มีใครมีปัญหาในการทำความเข้าใจว่ามันหมายถึงอะไร? น่าสงสัย ลองคิดกฎอย่างเป็นทางการสำหรับสิ่งนั้น และนั่นเป็นเพียงตัวอย่างเดียว

ตอนนี้คุณสามารถคิดไวยากรณ์อย่างเป็นทางการซึ่งอาจครอบคลุม 90% ของคดีและ "ดีพอ" สำหรับการใช้งานจริงส่วนใหญ่หรือไม่? อาจจะเป็นไปได้ แต่ฉันค่อนข้างมั่นใจว่าเป็นไปไม่ได้ที่จะได้ 100%


1
ตัวอย่างของคุณไม่ใช่ไวยากรณ์ดังนั้นทำไมไวยากรณ์ควรมีกฎอย่างเป็นทางการเพื่ออธิบายมัน
BlindKungFuMaster

1
นั่นคือจุดของฉัน เป็นภาษาอังกฤษอย่างชัดเจนและเข้าใจได้ง่าย แต่หากไม่สามารถใช้คำนิยามไวยากรณ์ภาษาอังกฤษที่ใช้กันทั่วไป ดังนั้นมันจึงเป็นตัวอย่างของวิธีการพูดภาษาอังกฤษที่ใช้งานจริงนอกขอบเขตของไวยากรณ์ที่เข้มงวด
mindcrime

2

เราได้ข้อสรุปว่ามันเป็นปัญหาแบบวงกลมสองด้าน: โครงสร้างไม่สามารถอนุมานได้หากไม่มีบริบท แต่การรู้โครงสร้างยังช่วยอนุมานบริบทด้วย ดังนั้นนี่คือวิธีแก้ปัญหาที่ซับซ้อนของคุณ: เริ่มต้นด้วยบริบทซึ่งถูกกำหนดโดยการรวมคำในประโยค (combinatorics และปัญหาการค้นหา) จากนั้นกำหนดโครงสร้างของคุณหรือ "แยก" (ในขั้นตอนนี้คุณยังสามารถกรอง คำที่ไม่สำคัญหรืออย่างน้อยก็ให้น้ำหนักที่น้อยกว่าแก่พวกเขา) กลับไปที่บริบทกลับไปที่การแยกวิเคราะห์และจนกว่าคุณจะถึงความหมาย ดังนั้นโดยการวนซ้ำการลดการวนซ้ำปัญหาทั้งหมดสามารถแก้ไขได้


2

ฉันไม่เห็นด้วยอย่างยิ่งกับความคิดเห็นเดิมทั้งหมด ไม่ใช่เพราะมันผิด - ซึ่งไม่ใช่ - แต่เพราะมันทำให้เข้าใจผิด - แม้ว่าจะไม่ได้ตั้งใจ

ตัวอย่างเช่น: หากมองปัญหาเหล่านี้จากตำแหน่งทางวิชาการปัญหาจะดูไม่ผ่านเสมอ นี่เป็นเพราะทุกอย่างถูกประเมินอย่างเย็นชาและคำนวณแยกอย่างอื่น

คำตอบส่วนใหญ่อยู่ในการเชื่อมโยงคำคำว่าสมาคมคุณต้องเขียนโปรแกรมที่สามารถประมวลผลฐานข้อมูลหนังสือดิจิทัลจำนวนมากเพื่อลงทะเบียนทุกคำและทุกคำในภาษานั้นที่เกี่ยวข้อง บวกข้อมูลสถิติทั้งหมดด้วยคำที่เกี่ยวข้องแต่ละคำและเครื่องหมายวรรคตอนที่เกี่ยวข้อง

นี่จะให้พื้นฐานที่ AI สามารถตัดสินใจได้หลายสิ่ง:

  1. ไม่ว่าจะเป็นโครงสร้างของประโยคที่ถูกต้องหรือไม่
  2. หากโครงสร้างไม่ดีความน่าจะเป็นคือการกำหนดบริบทและเจตนาของสิ่งที่กำลังพูด
  3. ความหมายที่ถูกต้องและการประยุกต์ใช้คำที่มีหลายแง่มุม (ไทรอัมพ์) เป็นไปตามความน่าจะเป็น - ตามสถิติ
  4. เพื่อกำหนดว่าการสนทนาน่าจะไปที่ใด
  5. ไวยากรณ์และเครื่องหมายวรรคตอนที่ถูกต้องควรเป็นอย่างไร

ดังนั้นโดยสรุปคุณมีสองสิ่งที่ต้องค้นหา: การเชื่อมโยงและความน่าจะเป็น

เมื่อ databasing แบบจำลองภาษาดิจิทัลความเป็นไปได้ของคำและประโยค "สตริง" จะเกิดขึ้นดังนั้นการเปลี่ยนแปลงโครงสร้างภาษาในประโยคใด ๆ สามารถกำหนดได้ทั้งก่อนระหว่างและหลังตัวอย่างข้อความกำลังถูกขีดเขียน การควบคุมอย่างใกล้ชิดเกี่ยวกับรูปแบบรูปแบบภาษาซึ่งหมายความว่าส่วนประกอบที่ละเอียดอ่อนเช่น "หัวเรื่อง" และ "วัตถุ" สามารถกำหนดได้อย่างง่ายดายด้วยรหัส


ฉันคิดว่ามันเป็นแง่ดีเกินไป ภาษายุ่งเกินกว่าที่จะทำงานได้
Oliver Mason
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.