คุณภาพที่แท้จริงของการแปลด้วยเครื่องคืออะไร?


27

จนถึงวันนี้ฉัน - ในฐานะคนธรรมดา AI - สับสนโดยสัญญาและบรรลุการปรับปรุงการแปลอัตโนมัติ

ความประทับใจของฉันคือ: ยังคงมีวิธีที่จะไปได้ไกลมาก หรือมีคำอธิบายอื่น ๆ ว่าทำไมการแปลอัตโนมัติ (เสนอและให้บริการโดย Google เช่น) ของบทความวิกิพีเดียที่ค่อนข้างง่ายที่ยังคงอ่านและฟังดูไร้สาระเป็นหลักอ่านได้ยากและมีประโยชน์และมีประโยชน์เพียงบางส่วนเท่านั้น?

มันอาจขึ้นอยู่กับความชอบส่วนบุคคล (เกี่ยวข้องกับการอ่านความช่วยเหลือและประโยชน์) แต่ความคาดหวังส่วนตัวของฉันผิดหวังอย่างมาก

วิธีอื่น ๆ : การแปลของ Google ยังคงสามารถอ่านได้มีประโยชน์และเป็นประโยชน์สำหรับผู้ใช้ส่วนใหญ่หรือไม่?

หรือ Google มีเหตุผลในการรักษาความสำเร็จ (และไม่แสดงต่อผู้ใช้ที่ดีที่สุดที่พวกเขาสามารถแสดงได้)


ผลลัพธ์เบื้องต้น: เรายังคงห่างไกลจากความสามารถในการพูดคุยกับปัญญาประดิษฐ์ในฐานรากและความเข้าใจที่เท่าเทียมกัน - เฉพาะในระดับของสายอักขระ แล้วทำไมเราต้องกลัว เพราะพวกเขารู้มากกว่าที่เรารู้ - แต่เราไม่รู้


2
การแปลภาษาด้วยเครื่องเป็นปัญหาที่ยากโดยเฉพาะอย่างยิ่งเนื่องจากเทคนิคสมัยใหม่ไม่พยายามที่จะเข้าใจข้อความที่จะแปล ที่ใช้งานได้มากหรือน้อยในหลาย ๆ กรณี แต่ก็สามารถล้มเหลวได้อย่างงดงาม ฉันพบว่าเป็นการส่วนตัว - จำไว้ว่า - การแปลส่วนใหญ่มีประโยชน์และฉันไม่มีเหตุผลที่จะเชื่อว่า บริษัท MT กำลังถือหุ้นคืน อาจเป็นแอปพลิเคชันเฉพาะโดเมนที่มีความไวในเชิงพาณิชย์มากกว่า แต่ไม่ใช่ MT ทั่วไปที่กว้าง
Oliver Mason

@OliverMason: "เทคนิคที่ทันสมัยไม่พยายามที่จะเข้าใจข้อความที่จะแปล" - นั่นคือสาระสำคัญที่จะบอก? นั่นเป็นวิธีที่ฉันต้องเข้าใจผลลัพธ์ของโปรแกรม MT? น่าเศร้านั่นเอง (ความขัดแย้งบางอย่างจากชุมชน AI จะได้รับการต้อนรับอย่างมาก!)
Hans-Peter Stricker

1
@ Hans-PeterStricker: จริง ๆ แล้วมันเริ่มต้นเมื่อFred Jelinekสังเกตว่านักภาษาศาสตร์การยิงทำให้ตัวจดจำคำพูดของเขาแม่นยำยิ่งขึ้น ตั้งแต่นั้นมารูปแบบต่าง ๆ ของการเรียนรู้ของเครื่องได้ตาม AI ตามกฎและตอนนี้เราแทบไม่มีความคิดที่ลึกซึ้งที่สุดว่าระบบ AI ส่วนใหญ่ "ใช้งานได้จริง" - ยกเว้นในระดับสุ่ม
Kevin

2
@ Hans-PeterStricker มันไม่ได้มีประโยชน์อะไรเลยหากคิดว่าระบบ AI ที่ทันสมัยเป็น 'ทำความเข้าใจ' บางสิ่ง คิดว่ามันเป็นระบบที่ใช้ชุดของอินพุตและสร้างชุดของเอาต์พุต อินพุตอาจเป็นข้อความภาษาอังกฤษและส่งออกข้อความภาษาสเปน ระบบได้ 'เรียนรู้' สิ่งนี้จากข้อความภาษาอังกฤษทั้งหมดและตำราภาษาสเปนที่เทียบเท่ากัน นั่นแปลว่าเข้าใจภาษาอังกฤษหรือเข้าใจภาษาสเปน? นั่นเป็นคำถามเชิงปรัชญามากกว่า สิ่งที่สำคัญคือสามารถแปลงภาษาอังกฤษเป็นภาษาสเปนด้วยความน่าเชื่อถือในระดับหนึ่ง
Josh Eller

มันสัมผัสกับคำตอบเล็กน้อย แต่ฉันคิดว่ามันมีค่าที่ชี้ให้เห็นว่าคำตอบนั้นขึ้นอยู่กับคู่ภาษาที่คุณกำลังพูดถึง คุณภาพของการพูดภาษาอังกฤษ <-> ภาษาสเปนนั้นสูงกว่าภาษาอังกฤษอย่างมาก <-> ญี่ปุ่น
mbrig

คำตอบ:


21

ใครอ้างว่าการแปลด้วยคอมพิวเตอร์ดีเท่ากับนักแปลมนุษย์? สำหรับฉันในฐานะนักแปลมืออาชีพที่ทำให้เขามีชีวิตอยู่กับการแปลเป็นเวลา 35 ปีแล้วมอนแทนาหมายความว่าการผลิตการแปลที่มีคุณภาพของมนุษย์ในชีวิตประจำวันของฉันเติบโตขึ้นด้วยปัจจัย 3 ถึง 5 ขึ้นอยู่กับความซับซ้อนของข้อความต้นฉบับ

ฉันไม่สามารถตกลงได้ว่าคุณภาพของ MT ลดลงตามความยาวของการป้อนภาษาต่างประเทศ ที่เคยเป็นจริงสำหรับระบบเก่าที่มีการวิเคราะห์ความหมายและไวยากรณ์ ฉันไม่คิดว่าฉันรู้จักระบบเก่าทั้งหมด (ฉันรู้จัก Systran เครื่องมือที่ไร้ค่าจากซีเมนส์ที่ขายจาก บริษัท หนึ่งไปยัง บริษัท ถัดไปเช่นของขวัญของ Danaer, XL8, นักแปลส่วนบุคคลและการแปล) แต่แม้แต่ระบบมืออาชีพ ที่ฉันลงทุน 28.000 DM (!!!!) ล้มเหลวอย่างน่าสังเวช

ตัวอย่างเช่นประโยค:

ในวันฤดูร้อนนี้ฉันต้องทำงานและมันก็เป็นความเจ็บปวดในตูด

สามารถแปลโดยใช้เครื่องมือ MT หลายภาษาเป็นภาษาเยอรมัน

นักแปลส่วนบุคคล 20 :

Auf Dieem heißen Sommertag musste ich arbeiten, และ es war ein Schmerz im Esel

พรอมต์ :

การตายของเขา Sommertag musste ich arbeiten, และสงครามใน Schmerz im Esel.

DeepL :

คำอธิบายของ Sommertag musste ich arbeiten und es war eine Qual.

Google:

คำอธิบายของ Sommertag musste ich arbeiten und es war ein Schmerz im Arsch.

วันนี้ Google มักจะนำเสนอการแปลที่อ่านง่ายและเกือบจะถูกต้องและ DeepL นั้นดีกว่า เมื่อเช้านี้ฉันแปล 3500 คำใน 3 ชั่วโมงและผลลัพธ์นั้นไร้ที่ติแม้ว่าข้อความต้นฉบับจะเต็มไปด้วยข้อผิดพลาด (เขียนเป็นภาษาจีน)


4
สำหรับพวกเราที่ไม่พูดภาษาเยอรมันไม่ชัดเจนว่าทางเลือกใดบ้างที่ดีและไม่ดี ฉันรู้ว่า "Esel" หมายถึง "ตูด (สัตว์)" และ "Arsch" แปลว่า "ตูด (ส่วนของร่างกาย)" ฉันไม่ทราบว่า "Qual" หมายถึงอะไรหรือถ้า "ein Schmerz im Arsch" เป็นที่ยอมรับ
เฮมเมอร์

3
"Schmerz im Esel" เป็นเรื่องตลก (และผิด) "Arsch" เป็นคำภาษาพูดค่อนข้างที่คุณจะไม่ใช้เป็นภาษาเยอรมัน "Qual" คือ "ความเจ็บปวด" ดังนั้น IMHO จึงเป็นตัวเลือกที่ดีกว่าแม้ว่าจะไม่ถูกต้องนักเนื่องจากประโยคดังกล่าวแสดงความน่ารำคาญมากกว่าความเจ็บปวดที่เกิดขึ้นจริง
Oliver Mason

1
@OliverMason Qual เป็นคำแปลที่ดี: dict.leo.org/englisch-deutsch/qual
yunzen

4
@OliverMason ฉันเป็นเจ้าของภาษาเยอรมันและฉันคิดว่ามันค่อนข้างเหมาะสม
yunzen

5
@OliverMason“ ความเจ็บปวดในตูด” เป็นสำนวน “ Schmerz im Arsch” ไม่ได้: ไม่มีใครพูดว่า “ คุณภาพ” เป็นคำแปลที่ถูกต้องของสำนวนภาษาอังกฤษซึ่งตรงกันข้ามกับสิ่งที่คุณพูดไม่ค่อยแสดงถึงความเจ็บปวดทางกายที่เกิดขึ้นจริง หากไม่มีบริบทเพิ่มเติมการแปล DeepL ดูเหมือนจะสมบูรณ์แบบ
Konrad Rudolph

7

การแปลของ Google นั้นมีประโยชน์โดยเฉพาะอย่างยิ่งถ้าคุณรู้ว่าการแปลนั้นไม่สมบูรณ์และถ้าคุณแค่ต้องการมีความคิดเบื้องต้นเกี่ยวกับความหมายของข้อความ (ซึ่งการแปลของ Google บางครั้งอาจทำให้เข้าใจผิดหรือไม่ถูกต้อง) ฉันจะไม่แนะนำการแปลของ Google (หรือนักแปลอื่น ๆ ที่ไม่ใช่มนุษย์) เพื่อทำการแปลอย่างจริงจังเว้นแต่จะเป็นประโยคหรือคำทั่วไปมันไม่ได้เกี่ยวข้องกับข้อความที่ยาวมากและภาษาที่ไม่เป็นทางการ (หรือคำแสลง) ภาษาอังกฤษหรือคุณไม่สามารถเข้าถึงนักแปลได้

Google Translateปัจจุบันใช้เครื่องแปลภาษาประสาท ในการประเมินแบบจำลองนี้ (และแบบจำลองที่คล้ายกัน) ตัวชี้วัด BLEU (ขนาดตั้งแต่0ถึง100โดยที่100สอดคล้องกับการแปลมาตรฐานทองคำแบบมนุษย์) และการประเมินแบบเคียงข้างกัน (อัตรามนุษย์ที่การแปล) ถูกนำมาใช้ หากคุณใช้เฉพาะ BLEU เมทริก traslations ค่อนข้างแย่ (แต่ BLEU เมทริกยังไม่ใช่เมทริกการประเมินที่สมบูรณ์แบบเพราะมักจะมีการแปลมากกว่าหนึ่งประโยค) อย่างไรก็ตาม GNMT ลดข้อผิดพลาดการแปลเมื่อเทียบกับวลีที่ใช้เครื่องแปลภาษา (PBMT)

ในกระดาษทำให้ AI มีความหมายอีกครั้งผู้เขียนยังพูดคุยเกี่ยวกับความยากลำบากในการแปล (ซึ่งเชื่อว่าเป็นปัญหา AI สมบูรณ์ ) พวกเขายังพูดถึงหม้อแปลง (รูปแบบการแปลด้วยเครื่องจักรอันทันสมัยอีกรุ่นหนึ่ง) ซึ่งได้ผลลัพธ์ที่ค่อนข้างแย่ (ประเมินโดยใช้ตัวชี้วัด BLEU)

สรุปแล้วการแปลด้วยคอมพิวเตอร์เป็นปัญหาที่ยากและระบบการแปลด้วยคอมพิวเตอร์ในปัจจุบันไม่สามารถทำงานได้อย่างสมบูรณ์เช่นเดียวกับนักแปลมืออาชีพ


คะแนน 100 BLEU ไม่ได้แปลว่าการแปลมาตรฐานทองคำแบบมนุษย์หมายความว่าตรงกับคำแปลอ้างอิงทั้งหมด เนื่องจากมักจะมีหลายวิธีในการแปลประโยคแม้แต่การแปลโดยคนก็มักจะไม่มี 100 BLEU แต่เหมือน 50-60
justhalf

@justhalf อ่านคำตอบของฉันอีกครั้ง
nbro

1
ขอบคุณสำหรับการตอบกลับและขออภัยถ้าความคิดเห็นก่อนหน้าของฉันปรากฏหยาบ จุดของฉันในความคิดเห็นก่อนหน้าของฉันคือมันไม่ถูกต้องที่จะให้ความประทับใจว่าการแปลโดยมนุษย์จะได้รับ 100 คะแนน BLEU ซึ่งดูเหมือนว่าคำตอบปัจจุบันของคุณจะทำ
justhalf

100

5

คุณได้ถามคำถามค่อนข้างมากซึ่งบางคำถามไม่สามารถตอบได้อย่างชัดเจน เพื่อให้ข้อมูลเชิงลึกของคุณภาพ (และประวัติศาสตร์ของมัน) ของการแปลเครื่องผมชอบที่จะอ้างถึงคริสโตนิงของเขาหนึ่งประโยคมาตรฐาน 'ตามที่นำเสนอของเขาในการบรรยาย มันมีตัวอย่างหนึ่งภาษาจีนเป็นภาษาอังกฤษซึ่งเปรียบเทียบกับผลลัพธ์ของ Google Translate การแปลที่ถูกต้องสำหรับตัวอย่างจะเป็น:

ในปีค. ศ. 1519 ชาวสเปนหกร้อยคนได้เข้ามาในเม็กซิโกเพื่อพิชิตอาณาจักร Aztec ด้วยประชากรเพียงไม่กี่ล้านคน พวกเขาสูญเสียทหารสองในสามในการปะทะครั้งแรก

Google แปลภาษาส่งคืนการแปลต่อไปนี้

2009 1519 600 ชาวสเปนลงจอดในเม็กซิโกผู้คนหลายล้านคนเพื่อพิชิตอาณาจักร Aztec ซึ่งเป็นทหารสองในสามคนแรกที่พ่ายแพ้

2011 1519 600 ชาวสเปนลงจอดในเม็กซิโกผู้คนนับล้านเพื่อพิชิตอาณาจักร Aztec การสูญเสียครั้งแรกของทหารสองในสามของการเผชิญหน้า

2013 1,519 600 ชาวสเปนลงจอดในเม็กซิโกเพื่อพิชิตอาณาจักร Aztec หลายร้อยล้านคนการสูญเสียการเผชิญหน้าครั้งแรกของทหารสองในสาม

2015 1,519 600 ชาวสเปนลงจอดในเม็กซิโกผู้คนนับล้านเพื่อพิชิตอาณาจักร Aztec สองในสามคนแรกของการสูญเสียทหารที่พวกเขาปะทะกัน

2017ในปี 1519 มีชาวสเปน 600 คนเข้ามาในเม็กซิโกเพื่อพิชิตผู้คนนับล้านของอาณาจักร Aztec การเผชิญหน้าครั้งแรกที่พวกเขาสังหารไปสองในสาม

ไม่ว่า Google จะ เก็บหรือ 'ซ่อน' ผลลัพธ์ที่ดีที่สุดของพวกเขา: ฉันสงสัย มีนักวิจัยที่ยอดเยี่ยมมากมายที่ทำงานด้านการประมวลผลภาษาธรรมชาติ (NLP) หาก Google จะมี 'ความสำเร็จที่ยิ่งใหญ่ที่สุด' สำหรับการแปลนักวิจัยจะคิดออกไม่ช้าก็เร็ว (เพราะเหตุใด Google จึงซ่อน 'ความสำเร็จที่ยิ่งใหญ่ที่สุด' ต่อไปพวกเขาดูเหมือนจะเห็นประโยชน์ของโอเพ่นซอร์สดูที่ Transformer [1] หรือ BERT [2])

NB สำหรับรายการปรับปรุงของอัลกอริทึมรัฐของศิลปะใน NLP, ดู ลีดเดอร์ SQuAD2.0

[1] Vaswani, Ashish และคณะ "ความสนใจคือสิ่งที่คุณต้องการ" ความก้าวหน้าในระบบประมวลผลข้อมูลประสาท 2017

[2] Devlin, Jacob, et al. "เบิร์ต: ก่อนการฝึกอบรมของหม้อแปลงสองทิศทางแบบลึกเพื่อความเข้าใจภาษา" พิมพ์ล่วงหน้า arXiv arXiv: 1810.04805 (2018)


ขอบคุณมากสำหรับลิงก์ไปยัง "นักวิจัยที่ได้รับการชดเชยดี" การมีค่าตอบแทนอยู่ในใจมักจะช่วยให้เข้าใจสิ่งต่าง ๆ ได้ดีขึ้น (แม้ว่าฉันจะไม่รู้ว่าคุณมีอะไรอยู่ในใจเมื่อตั้งค่าลิงค์นี้)
Hans-Peter Stricker

อาร์กิวเมนต์ก็ไม่แข็งมากเช่นกัน ได้ลบลิงก์และพยายามปรับปรุงการโต้แย้ง ฉันอ่านหนังสือพิมพ์ NLP เป็นจำนวนมากและค่อนข้างมั่นใจในข้อค้นพบของฉัน แต่มันยากที่จะหาข้อโต้แย้ง
RikH

โปรดแจ้งให้เราทราบเกี่ยวกับสิ่งที่คุณค้นพบ (ถ้าคุณไม่รังเกียจ) ที่อยู่อีเมลของฉันสามารถพบได้ในหน้าโปรไฟล์ของฉัน
Hans-Peter Stricker

1
2019 :In 1519, 600 Spaniards landed in Mexico to conquer the Aztec empire of millions of people, and they first met two-thirds of their soldiers.
Dan M.

4

มันขึ้นอยู่กับคู่ภาษาและหัวข้อของเนื้อหา การแปลเป็น / จากภาษาอังกฤษเป็นภาษาอื่น ๆ มักจะได้รับการสนับสนุนที่ดีที่สุด การแปลไปยังและจากภาษายอดนิยมใช้งานได้ดีกว่าตัวอย่างเช่นการแปลจากภาษาอังกฤษเป็นภาษาโรมาเนียเป็นการแปลที่ด้อยกว่าภาษาอังกฤษเป็นภาษารัสเซีย แต่การแปลจากภาษาอังกฤษเป็นภาษารัสเซียหรือภาษาโรมาเนียนั้นดีกว่าการแปลภาษารัสเซียเป็นภาษาโรมาเนีย และการแปลภาษาโรมาเนียเป็นภาษาอังกฤษดีกว่าการแปลภาษาอังกฤษเป็นภาษาโรมาเนีย

แต่ถ้าคุณคุ้นเคยกับการทำงานกับนักแปลและคุณมีความคุ้นเคยกับภาษาความผิดพลาดในการแปลและหัวข้อคุณสามารถเข้าใจได้ง่ายว่าควรจะอยู่ตรงไหน และ ณ จุดนั้นบางครั้งมันง่ายกว่าที่จะอ่านบางสิ่งที่แปลเป็นภาษาของคุณเพื่อการสแกนที่รวดเร็วกว่าการอ่านในภาษาที่สอง

ภาษาที่ได้รับความนิยมน้อยกว่า (สำหรับการแปลที่ไม่จำเป็นต้องมีผู้พูดจำนวนมาก) นั้นใกล้เคียงกับการแปลตามตัวอักษรเท่านั้นจะดีกว่าการใช้พจนานุกรมสำหรับสองภาษาที่คุณไม่รู้


2

ฉันผิดและการแปลของ Google ยังคงสามารถอ่านได้มีประโยชน์และเป็นประโยชน์สำหรับผู้ใช้ส่วนใหญ่หรือไม่

ใช่พวกเขาค่อนข้างมีประโยชน์และช่วยให้คุณสามารถแปลได้เร็วขึ้น

หรือ Google มีเหตุผลในการรักษาความสำเร็จที่ยิ่งใหญ่ที่สุด (และไม่แสดงต่อผู้ใช้ที่ดีที่สุดที่พวกเขาสามารถแสดงได้)

บางทีฉันไม่รู้ หากคุณค้นหาข้อมูล Google ทำสิ่งโง่ ๆ ที่น่ากลัวเช่นการเรียนรู้จากสิ่งที่ผู้ใช้พูดบนอินเทอร์เน็ตโดยใช้ข้อมูลที่ไม่เหมาะสมเป็นชุดข้อมูลอินพุตที่เชื่อถือได้


2

ขอโทษที่ไม่ได้เขียนเป็นภาษาอังกฤษ กรุณาค้นหาคำแปลที่ดัดแปลงได้ที่นี่:

เพื่อให้ผู้ที่สนใจได้รับความรู้เกี่ยวกับคุณภาพของ MT (DeepL) โปรดดูตัวอย่างจากข้อความที่ฉันทำงานเมื่อเช้านี้ (6,300 คำเริ่มตั้งแต่ 9.00 น. ส่งมอบวันนี้ประมาณ 13.00 น. และยังหาเวลาสำหรับโพสต์นี้) ฉันกำลังทำงานกับประโยคนี้ (201 คำ) เมื่อฉันโพสต์ความคิดเห็นของฉัน

หรือกระบวนการใด ๆ ที่ทำงานหรือเปิดใช้งานในขณะที่คุณไม่ได้เข้าสู่เว็บไซต์นี้หรือที่ขัดขวางการทำงานที่เหมาะสมหรือวางภาระที่ไม่สมเหตุสมผลบนโครงสร้างพื้นฐานของเว็บไซต์นี้ หรือ (e) ใช้ซอฟต์แวร์อุปกรณ์หรือกระบวนการด้วยตนเองหรือโดยอัตโนมัติเพื่อ "รวบรวมข้อมูล" "ขูด" หรือ "แมงมุม" หน้าใด ๆ ของเว็บไซต์นี้ หรือ (f) แยกส่วนทำวิศวกรรมย้อนกลับหรือพยายามที่จะรับซอร์สโค้ดของเว็บไซต์นี้ "

DeepL ส่งคืนสิ่งนี้:

Sie versichern, garantieren und verpflichten sich gegenüber ABC, คุณ Sie เสียชีวิตจากไปที่เว็บไซต์: (a) betrügerische, missbräuchliche oder anderweitig ที่ผิดกฎหมายAktivitätenduchzuführen อื่น ๆ (b) Mitteilungen หรือ Aufforderungen, ตายที่ดีที่สุดของพวกเขา, Passwörter, Konten และอื่น ๆ ส่วนตัว Informationen von anderen Nutzern Dieer เว็บไซต์ zu erhalten, zu โพสต์อื่น ๆ zer übertragenอื่น ๆ oder (c) ตาย Sicherheit eines Computernetzwerks verletzen, Passwörter oder Sicherheitsverschlüsselungttenlüselselttenchüttenchüttenchüttenchüttenchüttenütütülütütülütütütütütütütütütütülütütütütükülütülütülütülükütülüklüslüstülütlüsülüstülüstülütlüsülüstülüstülüklüsülüstülüstülüstülüstülüstülüstülüstülüstülüstülüstülในเหนือสุดในกรุงเบอร์ลิน ตายausdrücklich verboten sind; oder (d) Mailliste, Listenserver oder jede andere Form von Auto-Responder "Spam" และอื่น ๆ อีกมากมายเว็บไซต์ที่ให้บริการความช่วยเหลือ, ความปลอดภัยและความปลอดภัยผู้ดูแลระบบ Belastung der Infrastruktur dieser เว็บไซต์stören; oder (e) manuelle oder ซอฟแวร์อัตโนมัติ, และอื่น ๆ อีกมากมาย Prozesse verwenden, หนอ eine Seite Dieer เว็บไซต์ zu "ตระเวน", zu kratzen, zu spinnen หรือ zu spinnen; oder (f) dekompilieren, zurückzuentwickeln oder anderweitig zu versuchen, และ Quellcode dieser เว็บไซต์ zu erhalten ตายausgeführt werden oder aktiviert werden, während Sie nicht auf dieer เว็บไซต์ที่มีชื่อเสียง, เว็บไซต์ที่มีชื่อเสียง, คนตายและคนอื่น ๆ ที่เป็น Funktionieren infang eess unangemessene Belastung derrastruktur oder (e) manuelle oder ซอฟแวร์อัตโนมัติ, และอื่น ๆ อีกมากมาย Prozesse verwenden, หนอ eine Seite Dieer เว็บไซต์ zu "ตระเวน", zu kratzen, zu spinnen หรือ zu spinnen; oder (f) dekompilieren, zurückzuentwickeln oder anderweitig zu versuchen, และ Quellcode dieser เว็บไซต์ zu erhalten ตายausgeführt werden oder aktiviert werden, während Sie nicht auf dieer เว็บไซต์ที่มีชื่อเสียง, เว็บไซต์ที่มีชื่อเสียง, คนตายและคนอื่น ๆ ที่เป็น Funktionieren infang eess unangemessene Belastung derrastruktur oder (e) manuelle oder ซอฟแวร์อัตโนมัติ, และอื่น ๆ อีกมากมาย Prozesse verwenden, หนอ eine Seite Dieer เว็บไซต์ zu "ตระเวน", zu kratzen, zu spinnen หรือ zu spinnen; oder (f) dekompilieren, zurückzuentwickeln oder anderweitig zu versuchen, และ Quellcode dieser เว็บไซต์ zu erhalten zu kratzen, zu spinnen oder zu spinnen; oder (f) dekompilieren, zurückzuentwickeln oder anderweitig zu versuchen, และ Quellcode dieser เว็บไซต์ zu erhalten zu kratzen, zu spinnen oder zu spinnen; oder (f) dekompilieren, zurückzuentwickeln oder anderweitig zu versuchen, และ Quellcode dieser เว็บไซต์ zu erhalten

ฉันใช้เวลาประมาณ 5 ถึง 10 นาทีในการปรับย่อหน้านี้

ในฐานะนักแปลฉันรู้ว่าฉันไม่สามารถพึ่งพาการแปลด้วยเครื่องได้ แต่ฉันได้เรียนรู้เฉพาะและความสามารถของระบบต่าง ๆ เมื่อเวลาผ่านไปและฉันรู้ว่าจะต้องสนใจอะไร

MT ช่วยฉันได้มากในงานของฉัน


2
โปรดสังเกตว่าข้อความทางกฎหมายให้การแปลอัตโนมัติที่ดีกว่าเนื่องจากมีข้อความหลายภาษามากมายในพื้นที่นี้
Quora Feans

1

นี่จะไม่ใช่คำตอบที่เป็นคำอธิบายมากนัก

คุณภาพขึ้นอยู่กับหลายสิ่งรวมถึง (ตามที่แอรอนกล่าวไว้ข้างต้น) 1) คู่ภาษาและ 2) หัวข้อ แต่ยัง 3) สกุลและ 4) รูปแบบของต้นฉบับและ 5) จำนวนข้อความขนานที่คุณมี เพื่อฝึกอบรมระบบ MT

ในการกำหนดเวทีนั้น MT ทุกวันนี้มีพื้นฐานมาจากข้อความคู่ขนานนั่นคือข้อความในสองภาษาที่แตกต่างกันโดยมีคนหนึ่งน่าจะเป็นผู้แปลอีกคนหนึ่ง (หรือทั้งคู่แปลเป็นภาษาที่สาม) และอาจใช้พจนานุกรม (อาจช่วยโดยกระบวนการทางสัณฐานวิทยา) เป็น backoff เมื่อตำราขนานไม่ได้มีคำเฉพาะ

ยิ่งไปกว่านั้นอย่างที่คนอื่น ๆ พูดกันมาระบบของ MT ก็ไม่เข้าใจข้อความที่กำลังแปลอยู่ มันเพิ่งเห็นสตริงของตัวละครและลำดับของคำที่ประกอบขึ้นจากตัวละครและมันจะมองหาสตริงและลำดับที่คล้ายกันในข้อความที่แปลก่อนหน้านี้ (ตกลงมันซับซ้อนกว่านั้นเล็กน้อยและมีความพยายามที่จะให้ความหมายในระบบคอมพิวเตอร์ แต่ตอนนี้ส่วนใหญ่เป็นสตริง)

1) ภาษาแตกต่างกันไป บางภาษามีสัณฐานวิทยาจำนวนมากซึ่งหมายความว่าพวกเขาทำสิ่งต่าง ๆ ด้วยคำเดียวที่ภาษาอื่น ๆ ทำได้หลายคำ ตัวอย่างง่ายๆคือภาษาสเปน 'cantaremos' = อังกฤษ "เราจะร้องเพลง" และภาษาหนึ่งอาจทำสิ่งต่าง ๆ ที่ภาษาอื่นไม่ได้ใส่ใจด้วยเช่นความแตกต่างอย่างไม่เป็นทางการ / เป็นทางการ (tu / usted) ในภาษาสเปนซึ่งภาษาอังกฤษไม่เทียบเท่า หรือภาษาหนึ่งอาจทำสิ่งต่าง ๆ ด้วยสัณฐานวิทยาที่ภาษาอื่นใช้กับการเรียงลำดับคำ หรือสคริปต์ที่ภาษาใช้อาจไม่ได้ทำเครื่องหมายขอบเขตของคำ (ภาษาจีนและอื่น ๆ ) ยิ่งภาษาทั้งสองแตกต่างกันมากเท่าใดระบบการแปลก็จะยากขึ้นสำหรับ MT การทดลองครั้งแรกในสถิติ MT ได้กระทำระหว่างภาษาฝรั่งเศสและภาษาอังกฤษ

2) หัวข้อ: หากคุณมีข้อความคู่ขนานในพระคัมภีร์ (ซึ่งเป็นเรื่องจริงสำหรับเกือบทุกภาษาที่เขียน) และคุณฝึกฝนระบบ MT ของคุณให้ออกจากสิ่งเหล่านั้น (คัมภีร์ไบเบิลเป็นข้อความที่ค่อนข้างเล็กตามมาตรฐานของระบบการฝึกอบรมของ MT แต่ทำท่า :-)) คำศัพท์ในพระคัมภีร์นั้นแตกต่างจากตำราทางวิศวกรรมมากและความถี่ของไวยากรณ์ต่าง ๆ การก่อสร้าง (ไวยากรณ์เป็นหลักเหมือนกัน แต่ในภาษาอังกฤษคุณจะได้รับเสียงพูดเรื่อย ๆ และคำนามผสมในตำราวิทยาศาสตร์และวิศวกรรม)

3) Genera: ถ้าข้อความคู่ขนานของคุณคือข้อความทั้งหมด (เช่นคู่มือรถแทรกเตอร์, พูด), การพยายามใช้ระบบ MT ที่เกิดขึ้นบนกล่องโต้ตอบจะไม่ทำให้คุณได้รับผลลัพธ์ที่ดี

4) สไตล์: คิดฮิลารีกับโดนัล; ขยันและเป็นที่นิยม การฝึกอบรมอย่างใดอย่างหนึ่งจะไม่ได้รับผลลัพธ์ที่ดีในที่อื่น ๆ ในทำนองเดียวกันการฝึกอบรมระบบ MT ในนวนิยายระดับผู้ใหญ่และใช้ในหนังสือเด็ก

5) คู่ภาษา: ภาษาอังกฤษมีข้อความมากมายและโอกาสในการค้นหาข้อความในภาษาอื่น ๆ ที่ขนานกับข้อความภาษาอังกฤษนั้นสูงกว่าโอกาสในการค้นหาข้อความคู่ขนานในการพูดภาษารัสเซียและภาษาอิกโบ (ที่กล่าวว่าอาจมีข้อยกเว้นเช่นภาษาของอินเดีย) ในฐานะที่เป็นลักษณะทั่วไปขั้นต้นยิ่งข้อความแบบขนานที่คุณต้องฝึกอบรมระบบ MT ผลลัพธ์ที่ดีกว่า

โดยรวมแล้วภาษามีความซับซ้อน (ซึ่งเป็นเหตุผลที่ฉันรักมัน - ฉันเป็นนักภาษาศาสตร์) ดังนั้นจึงไม่แปลกที่ระบบ MT จะทำงานได้ไม่ดีนัก

BTW นักแปลมนุษย์ก็ทำได้ไม่ดีเช่นกัน ทศวรรษที่ผ่านมาฉันได้รับการแปลเอกสารจากนักแปลมนุษย์เป็นภาษาอังกฤษเพื่อใช้เป็นสื่อการฝึกอบรมสำหรับระบบ MT การแปลบางอย่างยากที่จะเข้าใจและในบางกรณีเราได้รับการแปลจากนักแปลสองคนขึ้นไปมันยากที่จะเชื่อว่านักแปลได้อ่านเอกสารเดียวกัน

และในที่สุดก็มี (เกือบ) ไม่เคยแปลที่ถูกต้องเพียงหนึ่งเดียว มีหลายวิธีในการแปลข้อความซึ่งอาจจะมากหรือน้อยขึ้นอยู่กับว่าคุณลักษณะใด (ความถูกต้องทางไวยากรณ์สไตล์ความสอดคล้องของการใช้ ... ) ที่คุณต้องการ "ความแม่นยำ" ไม่ง่ายเลย


1

น่าแปลกที่คำตอบอื่น ๆ ทั้งหมดนั้นคลุมเครือมากและพยายามหาคำตอบจาก POV นักแปลของมนุษย์ มาสลับกันเป็นวิศวกร ML

เมื่อสร้างเครื่องมือแปลหนึ่งในคำถามแรกที่เราควรพิจารณาคือ"เราจะวัดได้อย่างไรว่าเครื่องมือของเราทำงานอย่างไร" .

ซึ่งเป็นสิ่งที่ OP ต้องการถาม

ตอนนี้ไม่ใช่งานง่าย (บางคำตอบอื่น ๆ อธิบายว่าทำไม) มีบทความ Wikipediaที่กล่าวถึงวิธีการที่แตกต่างกันในการประเมินผลลัพธ์การแปลด้วยเครื่อง - มีทั้งคะแนนมนุษย์และคะแนนอัตโนมัติ (เช่นBLEU , NIST , LEPOR )

ด้วยเทคนิคเครือข่ายประสาทที่เพิ่มขึ้น

การแปลเป็นปัญหาที่ซับซ้อน มีหลายสิ่งที่สามารถไปถูก (หรือผิด) และระบบแปลภาษาคอมพิวเตอร์มักจะไม่สนใจรายละเอียดปลีกย่อยบางอย่างซึ่งโดดเด่นสำหรับผู้พูด

ฉันคิดว่าถ้าเราต้องคิดเกี่ยวกับอนาคตมีบางสิ่งที่เราสามารถพึ่งพาได้:

  • เทคนิคของเราเริ่มดีขึ้นรู้จักและทดสอบในวงกว้างมากขึ้น นี่จะเป็นการปรับปรุงความแม่นยำในระยะยาว
  • เรากำลังพัฒนาเทคนิคใหม่ที่สามารถนำไปพิจารณาตัวแปรบัญชีก่อนหน้านี้หรือเพียงแค่ทำงานได้ดีขึ้น
  • โมเดลการแปลที่มีอยู่ในปัจจุบันจำนวนมากมักจะ "นำมาใช้ซ้ำ" เพื่อแปลภาษาอื่น ๆ (ตัวอย่างเช่นลองแปล "JEDEN" จากโปแลนด์เป็นจีน (ดั้งเดิม) โดยใช้ Google Translator - คุณจะลงท้ายด้วย "ONE" ซึ่งเป็นหลักฐานชี้ให้เห็น ข้อเท็จจริงที่ว่า Google แปลภาษาโปแลนด์เป็นภาษาอังกฤษและจากนั้นเป็นภาษาอังกฤษเป็นภาษาจีน) เห็นได้ชัดว่านี่ไม่ใช่วิธีการที่ดี - คุณกำลังจะสูญเสียข้อมูลบางส่วนในกระบวนการ - แต่เป็นวิธีที่ยังใช้งานได้ดังนั้น บริษัท เช่น Google จะใช้มันสำหรับภาษาที่พวกเขาไม่มีกำลังคนหรือข้อมูลเพียงพอ เมื่อเวลาผ่านไปจะมีโมเดลพิเศษปรากฏขึ้นซึ่งจะช่วยปรับปรุงสถานการณ์
  • นอกจากนี้ตามที่ระบุไว้ก่อนหน้านี้ข้อมูลที่มากขึ้นจะช่วยปรับปรุงการแปลภาษาด้วยเครื่องเท่านั้น

โดยสรุปปัญหาที่ซับซ้อนแม้ว่าจะไม่ได้รับการแก้ไขนั้นเป็นวิธีที่ดีและช่วยให้ได้ผลลัพธ์ที่น่าประทับใจสำหรับคู่ภาษาที่วิจัยมาอย่างดี


"น่าแปลกใจที่คำตอบอื่น ๆ ทั้งหมด ... " ไม่ใช่คำตอบอื่น ๆ ทั้งหมด ฉันจะพูดว่า "คำตอบอื่น ๆ " หรือ "คำตอบอื่น ๆ ส่วนใหญ่"
nbro

0

"หรือ Google มีเหตุผลในการรักษาความสำเร็จ (และไม่แสดงต่อผู้ใช้อย่างดีที่สุดเท่าที่จะทำได้)"

หากพวกเขาแล้วสิ่งที่พวกเขากำลังถือกลับจะเป็นที่น่าตื่นตาตื่นใจ Google เผยแพร่มากของเอกสารที่แข็งแกร่งในการประมวลผลภาษาธรรมชาติรวมทั้งคนที่ได้รับสถานะของผลงานศิลปะหรือทำอย่างมีนัยสำคัญ แนวคิด นวัตกรรม พวกเขายังได้รับการปล่อยตัวมีประโยชน์มากชุดข้อมูลและเครื่องมือ Google เป็นหนึ่งในไม่กี่ บริษัท ที่ไม่เพียง แต่ใช้ประโยชน์จากการวิจัยในปัจจุบันเท่านั้น แต่ยังมีส่วนช่วยงานวรรณกรรมอีกด้วย

การแปลภาษาด้วยเครื่องเป็นปัญหาที่ยาก นักแปลที่ดีต้องมีความชำนาญทั้งสองภาษาในการทำงานให้ดี แต่ละภาษาจะมีสำนวนของตัวเองและความหมายที่ไม่ใช่ตัวอักษรหรือขึ้นอยู่กับบริบท การทำงานจากพจนานุกรมสองภาษาจะให้ผลลัพธ์ที่น่ากลัว (สำหรับมนุษย์หรือคอมพิวเตอร์) ดังนั้นเราจำเป็นต้องฝึกแบบจำลองของเราใน corpora ที่มีอยู่ซึ่งมีอยู่ในหลายภาษาเพื่อเรียนรู้วิธีการใช้คำจริง (วลีที่รวบรวมด้วยมือ) ตารางการแปลสามารถใช้เป็นฟีเจอร์ต่างๆ พวกมันไม่สามารถเป็นเรื่องราวทั้งหมดได้) สำหรับคู่ภาษาบางคู่ corpora แบบขนานนั้นมีอยู่มากมาย (เช่นภาษาของสหภาพยุโรปเรามีการดำเนินการตามกฎหมายของรัฐสภายุโรปอย่างสมบูรณ์) สำหรับคู่อื่น ๆ ข้อมูลการฝึกอบรมเป็นตัวแยกคำ และแม้ว่าเราจะมีข้อมูลการฝึกอบรมจะมีคำและวลีที่ใช้น้อยกว่าซึ่งไม่ปรากฏบ่อยพอที่จะเรียนรู้

สิ่งนี้เคยเป็นปัญหาที่ใหญ่กว่าเนื่องจากคำพ้องความหมายยากที่จะอธิบาย หากข้อมูลการฝึกอบรมของเรามีประโยคสำหรับ "สุนัขจับลูกบอล" แต่ไม่ใช่ "สุนัขจับลูกบอล" เราจะท้ายด้วยความน่าจะเป็นที่ต่ำสำหรับประโยคที่สอง ที่จริงแล้วการปรับให้เรียบอย่างมีนัยสำคัญจำเป็นต้องมีเพื่อป้องกันความน่าจะเป็นที่จะเป็นศูนย์ในหลายกรณีเช่นนี้

การเกิดขึ้นของโมเดลภาษาประสาทในช่วง 15 ปีที่ผ่านมาได้ช่วยอย่างมากกับปัญหานี้โดยการอนุญาตให้คำที่ถูกแมปไปยังพื้นที่ความหมายที่มีคุณค่าจริงก่อนที่จะเรียนรู้การเชื่อมต่อระหว่างคำ สิ่งนี้อนุญาตให้แบบจำลองได้เรียนรู้ว่าคำใดที่อยู่ใกล้กันในความหมายและอยู่ใกล้กันในพื้นที่ความหมายและการสลับคำสำหรับคำพ้องความหมายจะไม่ส่งผลกระทบอย่างมากต่อความน่าจะเป็นของประโยคที่บรรจุ word2vecเป็นแบบจำลองที่แสดงภาพนี้ได้ดีมาก มันแสดงให้เห็นว่าคุณทำได้เช่นใช้ความหมายของเวกเตอร์สำหรับ "ราชา" ลบเวกเตอร์สำหรับ "ผู้ชาย" เพิ่มเวกเตอร์สำหรับ "ผู้หญิง" และพบว่าคำที่ใกล้ที่สุดกับผลเวกเตอร์คือ "ราชินี" เมื่อการวิจัยในแบบจำลองทางภาษาประสาทเริ่มต้นขึ้นอย่างจริงจังเราเริ่มเห็นการลดลงอย่างฉับพลันและความงุนงง (เช่นความสับสนของแบบจำลองโดยข้อความธรรมชาติ) และเราเห็นการเพิ่มขึ้นของคะแนน BLEU (เช่นคุณภาพการแปล) ตอนนี้ โมเดลภาษาถูกรวมเข้ากับระบบแปลภาษาด้วยเครื่อง

การแปลภาษาด้วยเครื่องยังไม่ดีเท่ากับการแปลโดยมนุษย์ที่มีคุณภาพและอาจเป็นไปได้ว่าจะไม่ดีจนกว่าเราจะแยก AI อย่างเต็มกำลัง แต่นักแปลมนุษย์ที่ดีมีราคาแพงในขณะที่ทุกคนที่มีอินเทอร์เน็ตสามารถใช้เครื่องแปลภาษาได้ คำถามไม่ใช่ว่าการแปลโดยคนจะดีกว่าหรือไม่ แต่จะใกล้เคียงกับคุณภาพของเครื่องมากแค่ไหน ช่องว่างนั้นหดตัวลงและหดตัวต่อเนื่อง


ฉันไม่ชอบวิธีการนี้ - แต่นั่นเป็นเรื่องของรสนิยมและความคิดเห็น การทำโดยไม่ต้องแปล "เรียนรู้ / ฉลาด / เข้าใจ" เพียงเพราะ "นักแปลมนุษย์มีราคาแพง" ทำให้ฉันรู้สึกเศร้า การแปลนั้นเกี่ยวกับอะไร
Hans-Peter Stricker

@ Hans-PeterStricker Translation เป็นเรื่องเกี่ยวกับความสามารถในการสื่อสารกับคนที่คุณไม่ได้ใช้ภาษากลางร่วมกัน การแปลภาษาด้วยคอมพิวเตอร์นั้นดีพอที่จะทำให้เราสามารถทำได้ค่อนข้างดีแม้ว่าการแปลที่ได้นั้นมักจะไม่ผิดเพี้ยนหรือมีเสียงเหมือนคนที่ไม่ใช่เจ้าของภาษา (ต่อ ... )
เรย์

เราอาจทำเช่นนั้นทั้งนี้ขึ้นอยู่กับความหมายของ "การเรียนรู้ / ผู้รอบรู้ / ความเข้าใจ" นั่นคือสิ่งที่การทำแผนที่ไปยังเวกเตอร์ความหมายคือ; คำเหล่านั้นจะถูกฝังในพื้นที่เวคเตอร์ที่แสดงถึงความหมาย Sutskever กระดาษที่ฉันเชื่อมโยง (เป็น "แนวคิด") จริง ๆ แล้วทำการแปลโดยการแมปประโยคทั้งหมดลงบนเวกเตอร์ความหมายและจากนั้นแปลงเวกเตอร์นั้นเป็นประโยคในภาษาเป้าหมาย ดังนั้น "ความเข้าใจ" ของการเรียงลำดับจึงเกิดขึ้นอย่างแน่นอน (ต่อ ... )
เรย์

นอกจากนี้ยังมีอยู่รูปแบบที่ได้เรียนรู้พื้นฐานไวยากรณ์ (เช่นโครงสร้างประโยค) และได้มีการทำงานในการบูรณาการที่ในรูปแบบของระบบประสาทแม้ในขณะที่รูปแบบที่เรียนรู้สิ่งที่ชิ้นส่วนของประโยคที่พวกเขาจะต้องให้ความสนใจไปในขณะใดก็ตามดูเหมือน มีประสิทธิภาพมากขึ้นในการจัดการสิ่งต่าง ๆ กว่าแบบจำลองเชิงประโยคอย่างชัดเจน (ต่อ ... )
เรย์

หากคุณไม่คิดว่า "ความเข้าใจ" ประเภทใด ๆ นี้นับว่าเป็นความเข้าใจที่แท้จริงแล้วอะไรที่จะนับนอกเหนือจาก AI ที่ผ่านการทดสอบของทัวริงนั่นคือความเข้าใจที่สมบูรณ์ โปรดทราบว่าฉันไม่เคยบอกว่าเราไม่สามารถทำ AI ที่ฉลาดได้อย่างสมบูรณ์ (ฉันไม่สามารถบอกได้ว่าจะใช้เวลานานแค่ไหนนั่นไม่ใช่ส่วนหนึ่งของฉัน แต่ฉันมีข้อสงสัยเล็กน้อยว่าเราจะไปถึงที่นั่นในที่สุด) แต่แบบจำลองที่ฉันอธิบายที่นี่คือสิ่งที่เรากำลังใช้อยู่ในตอนนี้และพวกมันทำงานได้ดีในการอนุญาตให้ผู้คนสื่อสารกัน การวิจัยของ AI นั้นเกี่ยวกับการทำให้"ดีพอ" รุ่นที่ดีขึ้นอย่างต่อเนื่อง
เรย์
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.