วิศวกรรมซอฟต์แวร์ natural-language-processing

14

วิธีง่าย ๆ ในการตรวจจับโค้ดในข้อความอย่างน่าเชื่อถือ?

GMail มีคุณสมบัตินี้ซึ่งจะเตือนคุณหากคุณพยายามส่งอีเมลที่คิดว่าอาจมีไฟล์แนบ เนื่องจาก GMail ตรวจพบสตริงsee the attachedในอีเมล แต่ไม่มีสิ่งที่แนบมาจริงจึงเตือนฉันด้วยกล่องโต้ตอบตกลง / ยกเลิกเมื่อฉันคลิกปุ่มส่ง เรามีปัญหาที่เกี่ยวข้องกับ Stack Overflow กล่าวคือเมื่อผู้ใช้เข้าสู่โพสต์เช่นนี้ : ปัญหาของฉันคือฉันต้องเปลี่ยนฐานข้อมูล แต่ฉันจะไม่สร้าง การเชื่อมต่อใหม่ ตัวอย่าง: ชุดข้อมูล dsMasterInfo = ชุดข้อมูลใหม่ (); ฐานข้อมูล db = DatabaseFactory.CreateDatabase ("ConnectionString"); DbCommand dbCommand = db.GetStoredProcCommand ("uspGetMasterName"); ผู้ใช้นี้ไม่ได้ฟอร์แมตรหัสเป็นรหัส! นั่นคือพวกเขาไม่ได้เยื้อง 4 ช่องว่างต่อมาร์กดาวน์หรือใช้ปุ่มรหัส (หรือแป้นพิมพ์ลัดctrl+ k) ที่ทำเพื่อพวกเขา ดังนั้นระบบของเรายอมรับการแก้ไขจำนวนมากที่ผู้คนต้องเข้าไปและจัดรูปแบบโค้ดด้วยตนเองสำหรับผู้ที่ไม่สามารถเข้าใจได้ สิ่งนี้นำไปสู่การท้องมาก เราได้ปรับปรุงเครื่องมือแก้ไขหลายครั้ง แต่ขาดการขับรถไปที่บ้านของผู้ใช้และกดปุ่มที่ถูกต้องบนแป้นพิมพ์สำหรับพวกเขาพวกเรากำลังสูญเสียเพื่อดูว่าจะทำอย่างไรต่อไป นั่นเป็นเหตุผลที่เรากำลังพิจารณาคำเตือนสไตล์ Google GMail: คุณหมายถึงรหัสไปรษณีย์หรือไม่ คุณเขียนสิ่งที่เราคิดว่าดูเหมือนรหัส …

142 algorithms artificial-intelligence machine-learning natural-language-processing

2

จะหาชื่อที่สะกดยากได้อย่างไร?

นี่คือคำถามที่ฉันเชื่อว่าสามารถแก้ไขได้ด้วย data mining และอัลกอริธึมที่ซับซ้อน แต่ฉันก็ไม่รู้เหมือนกัน ตัวชี้ใด ๆ เกี่ยวกับแหล่งข้อมูลที่จะใช้และอัลกอริทึมที่จะนำไปใช้ใดบ้างยินดีต้อนรับ แบ็คกราวน์:ฉันเป็นชาวโรมาเนียน - ฮังการีที่คาดหวังว่าจะมีลูกด้วยภาษาโปแลนด์ - ยูเครนและไม่ได้ตั้งความคิดของเราในประเทศที่เราต้องการปักหลัก อย่างที่คุณคาดหวังการเลือกชื่อที่ให้นั้นมีความสำคัญที่สุดและมีการถกเถียงกันอย่างเผ็ดร้อน จากด้านข้างของฉันฉันยังคงมีบาดแผลจากความยุ่งยากทั้งหมดที่ฉันต้องทำเมื่อใครบางคนจะสะกดชื่อของฉันเมื่อฉันย้ายจากประเทศหนึ่งไปยังอีก ตัวอย่างเช่นหากคุณถูกเรียกว่า "เอเดรียน" คุณจะได้รับพรในโรมาเนียเพียงเพื่อจะพบว่าคุณได้รับ "เอเดรียอี " เป็นเอกสารภาษาฝรั่งเศสอย่างเป็นทางการ ดังนั้นความต้องการเพียงอย่างเดียวของฉันคือการทำให้ชื่อของทารกถูกสะกดผิดในบางประเทศในยุโรป คำแถลงปัญหา:เมื่อมีกลุ่มประเทศเช่นฝรั่งเศสเยอรมนีสวีเดนโปแลนด์และโรมาเนียค้นหารายชื่อที่ให้ไว้ซึ่งเมื่อออกเสียงอย่างถูกต้องจะไม่ถูกสะกดโดยคนในท้องถิ่น อีกอย่างเป็นทางการ: Let P (c, n)เป็นฟังก์ชั่นที่ให้ผลตอบแทนน่าจะเป็นของชื่อnถูกสะกดผิดในประเทศค ได้รับCชุดของประเทศและ p₀ความน่าจะเป็นหาNชุดของชื่อที่กำหนดเช่นว่า สำหรับn ∈ Nและc ∈ C ทั้งหมด , p (c, n) <p₀ ความคิดเริ่มต้น : ปัญหาหลักคือวิธีการใช้P (c, n) เราสามารถลองประมาณด้วยฮิวริสติก เห็นได้ชัดว่าชื่อนั้นสะกดผิดในสองกรณี: มันใช้น้อยในประเทศนั้น มันคล้ายกับชื่ออื่นที่ไม่ได้ใช้เพียงเล็กน้อยในประเทศนั้น …

16 algorithms artificial-intelligence natural-language-processing data-mining

2

มีการแยกวิเคราะห์ข้อมูลภาษาธรรมชาติที่คงอยู่

ฉันเพิ่งเริ่มทดลองใช้การประมวลผลภาษาธรรมชาติ (NLP) โดยใช้CoreNLP ของ Stanfordและฉันสงสัยว่าวิธีมาตรฐานในการจัดเก็บ NLP แยกวิเคราะห์ข้อมูลสำหรับแอปพลิเคชันการทำเหมืองข้อความคืออะไร วิธีหนึ่งที่ฉันคิดว่าน่าสนใจก็คือเก็บเด็กไว้ในรายการ adjacency และใช้ประโยชน์จากแบบสอบถามแบบเรียกซ้ำ (Postgres สนับสนุนสิ่งนี้และฉันคิดว่ามันใช้ได้ดีจริงๆ) แต่ฉันคิดว่าอาจมีวิธีมาตรฐานหลายวิธีในการทำเช่นนี้ขึ้นอยู่กับประเภทของการวิเคราะห์ที่ได้รับการรับรองจากคนที่ทำงานในสาขานี้มาหลายปี ดังนั้นกลยุทธ์การติดตามาตรฐานสำหรับข้อมูลที่แยกวิเคราะห์ NLP คืออะไรและมีการใช้งานอย่างไร

12 database parsing persistence natural-language-processing

6

วิธีการสอนสคริปต์เพื่อตรวจสอบการเสียดสี? [ปิด]

ตามที่เป็นอยู่ในปัจจุบันคำถามนี้ไม่เหมาะสำหรับรูปแบบคำถาม & คำตอบของเรา เราคาดหวังว่าคำตอบจะได้รับการสนับสนุนจากข้อเท็จจริงการอ้างอิงหรือความเชี่ยวชาญ แต่คำถามนี้อาจเรียกร้องให้มีการอภิปรายโต้แย้งโต้แย้งหรือการอภิปรายเพิ่มเติม หากคุณรู้สึกว่าคำถามนี้สามารถปรับปรุงและเปิดใหม่ได้โปรดไปที่ศูนย์ช่วยเหลือเพื่อขอคำแนะนำ ปิดให้บริการใน8 ปีที่ผ่านมา ขณะนี้ฉันกำลังสร้างสคริปต์ที่สนุกซึ่งโดยทั่วไปตรงกับวลีที่กำหนดและให้คำตอบที่กำหนดไว้ล่วงหน้าตามคะแนนการแข่งขัน คุณสามารถขอให้มันดึงข้อมูลบางอย่างจากฟีดสดเรียกใช้งานบอกเกร็ดเล็กเกร็ดน้อยหรือเพียงแค่พูดคุยกับเธอ ฉันมีการตรวจจับในตัวสำหรับคำไม่ดีแคปล็อคหรือทั้งสองอย่าง โปรแกรมมีชื่อเด็กหญิงและฉันพยายามทำให้ใกล้เคียงกับการเป็นเด็กผู้หญิงมากที่สุดเท่าที่จะทำได้ในแง่ตรรกะ (ตัวอย่าง: ทุกคนรู้ว่าผู้หญิงส่วนใหญ่ใช้เวลา 700ms ในการตอบคำถามล้อเล่นแน่นอน) ดังนั้นนี่คือตัวอย่างเล็ก ๆ น้อย ๆ : ลูกค้า: ปัญหาของคุณคืออะไร? Kiku: อย่าใช้สิ่งนั้นกับฉัน! ลูกค้า: #### คุณ Kiku: ทำไมคุณถึงเป็นอย่างนั้นกับฉัน: / อย่างไรก็ตามฉันอยากจะเพิ่มคุณสมบัติแดกดัน ดังนั้นถ้าคุณเขียนอะไรบางอย่างด้วยการเสียดสีเธอก็จะตรวจจับและตอบสนองตามนั้น ตอนนี้เป็นส่วนที่ยุ่งยากคุณจะสอนสคริปท์ได้อย่างไร? ให้ฉันเจาะจงมากขึ้น คำเหน็บแนมที่ใช้กันมากที่สุดในทุกวันนี้คืออะไร? หรือวิธีรับสถิตินั้น ฉันจะทำให้สคริปต์เข้าใจบริบทของวลีที่กำหนดได้อย่างไร UPDATE เนื่องจากคำถามนี้กำลังได้รับความสนใจอย่างมากฉันคิดว่าสิ่งต่างๆควรถูกลบออกไปอีกเล็กน้อย มันชัดเจนมากว่าการทำให้สคริปต์ตรวจสอบการเสียดสีอย่างเต็มที่นั้นเป็นไปไม่ได้ อย่างน้อยก็ในเรื่องที่สมเหตุสมผล แต่ผมไม่เชื่อว่าปริมาณของบางอย่างที่เป็นไปได้ถากถางสามารถตรวจพบได้ ขณะนี้ฉันได้ทำให้มันจนสคริปต์ของฉันสามารถตรวจสอบการเสียดสีที่ จำกัด มาก ฉันกำหนดคำพูดประชดประชันบางอย่างไว้ล่วงหน้า (แต่เพียงอย่างเดียวพวกเขาไร้ประโยชน์) ตัวอย่างเช่น: อะไรก็ได้ใช่ถูกและยิ่งใหญ่ …

11 algorithms natural-language-processing

3

อัลกอริทึมใดที่สามารถใช้เพื่อให้ได้การทำนายคำถัดไปที่ดีพอสมควร

วิธีที่ดีในการใช้ "การคาดการณ์คำถัดไป" คืออะไร ตัวอย่างเช่นผู้ใช้พิมพ์ "I am" และระบบแนะนำ "a" และ "ไม่" (หรืออาจเป็นอย่างอื่น) เป็นคำถัดไป ฉันตระหนักถึงวิธีการที่ใช้โซ่มาร์คอฟและข้อความการฝึกอบรม (ชัดเจน) เพื่อให้บรรลุเป้าหมายนี้มากหรือน้อย แต่ฉันอ่านบางที่ว่าวิธีนี้มีข้อ จำกัด มากและใช้กับกรณีที่ง่ายมาก ฉันเข้าใจพื้นฐานของเครือข่ายประสาทและอัลกอริทึมทางพันธุกรรม (แต่ไม่เคยใช้มันในโครงการที่จริงจัง) และบางทีพวกเขาอาจได้รับความช่วยเหลือบ้าง ฉันสงสัยว่ามีอัลกอริทึมใด ๆ ที่ได้รับข้อความการฝึกอบรมที่เหมาะสม (เช่นบทความในหนังสือพิมพ์และการพิมพ์ของผู้ใช้) สามารถเกิดขึ้นได้พร้อมคำแนะนำที่เหมาะสมสำหรับคำถัดไป หากไม่ใช่ (ลิงก์ไปยัง) อัลกอริทึมวิธีการระดับสูงทั่วไปเพื่อโจมตีปัญหานี้ยินดีต้อนรับ

10 algorithms artificial-intelligence machine-learning natural-language-processing

คำถามติดแท็ก natural-language-processing