คำถามติดแท็ก natural-language-processing

5
การค้นหาแอนนาแกรมที่น่าสนใจ
สมมติว่าและเป็นสองสตริงที่มีความยาวเท่ากัน anagrammingของสองสายคือการทำแผนที่ bijectiveเช่นว่าสำหรับแต่ละฉันb 1 b 2 … b na1a2…ana1a2…ana_1a_2\ldots a_nb1b2…bnb1b2…bnb_1b_2\ldots b_na i = b p ( i ) ip:[1…n]→[1…n]p:[1…n]→[1…n]p:[1\ldots n]\to[1\ldots n]ai=bp(i)ai=bp(i)a_i = b_{p(i)}iii อาจมีแอนนาแกรมมากกว่าหนึ่งรายการสำหรับคู่สายเดียวกัน ตัวอย่างเช่นถ้า `abcab` และเรามีและและอื่น ๆb = p 1 [ 1 , 2 , 3 , 4 , 5 ] → [ 4 , 5 , 1 , …

2
เหตุใด C ประเภทโมฆะจึงไม่คล้ายกับประเภทที่ว่าง / ด้านล่าง
Wikipedia ตลอดจนแหล่งข้อมูลอื่น ๆ ที่ฉันได้พบรายการvoidประเภทC เป็นหน่วยประเภทซึ่งตรงข้ามกับประเภทที่ว่างเปล่า ฉันพบว่ามันสับสนเพราะฉันคิดว่าvoidเหมาะกับนิยามของประเภทที่ว่าง / ล่าง ไม่มีค่านิยมใด ๆ อยู่voidเท่าที่ฉันจะบอกได้ ฟังก์ชั่นที่มีประเภทคืนค่าเป็นโมฆะระบุว่าฟังก์ชั่นจะไม่ส่งคืนสิ่งใดดังนั้นจึงสามารถทำงานได้เพียงผลข้างเคียงเท่านั้น ตัวชี้ชนิดvoid*เป็นชนิดย่อยของชนิดตัวชี้อื่นทั้งหมด นอกจากนี้การแปลงไปยังและจากvoid*ใน C นั้นเป็นนัย ผมไม่แน่ใจว่าถ้าจุดสุดท้ายมีบุญใด ๆ ที่เป็นข้อโต้แย้งสำหรับvoidการเป็นประเภทที่ว่างเปล่าเป็นมากหรือน้อยเป็นกรณีพิเศษที่มีความสัมพันธ์ไม่มากที่จะvoid*void ในทางกลับกันvoidตัวมันเองไม่ใช่ประเภทย่อยของประเภทอื่นทั้งหมดซึ่งเท่าที่ฉันสามารถบอกได้ว่าเป็นข้อกำหนดสำหรับประเภทที่จะเป็นประเภทด้านล่าง
28 type-theory  c  logic  modal-logic  coq  equality  coinduction  artificial-intelligence  computer-architecture  compilers  asymptotics  formal-languages  asymptotics  landau-notation  asymptotics  turing-machines  optimization  decision-problem  rice-theorem  algorithms  arithmetic  floating-point  automata  finite-automata  data-structures  search-trees  balanced-search-trees  complexity-theory  asymptotics  amortized-analysis  complexity-theory  graphs  np-complete  reductions  np-hard  algorithms  string-metrics  computability  artificial-intelligence  halting-problem  turing-machines  computation-models  graph-theory  terminology  complexity-theory  decision-problem  polynomial-time  algorithms  algorithm-analysis  optimization  runtime-analysis  loops  turing-machines  computation-models  recurrence-relation  master-theorem  complexity-theory  asymptotics  parallel-computing  landau-notation  terminology  optimization  decision-problem  complexity-theory  polynomial-time  counting  coding-theory  permutations  encoding-scheme  error-correcting-codes  machine-learning  natural-language-processing  algorithms  graphs  social-networks  network-analysis  relational-algebra  constraint-satisfaction  polymorphisms  algorithms  graphs  trees 

9
ภาษาการเขียนโปรแกรมกลายเป็นภาษาธรรมชาติมากกว่าหรือเปล่า?
คำถามนี้ถูกย้ายจากการแลกเปลี่ยนกองวิศวกรรมซอฟต์แวร์เพราะสามารถตอบได้ใน Computer Science Stack Exchange อพยพ 6 ปีที่แล้ว เราสามารถศึกษาภาษาการเขียนโปรแกรมในบริบทของภาษาศาสตร์ได้หรือไม่? ภาษาการเขียนโปรแกรมมีวิวัฒนาการตามธรรมชาติในรูปแบบที่คล้ายคลึงกับภาษาธรรมชาติ แม้ว่าความเป็นเหตุเป็นผลเต็มรูปแบบและความสอดคล้องทางคณิตศาสตร์เป็นสิ่งจำเป็นสำหรับภาษาโปรแกรม แต่ก็ยังมีความต้องการ (โดยเฉพาะภาษาสมัยใหม่) เพื่อให้สามารถอ่านได้และสะดวกสบายสำหรับมนุษย์ ภาษาการเขียนโปรแกรมพัฒนาขึ้นเพื่อให้เป็นภาษาศาสตร์มากขึ้นและเป็นธรรมชาติยิ่งขึ้นหรือไม่? ตัวอย่างเช่นรหัสเครื่อง, การ์ดเจาะรูและภาษาแอสเซมบลีได้ให้วิธีการในภาษาที่อ่านได้มากขึ้นเช่น Ruby และ Python เป็นต้น เมื่อฉันพูดภาษาคอมพิวเตอร์กลายเป็นธรรมชาติมากขึ้นฉันไม่ได้หมายความว่าพวกเขามี 'คำที่เรามีในภาษาอังกฤษ' ฉันหมายถึงพวกเขาดูเหมือนจะเป็นภาษาธรรมชาติมากกว่าในแง่ของความซับซ้อนของไวยากรณ์และความสามารถในการแสดงความหมาย (ตัวอย่างเช่นความสามารถในการอธิบายการสอบถามจากฐานข้อมูลอย่างละเอียดทั้งในเชิงเหตุผลและที่มนุษย์เข้าใจได้) คุณคิดอย่างไร? ภาษาการเขียนโปรแกรมมีลักษณะคล้ายกับภาษาธรรมชาติมากขึ้นและสามารถนำไปใช้กับกฎหมายภาษาศาสตร์ได้หรือไม่? หรือบางทีภาษาก็อาศัยอยู่ในสเปกตรัมซึ่งในอีกด้านหนึ่งคุณมีภาษาที่มีเหตุผลสูงมากและอีกด้านหนึ่งก็สร้างสรรค์มากขึ้น บางทีการเขียนโปรแกรมและภาษาธรรมชาตินั้นเหมือนกันและทั้งคู่ก็อยู่บนสเปกตรัมภาษานี้ (ความแตกต่างเพียงอย่างเดียวอาจเป็น 'สิ่ง' ที่พวกเขาพยายามให้ความหมายของมัน) มีการเชื่อมต่อระหว่างการแยก (Babel Tower effect) ของภาษามนุษย์และภาษาคอมพิวเตอร์หรือไม่? พวกเขามีความหลากหลายมากขึ้นด้วยเหตุผลเดียวกัน (เช่นการแก้ปัญหาที่แตกต่างกันภายในระบบคอมพิวเตอร์ / วัฒนธรรม - ระบบ ฯลฯ )?

1
บีบอัดชื่อโดเมน
ผมอยากรู้ว่าวิธีหนึ่งอาจมากดานบีบอัดโดเมนของพลIDNชื่อโฮสต์ (ตามที่กำหนดโดยRFC5890 ) และสงสัยว่านี้อาจจะกลายเป็นความท้าทายที่น่าสนใจ โฮสต์ Unicode หรือชื่อโดเมน (U-label) ประกอบด้วยสตริงของอักขระ Unicode โดยทั่วไปจะถูก จำกัด ให้เป็นหนึ่งภาษาขึ้นอยู่กับโดเมนระดับบนสุด (เช่นตัวอักษรกรีกภายใต้.gr) ซึ่งเข้ารหัสเป็นสตริง ASCII ที่ขึ้นต้นด้วยxn--(ที่สอดคล้องกัน A-ฉลาก) หนึ่งสามารถสร้างแบบจำลองข้อมูลไม่เพียง แต่จากข้อกำหนดอย่างเป็นทางการที่ แต่ละป้ายที่ไม่ใช่ Unicode จะจับคู่สตริง^[a-z\d]([a-z\d\-]{0,61}[a-z\d])?$; แต่ละ A-label เป็นการจับคู่สตริง^xn--[a-z\d]([a-z\d\-]{0,57}[a-z\d])?$; และ ความยาวรวมของโดเมนทั้งหมด (ป้ายกำกับ A และป้ายกำกับที่ไม่ใช่ IDN ตัดแบ่งด้วย '.' ตัวคั่น) ไม่เกิน 255 อักขระ แต่จากการวิเคราะห์พฤติกรรมต่าง ๆ รวมไปถึง: ลดการสั่งซื้อ U-ฉลากมักจะ lexically, ไวยากรณ์และความหมายวลีที่ถูกต้องในภาษาธรรมชาติบางอย่างรวมทั้งคำนามที่เหมาะสมและตัวเลข (unpunctuated ยกเว้นยัติภังค์ปลดออกจากช่องว่างและพับต่อNameprep ) มีการตั้งค่าสำหรับวลีสั้น; และ …

2
การระบุเหตุการณ์ที่เกี่ยวข้องกับวันที่ในวรรค
มีวิธีการแบบอัลกอริทึมในการระบุวันที่ที่ให้ไว้ในย่อหน้าที่สัมพันธ์กับเหตุการณ์ (วลี) ในย่อหน้าหรือไม่? ตัวอย่างพิจารณาย่อหน้าต่อไปนี้: ในเดือนมิถุนายนปี 1970 ผู้นำที่ยิ่งใหญ่ได้สาบาน แต่หลังจากเดือนพฤษภาคม 2515 โพสต์การตายของรัฐมนตรีต่างประเทศว่าเขาเข้ามากุมบังเหียนของประเทศ ในขณะที่เขาได้รับความนิยมจนถึงกลางปี ​​1980 อิทธิพลของเขาก็เริ่มลดลงหลังจากนั้น มีอัลกอริทึม (ที่กำหนดขึ้นหรือสุ่ม) # ที่สามารถสร้าง 2-tuple (วันที่, เหตุการณ์) ที่เหตุการณ์นั้นมีความหมายโดยนัยตามวรรคที่จะเกิดขึ้นในวันที่ ? ในกรณีข้างต้น: (มิถุนายน 2513 ผู้นำที่ยิ่งใหญ่สาบาน) (พฤษภาคม 1972, เข้ามากุมบังเหียน) หรือดีกว่าเลย (พฤษภาคม 1972 ผู้นำที่ยิ่งใหญ่เข้ามากุมบังเหียน) (1980 ตกอยู่ในอิทธิพล) นอกจากนี้ #Later

4
ความสัมพันธ์และความแตกต่างระหว่างการดึงข้อมูลและการดึงข้อมูล?
จากวิกิพีเดีย การดึงข้อมูลคือกิจกรรมในการรับทรัพยากรสารสนเทศที่เกี่ยวข้องกับความต้องการข้อมูลจากการรวบรวมทรัพยากรสารสนเทศ การค้นหาอาจขึ้นอยู่กับข้อมูลเมตาหรือการจัดทำดัชนีข้อความแบบเต็ม จากวิกิพีเดีย การแยกข้อมูล (IE)เป็นหน้าที่ของการแยกข้อมูลที่มีโครงสร้างโดยอัตโนมัติจากเอกสารที่ไม่มีโครงสร้างและ / หรือเอกสารกึ่งโครงสร้างที่เครื่องอ่านได้ ในกรณีส่วนใหญ่กิจกรรมนี้เกี่ยวข้องกับการประมวลผลข้อความภาษามนุษย์โดยใช้การประมวลผลภาษาธรรมชาติ (NLP) กิจกรรมล่าสุดในการประมวลผลเอกสารมัลติมีเดียเช่นบันทึกย่ออัตโนมัติและการแยกเนื้อหาออกจากภาพ / เสียง / วิดีโออาจถูกมองว่าเป็นการดึงข้อมูล อะไรคือความสัมพันธ์และความแตกต่างระหว่างการดึงข้อมูลและการดึงข้อมูล? ขอบคุณ!

1
การใช้งาน Naive Bayes
ฉันใช้อัลกอริทึม Naive Bayes สำหรับการจัดหมวดหมู่ข้อความด้วยการปรับให้เรียบ Laplacian ปัญหาที่ฉันมีอยู่คือความน่าจะเป็นเป็นศูนย์เพราะฉันคูณเศษส่วนเล็ก ๆ จำนวนมาก ดังนั้นความน่าจะเป็นในที่สุดให้ผลเป็นศูนย์ เนื่องจากมีหลายคำในเอกสารและชุดฝึกอบรม ด้วยเหตุนี้ฉันจึงไม่สามารถจัดหมวดหมู่ข้อความได้ มีวิธีที่ฉันสามารถแก้ไขปัญหานี้ได้หรือไม่? ฉันกำลังทำสิ่งผิดปกติในการติดตั้งหรือไม่?
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.