คำถามติดแท็ก tokenize


16
แยก (แยก) สตริงใน C ++ โดยใช้ตัวคั่นสตริง (C ++ มาตรฐาน)
ฉันแยกวิเคราะห์สตริงใน C ++ โดยใช้สิ่งต่อไปนี้: using namespace std; string parsed,input="text to be parsed"; stringstream input_stringstream(input); if (getline(input_stringstream,parsed,' ')) { // do some processing. } การแยกวิเคราะห์ด้วยตัวคั่นถ่านเดียวเป็นเรื่องปกติ แต่ถ้าฉันต้องการใช้สตริงเป็นตัวคั่น ตัวอย่าง: ฉันต้องการแยก: scott>=tiger ด้วย>=ตัวคั่นเพื่อที่ฉันจะได้สกอตต์และเสือ
361 c++  parsing  split  token  tokenize 


17
วิธีการแยกสตริงในเชลล์และรับฟิลด์สุดท้าย
สมมติว่าฉันมีสตริง1:2:3:4:5และฉันต้องการได้รับเขตข้อมูลสุดท้าย ( 5ในกรณีนี้) ฉันจะทำเช่นนั้นโดยใช้ Bash ได้อย่างไร ฉันพยายามแต่ผมไม่ทราบว่าวิธีการระบุข้อมูลที่ผ่านมาด้วยcut-f
293 bash  split  tokenize  cut 

10
สแกนเนอร์กับ StringTokenizer เทียบกับ String.Split
ฉันเพิ่งเรียนรู้เกี่ยวกับคลาสเครื่องสแกนของ Java และตอนนี้ฉันสงสัยว่ามันเปรียบเทียบ / แข่งขันกับ StringTokenizer และ String.Split ได้อย่างไร ฉันรู้ว่า StringTokenizer และ String.Split ใช้งานได้กับ Strings เท่านั้นเหตุใดฉันจึงต้องการใช้สแกนเนอร์เป็นสตริง สแกนเนอร์ตั้งใจที่จะเป็นแหล่งช้อปปิ้งแบบครบวงจรเพื่อการแยกหรือไม่

4
กำลังมองหาคำจำกัดความที่ชัดเจนว่า "tokenizer", "parser" และ "lexers" คืออะไรและเกี่ยวข้องอย่างไรกันและนำมาใช้อย่างไร
ฉันกำลังค้นหาคำจำกัดความที่ชัดเจนของสิ่งที่ "tokenizer", "parser" และ "lexer" คืออะไรและเกี่ยวข้องกันอย่างไร (เช่น parser ใช้ tokenizer หรือในทางกลับกัน)? ฉันต้องสร้างโปรแกรมจะผ่านไฟล์ต้นฉบับ c / h เพื่อแยกการประกาศข้อมูลและคำจำกัดความ ฉันกำลังมองหาตัวอย่างและสามารถหาข้อมูลได้บ้าง แต่ฉันพยายามดิ้นรนเพื่อเข้าใจแนวคิดพื้นฐานเช่นกฎไวยากรณ์การแยกวิเคราะห์ต้นไม้และต้นไม้ไวยากรณ์ที่เป็นนามธรรมและวิธีที่พวกเขามีความสัมพันธ์ซึ่งกันและกัน ในที่สุดแนวคิดเหล่านี้จำเป็นต้องเก็บไว้ในโปรแกรมจริง แต่ 1) สิ่งที่พวกเขาดูเหมือน 2) มีการใช้งานทั่วไป ฉันดูวิกิพีเดียในหัวข้อและโปรแกรมเหล่านี้เช่น Lex และ Yacc แต่ไม่เคยผ่านชั้นเรียนคอมไพเลอร์ (หลัก EE) ฉันพบว่ามันยากที่จะเข้าใจว่าเกิดอะไรขึ้น
151 parsing  lexer  tokenize 

5
บรรทัดของโค้ด Python สามารถรู้ระดับการซ้อนของย่อหน้าได้หรือไม่?
จากบางสิ่งเช่นนี้ print(get_indentation_level()) print(get_indentation_level()) print(get_indentation_level()) ฉันต้องการได้รับสิ่งนี้: 1 2 3 รหัสสามารถอ่านตัวเองด้วยวิธีนี้ สิ่งที่ฉันต้องการคือผลลัพธ์จากส่วนที่ซ้อนกันมากขึ้นของรหัสที่จะซ้อนกันมากขึ้น ในทำนองเดียวกับที่ทำให้โค้ดอ่านง่ายขึ้นก็จะทำให้อ่านง่ายขึ้น แน่นอนฉันจะดำเนินการนี้ด้วยตนเองโดยใช้เช่น.format()แต่สิ่งที่ฉันมีในใจเป็นฟังก์ชั่นการพิมพ์ที่กำหนดเองซึ่งจะprint(i*' ' + string)ที่iเป็นระดับเยื้อง นี่จะเป็นวิธีที่รวดเร็วในการสร้างเอาต์พุตที่อ่านได้บนเทอร์มินัลของฉัน มีวิธีที่ดีกว่าในการทำเช่นนี้ซึ่งหลีกเลี่ยงการจัดรูปแบบด้วยตนเองอย่างระมัดระวัง?


11
วิธีกำจัดเครื่องหมายวรรคตอนโดยใช้โทเค็น NLTK
ฉันเพิ่งเริ่มใช้ NLTK และไม่ค่อยเข้าใจวิธีรับรายการคำจากข้อความ ถ้าฉันใช้nltk.word_tokenize()ฉันจะได้รับรายการคำและเครื่องหมายวรรคตอน ฉันต้องการเพียงคำพูดแทน ฉันจะกำจัดเครื่องหมายวรรคตอนได้อย่างไร ยังใช้word_tokenizeไม่ได้กับหลายประโยค: จุดจะถูกเพิ่มเข้าไปในคำสุดท้าย
125 python  nlp  tokenize  nltk 

13
การแยกสตริงออกเป็นหลายแถวใน Oracle
ฉันรู้ว่าสิ่งนี้ได้รับคำตอบในระดับหนึ่งกับ PHP และ MYSQL แต่ฉันสงสัยว่ามีใครสามารถสอนวิธีที่ง่ายที่สุดในการแยกสตริง (คั่นด้วยจุลภาค) เป็นหลายแถวใน Oracle 10g (ควรเป็น) และ 11g ตารางมีดังนี้: Name | Project | Error 108 test Err1, Err2, Err3 109 test2 Err1 ฉันต้องการสร้างสิ่งต่อไปนี้: Name | Project | Error 108 Test Err1 108 Test Err2 108 Test Err3 109 Test2 Err1 ฉันได้เห็นโซลูชันที่เป็นไปได้สองสามข้อเกี่ยวกับสแต็ก แต่พวกเขาคิดเป็นคอลัมน์เดียวเท่านั้น (เป็นสตริงที่คั่นด้วยจุลภาค) ความช่วยเหลือใด ๆ ที่จะได้รับการชื่นชมอย่างมาก.
104 sql  string  oracle  plsql  tokenize 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.