คำถามติดแท็ก text-mining

หมายถึงส่วนย่อยของ data mining ที่เกี่ยวข้องกับการดึงข้อมูลจากข้อมูลในรูปแบบของข้อความโดยการจดจำรูปแบบ เป้าหมายของการทำเหมืองข้อความมักจะจัดประเภทเอกสารที่กำหนดเป็นหนึ่งในจำนวนหมวดหมู่ในวิธีการอัตโนมัติและเพื่อปรับปรุงประสิทธิภาพนี้แบบไดนามิกทำให้มันเป็นตัวอย่างของการเรียนรู้ของเครื่อง ตัวอย่างหนึ่งของการขุดข้อความแบบนี้คือตัวกรองสแปมที่ใช้สำหรับอีเมล

2
การปรับสเกลข้อมูลอย่างมีจริยธรรมและประหยัดต้นทุน
มีบางสิ่งในชีวิตที่ทำให้ฉันมีความสุขเช่นการขูดข้อมูลที่ไม่มีโครงสร้างและไม่มีโครงสร้างจากอินเทอร์เน็ตและใช้มันในแบบจำลองของฉัน ตัวอย่างเช่นชุด Data Science Toolkit (หรือRDSTKสำหรับโปรแกรมเมอร์ R) ช่วยให้ฉันสามารถดึงข้อมูลตามตำแหน่งที่ดีโดยใช้ IP หรือที่อยู่และแพคเกจtm.webmining.pluginสำหรับ R tmทำให้การคัดลอกข้อมูลทางการเงินและข่าวตรงไปตรงมา เมื่อจะเกิน (กึ่ง) XPathข้อมูลที่มีโครงสร้างเช่นฉันมักจะใช้ อย่างไรก็ตามฉันได้รับปริมาณ จำกัด อย่างต่อเนื่องกับจำนวนข้อความค้นหาที่คุณอนุญาต ฉันคิดว่า Google จำกัด ฉันให้ถึง 50,000 คำขอต่อ 24 ชั่วโมงซึ่งเป็นปัญหาสำหรับ Big Data จากมุมมองทางเทคนิคการเข้าถึงข้อ จำกัด เหล่านี้เป็นเรื่องง่ายเพียงแค่เปลี่ยนที่อยู่ IP และกำจัดตัวระบุอื่น ๆ จากสภาพแวดล้อมของคุณ อย่างไรก็ตามสิ่งนี้นำเสนอทั้งความกังวลด้านจริยธรรมและการเงิน (ฉันคิดว่า?) มีวิธีแก้ปัญหาที่ฉันมองเห็นหรือไม่?

4
ทางเลือกแทน TF-IDF และ Cosine Similarity เมื่อเปรียบเทียบเอกสารที่มีรูปแบบต่างกัน
ฉันทำงานเกี่ยวกับโครงการส่วนตัวขนาดเล็กซึ่งใช้ทักษะการทำงานของผู้ใช้และแนะนำอาชีพที่เหมาะสมที่สุดสำหรับพวกเขาตามทักษะเหล่านั้น ฉันใช้ฐานข้อมูลของรายการงานเพื่อให้ได้สิ่งนี้ ในขณะนี้รหัสทำงานดังนี้: 1) ประมวลผลข้อความของแต่ละรายการงานเพื่อแยกทักษะที่ระบุไว้ในรายการ 2) สำหรับแต่ละอาชีพ (เช่น "นักวิเคราะห์ข้อมูล") ให้รวมข้อความที่ประมวลผลของรายการงานสำหรับอาชีพนั้นไว้ในเอกสารเดียว 3) คำนวณ TF-IDF ของแต่ละทักษะภายในเอกสารประกอบอาชีพ หลังจากนี้ฉันไม่แน่ใจว่าวิธีการใดที่ฉันควรใช้เพื่อจัดอันดับอาชีพตามรายการทักษะของผู้ใช้ วิธีที่ได้รับความนิยมมากที่สุดที่ฉันเคยเห็นก็คือการใช้ทักษะของผู้ใช้เป็นเอกสารเช่นกันจากนั้นคำนวณ TF-IDF สำหรับเอกสารทักษะและใช้สิ่งที่คล้ายโคไซน์เพื่อคำนวณความคล้ายคลึงกันระหว่างเอกสารทักษะและแต่ละ เอกสารประกอบอาชีพ ดูเหมือนจะไม่เป็นทางออกที่ดีสำหรับฉันเนื่องจากความคล้ายคลึงกันทางโคไซน์นั้นถูกใช้งานได้ดีที่สุดเมื่อเปรียบเทียบเอกสารสองฉบับในรูปแบบเดียวกัน สำหรับเรื่องนั้น TF-IDF ดูเหมือนจะไม่ตรงกับตัวชี้วัดที่เหมาะสมที่จะนำไปใช้กับรายการทักษะของผู้ใช้เลย ตัวอย่างเช่นหากผู้ใช้เพิ่มทักษะเพิ่มเติมลงในรายการ TF ของแต่ละทักษะจะลดลง ในความเป็นจริงฉันไม่สนใจสิ่งที่ความถี่ของทักษะอยู่ในรายการทักษะของผู้ใช้ - ฉันแค่ใส่ใจว่าพวกเขามีทักษะเหล่านั้น (และบางทีพวกเขารู้ทักษะเหล่านั้นดีแค่ไหน) ดูเหมือนว่าตัวชี้วัดที่ดีกว่าจะทำสิ่งต่อไปนี้: 1) สำหรับแต่ละทักษะที่ผู้ใช้มีให้คำนวณ TF-IDF ของทักษะนั้นในเอกสารประกอบอาชีพ 2) สำหรับแต่ละอาชีพสรุปผล TF-IDF สำหรับทักษะทั้งหมดของผู้ใช้ 3) อันดับอาชีพตามผลรวมข้างต้น ฉันกำลังคิดตามบรรทัดที่นี่หรือไม่ ถ้าเป็นเช่นนั้นมีอัลกอริทึมใดบ้างที่ใช้งานได้ตามบรรทัดเหล่านี้ แต่มีความซับซ้อนมากกว่าผลรวมแบบง่ายหรือไม่? ขอบคุณสำหรับความช่วยเหลือ!

3
การจำแนกข้อความที่ไม่มีโครงสร้าง
ฉันจะจัดประเภทเอกสารข้อความที่ไม่มีโครงสร้างนั่นคือเว็บไซต์ที่มีโครงสร้างที่ไม่รู้จัก จำนวนชั้นเรียนที่ฉันกำลังจำแนกมี จำกัด (ณ จุดนี้ฉันเชื่อว่ามีไม่เกินสาม) ใครบ้างมีข้อเสนอแนะสำหรับวิธีฉันอาจเริ่มต้น? "คำพูด" เป็นไปได้หรือไม่? หลังจากนั้นฉันสามารถเพิ่มขั้นตอนการจัดหมวดหมู่อื่นตามโครงสร้างของเอกสาร (อาจเป็นแผนผังการตัดสินใจ) ฉันค่อนข้างคุ้นเคยกับ Mahout และ Hadoop ดังนั้นฉันจึงชอบโซลูชันที่ใช้ Java หากจำเป็นฉันสามารถเปลี่ยนเป็น Scala และ / หรือ Spark engine (ห้องสมุด ML)

2
อัลกอริทึมการจับคู่การตั้งค่า
มีโครงการด้านนี้ที่ฉันกำลังทำงานในที่ที่ฉันต้องการจัดโครงสร้างวิธีแก้ไขปัญหาต่อไปนี้ ฉันมีคนสองกลุ่ม (ลูกค้า) กลุ่มAตั้งใจที่จะซื้อและกลุ่มตั้งใจที่จะขายสินค้าที่มีความมุ่งมั่นB Xผลิตภัณฑ์มีชุดของคุณลักษณะx_iและวัตถุประสงค์ของฉันคือเพื่ออำนวยความสะดวกในการทำธุรกรรมระหว่างAและBโดยการจับคู่การตั้งค่าของพวกเขา แนวคิดหลักคือการชี้ให้สมาชิกแต่ละคนของAผลิตภัณฑ์ที่ตรงBกับความต้องการของเขาและในทางกลับกัน ปัญหาที่ซับซ้อนบางประการของปัญหา: รายการคุณลักษณะไม่ จำกัด ผู้ซื้ออาจสนใจในลักษณะเฉพาะหรือการออกแบบบางอย่างซึ่งหาได้ยากในหมู่ประชากรและฉันไม่สามารถคาดเดาได้ ก่อนหน้านี้ไม่สามารถแสดงรายการคุณลักษณะทั้งหมด แอตทริบิวต์อาจเป็นแบบต่อเนื่องแบบไบนารีหรือไม่สามารถวัดได้ (เช่นราคาฟังก์ชันการทำงานการออกแบบ); ข้อเสนอแนะใด ๆ เกี่ยวกับวิธีการแก้ไขปัญหานี้และแก้ปัญหาด้วยวิธีอัตโนมัติ? ฉันจะขอบคุณอ้างอิงบางอย่างเกี่ยวกับปัญหาที่คล้ายกันอื่น ๆ ถ้าเป็นไปได้ คำแนะนำยอดเยี่ยม! ความคล้ายคลึงกันหลายอย่างในวิธีที่ฉันคิดว่าจะเข้าใกล้ปัญหา ประเด็นหลักในการทำแผนที่คุณลักษณะคือระดับของรายละเอียดที่ควรอธิบายผลิตภัณฑ์ขึ้นอยู่กับผู้ซื้อแต่ละราย ลองยกตัวอย่างรถยนต์ ผลิตภัณฑ์“ รถยนต์” มีคุณสมบัติมากมายตั้งแต่ประสิทธิภาพการทำงานโครงสร้างเครื่องจักรกลราคาและอื่น ๆ สมมติว่าฉันต้องการรถราคาถูกหรือรถยนต์ไฟฟ้า ตกลงนั่นเป็นเรื่องง่ายที่จะทำแผนที่เพราะมันเป็นคุณสมบัติหลักของผลิตภัณฑ์นี้ แต่ตัวอย่างเช่นฉันต้องการรถที่มีระบบส่งกำลังแบบ Dual-Clutch หรือไฟหน้าซีนอน อาจมีรถยนต์จำนวนมากในฐานข้อมูลที่มีคุณลักษณะนี้ แต่ฉันจะไม่ขอให้ผู้ขายกรอกรายละเอียดในระดับนี้ลงในผลิตภัณฑ์ของพวกเขาก่อนข้อมูลที่มีคนมองอยู่ ขั้นตอนดังกล่าวจะกำหนดให้ผู้ขายทุกรายกรอกแบบฟอร์มที่มีความซับซ้อนและละเอียดมากเพียงพยายามขายรถของเขาบนแพลตฟอร์ม แค่จะไม่ทำงาน แต่ถึงกระนั้นความท้าทายของฉันคือการพยายามให้รายละเอียดเท่าที่จำเป็นในการค้นหาเพื่อให้ตรงกับที่ดี วิธีที่ฉันคิดคือการทำแผนที่ประเด็นสำคัญของผลิตภัณฑ์ซึ่งอาจเกี่ยวข้องกับทุกคนเพื่อ จำกัด กลุ่มผู้ขายที่มีศักยภาพ ขั้นตอนต่อไปจะเป็น "การค้นหาที่ละเอียดอ่อน" เพื่อหลีกเลี่ยงการสร้างแบบฟอร์มที่มีรายละเอียดมากเกินไปฉันอาจขอให้ผู้ซื้อและผู้ขายเขียนข้อความฟรีของข้อกำหนดของพวกเขา จากนั้นใช้อัลกอริทึมการจับคู่คำเพื่อค้นหาการจับคู่ที่เป็นไปได้ แม้ว่าฉันเข้าใจว่านี่ไม่ใช่วิธีแก้ปัญหาที่เหมาะสมเนื่องจากผู้ขายไม่สามารถ“ เดา” สิ่งที่ผู้ซื้อต้องการได้ แต่อาจทำให้ฉันเข้าใกล้ เกณฑ์การถ่วงน้ำหนักที่แนะนำนั้นยอดเยี่ยม มันช่วยให้ฉันสามารถวัดระดับที่ผู้ขายตรงกับความต้องการของผู้ซื้อ …

2
การจำแนกเอกสารโดยใช้โครงข่ายประสาทเทียม
ฉันพยายามใช้ CNN (เครือข่ายประสาทเทียม) เพื่อจัดประเภทเอกสาร ซีเอ็นเอ็นสำหรับข้อความสั้น ๆ / ประโยคได้รับการศึกษาในเอกสารจำนวนมาก อย่างไรก็ตามดูเหมือนว่าไม่มีเอกสารใดที่ใช้ CNN สำหรับข้อความหรือเอกสารที่ยาว ปัญหาของฉันคือมีฟีเจอร์มากมายจากเอกสาร ในชุดข้อมูลของฉันเอกสารแต่ละฉบับมีโทเค็นมากกว่า 1,000 รายการ / คำ ในการป้อนตัวอย่างแต่ละตัวให้กับ CNN ฉันแปลงเอกสารแต่ละฉบับเป็นเมทริกซ์โดยใช้word2vecหรือถุงมือทำให้เกิดเมทริกซ์ขนาดใหญ่ สำหรับแต่ละเมทริกซ์ความสูงคือความยาวของเอกสารและความกว้างคือขนาดของคำที่ฝังเวกเตอร์ ชุดข้อมูลของฉันมีตัวอย่างมากกว่า 9000 ตัวอย่างและใช้เวลานานในการฝึกอบรมเครือข่าย (ทั้งสัปดาห์) ซึ่งทำให้ยากต่อการปรับแต่งพารามิเตอร์ วิธีการแยกคุณสมบัติอื่นคือการใช้เวกเตอร์หนึ่งคำสำหรับแต่ละคำศัพท์ แต่สิ่งนี้จะสร้างเมทริกซ์ที่กระจัดกระจายมาก และแน่นอนว่าวิธีนี้ใช้เวลาในการฝึกฝนมากกว่าวิธีก่อนหน้า ดังนั้นจะมีวิธีที่ดีกว่าสำหรับการแยกฟีเจอร์โดยไม่ต้องสร้างเมทริกซ์อินพุตขนาดใหญ่หรือไม่? แล้วเราจะจัดการกับความยาวของตัวแปรได้อย่างไร? ขณะนี้ฉันเพิ่มสตริงพิเศษเพื่อให้เอกสารมีความยาวเท่ากัน แต่ฉันไม่คิดว่ามันเป็นทางออกที่ดี

1
วิธีการตรวจสอบว่าลำดับตัวละครเป็นคำภาษาอังกฤษหรือเสียงรบกวน
ฟีเจอร์ประเภทใดที่คุณจะพยายามแยกออกจากรายการคำศัพท์สำหรับการทำนายอนาคตมันเป็นคำที่มีอยู่หรือเป็นแค่ตัวละคร? มีรายละเอียดของงานที่ผมพบคือมี คุณต้องเขียนโปรแกรมที่สามารถตอบได้ว่าคำที่กำหนดเป็นภาษาอังกฤษหรือไม่ นี่จะเป็นเรื่องง่าย - คุณเพียงแค่ต้องค้นหาคำในพจนานุกรม - แต่มีข้อ จำกัด ที่สำคัญ: โปรแกรมของคุณต้องมีขนาดไม่เกิน 64 KiB ดังนั้นฉันคิดว่ามันจะเป็นไปได้ที่จะใช้การถดถอยโลจิสติกในการแก้ปัญหา ฉันไม่มีประสบการณ์ในการขุดข้อมูลมากนัก แต่งานนั้นน่าสนใจสำหรับฉัน ขอบคุณ

1
การใช้ word2vec กับไฟล์ข้อความขนาดเล็ก
ฉันใหม่โดยสิ้นเชิงกับ word2vec ดังนั้นโปรดอดทนกับฉัน ฉันมีชุดไฟล์ข้อความแต่ละอันมีชุดทวีตอยู่ระหว่าง 1,000-3,000 ฉันเลือกคำหลักทั่วไป ("kw1") และต้องการค้นหาคำที่มีความหมายเชิงความหมายสำหรับ "kw1" โดยใช้ word2vec ตัวอย่างเช่นหากคำหลักคือ "apple" ฉันคาดว่าจะเห็นคำที่เกี่ยวข้องเช่น "ipad" "os" "mac" ... ตามไฟล์อินพุต ดังนั้นชุดคำศัพท์ที่เกี่ยวข้องสำหรับ "kw1" นี้จะแตกต่างกันสำหรับไฟล์อินพุตแต่ละไฟล์เนื่องจาก word2vec จะได้รับการฝึกอบรมในไฟล์แต่ละไฟล์ (เช่นไฟล์อินพุต 5 ไฟล์เรียกใช้ word2vec 5 ครั้งในแต่ละไฟล์) เป้าหมายของฉันคือค้นหาชุดคำศัพท์ที่เกี่ยวข้องสำหรับไฟล์อินพุตแต่ละไฟล์ที่มีคำหลักทั่วไป ("kw1") ซึ่งจะใช้เพื่อวัตถุประสงค์อื่น คำถาม / ข้อสงสัยของฉันคือ: มันสมเหตุสมผลหรือไม่ที่จะใช้ word2vec สำหรับงานเช่นนี้? จะใช้เทคนิคหรือไม่หากพิจารณาถึงขนาดเล็กของไฟล์อินพุต? ฉันได้ดาวน์โหลดรหัสจาก code.google.com: https://code.google.com/p/word2vec/และเพิ่งให้การเรียกใช้แบบแห้งดังนี้: time ./word2vec -train $file -output vectors.bin -cbow …

3
อะไรคือความแตกต่างระหว่าง vectorizer hashing และ Vectorizer tfidf
ฉันกำลังแปลงคลังข้อความเอกสารเป็นคำเวกเตอร์สำหรับแต่ละเอกสาร ฉันได้ลองแล้วโดยใช้TfidfVectorizerและHashingVectorizer ผมเข้าใจว่าHashingVectorizerไม่คำนึงถึงIDFคะแนนเหมือนTfidfVectorizerไม่ เหตุผลที่ฉันยังคงทำงานร่วมกับผู้HashingVectorizerที่มีความยืดหยุ่นจะช่วยให้ขณะที่การจัดการกับชุดข้อมูลขนาดใหญ่ตามที่อธิบายไว้ที่นี่และที่นี่ (ชุดข้อมูลดั้งเดิมของฉันมีเอกสาร 30 ล้านฉบับ) ขณะนี้ฉันทำงานกับกลุ่มตัวอย่าง 45,339 เอกสารดังนั้นผมมีความสามารถในการทำงานด้วยTfidfVectorizerนอกจากนี้ยังมี เมื่อฉันใช้ vectorizers สองตัวนี้บนเอกสาร 45339 เดียวกันเมทริกซ์ที่ฉันได้รับนั้นแตกต่างกัน hashing = HashingVectorizer() with LSM('corpus.db')) as corpus: hashing_matrix = hashing.fit_transform(corpus) print(hashing_matrix.shape) hashing เมทริกซ์รูปร่าง (45339, 1048576) tfidf = TfidfVectorizer() with LSM('corpus.db')) as corpus: tfidf_matrix = tfidf.fit_transform(corpus) print(tfidf_matrix.shape) รูปร่างเมทริกซ์ tfidf (45339, 663307) ฉันต้องการเข้าใจความแตกต่างระหว่าง a HashingVectorizerและ a TfidfVectorizerและเหตุผลที่เมทริกซ์เหล่านี้มีขนาดต่างกันโดยเฉพาะในจำนวนคำ …

4
การใช้การทำคลัสเตอร์ในการประมวลผลข้อความ
สวัสดีนี่เป็นคำถามแรกของฉันใน Data Science stack ฉันต้องการสร้างอัลกอริทึมสำหรับการจำแนกข้อความ สมมติว่าฉันมีชุดข้อความและบทความจำนวนมาก ให้พูดประมาณ 5,000 ข้อความธรรมดา ฉันแรกใช้ฟังก์ชั่นง่าย ๆ เพื่อกำหนดความถี่ของคำทั้งสี่และข้างบน จากนั้นฉันใช้สิ่งนี้เป็นคุณสมบัติของตัวอย่างการฝึกอบรมแต่ละตัวอย่าง ตอนนี้ฉันต้องการให้อัลกอริทึมของฉันสามารถจัดกลุ่มชุดการฝึกอบรมตามคุณสมบัติของพวกเขาซึ่งนี่คือความถี่ของแต่ละคำในบทความ (โปรดทราบว่าในตัวอย่างนี้แต่ละบทความจะมีคุณลักษณะเฉพาะของตนเองเนื่องจากแต่ละบทความมีคุณสมบัติที่แตกต่างกันเช่นบทความมี 10 "น้ำและ 23" บริสุทธิ์ "และอีกบทความหนึ่งมี 8" การเมือง "และ 14" อำนาจ ") คุณช่วยแนะนำขั้นตอนวิธีการจัดกลุ่มที่ดีที่สุดสำหรับตัวอย่างนี้ได้ไหม

3
การเรียนรู้คุณลักษณะที่ไม่ได้รับการสนับสนุนสำหรับ NER
ฉันใช้ระบบ NER ด้วยการใช้อัลกอริธึม CRF กับคุณลักษณะแบบ handcrafted ของฉันที่ให้ผลลัพธ์ค่อนข้างดี สิ่งหนึ่งคือฉันใช้คุณสมบัติที่แตกต่างมากมายรวมถึงแท็ก POS และบทแทรก ตอนนี้ฉันต้องการสร้าง NER เดียวกันสำหรับภาษาอื่น ปัญหานี่คือฉันไม่สามารถใช้แท็ก POS และบทแทรก ฉันเริ่มอ่านบทความเกี่ยวกับการเรียนรู้อย่างลึกล้ำและการเรียนรู้คุณสมบัติที่ไม่มีผู้ดูแล คำถามของฉันคือ: เป็นไปได้ไหมที่จะใช้วิธีการสำหรับการเรียนรู้คุณสมบัติที่ไม่ได้รับการจัดการด้วยอัลกอริทึม CRF? ไม่มีใครลองและได้ผลดีบ้างไหม? มีบทความหรือการสอนเกี่ยวกับเรื่องนี้หรือไม่? ฉันยังไม่เข้าใจวิธีการสร้างคุณลักษณะนี้อย่างสมบูรณ์ดังนั้นฉันจึงไม่ต้องการใช้เวลามากสำหรับบางสิ่งที่ไม่ได้ผล ดังนั้นข้อมูลใด ๆ จะเป็นประโยชน์จริงๆ ในการสร้างระบบ NER ทั้งหมดโดยอิงจากการเรียนรู้เชิงลึกนั้นเป็นเรื่องที่ค่อนข้างมากในตอนนี้

3
ภาษาที่ดีที่สุดสำหรับการคำนวณทางวิทยาศาสตร์ [ปิด]
ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน5 ปีที่ผ่านมา ดูเหมือนว่าภาษาส่วนใหญ่จะมีห้องสมุดคำนวณทางวิทยาศาสตร์จำนวนหนึ่ง Python มี Scipy Rust มี SciRust C++มีหลายอย่างรวมถึงViennaCLและArmadillo JavaมีJava NumericsและColtเช่นเดียวกับหลาย ๆ ไม่ต้องพูดถึงภาษาที่ชอบRและJuliaออกแบบมาอย่างชัดเจนสำหรับการคำนวณทางวิทยาศาสตร์ ด้วยตัวเลือกมากมายคุณจะเลือกภาษาที่ดีที่สุดสำหรับงานอย่างไร นอกจากนี้ภาษาใดที่จะเป็นคนที่มีประสิทธิภาพมากที่สุด? PythonและRดูเหมือนว่าจะมีแรงฉุดที่สุดในอวกาศ แต่ภาษาที่รวบรวมได้ดูเหมือนจะเป็นทางเลือกที่ดีกว่า และจะมีอะไรดีกว่านี้Fortranไหม ภาษาที่คอมไพล์ด้วยนอกจากนี้มักจะมีการเร่งความเร็วของ GPU ในขณะที่ตีความภาษาเช่นRและPythonไม่ ฉันควรคำนึงถึงอะไรเมื่อเลือกภาษาและภาษาใดให้ความสมดุลของยูทิลิตี้และประสิทธิภาพที่ดีที่สุด มีภาษาใดบ้างที่มีทรัพยากรการคำนวณทางวิทยาศาสตร์ที่สำคัญที่ฉันพลาดไป
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

1
การจัดประเภทข้อความ - ปัญหา: Word2Vec / NN เป็นวิธีที่ดีที่สุดหรือไม่?
ฉันกำลังมองหาที่จะออกแบบระบบที่ให้ย่อหน้าของข้อความจะสามารถจัดหมวดหมู่มันและระบุบริบท: ได้รับการฝึกฝนกับย่อหน้าข้อความที่ผู้ใช้สร้างขึ้น (เช่นความเห็น / คำถาม / คำตอบ) แต่ละรายการในชุดการฝึกจะถูกติดแท็กด้วย ดังนั้นสำหรับเช่น ("หมวดหมู่ 1", "ย่อหน้าข้อความ") จะมีหลายร้อยหมวดหมู่ อะไรจะเป็นวิธีที่ดีที่สุดในการสร้างระบบเช่นนี้? ฉันได้ดูตัวเลือกที่แตกต่างกันเล็กน้อยและต่อไปนี้เป็นรายการของวิธีแก้ปัญหาที่เป็นไปได้ ตอนนี้ Word2Vec / NN เป็นทางออกที่ดีที่สุดหรือไม่? Recensive Neural Tensor Network เลี้ยงด้วยข้อมูล Word2Vec เฉลี่ย RNTN และเวกเตอร์ย่อหน้า ( https://cs.stanford.edu/~quocle/paragraph_vector.pdf )? TF-IDF ใช้ในเครือข่าย Deep Belief TF-IDF และ Logistic Regression กระเป๋าของคำและการจำแนก Naive Bayes

3
เวกเตอร์สเปซโมเดลโคไซน์ tf-idf สำหรับค้นหาเอกสารที่คล้ายกัน
มีคลังเอกสารมากกว่าล้านฉบับ สำหรับเอกสารที่ต้องการต้องการค้นหาเอกสารที่คล้ายกันโดยใช้โคไซน์เหมือนกับในแบบจำลองเวกเตอร์สเปซ d1⋅d2/(||d1||||d2||)d1⋅d2/(||d1||||d2||)d_1 \cdot d_2 / ( ||d_1|| ||d_2|| ) TF ทั้งหมดได้รับการทำให้เป็นมาตรฐานโดยใช้ความถี่ที่เพิ่มขึ้นเพื่อป้องกันความเอนเอียงไปสู่เอกสารที่ยาวขึ้นดังเช่นในtf-idf นี้ : tf(t,d)=0.5+0.5f(t,d)max{f(t,d):t∈d}tf(t,d)=0.5+0.5f(t,d)max{f(t,d):t∈d}tf(t,d)=0.5+0.5\frac{f(t,d)}{\mathrm{max}\{f(t,d): t\in d\}} คำนวณล่วงหน้าทั้งหมด มีค่าสำหรับตัวหารคำนวณล่วงหน้า ดังนั้นสำหรับd 1 ที่ต้องการคะแนนมากกว่า 1 ล้านd 2 มีเกณฑ์ 0.6 โคไซน์สำหรับความคล้ายคลึงกัน ||d||||d||||d||d1d1d1d2d2d2 ฉันสามารถสังเกตได้ว่าสำหรับมีช่วงที่ค่อนข้างแคบของ| | d 2 | | สำหรับโคไซน์≥ 0.6 ตัวอย่างเช่นในการค้นหาเดียวสำหรับโคไซน์ของ≥ 0.6 และ a | | d 1 | | จาก 7.7631 จากนั้น| …

1
ป้ายกำกับหลายรายการในอัลกอริทึมการเรียนรู้แบบมีผู้สอน
ฉันมีคลังข้อความที่มีหัวข้อที่เกี่ยวข้อง ตัวอย่างและได้รับการระบุว่าเป็น"A rapper Tupac was shot in LA" ["celebrity", "murder"]ดังนั้นโดยทั่วไปคุณสมบัติแต่ละอย่างของเวกเตอร์สามารถมีป้ายกำกับได้หลายรายการ (ไม่เท่ากันเวกเตอร์คุณลักษณะแรกสามารถมีป้ายกำกับได้ 3 ป้ายคือที่สองที่ 1 ที่สามที่ 5) หากฉันมีป้ายกำกับที่ตรงกับแต่ละข้อความฉันจะลองใช้ตัวจําแนกNaive Bayesแต่ฉันไม่ทราบว่าฉันควรดําเนินการต่อไปได้อย่างไรหากฉันมีฉลากได้หลายป้าย มีวิธีใดที่จะเปลี่ยน Naive Bayes ให้เป็นปัญหาการจำแนกฉลากแบบหลายฉลาก (หากมีวิธีการที่ดีกว่า - โปรดแจ้งให้เราทราบ) PSบางสิ่งเกี่ยวกับข้อมูลที่ฉันมี ประมาณ 10.000 องค์ประกอบในชุดข้อมูล ข้อความประมาณ 2-3 ประโยค สูงสุด 7 ป้ายกำกับต่อข้อความ

3
การวิเคราะห์ไฟล์บันทึก: การแยกส่วนข้อมูลจากส่วนค่า
ฉันกำลังพยายามสร้างชุดข้อมูลในไฟล์บันทึกต่างๆของหนึ่งในผลิตภัณฑ์ของเรา ล็อกไฟล์ต่าง ๆ มีเลย์เอาต์และเนื้อหาของตัวเอง ฉันจัดกลุ่มพวกเขาเข้าด้วยกันสำเร็จเหลือเพียงขั้นตอนเดียว ... อันที่จริงบันทึก "ข้อความ" เป็นข้อมูลที่ดีที่สุด ฉันไม่มีรายการที่ครอบคลุมของข้อความเหล่านั้นทั้งหมดและเป็นความคิดที่ดีที่จะใช้รหัสยากเนื่องจากข้อความเหล่านั้นสามารถเปลี่ยนแปลงได้ทุกวัน สิ่งที่ฉันต้องการจะทำคือการแยกข้อความการเยื้องออกจากข้อความค่า (ตัวอย่าง: "ไฟล์ Loaded XXX" กลายเป็น (รหัส: "ไฟล์ Loaded", ค่า: "XXX")) น่าเสียดายที่ตัวอย่างนี้ง่ายและในโลกแห่งความจริงมีเค้าโครงที่แตกต่างกันและบางครั้งมีหลายค่า ฉันคิดว่าจะใช้เมล็ดสตริง แต่มันมีไว้สำหรับการรวมกลุ่ม ... และการรวมกลุ่มไม่สามารถใช้งานได้ที่นี่ (ฉันไม่ทราบจำนวนข้อความและประเภทที่แตกต่างกันแม้ว่ามันจะมากเกินไป) คุณมีความคิดใด ๆ ขอบคุณสำหรับความช่วยเหลือของคุณ. PS: สำหรับผู้ที่โปรแกรมนี้สามารถเข้าใจได้ง่ายขึ้น สมมติว่ารหัสประกอบด้วยไฟล์บันทึก printf ("blabla% s", "xxx") -> ฉันต้องการมี "blabla" และ "xxx" แยกกัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.