วิทยาศาสตร์ข้อมูล

ถามตอบสำหรับผู้เชี่ยวชาญด้านข้อมูลวิทยาศาสตร์ผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่องจักรและผู้ที่สนใจเรียนรู้เพิ่มเติมเกี่ยวกับสาขานี้

1
คุณต้องทำให้ข้อมูลเป็นมาตรฐานเมื่อสร้างต้นไม้ตัดสินใจโดยใช้ R หรือไม่?
ดังนั้นชุดข้อมูลของเราในสัปดาห์นี้มี 14 แอตทริบิวต์และแต่ละคอลัมน์มีค่าแตกต่างกันมาก คอลัมน์หนึ่งมีค่าต่ำกว่า 1 ในขณะที่อีกคอลัมน์หนึ่งมีค่าที่เปลี่ยนจากตัวเลขสามหลักเป็นสี่หลัก เราเรียนรู้การทำให้เป็นมาตรฐานในสัปดาห์ที่แล้วและดูเหมือนว่าคุณควรจะทำให้ข้อมูลเป็นมาตรฐานเมื่อพวกเขามีค่าแตกต่างกันมาก สำหรับต้นไม้ตัดสินใจมันเหมือนกันหรือไม่? ฉันไม่แน่ใจเกี่ยวกับเรื่องนี้ แต่การทำข้อมูลให้เป็นมาตรฐานจะส่งผลต่อโครงสร้างการตัดสินใจที่เกิดจากชุดข้อมูลเดียวกันหรือไม่ ดูเหมือนไม่ควร แต่ ...
10 r  beginner 

3
จีส์และเว็บแบบ Semantic นั้นตายไปแล้วหรือยัง? [ปิด]
ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน3 ปีที่ผ่านมา Semantic Web ตายแล้วหรือ จีส์จะตาย? ฉันกำลังพัฒนาแผนงานสำหรับวิทยานิพนธ์ของฉันเกี่ยวกับ"ฐานความรู้ผ่านอภิปรัชญาชุดสำหรับกลุ่มที่น่าสนใจรอบพื้นที่ชุ่มน้ำ" ฉันทำการค้นคว้าและพัฒนาออนโทโลจีแล้ว แต่ก็ยังไม่ชัดเจนเกี่ยวกับหลายสิ่ง ภาษาการสร้างแบบจำลองสำหรับออนโทโลจีคืออะไร ระเบียบวิธีใดสำหรับออนโทโลจีดีกว่า OTKหรือวิธีวิทยา ? มีโปรแกรมใดบ้างที่ทำเช่นนั้น Cratiloเป็นซอฟต์แวร์สำหรับการวิเคราะห์ข้อความต้นฉบับและสำหรับการแยกคำศัพท์เฉพาะของโดเมนของการศึกษา (พัฒนาโดยอาจารย์ Jorge Antonio Mejia, Francisco Javier Alvarez และ John Albeiro Sánchez, สถาบันปรัชญามหาวิทยาลัย Antioquia) มันช่วยให้การวิเคราะห์คำศัพท์ของข้อความระบุคำที่ปรากฏความถี่และตำแหน่งของพวกเขาในข้อความ ด้วยกระบวนการจดจำ Cratylus จะระบุคำทั้งหมดในข้อความและสร้างฐานข้อมูลกลายเป็นการวิเคราะห์แบบร่างของงาน มีเครื่องมืออื่นที่คล้ายคลึงกันหรือไม่ คำที่ Cratilo พบสามารถนำมาใช้เพื่อสร้างฐานความรู้ได้หรือไม่? กรอบความหมายแบบเปิดที่มีอยู่ที่สามารถใช้สำหรับสิ่งนั้นมีอะไรบ้าง มีซอฟต์แวร์ที่สร้าง RDF, OWL และ XML โดยอัตโนมัติหรือไม่ ก้อยทำงานอย่างไร เจ? …

2
การขยายแฮชแบบละเอียดอ่อนในพื้นที่
ฉันกำลังพยายามสร้างแฮชที่ละเอียดอ่อนในพื้นที่เพื่อให้ฉันสามารถหาคู่ของผู้สมัครที่คล้ายกันได้โดยไม่ต้องเปรียบเทียบทุกคู่ที่เป็นไปได้ ฉันใช้มันทำงานได้ แต่คู่ของข้อมูลของฉันดูเหมือนจะมีความเหมือนโคไซน์ในช่วง -0.2 ถึง +0.2 ดังนั้นฉันจึงพยายามที่จะทำให้มันค่อนข้างละเอียดและเลือกสิ่งที่มีความคล้ายคลึงโคไซน์ 0.1 ขึ้นไป ฉันได้อ่าน Mining ชุดข้อมูลขนาดใหญ่แล้วบทที่ 3 นี้พูดถึงการเพิ่มความแม่นยำของการเลือกคู่ผู้สมัครโดยขยายครอบครัวที่มีความสำคัญต่อท้องถิ่น ฉันคิดว่าฉันเพิ่งจะเข้าใจคำอธิบายทางคณิตศาสตร์ แต่ฉันพยายามดิ้นรนเพื่อดูว่าฉันใช้งานจริงได้อย่างไร สิ่งที่ฉันมีอยู่มีดังต่อไปนี้ ฉันบอกว่าภาพยนตร์ 1,000 เรื่องแต่ละเรื่องมีเรตติ้งจากผู้ใช้บางคนที่เลือก 1M ภาพยนตร์แต่ละเรื่องจะแสดงด้วยเวกเตอร์กระจัดกระจายของคะแนนผู้ใช้ (หมายเลขแถว = ID ผู้ใช้ค่า = คะแนนของผู้ใช้) ฉันสร้างเวกเตอร์สุ่ม N ความยาวของเวกเตอร์ตรงกับความยาวของเวกเตอร์ภาพยนตร์ (เช่นจำนวนผู้ใช้) ค่าเวกเตอร์คือ +1 หรือ -1 ฉันเข้ารหัสเวกเตอร์เหล่านี้เป็นเลขฐานสองเพื่อประหยัดพื้นที่โดยมี +1 แมปกับ 1 และ -1 แมปกับ 0 ฉันสร้างเวกเตอร์แบบร่างสำหรับภาพยนตร์แต่ละเรื่องโดยการหาจุดผลิตภัณฑ์ของภาพยนตร์และเวกเตอร์แบบสุ่ม N แต่ละตัว (หรือถ้าฉันสร้างเมทริกซ์ R โดยการวางเวกเตอร์แบบสุ่ม …

2
ตัวแยกประเภท Scikit ใช้เวลานานเท่าไรในการจำแนก?
ฉันวางแผนที่จะใช้ลักษณนามลักษณนามของเวกเตอร์สนับสนุนเชิงเส้น (SVM) ของ scikit สำหรับการจำแนกข้อความบนคลังข้อมูลซึ่งประกอบด้วยเอกสารที่มีป้ายกำกับ 1 ล้านฉบับ สิ่งที่ฉันกำลังวางแผนที่จะทำคือเมื่อผู้ใช้ป้อนคำหลักบางคำลักษณนามจะจัดประเภทไว้ในหมวดหมู่ก่อนแล้วแบบสอบถามการสืบค้นข้อมูลที่ตามมาจะเกิดขึ้นภายในเอกสารของหมวดหมู่หมวดหมู่นั้น ฉันมีคำถามสองสามข้อ: ฉันจะยืนยันได้อย่างไรว่าการจำแนกประเภทจะใช้เวลาไม่นาน ฉันไม่ต้องการให้ผู้ใช้ต้องใช้เวลารอการจัดหมวดหมู่ให้เสร็จเพื่อให้ได้ผลลัพธ์ที่ดีขึ้น การใช้ห้องสมุด scikit ของ Python สำหรับเว็บไซต์ / แอปพลิเคชันบนเว็บเหมาะสมกับเรื่องนี้หรือไม่? ไม่มีใครรู้ว่า amazon หรือ flipkart ดำเนินการจัดหมวดหมู่ในการค้นหาของผู้ใช้หรือพวกเขาใช้ตรรกะที่แตกต่างอย่างสิ้นเชิง?

2
โคตรลาดไล่สีแบบสุ่มตามการดำเนินการของเวกเตอร์
สมมติว่าฉันต้องการฝึกอัลกอริธึมการถดถอยแบบไล่ระดับสีแบบสุ่มโดยใช้ชุดข้อมูลที่มีตัวอย่าง N ตัว เนื่องจากขนาดของชุดข้อมูลได้รับการแก้ไขฉันจะใช้ข้อมูล T ครั้ง ในการทำซ้ำแต่ละครั้งหรือ "ยุค" ฉันใช้ตัวอย่างการฝึกอบรมแต่ละครั้งทันทีหลังจากจัดลำดับการฝึกทั้งหมดใหม่แบบสุ่ม การติดตั้งของฉันนั้นใช้ Python และ Numpy ดังนั้นการใช้การดำเนินการเวกเตอร์สามารถลดเวลาในการคำนวณได้อย่างน่าทึ่ง การหาเวกเตอร์ของการไล่สีแบบแบทช์นั้นค่อนข้างตรงไปตรงมา อย่างไรก็ตามในกรณีของการไล่ระดับสีแบบสุ่มสุ่มฉันไม่สามารถหาวิธีที่จะหลีกเลี่ยงการวนรอบนอกที่วนซ้ำผ่านตัวอย่างทั้งหมดในแต่ละยุค ไม่มีใครรู้ว่าการใช้เวกเตอร์ของการไล่ระดับสีแบบสุ่มสุ่ม? แก้ไข : ฉันถูกถามว่าทำไมฉันถึงต้องการใช้การไล่ระดับสีแบบออนไลน์ถ้าขนาดของชุดข้อมูลของฉันได้รับการแก้ไข จาก [1] เราจะเห็นได้ว่าการไล่ระดับสีแบบออนไลน์นั้นช้ากว่าการไล่ระดับสีแบบแบทช์เป็นค่าต่ำสุดของต้นทุนเชิงประจักษ์ อย่างไรก็ตามมันมาบรรจบกันได้เร็วขึ้นจนถึงค่าต่ำสุดที่คาดไว้ซึ่งวัดประสิทธิภาพทั่วไป ฉันต้องการทดสอบผลกระทบของผลลัพธ์ทางทฤษฎีเหล่านี้ในปัญหาเฉพาะของฉันโดยใช้การตรวจสอบข้าม หากไม่มีการใช้งาน vectorized แล้วโค้ดโคตรลาดของฉันออนไลน์จะช้ากว่าโคตรเกรเดียนต์ของแบทช์ ที่เพิ่มขึ้นอย่างน่าทึ่งเวลาที่ใช้ในกระบวนการตรวจสอบข้ามที่จะแล้วเสร็จ แก้ไข : ฉันรวมที่นี่ pseudocode ของการดำเนินการสืบเชื้อสายการไล่ระดับสีแบบออนไลน์ของฉันตามที่เพื่อนร้องขอ ฉันกำลังแก้ปัญหาการถดถอย Method: on-line gradient descent (regression) Input: X (nxp matrix; each line contains a training sample, …

4
คุณจะสร้างรายการเดินที่ได้รับการปรับให้เหมาะสมซึ่งกำหนดพิกัดลองจิจูดและละติจูดได้อย่างไร
ฉันกำลังทำงานในการรณรงค์ทางการเมืองที่มีอาสาสมัครหลายสิบคนที่จะทำการส่งเสริมการขายในช่วงไม่กี่สัปดาห์ถัดไป เมื่อกำหนดรายการที่มีชื่อที่อยู่และพิกัดแบบยาว / ละติจูดสามารถใช้อัลกอริทึมใดในการสร้างรายการเดินที่ปรับให้เหมาะสม
10 algorithms 

3
ชุดข้อมูลการวิเคราะห์เครือข่ายแบบคลาสสิก
มีชุดข้อมูลคลาสสิกหลายชุดสำหรับการจัดหมวดหมู่ / การถดถอยของการเรียนรู้ของเครื่อง ความนิยมมากที่สุดคือ: ชุดข้อมูลดอกไม้ Iris ; ชุดข้อมูลไททานิค ; Motor Trend Cars ; เป็นต้น แต่ไม่มีใครรู้ชุดข้อมูลที่คล้ายกันสำหรับการวิเคราะห์เครือข่าย / ทฤษฎีกราฟ? เป็นรูปธรรมมากขึ้น - ฉันกำลังมองหาชุดข้อมูลมาตรฐานทองคำสำหรับการเปรียบเทียบ / การประเมิน / การเรียนรู้: มาตรการศูนย์กลาง อัลกอริทึมการจัดกลุ่มเครือข่าย ฉันไม่ต้องการรายการเครือข่าย / กราฟจำนวนมากที่เปิดเผยต่อสาธารณชน แต่มีชุดข้อมูลที่ต้องรู้สองสามรายการ แก้ไข: มันค่อนข้างยากที่จะให้คุณสมบัติที่แน่นอนสำหรับ "ชุดข้อมูลมาตรฐานทองคำ" แต่นี่เป็นความคิดบางอย่าง ฉันคิดว่าชุดข้อมูลคลาสสิกที่แท้จริงควรเป็นไปตามเกณฑ์เหล่านี้: การอ้างอิงหลายบทความและตำรา รวมอยู่ในแพ็คเกจซอฟต์แวร์การวิเคราะห์เครือข่ายที่มีชื่อเสียง เวลาที่เพียงพอในการดำรงอยู่; การใช้งานในหลายหลักสูตรเกี่ยวกับการวิเคราะห์กราฟ เกี่ยวกับสาขาที่ฉันสนใจฉันต้องการคลาสที่ติดป้ายกำกับสำหรับจุดยอดและ / หรือ "คะแนนผู้มีอำนาจ" ที่กำหนดไว้ล่วงหน้า (หรือที่กำหนดไว้ล่วงหน้า) (เช่นการประมาณค่าส่วนกลาง) หลังจากถามคำถามนี้ฉันค้นหาต่อไปและนี่คือตัวอย่างที่เหมาะสม: สโมสรคาราเต้ของ Zachary : …
10 dataset  graphs 

2
การตรวจสอบความถูกต้องไขว้: K-fold เทียบกับการสุ่มตัวอย่างย่อยซ้ำซ้ำ ๆ
ฉันสงสัยว่ารูปแบบการตรวจสอบความถูกต้องไขว้แบบใดเพื่อเลือกสำหรับปัญหาการจำแนกประเภท: K-fold หรือการสุ่มย่อยแบบสุ่ม (การสุ่มตัวอย่างบูตสแตรป)? การคาดเดาที่ดีที่สุดของฉันคือใช้ 2/3 ของชุดข้อมูล (ซึ่งคือ ~ 1,000 รายการ) สำหรับการฝึกอบรมและ 1/3 สำหรับการตรวจสอบ ในกรณีนี้ K-fold ให้การทำซ้ำเพียงสามครั้ง (เท่า) ซึ่งไม่เพียงพอที่จะเห็นข้อผิดพลาดเฉลี่ยที่เสถียร ในทางตรงกันข้ามฉันไม่ชอบคุณสมบัติการสุ่มตัวอย่างย่อย: บางรายการจะไม่ถูกเลือกสำหรับการฝึกอบรม / การตรวจสอบความถูกต้องและบางรายการจะถูกใช้มากกว่าหนึ่งครั้ง อัลกอริทึมการจำแนกประเภทที่ใช้: ฟอเรสต์แบบสุ่มและการถดถอยโลจิสติก

2
การดีบักโครงข่ายประสาทเทียม
ฉันได้สร้างเครือข่ายประสาทเทียมในไพ ธ อนโดยใช้ฟังก์ชั่นการเพิ่มประสิทธิภาพ scipy.optimize.minimize (การไล่ระดับสีคอนจูเกต) ฉันใช้การตรวจสอบไล่ระดับสีตรวจสอบทุกอย่าง ฯลฯ และฉันค่อนข้างมั่นใจว่ามันทำงานอย่างถูกต้อง ฉันรันมันสองสามครั้งและถึง 'การเพิ่มประสิทธิภาพสิ้นสุดลงเรียบร้อยแล้ว' แต่เมื่อฉันเพิ่มจำนวนเลเยอร์ที่ซ่อนอยู่ค่าใช้จ่ายของสมมติฐานจะเพิ่มขึ้น (ทุกอย่างจะยังคงเหมือนเดิม) หลังจากที่ยกเลิกไปแล้ว มันรู้สึกว่าค่าใช้จ่ายควรลดลงเมื่อจำนวนเลเยอร์ที่ซ่อนอยู่เพิ่มขึ้นเนื่องจากสามารถสร้างสมมติฐานที่ซับซ้อนมากขึ้นซึ่งสามารถพอดีกับข้อมูลได้ดีขึ้นอย่างไรก็ตามสิ่งนี้ดูเหมือนจะไม่เป็นเช่นนั้น ฉันสนใจที่จะเข้าใจว่าเกิดอะไรขึ้นที่นี่หรือหากฉันใช้งานโครงข่ายประสาทผิดปกติ

4
วิธีแก้ปัญหาการวิเคราะห์ข้อมูล
ฉันเจอปัญหาต่อไปนี้แล้วซึ่งฉันพบว่าเป็นเรื่องปกติ ฉันมีข้อมูลขนาดใหญ่พูดไม่กี่ล้านแถว ฉันเรียกใช้การวิเคราะห์ที่ไม่สำคัญกับมันเช่นแบบสอบถาม SQL ซึ่งประกอบด้วยแบบสอบถามย่อยหลายรายการ ฉันได้รับผลบางอย่างที่ระบุเช่นคุณสมบัติ X นั้นเพิ่มขึ้นเมื่อเวลาผ่านไป ตอนนี้มีสองสิ่งที่เป็นไปได้ที่อาจนำไปสู่การที่: X เพิ่มขึ้นตามกาลเวลา ฉันมีข้อบกพร่องในการวิเคราะห์ของฉัน ฉันจะทดสอบได้อย่างไรว่าสิ่งที่เกิดขึ้นครั้งแรกไม่ใช่ครั้งที่สอง? ตัวดีบักแบบชาญฉลาดแม้ว่าจะมีอยู่ก็ไม่สามารถช่วยได้เนื่องจากผลลัพธ์ระดับกลางยังคงประกอบด้วยบรรทัดหลายล้านบรรทัด สิ่งเดียวที่ฉันคิดได้ก็คือสร้างชุดข้อมูลสังเคราะห์ขนาดเล็กที่มีคุณสมบัติที่ฉันต้องการทดสอบและเรียกใช้การวิเคราะห์เป็นชุดทดสอบ มีเครื่องมือในการทำเช่นนี้หรือไม่? โดยเฉพาะอย่างยิ่ง แต่ไม่ จำกัด เฉพาะ SQL

1
วิธีการหนึ่งที่ควรจัดการกับข้อมูลโดยนัยในการแนะนำ
ระบบการแนะนำจะเก็บบันทึกการแนะนำที่ทำไว้กับผู้ใช้เฉพาะและผู้ใช้นั้นยอมรับการแนะนำนั้นหรือไม่ มันเหมือนกับ user_id item_id result 1 4 1 1 7 -1 5 19 1 5 80 1 โดยที่ 1 หมายถึงผู้ใช้ยอมรับคำแนะนำในขณะที่ -1 หมายถึงผู้ใช้ไม่ตอบสนองต่อข้อเสนอแนะ คำถาม:หากฉันจะให้คำแนะนำกับกลุ่มผู้ใช้ตามประเภทของบันทึกที่อธิบายไว้ข้างต้นและฉันต้องการเพิ่มคะแนน MAP @ 3 ให้มากที่สุดฉันจะจัดการกับข้อมูลโดยนัยได้อย่างไร (1 หรือ -1) ความคิดของฉันคือปฏิบัติต่อการจัดอันดับ 1 และ -1 และทำนายการจัดอันดับโดยใช้อัลกอริธึมชนิดเครื่องแยกตัวประกอบ แต่สิ่งนี้ดูไม่ถูกต้องเนื่องจากความไม่สมดุลของข้อมูลโดยนัย (-1 ไม่ได้หมายความว่าผู้ใช้ไม่ชอบคำแนะนำ) แก้ไข 1 ให้เราคิดในบริบทของวิธีการแยกตัวประกอบแบบเมทริกซ์ หากเราถือว่าการให้คะแนนเป็น 1 และ 1 จะมีปัญหาบางอย่าง ตัวอย่างเช่นผู้ใช้ 1 คนชอบภาพยนตร์ A …

1
การจัดกลุ่มข้อมูลลูกค้าที่เก็บไว้ใน ElasticSearch
ฉันมีโปรไฟล์ลูกค้ามากมายเก็บไว้ใน ElasticSearchกลุ่ม ตอนนี้ใช้โปรไฟล์เหล่านี้เพื่อสร้างกลุ่มเป้าหมายสำหรับการสมัครอีเมลของเรา ขณะนี้กลุ่มเป้าหมายได้รับการจัดทำขึ้นด้วยตนเองโดยใช้ความสามารถในการค้นหาแบบเหลี่ยม (เช่นรับลูกค้าผู้ชายอายุ 23 ปีที่มีรถยนต์หนึ่งคันและเด็ก 3 คน) ฉันจะค้นหากลุ่มที่น่าสนใจได้โดยอัตโนมัติโดยใช้วิทยาศาสตร์ข้อมูลการเรียนรู้ของเครื่องการจัดกลุ่มหรืออย่างอื่นได้อย่างไร Rภาษาการเขียนโปรแกรมดูเหมือนจะเป็นเครื่องมือที่ดีสำหรับงานนี้ แต่ฉันไม่สามารถสร้างวิธีการค้นหากลุ่มดังกล่าวได้ ทางออกหนึ่งคือค้นหากลุ่มลูกค้าที่ใหญ่ที่สุดและใช้พวกเขาเป็นกลุ่มเป้าหมายดังนั้นคำถามคือ: ฉันจะเลือกกลุ่มลูกค้ารายใหญ่ที่สุดที่คล้ายกันโดยอัตโนมัติได้อย่างไร (คล้ายกับพารามิเตอร์ที่ฉันไม่ทราบในขณะนี้) ตัวอย่างเช่น: โปรแกรมของฉันจะเชื่อมต่อกับ elasticsearch ลดปริมาณข้อมูลลูกค้าลงใน CSV และการใช้สคริปต์ภาษา R จะพบว่าลูกค้าส่วนใหญ่เป็นเพศชายที่ไม่มีลูกและลูกค้าส่วนใหญ่อีกคนมีรถยนต์และสีตาของพวกเขาเป็นสีน้ำตาล

5
วิธีสร้างรายการ stopwords ที่ดี
ฉันกำลังมองหาคำแนะนำเกี่ยวกับวิธีการจัดการรายการคำหยุด มีใครรู้ / ใครบ้างที่สามารถแนะนำวิธีการที่ดีในการแยกรายการคำหยุดจากชุดข้อมูลสำหรับการประมวลผลและการกรองล่วงหน้าได้หรือไม่? ข้อมูล: การป้อนข้อความของมนุษย์จำนวนมากที่มีความยาวผันแปร (searchterms และทั้งประโยค (สูงสุด 200 ตัวอักษร)) ในช่วงหลายปีที่ผ่านมา ข้อความประกอบด้วยสแปมจำนวนมาก (เช่นอินพุตจากบอตคำเดียวการค้นหาโง่การค้นหาผลิตภัณฑ์ ... ) และดูเหมือนว่าจะมีประโยชน์เพียงไม่กี่% เท่านั้น ฉันรู้ว่าบางครั้งผู้คนค้นหาด้านของฉันด้วยการถามคำถามเจ๋ง ๆ คำถามเหล่านี้เจ๋งมากฉันคิดว่ามันคุ้มค่าที่จะมองลึกลงไปในพวกเขาเพื่อดูว่าผู้คนค้นหาในช่วงเวลาใดและหัวข้อที่ผู้คนสนใจในการใช้เว็บไซต์ของฉัน ปัญหาของฉัน: คือฉันกำลังดิ้นรนกับการประมวลผลล่วงหน้า (เช่นการทิ้งสแปม) ฉันได้ลองใช้รายการคำหยุดจากเว็บ (NLTK เป็นต้น) แล้ว แต่สิ่งเหล่านี้ไม่ได้ช่วยตอบสนองความต้องการของฉันเกี่ยวกับชุดข้อมูลนี้ ขอบคุณสำหรับความคิดและการสนทนาของคุณ!

1
อะไรคือความหมายของการแจกจ่ายให้กับห้องสมุดที่มีการไล่ระดับสี
ฉันกำลังตรวจสอบเอกสาร XGBoost และมีการระบุว่า XGBoost เป็นไลบรารีการไล่ระดับสีแบบกระจายที่ปรับให้เหมาะสม การกระจายความหมายคืออะไร ขอให้มีความสุขมาก ๆ ในวันนี้นะ

4
SGDClassifier: การเรียนรู้ออนไลน์ / partial_fit ที่มีป้ายกำกับที่ไม่รู้จักก่อนหน้านี้
ชุดการฝึกอบรมของฉันมีรายการประมาณ 50k ซึ่งฉันได้เรียนรู้เบื้องต้น ทุกสัปดาห์จะมีการเพิ่ม ~ 5k รายการ แต่จำนวนเดียวกัน "หายไป" (เนื่องจากเป็นข้อมูลผู้ใช้ซึ่งจะต้องถูกลบหลังจากเวลาผ่านไป) ดังนั้นฉันใช้การเรียนรู้ออนไลน์เพราะฉันไม่สามารถเข้าถึงชุดข้อมูลแบบเต็มได้ในภายหลัง ขณะนี้ฉันกำลังใช้SGDClassifierที่ทำงาน แต่ปัญหาใหญ่ของฉัน: หมวดหมู่ใหม่จะปรากฏและตอนนี้ฉันไม่สามารถใช้รูปแบบของฉันใด ๆ fitเพิ่มเติมขณะที่พวกเขาไม่ได้อยู่ในการเริ่มต้น มีวิธีการกับSGDClassifierหรือบางรุ่นอื่น ๆ ? เรียนรู้อย่างลึกซึ้ง? ไม่สำคัญว่าฉันจะต้องเริ่มจากศูนย์ตอนนี้ (เช่นใช้อย่างอื่นที่ไม่ใช่SGDClassifier) แต่ฉันต้องการสิ่งที่ช่วยให้การเรียนรู้ออนไลน์ด้วยป้ายกำกับใหม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.