คำถามติดแท็ก machine-learning

วิธีการและหลักการในการสร้าง "ระบบคอมพิวเตอร์ที่ปรับปรุงโดยอัตโนมัติด้วยประสบการณ์"

3
กลไกการแนะนำอะไรสำหรับสถานการณ์ที่ผู้ใช้สามารถเห็นเศษส่วนของรายการทั้งหมดเท่านั้น
ฉันต้องการที่จะเพิ่มคุณลักษณะข้อเสนอแนะไปยังระบบการจัดการเอกสาร เป็นเซิร์ฟเวอร์ที่จัดเก็บเอกสารของ บริษัท ส่วนใหญ่ พนักงานเรียกดูเว็บอินเตอร์เฟสและคลิกเพื่อดาวน์โหลด (หรืออ่านออนไลน์) เอกสารที่ต้องการ พนักงานแต่ละคนมีสิทธิ์เข้าถึงชุดย่อยของเอกสารทั้งหมดเท่านั้น: เป้าหมายของฉัน : แนะนำเพื่อนร่วมทีมให้เอกสารที่เพิ่งเปิดโดยเพื่อนร่วมทีมของพวกเขาหรือสเปรดชีตที่ทำหน้าที่เป็นภาคผนวกของเอกสารที่เพิ่งเปิดหรือสิ่งที่พวกเขาอาจต้องการอ่าน มีกลไกการแนะนำจำนวนมากสำหรับข้อมูลที่เปิดเผยต่อสาธารณะ (ผู้ใช้ Netflix ทุกคนสามารถดูภาพยนตร์ทั้งหมด) แต่สถานการณ์ที่นี่เป็นพิเศษ: พนักงานแต่ละคนได้รับอนุญาตให้ใช้เศษส่วนของเอกสารทั้งหมดเท่านั้นในขณะที่ผู้ใช้ Netflix ทุกคนสามารถเข้าถึงภาพยนตร์ทั้งหมดได้ ตัวอย่าง : Employee1 สามารถอ่าน DocumentA แต่ไม่ใช่ DocumentB Employee2 สามารถอ่านได้ทั้งสองและ Employee3 ไม่สามารถอ่านใด ๆ แน่นอนฉันต้องไม่แนะนำเอกสารของพนักงานที่เขา / เธอไม่สามารถเข้าถึงได้ นอกจากนี้ฉันคิดว่าฉันควรพิจารณาความนิยมของเอกสารเฉพาะในบริบทของพนักงานที่สามารถเข้าถึงเอกสารได้ เพื่อทำให้สิ่งที่ซับซ้อนยิ่งขึ้นบางครั้งพนักงานย้ายจากโครงการหนึ่งไปอีกโครงการหนึ่งซึ่งส่งผลกระทบต่อเอกสารที่พวกเขาสามารถเข้าถึงได้ มีชื่อของปัญหาประเภทนี้หรือไม่? สามารถลดลงโดยไม่สูญเสียความแม่นยำ / ประสิทธิภาพไปสู่ปัญหาที่พบบ่อยได้หรือไม่ ถ้าไม่แนวทางใดจะทำงานได้ดีสำหรับปัญหาประเภทนี้ หมายเหตุ: เอ็นจิ้นการแนะนำที่เหมือน Netflix นั้นไม่ดีพอ ควรมีเอกสารที่มีจำนวนการดู 50 ครั้งหากพนักงาน 10 คน …

2
วิธีจำลองพฤติกรรมการซื้อของผู้ใช้ใน Amazon
สำหรับโครงการหลักสูตรสุดท้ายของเราในวิทยาศาสตร์ข้อมูลเราเสนอดังต่อไปนี้ - ให้ชุดข้อมูลบทวิจารณ์ของ Amazonเราวางแผนที่จะคิดอัลกอริทึม (นั่นคือคร่าวๆตาม Personalized PageRank) ที่กำหนดตำแหน่งเชิงกลยุทธ์สำหรับการวางโฆษณาใน Amazon ตัวอย่างเช่นมีผลิตภัณฑ์นับล้านรายการใน Amazon และชุดข้อมูลจะให้ข้อมูลเกี่ยวกับผลิตภัณฑ์ที่เกี่ยวข้องผลิตภัณฑ์ที่นำมารวมกันดูด้วยกันเป็นต้น (เราสามารถสร้างกราฟพร้อมข้อมูลที่ดูได้และซื้อด้วย) นอกจากนี้ยังให้บทวิจารณ์ที่เกี่ยวข้องกับผลิตภัณฑ์แต่ละชิ้นผ่าน 14 ปี ใช้ข้อมูลเหล่านี้ทั้งหมดเราจะให้คะแนน / จัดอันดับผลิตภัณฑ์ใน Amazon ตอนนี้คุณเป็นผู้ขายใน Amazon ที่ต้องการปรับปรุงปริมาณการใช้งานไปยังหน้าผลิตภัณฑ์ของพวกเขา อัลกอริทึมของเราช่วยให้คุณระบุตำแหน่งเชิงกลยุทธ์ในกราฟที่คุณสามารถวางโฆษณาของคุณเพื่อให้คุณได้รับอัตราการเข้าชมสูงสุด ตอนนี้คำถามของศาสตราจารย์คือคุณจะตรวจสอบอัลกอริทึมของคุณโดยไม่มีผู้ใช้จริงได้อย่างไร พวกเราพูด- เราสามารถสร้างแบบจำลองชุดผู้ใช้ที่แน่นอน ผู้ใช้บางคนติดตามalso_boughtและalso_viewedเชื่อมโยงไปยังการกระโดดครั้งที่สามบ่อยกว่าการกระโดดครั้งแรกหรือครั้งที่ห้า มีการกระจายพฤติกรรมของผู้ใช้ตามปกติ ผู้ใช้บางคนแทบไม่มีการนำทางใด ๆ เลยหลังจากกระโดดครั้งแรก พฤติกรรมของผู้ใช้ชุดนี้มีการกระจายชี้แจง ศาสตราจารย์ของเรากล่าวว่า - ไม่ว่าผู้ใช้จะปฏิบัติตามสิ่งใดก็ตามผู้ใช้นำทางโดยใช้ลิงก์สำหรับผลิตภัณฑ์ที่คล้ายกัน อัลกอริทึมการจัดอันดับของคุณพิจารณาผลิตภัณฑ์ b / w 2 ที่คล้ายคลึงกันเพื่อจัดอันดับผลิตภัณฑ์ ดังนั้นการใช้อัลกอริทึมการตรวจสอบนี้จึงเป็นเรื่องcheatingจริง มาพร้อมกับพฤติกรรมของผู้ใช้อื่น ๆ ซึ่งมีความสมจริงและตั้งฉากกับอัลกอริทึมมากขึ้น มีความคิดเห็นเกี่ยวกับวิธีจำลองพฤติกรรมของผู้ใช้อย่างไร ฉันยินดีที่จะให้รายละเอียดเพิ่มเติมเกี่ยวกับอัลโก

3
กวดวิชาวิเคราะห์ความเชื่อมั่น
ฉันพยายามทำความเข้าใจการวิเคราะห์ความรู้สึกและวิธีใช้โดยใช้ภาษาใด ๆ (R, Python และอื่น ๆ ) ฉันอยากจะรู้ว่ามีสถานที่ที่ดีบนอินเทอร์เน็ตสำหรับการกวดวิชาที่ฉันสามารถทำตาม ฉัน googled แต่ฉันไม่พอใจอย่างมากเพราะพวกเขาไม่ใช่แบบฝึกหัด แต่มีทฤษฎีมากกว่านี้ ฉันต้องการตัวอย่างเชิงทฤษฎีและภาคปฏิบัติ

5
มีความคิดเกี่ยวกับการประยุกต์ใช้ความฝันลึก ๆ ?
เมื่อเร็ว ๆ นี้ Google ประกาศฝันลึกที่น่าสนใจ นอกจากการสร้างงานศิลปะเช่นhttp://deepdreamgenerator.com/คุณเห็นแอปพลิเคชั่นที่มีศักยภาพของความฝันลึก ๆ ในการมองเห็นคอมพิวเตอร์หรือการเรียนรู้ของเครื่องหรือไม่?

2
ความสัมพันธ์ระหว่างมิติ VC และองศาอิสระ
ฉันกำลังเรียนรู้การเรียนรู้ของเครื่องจักรและฉันรู้สึกว่ามีความสัมพันธ์ที่แน่นแฟ้นระหว่างแนวคิดของมิติ VC และแนวคิดคลาสสิค (สถิติ) ขององศาอิสระ ทุกคนสามารถอธิบายการเชื่อมต่อดังกล่าวได้หรือไม่

2
การใช้งาน Naive Bayes แบบเสริมในหลาม
ปัญหา ฉันได้ลองใช้ Naive Bayes กับชุดข้อมูลอาชญากรรมที่มีข้อความ แต่ได้ผลลัพธ์ที่แย่มาก (ความแม่นยำ 7%) Naive Bayes ทำงานเร็วกว่า alogorithms อื่น ๆ ที่ฉันใช้ดังนั้นฉันจึงอยากลองค้นหาสาเหตุที่คะแนนต่ำ วิจัย หลังจากอ่านฉันพบว่าควรใช้เบย์ Naive กับชุดข้อมูลที่สมดุลเพราะมันมีอคติสำหรับคลาสที่มีความถี่สูงกว่า เนื่องจากข้อมูลของฉันไม่สมดุลฉันจึงอยากลองใช้ Naive Bayes เพิ่มเติมเพราะทำขึ้นเป็นพิเศษสำหรับจัดการกับข้อมูลที่ลื่นไหล ในบทความที่อธิบายถึงกระบวนการแอปพลิเคชันสำหรับการจำแนกข้อความ แต่ฉันไม่เห็นว่าทำไมเทคนิคไม่ทำงานในสถานการณ์อื่น ๆ คุณสามารถค้นหากระดาษที่ผมหมายถึงที่นี่ ในระยะสั้นความคิดคือการใช้น้ำหนักตามเหตุการณ์ที่เกิดขึ้นที่ชั้นไม่ปรากฏขึ้น หลังจากทำการวิจัยบางอย่างฉันสามารถค้นหาการนำไปใช้ใน Java แต่โชคไม่ดีที่ฉันไม่ทราบว่า Java และฉันไม่เข้าใจอัลกอริทึมที่ดีพอที่จะใช้ตัวเอง คำถาม ฉันสามารถหาการใช้งานในหลามได้ที่ไหน หากไม่มีอยู่ฉันควรดำเนินการด้วยตนเองอย่างไร

2
มีวิธีที่ตรงข้ามกับการลดขนาดหรือไม่?
ฉันยังใหม่กับการเรียนรู้ของเครื่องจักร แต่ได้ทำการแบ่งสัญญาณการประมวลผลแล้ว โปรดแจ้งให้เราทราบหากคำถามนี้ติดป้ายกำกับไม่ถูกต้อง ฉันมีข้อมูลสองมิติซึ่งกำหนดโดยตัวแปรอย่างน้อยสามตัวด้วยวิธีการจำลองที่ไม่เป็นเชิงเส้นสูงเกินไปที่ซับซ้อนในการจำลอง ฉันมีระดับความสำเร็จที่แตกต่างกันในการแยกสององค์ประกอบหลักจากข้อมูลโดยใช้วิธีการเช่น PCA และ ICA (จากห้องสมุดหลาม Scikit-Learn) แต่ดูเหมือนว่าวิธีการเหล่านี้ (หรืออย่างน้อยที่สุดการใช้งานวิธีการเหล่านี้) มี จำกัด เพื่อแยกส่วนประกอบได้มากเท่าที่มีมิติในข้อมูลตัวอย่างเช่น 2 ส่วนประกอบจากคลาวด์จุด 2D เมื่อพล็อตข้อมูลเป็นที่ชัดเจนต่อสายตาที่ผ่านการฝึกอบรมว่ามีแนวโน้มเชิงเส้นที่แตกต่างกันสามเส้นเส้นสีสามเส้นแสดงทิศทาง เมื่อใช้ PCA ส่วนประกอบหลักจะถูกจัดตำแหน่งให้เป็นหนึ่งในเส้นสีและส่วนอื่น ๆ จะอยู่ที่ 90 °ตามที่คาดไว้ เมื่อใช้ ICA ส่วนประกอบแรกจะถูกจัดแนวกับเส้นสีน้ำเงินและองค์ประกอบที่สองอยู่ระหว่างสีแดงกับสีเขียว ฉันกำลังมองหาเครื่องมือที่สามารถสร้างส่วนประกอบทั้งสามในสัญญาณของฉัน แก้ไขข้อมูลเพิ่มเติม:ฉันอยู่ที่นี่ทำงานในเซตย่อยขนาดเล็กของระนาบเฟสที่ใหญ่กว่า ในชุดย่อยขนาดเล็กนี้ตัวแปรอินพุตแต่ละตัวสร้างการเปลี่ยนแปลงเชิงเส้นบนระนาบ แต่ทิศทางและความกว้างของการเปลี่ยนแปลงนี้ไม่ใช่แบบเส้นตรงและขึ้นอยู่กับตำแหน่งบนระนาบที่ใหญ่กว่าที่ฉันกำลังทำงานอยู่ ในบางสถานที่ตัวแปรสองตัวสามารถเสื่อมถอยลงได้พวกมันสร้างการเปลี่ยนแปลงในทิศทางเดียวกัน ตัวอย่างเช่นสมมติว่าโมเดลขึ้นกับ X, Y และ Z การเปลี่ยนแปลงในตัวแปร X จะทำให้เกิดการเปลี่ยนแปลงตามแนวเส้นสีฟ้า Y ทำให้เกิดการเปลี่ยนแปลงตามเส้นสีเขียว Z ตามแนวสีแดง

1
ใช้ Vowpal Wabbit สำหรับ NER
Vowpal Wabbit (VW) เห็นได้ชัดว่าสนับสนุนการทำงานลำดับการติดแท็กผ่านSEARN ปัญหาคือฉันไม่สามารถหารายการพารามิเตอร์แบบละเอียดที่ใดก็ได้พร้อมคำอธิบายและตัวอย่างบางส่วน สิ่งที่ดีที่สุดที่ฉันสามารถหาได้คือบล็อกของ Zinkovพร้อมตัวอย่างสั้น ๆ หน้าวิกิพีเดียหลักแทบจะไม่กล่าวถึง SEARN ในซอร์สโค้ดที่ตรวจสอบแล้วฉันพบโฟลเดอร์สาธิตพร้อมข้อมูลตัวอย่าง NER บางส่วน น่าเสียดายที่สคริปต์ที่รันการทดสอบทั้งหมดไม่แสดงวิธีการทำงานกับข้อมูลนี้ อย่างน้อยมันก็มีข้อมูลเพียงพอที่จะเห็นรูปแบบที่คาดไว้: เกือบจะเหมือนกับรูปแบบข้อมูล VW มาตรฐานยกเว้นว่ารายการนั้นคั่นด้วยบรรทัดว่าง (นี่เป็นสิ่งสำคัญ) ความเข้าใจปัจจุบันของฉันคือการเรียกใช้คำสั่งต่อไปนี้: cat train.txt | vw -c --passes 10 --searn 25 --searn_task sequence \ --searn_passes_per_policy 2 -b 30 -f twpos.vw ที่ไหน --searn 25 - จำนวนป้ายกำกับ NER ทั้งหมด (?) --searn_task sequence - งานติดแท็กตามลำดับ …

4
แนะนำชุดข้อมูลการฝึกอบรมตัวจําแนกข้อความ
ชุดข้อมูลใดที่ฉันสามารถใช้เพื่อฝึกตัวแยกประเภทข้อความได้อย่างอิสระ เราพยายามปรับปรุงการมีส่วนร่วมของผู้ใช้โดยแนะนำเนื้อหาที่เกี่ยวข้องมากที่สุดสำหรับเขาดังนั้นเราจึงคิดว่าถ้าเราจัดหมวดหมู่เนื้อหาตามคำที่กำหนดไว้ล่วงหน้าเราสามารถแนะนำให้เขามีส่วนร่วมเนื้อหาโดยรับข้อเสนอแนะของเขา ก่อน. เราสามารถใช้ข้อมูลนี้เพื่อแนะนำให้เขาติดป้ายกำกับที่มีคลาสเหล่านั้น แต่เราพบว่าหากเราใช้ถุงคำที่กำหนดไว้ล่วงหน้าซึ่งไม่เกี่ยวข้องกับเนื้อหาของเราเวกเตอร์คุณลักษณะจะเต็มไปด้วยเลขศูนย์หมวดหมู่อาจไม่เกี่ยวข้องกับเนื้อหาของเรา ดังนั้นด้วยเหตุผลเหล่านั้นเราจึงลองใช้วิธีแก้ไขปัญหาอื่นซึ่งจะทำการจัดกลุ่มเนื้อหาของเราไม่แยกประเภท ขอบคุณ :)

1
การเรียนรู้การเข้ารหัสสัญญาณ
ฉันมีตัวอย่างจำนวนมากซึ่งเป็นตัวแทนของกระแสบิตเข้ารหัสแมนเชสเตอร์เป็นสัญญาณเสียง ความถี่ที่พวกเขาถูกเข้ารหัสเป็นส่วนประกอบความถี่หลักเมื่อมันสูงและมีจำนวนเสียงสีขาวในพื้นหลังที่สอดคล้องกัน ฉันถอดรหัสสตรีมเหล่านี้ด้วยตนเอง แต่ฉันสงสัยว่าฉันสามารถใช้เทคนิคการเรียนรู้ของเครื่องบางอย่างเพื่อเรียนรู้โครงร่างการเข้ารหัส สิ่งนี้จะช่วยประหยัดเวลาได้มากในการจดจำโครงร่างเหล่านี้ด้วยตนเอง ความยากลำบากคือสัญญาณที่แตกต่างกันจะถูกเข้ารหัสแตกต่างกัน เป็นไปได้ไหมที่จะสร้างรูปแบบที่สามารถเรียนรู้การถอดรหัสมากกว่าหนึ่งโครงร่างการเข้ารหัส? แบบจำลองดังกล่าวมีความแข็งแกร่งเพียงใดและฉันต้องการใช้เทคนิคแบบใด การวิเคราะห์องค์ประกอบอิสระ (ICA) ดูเหมือนว่าจะมีประโยชน์สำหรับการแยกความถี่ที่ฉันสนใจ แต่ฉันจะเรียนรู้รูปแบบการเข้ารหัสได้อย่างไร

2
การรับรู้กิจกรรมของมนุษย์โดยใช้ปัญหาชุดข้อมูลสมาร์ทโฟน
ฉันยังใหม่ต่อชุมชนนี้และหวังว่าคำถามของฉันจะเข้ากันได้ดีกับที่นี่ เป็นส่วนหนึ่งของหลักสูตรการวิเคราะห์ข้อมูลระดับปริญญาตรีของฉันฉันเลือกทำโครงการเกี่ยวกับการจดจำกิจกรรมมนุษย์โดยใช้ชุดข้อมูลสมาร์ทโฟน เท่าที่ฉันกังวลหัวข้อนี้เกี่ยวข้องกับการเรียนรู้ของเครื่องและการสนับสนุนเครื่อง Vector ฉันยังไม่คุ้นเคยกับเทคโนโลยีนี้ดังนั้นฉันจะต้องการความช่วยเหลือ ฉันตัดสินใจที่จะติดตามแนวคิดโครงการนี้ที่http://www.inf.ed.ac.uk/teaching/courses/dme/2014/datasets.html (โครงการแรกที่อยู่ด้านบน) เป้าหมายของโครงการคือการกำหนดว่ากิจกรรมของบุคคลคืออะไร มีส่วนร่วมใน (เช่นการเดิน, การเดิน, การเดิน, การนั่ง, การยืน, การวาง) จากข้อมูลที่บันทึกโดยสมาร์ทโฟน (Samsung Galaxy S II) ที่เอวของตัวแบบ เมื่อใช้ accelerometer และไจโรสโคปแบบฝังตัวข้อมูลจะรวมการเร่งเชิงเส้น 3 แกนและความเร็วเชิงมุม 3 แกนที่อัตราคงที่ 50Hz ชุดข้อมูลทั้งหมดจะได้รับในโฟลเดอร์เดียวที่มีคำอธิบายและป้ายกำกับคุณสมบัติ ข้อมูลจะถูกแบ่งออกสำหรับไฟล์ 'ทดสอบ' และ 'รถไฟ' ซึ่งข้อมูลจะแสดงในรูปแบบนี้: 2.5717778e-001 -2.3285230e-002 -1.4653762e-002 -9.3840400e-001 -9.2009078e-001 -6.6768331e-001 -9.5250112e-001 -9.2524867e-001 -6.7430222e-001 -8.9408755e-001 -5.5457721e-001 -4.6622295e-001 7.1720847e-001 6.3550240e-001 7.8949666e-001 …

1
การจัดหมวดหมู่ของวิธีการที่จะจัดการกับคลาสที่ไม่สมดุล
เป็นวิธีที่ดีที่สุดในการจัดหมวดหมู่วิธีการที่ได้รับการพัฒนาเพื่อจัดการกับปัญหาระดับความไม่สมดุลคืออะไร? นี้บทความแบ่งพวกเขาออกเป็น: การประมวลผลล่วงหน้า: รวมถึงการ oversampling, undersampling และ hybrid การเรียนรู้ที่มีความอ่อนไหวด้านต้นทุน: รวมถึงวิธีการโดยตรงและการเรียนรู้แบบ meta-learning เทคนิคของ Ensemble: ประกอบด้วยตระการตาที่ไวต่อราคาและการประมวลผลข้อมูลล่วงหน้าร่วมกับการเรียนรู้ทั้งมวล การจำแนกประเภทที่สอง : การประมวลผลข้อมูลล่วงหน้า: รวมถึงการเปลี่ยนแปลงการกระจายและการถ่วงน้ำหนักพื้นที่ข้อมูล การเรียนรู้แบบชั้นเดียวถือเป็นการเปลี่ยนการกระจาย วิธีการเรียนรู้จุดประสงค์พิเศษ การคาดการณ์หลังการประมวลผล: รวมถึงวิธีการตามเกณฑ์และการประมวลผลภายหลังที่มีความอ่อนไหวด้านต้นทุน วิธีไฮบริด: บทความที่สาม: วิธีการระดับข้อมูล วิธีการระดับอัลกอริทึม วิธีไฮบริด การจำแนกประเภทสุดท้ายยังพิจารณาการปรับปรุงผลลัพธ์เป็นแนวทางอิสระ ขอบคุณล่วงหน้า.

2
เหตุใดขอบเขต จำกัด จึงมีปัญหาในการเรียนรู้ของเครื่อง?
คุณช่วยอธิบายความแม่นยำอัน จำกัด ได้อย่างไร? เหตุใดขอบเขต จำกัด จึงมีปัญหาในการเรียนรู้ของเครื่อง?

3
มีเทคนิคการเรียนรู้ด้วยเครื่องเพื่อระบุคะแนนในแปลง / ภาพหรือไม่?
ฉันมีข้อมูลสำหรับตำแหน่งด้านข้างของรถแต่ละคันเมื่อเวลาผ่านไปและหมายเลขช่องทางตามที่แสดงใน 3 แปลงในภาพและข้อมูลตัวอย่างด้านล่าง > a Frame.ID xcoord Lane 1 452 27.39400 3 2 453 27.38331 3 3 454 27.42999 3 4 455 27.46512 3 5 456 27.49066 3 ตำแหน่งด้านข้างแตกต่างกันไปตามกาลเวลาเนื่องจากคนขับรถมนุษย์ไม่สามารถควบคุมตำแหน่งของยานพาหนะได้อย่างสมบูรณ์แบบ การเปลี่ยนเลนเริ่มต้นเมื่อตำแหน่งด้านข้างเปลี่ยนไปอย่างมากและสิ้นสุดลงเมื่อความแปรปรวนกลายเป็น 'ปกติ' อีกครั้ง ไม่สามารถระบุได้จากข้อมูลโดยตรง ฉันต้องดูพล็อตของยานพาหนะแต่ละคันด้วยตนเองเพื่อกำหนดจุดเริ่มต้นและจุดสิ้นสุดของการเปลี่ยนเลนเพื่อประเมินระยะเวลาของการเปลี่ยนเลน แต่ฉันมียานพาหนะหลายพันคันในชุดข้อมูล คุณช่วยชี้แนะทางไปยังอัลกอริธึมการวิเคราะห์รูปภาพ / เครื่องเรียนรู้ที่เกี่ยวข้องซึ่งสามารถฝึกฝนเพื่อระบุประเด็นเหล่านี้ได้หรือไม่? ฉันทำงานในอาร์ขอบคุณล่วงหน้า

2
เหตุใดการไล่ระดับสีแบบเพิ่มการถดถอยจึงทำนายค่าลบเมื่อไม่มีค่า y ติดลบในชุดการฝึกอบรมของฉัน
ในขณะที่ฉันเพิ่มจำนวนต้นไม้ในScikit เรียนรู้ของGradientBoostingRegressorฉันได้รับการคาดการณ์เชิงลบมากขึ้นแม้ว่าจะไม่มีค่าลบในชุดการฝึกอบรมหรือการทดสอบของฉัน ฉันมีคุณสมบัติประมาณ 10 ตัวซึ่งส่วนใหญ่เป็นแบบไบนารี่ พารามิเตอร์บางอย่างที่ฉันปรับจูน ได้แก่ : จำนวนต้นไม้ / การวนซ้ำ; การเรียนรู้เชิงลึก และอัตราการเรียนรู้ เปอร์เซ็นต์ของค่าลบดูเหมือนสูงสุดที่ ~ 2% ความลึกของการเรียนรู้ที่ 1 (ตอไม้) ดูเหมือนจะมีค่า% ที่ใหญ่ที่สุด เปอร์เซ็นต์นี้ดูเหมือนจะเพิ่มขึ้นด้วยต้นไม้มากขึ้นและอัตราการเรียนรู้ที่น้อยลง ชุดข้อมูลมาจากหนึ่งในการแข่งขันสนามเด็กเล่น kaggle รหัสของฉันเป็นสิ่งที่ชอบ: from sklearn.ensemble import GradientBoostingRegressor X_train, X_test, y_train, y_test = train_test_split(X, y) reg = GradientBoostingRegressor(n_estimators=8000, max_depth=1, loss = 'ls', learning_rate = .01) reg.fit(X_train, y_train) ypred = …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.