คำถามติดแท็ก machine-learning

อัลกอริทึมการเรียนรู้ของเครื่องสร้างโมเดลของข้อมูลการฝึกอบรม คำว่า "การเรียนรู้ของเครื่อง" มีการกำหนดอย่างคลุมเครือ มันรวมถึงสิ่งที่เรียกว่าการเรียนรู้ทางสถิติการเรียนรู้เสริมการเรียนรู้แบบไม่สำรอง ฯลฯ มักเพิ่มแท็กเฉพาะเพิ่มเติม

3
การโต้ตอบมีประโยชน์เฉพาะในบริบทของการถดถอยหรือไม่
ฉันมักจะอ่านคำว่าปฏิสัมพันธ์ในบริบทของการถดถอย เราควรพิจารณาปฏิสัมพันธ์กับรุ่นอื่นเช่น knn หรือ svm หรือไม่ หากมีฟีเจอร์ , 100หรือมากกว่าและปล่อยให้การสังเกต1,000ครั้งเป็นวิธีปกติในการค้นหาการโต้ตอบที่มีประโยชน์ ลองชุดค่าผสมทั้งหมดหรือไม่ หรือใช้เฉพาะชุดค่าผสมที่เหมาะสม505050100100100100010001000

3
ทรัพยากรเพื่อการเรียนรู้เกี่ยวกับเทคนิคหลายเป้าหมาย?
ฉันกำลังมองหาแหล่งข้อมูล (หนังสือบันทึกการบรรยายและอื่น ๆ ) เกี่ยวกับเทคนิคที่สามารถจัดการข้อมูลที่มีเป้าหมายหลายอย่าง (เช่นตัวแปรตามสามตัว: 2 แยกและ 1 ต่อเนื่อง) ใครบ้างมีทรัพยากร / ความรู้เกี่ยวกับเรื่องนี้? ฉันรู้ว่ามันเป็นไปได้ที่จะใช้โครงข่ายประสาทเทียมสำหรับสิ่งนี้

1
Word ฝังอัลกอริทึมในแง่ของประสิทธิภาพ
ฉันพยายามฝังวลีประมาณ60 ล้านวลีลงในช่องว่างเวกเตอร์จากนั้นคำนวณความคล้ายคลึงโคไซน์ระหว่างพวกเขา ฉันใช้ sklearn CountVectorizerพร้อมกับฟังก์ชั่น tokenizer ที่สร้างขึ้นเองที่สร้าง unigrams และ bigrams ปรากฎว่าการได้รับการรับรองที่มีความหมายฉันต้องยอมให้มีคอลัมน์จำนวนมหาศาลเป็นเส้นตรงในจำนวนแถว สิ่งนี้นำไปสู่เมทริกซ์กระจัดกระจายอย่างไม่น่าเชื่อและกำลังฆ่าประสิทธิภาพ มันจะไม่เลวร้ายนักหากมีคอลัมน์ประมาณ 10,000 คอลัมน์เท่านั้นซึ่งฉันคิดว่าค่อนข้างสมเหตุสมผลสำหรับการจัดเรียงคำ ฉันกำลังคิดจะลองใช้งาน Google word2vecเพราะฉันค่อนข้างแน่ใจว่ามันจะสร้างมิติที่ต่ำกว่าและมีงานแต่งงานที่หนาแน่นมากขึ้น แต่ก่อนหน้านั้นมีงานแต่งงานอื่น ๆ ที่อาจรับประกันดูครั้งแรกหรือไม่? ข้อกำหนดที่สำคัญจะสามารถปรับขนาดได้ประมาณ 60 ล้านวลี (แถว) ฉันค่อนข้างใหม่ในด้านการใช้คำศัพท์เพื่อช่วยให้คำแนะนำใด ๆ ฉันควรเพิ่มว่าฉันใช้การสลายตัวของค่าเอกพจน์เพื่อปรับปรุงประสิทธิภาพแล้ว

2
การจำแนกประเภทที่มีข้อมูล“ ไม่ทราบ” บางส่วน
สมมติว่าฉันต้องการเรียนรู้ลักษณนามที่ใช้เวกเตอร์ของตัวเลขเป็นอินพุตและให้เลเบลของคลาสเป็นเอาต์พุต ข้อมูลการฝึกอบรมของฉันประกอบด้วยคู่ของอินพุตและเอาท์พุตจำนวนมาก อย่างไรก็ตามเมื่อฉันมาทดสอบข้อมูลใหม่บางอย่างข้อมูลนี้จะสมบูรณ์เพียงบางส่วนเท่านั้น ตัวอย่างเช่นถ้าเวกเตอร์การป้อนข้อมูลมีความยาว 100 อาจมีเพียง 30 องค์ประกอบเท่านั้นที่จะได้รับค่า เป็นตัวอย่างของสิ่งนี้พิจารณาการรู้จำภาพเมื่อเป็นที่ทราบกันว่าส่วนหนึ่งของภาพนั้นถูกบดบัง หรือพิจารณาการจัดประเภทในแง่ทั่วไปที่ทราบว่าส่วนหนึ่งของข้อมูลเสียหาย ในทุกกรณีฉันรู้ว่าองค์ประกอบใดในเวกเตอร์ข้อมูลคือส่วนที่ไม่รู้จัก ฉันสงสัยว่าฉันจะเรียนรู้ลักษณนามที่จะทำงานกับข้อมูลประเภทนี้ได้อย่างไร ฉันสามารถตั้งค่าองค์ประกอบที่ "ไม่รู้จัก" เป็นตัวเลขสุ่ม แต่เนื่องจากมีองค์ประกอบที่ไม่รู้จักมากกว่าที่รู้จักบ่อยครั้งสิ่งนี้ไม่ได้ดูเหมือนโซลูชันที่ดี หรือฉันสามารถเปลี่ยนองค์ประกอบในข้อมูลการฝึกอบรมเป็น "ไม่ทราบ" และฝึกอบรมกับสิ่งเหล่านี้แทนที่จะเป็นข้อมูลที่สมบูรณ์ แต่อาจต้องมีการสุ่มตัวอย่างแบบละเอียดขององค์ประกอบที่รู้จักและไม่รู้จักทั้งหมด โดยเฉพาะอย่างยิ่งฉันกำลังคิดเกี่ยวกับโครงข่ายประสาท ความคิดใด ๆ ขอบคุณ!

2
การรวมการสังเกตในกระบวนการเสียน
ฉันใช้กระบวนการ Gaussian (GP) สำหรับการถดถอย ในปัญหาของฉันมันเป็นเรื่องธรรมดาสำหรับจุดข้อมูลสองจุดหรือมากกว่าx⃗ ( 1 ), x⃗ ( 2 ), ...x→(1),x→(2),...\vec{x}^{(1)},\vec{x}^{(2)},\ldotsเพื่อให้ใกล้ชิดกันมากกว่าความยาวของปัญหา นอกจากนี้การสังเกตอาจมีเสียงดังมาก เพื่อเพิ่มความเร็วในการคำนวณและปรับปรุงความแม่นยำในการวัดดูเหมือนว่าเป็นธรรมชาติที่จะรวม / รวมกลุ่มของจุดที่อยู่ใกล้กันตราบใดที่ฉันสนใจการคาดการณ์ในระดับความยาวที่มากขึ้น ฉันสงสัยว่าอะไรคือวิธีที่รวดเร็ว แต่มีหลักการครึ่งหนึ่งในการทำสิ่งนี้ ถ้าสองจุดข้อมูลที่ดีที่สุดที่ทับซ้อนกันและเสียงการสังเกต (เช่นความน่าจะเป็น) เป็น Gaussian อาจ heteroskedastic แต่ที่รู้จักกัน , วิธีธรรมชาติของการดำเนินการต่อดูเหมือนจะรวมไว้ในจุดข้อมูลเดียวด้วย:x⃗ ( 1 )= x⃗ ( 2 )x→(1)=x→(2)\vec{x}^{(1)} = \vec{x}^{(2)} x¯⃗ ≡ x⃗ ( k )x¯→≡x→(k)\vec{\bar{x}} \equiv \vec{x}^{(k)}สำหรับkk = 1 , 2k=1,2k=1,2 ค่าที่สังเกตซึ่งเป็นค่าเฉลี่ยของค่าที่สังเกตได้ถ่วงน้ำหนักด้วยความแม่นยำสัมพัทธ์:{(2)} …

2
อะไรคือความแตกต่างระหว่างการถดถอยของแนวสันโดยใช้ glmnet ของ R และ Scikit-Learn ของ Python?
ฉันกำลังอ่านส่วน LAB §6.6เกี่ยวกับการถดถอยของสัน / Lasso ในหนังสือ'บทนำสู่การเรียนรู้เชิงสถิติด้วยแอปพลิเคชันใน R'โดย James, Witten, Hastie, Tibshirani (2013) โดยเฉพาะอย่างยิ่งฉันพยายามใช้โมเดล scikit-Learn Ridgeกับชุดข้อมูล 'Hitters' จากแพ็คเกจ R 'ISLR' ฉันสร้างฟีเจอร์ชุดเดียวกันตามที่แสดงในรหัส R แล้ว อย่างไรก็ตามฉันไม่สามารถใกล้เคียงกับผลลัพธ์จากglmnet()โมเดลได้ ฉันเลือกพารามิเตอร์การปรับแต่ง L2 หนึ่งพารามิเตอร์เพื่อทำการเปรียบเทียบ (อาร์กิวเมนต์ 'alpha' ใน scikit เรียนรู้) งูหลาม: regr = Ridge(alpha=11498) regr.fit(X, y) http://nbviewer.ipython.org/github/JWarmenhoven/ISL-python/blob/master/Notebooks/Chapter%206.ipynb R: โปรดทราบว่าการโต้แย้งalpha=0ในglmnet()หมายความว่าโทษ L2 ควรใช้ (Ridge ถดถอย) เอกสารเตือนไม่ให้ป้อนค่าเดียวlambdaแต่ผลลัพธ์จะเหมือนกับใน ISL ซึ่งมีการใช้เวกเตอร์ ridge.mod <- glmnet(x,y,alpha=0,lambda=11498) …

1
เกณฑ์การคำนวณสำหรับตัวแยกประเภทความเสี่ยงขั้นต่ำ
สมมติว่าสองชั้นและมีแอตทริบิวต์และมีการกระจายและ0.5) หากเรามีค่าเท่ากับก่อนหน้าสำหรับเมทริกซ์ต้นทุนต่อไปนี้:C 2 x N ( 0 , 0.5 ) N ( 1 , 0.5 ) P ( C 1 ) = P ( C 2 ) = 0.5ค1C1C_1ค2C2C_2xxxยังไม่มีข้อความ( 0 , 0 . 5 )N(0,0.5) \cal{N} (0, 0.5)ยังไม่มีข้อความ( 1 , 0 . 5 )N(1,0.5) \cal{N} (1, 0.5)P( C1) = P( …

1
เมื่อใดที่ต้องใช้สิ่งเจือปน Gini และเมื่อใดที่จะใช้ข้อมูลได้รับ?
บางคนช่วยอธิบายให้ฉันทราบได้เมื่อใดที่จะใช้สิ่งเจือปนและข้อมูลที่ได้จากการตัดสินใจของ Gini? คุณสามารถให้สถานการณ์ / ตัวอย่างแก่ฉันเมื่อใดดีที่สุดที่จะใช้

1
การใช้เครื่องมือการเรียนรู้เครื่องมาตรฐานกับข้อมูลที่ตรวจสอบแล้ว
ฉันกำลังพัฒนาแอพพลิเคชั่นพยากรณ์ซึ่งมีวัตถุประสงค์เพื่อให้ผู้นำเข้าสามารถคาดการณ์ความต้องการผลิตภัณฑ์ของตนจากเครือข่ายลูกค้าของผู้จัดจำหน่าย ตัวเลขยอดขายเป็นตัวแทนที่ดีสำหรับความต้องการตราบใดที่มีสินค้าคงคลังเพียงพอที่จะเติมเต็มความต้องการ เมื่อสินค้าคงคลังถูกดึงลงมาที่ศูนย์แม้ว่า (สถานการณ์ที่เรากำลังมองหาเพื่อช่วยให้ลูกค้าหลีกเลี่ยง) เราไม่ทราบมากว่าเราพลาดเป้าหมายโดย ลูกค้าจะทำยอดขายได้เท่าใดพวกเขามีอุปทานเพียงพอหรือไม่ วิธีการ ML แบบอิงการถดถอยแบบมาตรฐานที่ใช้การขายเป็นตัวแปรเป้าหมายอย่างง่ายจะสร้างการประมาณที่ไม่สอดคล้องกันของความสัมพันธ์ระหว่างเวลาตัวแปรอธิบายของฉันและความต้องการ การสร้างแบบจำลองบิทเป็นวิธีที่เห็นได้ชัดที่สุดในการแก้ปัญหา: http://en.wikipedia.org/wiki/Tobit_model ฉันสงสัยเกี่ยวกับการปรับ ML ป่าสุ่ม, GBMS, SVM และเครือข่ายประสาทที่ยังบัญชีสำหรับโครงสร้างเซ็นเซอร์ข้อมูลด้านซ้ายมือ ในระยะสั้นฉันจะใช้เครื่องมือการเรียนรู้ของเครื่องกับข้อมูลการถดถอยที่ถูกเซ็นเซอร์ด้านซ้ายเพื่อรับการประมาณการที่สอดคล้องกันของความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระของฉันได้อย่างไร การตั้งค่าแรกจะเป็นโซลูชั่นที่มีอยู่ใน R ตามด้วย Python ไชโย แอรอน

1
การเลือกรูปแบบในการเรียนรู้ออฟไลน์และออนไลน์
ฉันพยายามเรียนรู้เพิ่มเติมเกี่ยวกับการเรียนรู้ออนไลน์เมื่อเร็ว ๆ นี้ (มันน่าทึ่งมาก!) และธีมหนึ่งที่ฉันไม่สามารถเข้าใจได้ดีคือวิธีคิดเกี่ยวกับการเลือกรูปแบบในออฟไลน์กับบริบทออนไลน์ โดยเฉพาะอย่างสมมติว่าเราฝึกลักษณนามออฟไลน์อยู่บนพื้นฐานของข้อมูลบางอย่างถาวรชุดDเราประเมินคุณลักษณะด้านประสิทธิภาพผ่านการตรวจสอบความถูกต้องพูดและเราเลือกตัวจําแนกที่ดีที่สุดด้วยวิธีนี้SSSDDD นี่คือสิ่งที่ฉันคิดเกี่ยวกับ: แล้วเราจะไปเกี่ยวกับการใช้กับการตั้งค่าออนไลน์ได้อย่างไร เราสามารถสมมติได้ว่าดีที่สุดที่พบแบบออฟไลน์จะทำงานได้ดีในฐานะตัวจําแนกออนไลน์ มันสมเหตุสมผลไหมที่จะรวบรวมข้อมูลบางอย่างเพื่อฝึกอบรมจากนั้นนำตัวแยกประเภทเดียวกันและ "ปฏิบัติการ" ในการตั้งค่าออนไลน์โดยใช้พารามิเตอร์เดียวกับที่พบในหรือวิธีอื่นอาจดีกว่า คำเตือนในกรณีเหล่านี้คืออะไร ผลลัพธ์ที่สำคัญที่นี่คืออะไร และอื่น ๆSSSSSSSSSSSSDDD อย่างไรก็ตามตอนนี้ก็อยู่ที่นั่นแล้วฉันเดาว่าฉันกำลังมองหาอะไรคือการอ้างอิงหรือแหล่งข้อมูลที่จะช่วยฉัน (และหวังว่าคนอื่น ๆ ที่กำลังคิดเกี่ยวกับเรื่องนี้!) ทำให้การเปลี่ยนจากการคิดในแง่ออฟไลน์เท่านั้น พัฒนากรอบจิตเพื่อคิดเกี่ยวกับปัญหาของการเลือกแบบจำลองและคำถามเหล่านี้อย่างสอดคล้องกันมากขึ้นเมื่อการอ่านของฉันดำเนินไป

2
ทุกอย่างเกี่ยวกับการเรียนรู้ของเครื่องในทางปฏิบัติจริงคืออะไร
ฉันเป็นผู้ใช้ใหม่ในการเรียนรู้ของเครื่อง (เช่นสถิติ) การเรียนรู้ความรู้ (อัลกอริทึมการเรียนรู้แบบมีผู้สอน / ไม่ได้ดูแลวิธีการหาค่าเหมาะที่สุดที่เกี่ยวข้องการทำให้เป็นมาตรฐาน ฉันรู้ว่าหากไม่มีการฝึกฝนจริงฉันจะไม่เข้าใจสิ่งที่เรียนรู้จากเครื่องเหล่านั้นอย่างลึกซึ้ง ดังนั้นฉันเริ่มต้นด้วยปัญหาการจัดหมวดหมู่กับข้อมูลจริงพูดการจำแนกตัวเลขด้วยลายมือ (MNIST) ด้วยความประหลาดใจของฉันโดยไม่มีการเรียนรู้ / วิศวกรรมความแม่นยำถึง 0.97 โดยใช้ตัวจําแนกแบบฟอเรสต์แบบสุ่มที่มีค่าพิกเซลแบบดิบเป็นอินพุต ฉันยังลองใช้อัลกอริทึมการเรียนรู้อื่นเช่น SVM, LR พร้อมปรับพารามิเตอร์ ถ้างั้นฉันก็หลงทางมันจะง่ายเกินไปหรือฉันจะทำอะไรหายไปหรือเปล่า เพียงแค่หยิบอัลกอริทึมการเรียนรู้จากชุดเครื่องมือและปรับแต่งพารามิเตอร์บางอย่าง? หากนั่นคือทั้งหมดที่เกี่ยวกับการเรียนรู้ของเครื่องในทางปฏิบัติแล้วฉันจะสูญเสียความสนใจในสาขานี้ ฉันคิดและอ่านบล็อกสักสองสามวันแล้วฉันก็มาถึงข้อสรุป: ส่วนที่สำคัญที่สุดของการเรียนรู้ของเครื่องในทางปฏิบัติคือวิศวกรรมคุณสมบัติซึ่งได้รับข้อมูลค้นหาการแสดงคุณลักษณะที่ดีขึ้น อัลกอริทึมการเรียนรู้ใดที่จะใช้ก็มีความสำคัญเช่นกันการปรับพารามิเตอร์ แต่ตัวเลือกสุดท้ายคือเพิ่มเติมเกี่ยวกับการทดลอง ฉันไม่แน่ใจว่าฉันเข้าใจถูกต้องหวังว่าทุกคนสามารถแก้ไขฉันได้และให้คำแนะนำเกี่ยวกับการเรียนรู้ของเครื่องในทางปฏิบัติ

2
การคาดหวังนั้นเหมือนกับค่าเฉลี่ยหรือไม่
ฉันกำลังทำ ML ที่มหาวิทยาลัยของฉันและอาจารย์พูดถึงคำว่า Expectation (E) ในขณะที่เขาพยายามอธิบายบางอย่างเกี่ยวกับกระบวนการแบบเกาส์ แต่จากวิธีที่เขาอธิบายฉันเข้าใจว่า E นั้นเหมือนกับค่าเฉลี่ยμ ฉันเข้าใจถูกมั้ย ถ้าเหมือนกันคุณรู้หรือไม่ว่าทำไมจึงใช้สัญลักษณ์ทั้งสอง ฉันก็เห็นว่า E สามารถใช้เป็นฟังก์ชั่นเช่น E ( ) แต่ฉันไม่เห็นว่าสำหรับμx2x2x^2 ใครสามารถช่วยฉันเข้าใจความแตกต่างระหว่างทั้งสองได้ดีกว่ากัน?

1
การชี้แจงความคาดหวังสูงสุด
ผมพบว่าการกวดวิชาที่เป็นประโยชน์มากเกี่ยวกับอัลกอริทึม EM ตัวอย่างและรูปภาพจากบทช่วยสอนนั้นยอดเยี่ยมมาก คำถามที่เกี่ยวข้องเกี่ยวกับการคำนวณความน่าจะเป็นการเพิ่มความคาดหวังทำงานอย่างไร ฉันมีคำถามอื่นเกี่ยวกับวิธีการเชื่อมต่อทฤษฎีที่อธิบายในบทช่วยสอนกับตัวอย่าง gtgtg_tlogP(x;Θ)log⁡P(x;Θ)\log P(x;\Theta)gt(Θ^(t))=logP(x;Θ^(t))gt(Θ^(t))=log⁡P(x;Θ^(t))g_t( \hat{\Theta}^{(t)}) = \log P(x; \hat{\Theta}^{(t)}) gtgtg_t Θ^(0)A=0.6Θ^A(0)=0.6\hat{\Theta}_A^{(0)} = 0.6Θ^(0)B=0.5Θ^B(0)=0.5\hat{\Theta}_B^{(0)} = 0.5Θ^(1)A=0.71Θ^A(1)=0.71\hat{\Theta}_A^{(1)} = 0.71Θ^(1)B=0.58Θ^B(1)=0.58\hat{\Theta}_B^{(1)} = 0.58Θ^(0)Θ^(0)\hat{\Theta}^{(0)}Θ^(1)Θ^(1)\hat{\Theta}^{(1)} Q(z)Q(z)Q(z)Q(z)=P(z|x;Θ)Q(z)=P(z|x;Θ)Q(z)=P(z|x;\Theta) ขอบคุณ.

4
วิธีการเลือกจำนวนของต้นไม้ในรูปแบบการถดถอยที่เพิ่มขึ้นทั่วไป?
มีกลยุทธ์ในการเลือกจำนวนต้นไม้ใน GBM หรือไม่? โดยเฉพาะntreesการโต้แย้งในRเรื่องgbmฟังก์ชั่น ฉันไม่เห็นว่าทำไมคุณไม่ควรตั้งค่าntreesที่เหมาะสมที่สุด ฉันสังเกตเห็นว่าต้นไม้จำนวนมากขึ้นลดความแปรปรวนของผลลัพธ์ได้จากหลาย GBM อย่างชัดเจน ฉันไม่คิดว่าต้นไม้จำนวนมากจะนำไปสู่การ overfitting ความคิดใด ๆ

5
พื้นหลังทางคณิตศาสตร์สำหรับเครือข่ายประสาท
ไม่แน่ใจว่าสิ่งนี้เหมาะสมสำหรับไซต์นี้หรือไม่ แต่ฉันเริ่มต้น MSE ของฉันในสาขาวิทยาศาสตร์คอมพิวเตอร์ (BS ในคณิตศาสตร์ประยุกต์) และต้องการที่จะมีพื้นฐานที่แข็งแกร่งในการเรียนรู้ของเครื่อง หนึ่งในความสนใจย่อยของฉันคือเครือข่ายประสาท พื้นหลังทางคณิตศาสตร์ที่ดีสำหรับ ANNs คืออะไร เช่นเดียวกับในด้านอื่น ๆ ของการเรียนรู้ของเครื่องฉันคิดว่าพีชคณิตเชิงเส้นมีความสำคัญ แต่ส่วนอื่น ๆ ของคณิตศาสตร์มีความสำคัญอย่างไร ผมวางแผนที่จะอ่านโครงข่ายประสาท: บทนำอย่างเป็นระบบหรือโครงข่ายประสาทเทียมสำหรับการจดจำรูปแบบ ใครบ้างมีคำแนะนำการป้อนข้อมูลหรือคำแนะนำอื่น ๆ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.