คำถามติดแท็ก machine-learning

อัลกอริทึมการเรียนรู้ของเครื่องสร้างโมเดลของข้อมูลการฝึกอบรม คำว่า "การเรียนรู้ของเครื่อง" มีการกำหนดอย่างคลุมเครือ มันรวมถึงสิ่งที่เรียกว่าการเรียนรู้ทางสถิติการเรียนรู้เสริมการเรียนรู้แบบไม่สำรอง ฯลฯ มักเพิ่มแท็กเฉพาะเพิ่มเติม

2
ขนาดเคอร์เนลหมายถึงอะไร
เมื่อผู้คนพูดถึงเครือข่ายประสาทเทียมพวกเขาหมายความว่าอย่างไรเมื่อพวกเขาพูดว่า "ขนาดเคอร์เนล"? เมล็ดเป็นฟังก์ชันที่คล้ายคลึงกัน แต่สิ่งที่พูดเกี่ยวกับขนาดเคอร์เนล?

3
โครงข่ายประสาทเทียม (เช่นเครือข่ายประสาทเทียม) สามารถรับน้ำหนักเชิงลบได้หรือไม่?
เป็นไปได้ไหมที่จะมีน้ำหนักติดลบ (หลังจากยุคที่เพียงพอ) สำหรับเครือข่ายประสาทเทียมที่ลึกล้ำเมื่อเราใช้ ReLU สำหรับเลเยอร์การเปิดใช้งานทั้งหมด?


1
ความหมายของแกนใน t-SNE คืออะไร?
ขณะนี้ฉันกำลังพยายามคลุมหัวคณิตศาสตร์t-SNE น่าเสียดายที่ยังมีอีกคำถามหนึ่งที่ฉันไม่สามารถตอบได้อย่างน่าพอใจ: ความหมายที่แท้จริงของแกนในกราฟ t-SNE คืออะไร? ถ้าฉันจะให้งานนำเสนอในหัวข้อนี้หรือรวมไว้ในสิ่งพิมพ์ใด ๆ : ฉันจะติดป้ายแกนอย่างเหมาะสมได้อย่างไร PS: ฉันอ่านคำถาม Reddit นี้แต่คำตอบที่ให้ไว้ที่นั่น (เช่น "ขึ้นอยู่กับการตีความและความรู้เกี่ยวกับโดเมน") ไม่ได้ช่วยให้ฉันเข้าใจสิ่งนี้จริงๆ

1
รูปแบบเมทริกซ์ของการแพร่กระจายย้อนกลับพร้อมการทำให้เป็นมาตรฐาน
การทำให้เป็นมาตรฐานของแบทช์ได้รับเครดิตด้วยการปรับปรุงประสิทธิภาพอย่างมากในอวนตาข่ายประสาท วัสดุจำนวนมากบนอินเทอร์เน็ตแสดงวิธีใช้งานบนพื้นฐานการเปิดใช้งานโดยการเปิดใช้งาน ฉันใช้ backprop ไปแล้วโดยใช้พีชคณิตเมทริกซ์และเนื่องจากฉันทำงานในภาษาระดับสูง (ในขณะที่พึ่งพาRcpp(และในที่สุด GPU ของ) สำหรับการคูณเมทริกซ์หนาแน่น) การฉีกทุกอย่างออกไปและหันไปใช้forลูปของฉัน อย่างมีนัยสำคัญนอกเหนือไปจากความเจ็บปวดขนาดใหญ่ ฟังก์ชั่นการปรับสภาพแบทช์คือ โดยที่b(xp)=γ(xp−μxp)σ−1xp+βb(xp)=γ(xp−μxp)σxp−1+β b(x_p) = \gamma \left(x_p - \mu_{x_p}\right) \sigma^{-1}_{x_p} + \beta คือ Pโหนด, th ก่อนที่มันจะได้รับการเปิดใช้งานxpxpx_pppp และ βเป็นพารามิเตอร์สเกลาร์γγ\gammaββ\beta และ σ x พีมีค่าเฉลี่ยและ SD ของ xพี (โปรดสังเกตว่าปกติใช้สแควร์รูทของความแปรปรวนบวกกับฟัดจ์แฟคเตอร์ - สมมติว่าองค์ประกอบที่ไม่ใช่ศูนย์เพื่อความกะทัดรัด)μxpμxp\mu_{x_p}σxpσxp\sigma_{x_p}xpxpx_p ในรูปแบบเมทริกซ์ฟื้นฟูชุดสำหรับชั้นทั้งจะ ที่b(X)=(γ⊗1p)⊙(X−μX)⊙σ−1X+(β⊗1p)b(X)=(γ⊗1p)⊙(X−μX)⊙σX−1+(β⊗1p) b(\mathbf{X}) = \left(\gamma\otimes\mathbf{1}_p\right)\odot \left(\mathbf{X} - \mu_{\mathbf{X}}\right) \odot\sigma^{-1}_{\mathbf{X}} + \left(\beta\otimes\mathbf{1}_p\right) คือ …

5
การถดถอยเชิงเส้นล้าสมัยหรือไม่ [ปิด]
ปิด คำถามนี้เป็นคำถามความคิดเห็นตาม ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้สามารถตอบข้อเท็จจริงและการอ้างอิงได้โดยแก้ไขโพสต์นี้ ปิดให้บริการใน2 ปีที่ผ่านมา ขณะนี้ฉันอยู่ในชั้นเรียนการถดถอยเชิงเส้น แต่ฉันไม่สามารถสั่นคลอนความรู้สึกว่าสิ่งที่ฉันกำลังเรียนรู้ไม่เกี่ยวข้องในสถิติที่ทันสมัยหรือการเรียนรู้ของเครื่อง เหตุใดจึงใช้เวลามากกับการอนุมานในการถดถอยเชิงเส้นแบบง่าย ๆ หรือหลายครั้งเมื่อชุดข้อมูลที่น่าสนใจมากมายในสมัยนี้ละเมิดข้อสันนิษฐานที่ไม่สมจริงหลายประการของการถดถอยเชิงเส้น ทำไมไม่สอนการอนุมานเกี่ยวกับเครื่องมือที่ทันสมัยและยืดหยุ่นกว่าเช่นการถดถอยโดยใช้เครื่องเวกเตอร์สนับสนุนหรือกระบวนการ Gaussian แม้ว่าจะซับซ้อนกว่าการหาไฮเปอร์เพลนในอวกาศ แต่สิ่งนี้จะไม่ให้ภูมิหลังที่ดีกว่าสำหรับการจัดการปัญหาวันสมัยใหม่หรือไม่?

2
การแข่งขัน Kaggle เพิ่งชนะโดยบังเอิญหรือไม่?
การแข่งขัน Kaggle กำหนดอันดับสุดท้ายตามชุดการทดสอบที่จัดขึ้น ชุดการทดสอบที่จัดขึ้นค้างไว้เป็นตัวอย่าง; มันอาจไม่ได้เป็นตัวแทนของประชากรที่ถูกจำลอง เนื่องจากการส่งแต่ละครั้งเป็นเหมือนสมมติฐานอัลกอริทึมที่ชนะการแข่งขันอาจมีเพียงแค่โอกาสโดยรวมเท่านั้นที่จบลงด้วยการจับคู่ชุดทดสอบที่ดีกว่าชุดทดสอบอื่น ๆ กล่าวอีกนัยหนึ่งหากเลือกชุดทดสอบที่แตกต่างกันและการแข่งขันซ้ำการจัดอันดับจะยังคงเหมือนเดิมหรือไม่ สำหรับ บริษัท ที่ให้การสนับสนุนสิ่งนี้ไม่สำคัญเลย (อาจส่ง 20 อันดับแรกจะปรับปรุงพื้นฐานของพวกเขา) ถึงแม้ว่าแดกดันพวกเขาอาจจบลงด้วยการใช้รูปแบบอันดับแรกที่เลวร้ายยิ่งกว่าห้าอันดับแรก แต่สำหรับผู้เข้าร่วมการแข่งขันดูเหมือนว่า Kaggle เป็นเกมแห่งโอกาสในท้ายที่สุดโชคไม่จำเป็นต้องสะดุดในการแก้ปัญหาที่ถูกต้องมันจำเป็นต้องสะดุดกับชุดทดสอบที่ตรงกับชุดทดสอบ! เป็นไปได้หรือไม่ที่จะเปลี่ยนการแข่งขันเพื่อให้ทีมชั้นนำทั้งหมดที่ไม่สามารถชนะได้อย่างมีนัยสำคัญ? หรือในกลุ่มนี้แบบจำลองที่มีราคาต่ำสุดหรือราคาถูกที่สุดสามารถชนะได้หรือไม่

3
เหตุใดเราจึงใช้ PCA เพื่อเพิ่มความเร็วในการเรียนรู้อัลกอริธึมเมื่อเราสามารถลดจำนวนฟีเจอร์ได้?
ในหลักสูตรการเรียนรู้ของเครื่องฉันได้เรียนรู้ว่าการใช้งานทั่วไปของ PCA ( การวิเคราะห์องค์ประกอบหลัก ) คือการเร่งความเร็วอัลกอริทึมการเรียนรู้ของเครื่อง ตัวอย่างเช่นสมมติว่าคุณกำลังฝึกอบรมโมเดลการถดถอยแบบโลจิสติกส์ หากคุณมีชุดฝึกอบรมสำหรับ i จาก 1 ถึง n และปรากฎมิติของเวกเตอร์ x ของคุณใหญ่มาก (สมมุติว่าส่วนหนึ่ง) คุณสามารถใช้ PCA เพื่อรับ ขนาดเล็กลง (สมมุติว่าขนาด k) เวกเตอร์ของคุณลักษณะ z จากนั้นคุณสามารถฝึกรูปแบบการถดถอยโลจิสติกของคุณในชุดฝึกอบรม( z ( i ) , y ( i )( x( i ), y( i ))(x(i),y(i))(x^{(i)},y^{(i)})สำหรับฉันตั้งแต่ 1 ถึง n การฝึกอบรมโมเดลนี้จะเร็วขึ้นเนื่องจากฟีเจอร์ของคุณมีขนาดน้อย( z( i ), y( i …

2
ระเบียบและการทำให้เป็นมาตรฐานคืออะไร
ฉันได้ยินคำเหล่านี้มากขึ้นเรื่อย ๆ เมื่อฉันเรียนรู้การเรียนรู้ด้วยเครื่อง ในความเป็นจริงบางคนได้รับรางวัลเหรียญฟิลด์จากการทำงานเป็นปกติของสมการ ดังนั้นฉันคิดว่านี่เป็นคำที่นำตัวเองจากฟิสิกส์เชิงสถิติ / คณิตศาสตร์ไปสู่การเรียนรู้ของเครื่อง โดยธรรมชาติแล้วคนจำนวนมากที่ฉันถามก็ไม่สามารถอธิบายได้โดยสัญชาตญาณ ฉันรู้ว่าวิธีการต่าง ๆ เช่นความช่วยเหลือแบบดรอปเอาท์ในการทำให้เป็นมาตรฐาน (=> พวกเขาบอกว่ามันลดการ overfitting แต่ฉันไม่เข้าใจว่ามันคืออะไร: ถ้ามันลดการ overfitting เท่านั้นทำไมไม่เพียงเรียกมันว่า anti-overfitting method => ฉันคิดอะไรมากกว่านี้ดังนั้นคำถามนี้) ฉันจะขอบคุณจริงๆ (ฉันเดาว่าชุมชน ML ไร้เดียงสาก็คงจะเหมือนกัน!) ถ้าคุณสามารถอธิบายได้: คุณจะกำหนดความสม่ำเสมอได้อย่างไร ระเบียบคืออะไร การทำให้เป็นมาตรฐานเป็นวิธีที่ทำให้มั่นใจได้ว่าเป็นเรื่องปกติหรือไม่? คือการจับภาพของระเบียบ? เหตุใดวิธีการรวมกลุ่มเช่นการออกกลางคันวิธีการทำให้เป็นมาตรฐานทั้งหมดจึงอ้างว่ากำลังทำให้เป็นมาตรฐาน ทำไม (ความสม่ำเสมอ / การทำให้เป็นมาตรฐาน) เหล่านี้เกิดขึ้นในการเรียนรู้ของเครื่อง? ขอบคุณมาก ๆ สำหรับความช่วยเหลือของคุณ.

1
จะรู้ได้อย่างไรว่าเส้นโค้งการเรียนรู้จากตัวแบบ SVM ทนทุกข์จากความเอนเอียงหรือความแปรปรวน?
ฉันสร้างเส้นโค้งการเรียนรู้นี้และฉันต้องการที่จะรู้ว่ารุ่น SVM ของฉันมีปัญหาเรื่องอคติหรือความแปรปรวนหรือไม่? ฉันจะสรุปได้อย่างไรจากกราฟนี้

4
จะปรับอัตราการเรียนรู้อย่างเป็นระบบโดยใช้ Gradient Descent เป็นเครื่องมือเพิ่มประสิทธิภาพได้อย่างไร
คนนอกถึงฟิลด์ ML / DL; เริ่มหลักสูตร Udacity Deep Learning ซึ่งมีพื้นฐานจาก Tensorflow; ทำงานที่ได้รับมอบหมาย 3 ปัญหา 4; พยายามปรับอัตราการเรียนรู้ด้วยการกำหนดค่าต่อไปนี้: ชุดขนาด 128 จำนวนขั้นตอน: เพียงพอที่จะเติม 2 epochs ขนาดของเลเยอร์ที่ซ่อนอยู่: 1024, 305, 75 การกำหนดค่าเริ่มต้นน้ำหนัก: ตัดปกติด้วย std ส่วนเบี่ยงเบนของ sqrt (2 / n) โดยที่ n คือขนาดของเลเยอร์ก่อนหน้า ความน่าจะเป็นที่จะออกกลางคัน: 0.75 การทำให้เป็นมาตรฐาน: ไม่ได้ใช้ อัลกอริทึมอัตราการเรียนรู้: การสลายตัวแบบเลขชี้กำลัง เล่นกับพารามิเตอร์อัตราการเรียนรู้; ดูเหมือนว่าพวกเขาจะไม่มีผลในกรณีส่วนใหญ่; รหัสที่นี่ ; ผล: Accuracy learning_rate decay_steps …

2
การถดถอยโลจิสติกส์เหมาะสมเมื่อใด
ขณะนี้ฉันกำลังสอนตัวเองเกี่ยวกับการจำแนกประเภทและโดยเฉพาะฉันกำลังดูวิธีการสามวิธี: การสนับสนุนเครื่องเวกเตอร์เครือข่ายประสาทและการถดถอยโลจิสติก สิ่งที่ฉันพยายามเข้าใจคือเหตุที่การถดถอยโลจิสติกจะทำงานได้ดีกว่าอีกสอง จากความเข้าใจของฉันในการถดถอยโลจิสติกความคิดคือการปรับฟังก์ชั่นโลจิสติกให้พอดีกับข้อมูลทั้งหมด ดังนั้นถ้าข้อมูลของฉันเป็นเลขฐานสองข้อมูลทั้งหมดที่มีป้ายกำกับ 0 ควรถูกแมปกับค่า 0 (หรือใกล้เคียง) และข้อมูลทั้งหมดที่มีค่า 1 ควรถูกแมปกับค่า 1 (หรือใกล้เคียง) ตอนนี้เนื่องจากฟังก์ชันโลจิสติกส์นั้นต่อเนื่องและราบรื่นการดำเนินการถดถอยนี้จึงต้องการข้อมูลทั้งหมดของฉันเพื่อให้พอดีกับเส้นโค้ง ไม่มีความสำคัญมากขึ้นนำไปใช้กับจุดข้อมูลที่อยู่ใกล้กับขอบเขตการตัดสินใจและจุดข้อมูลทั้งหมดมีส่วนทำให้เกิดการสูญเสียตามจำนวนที่แตกต่างกัน อย่างไรก็ตามด้วยการสนับสนุนเวกเตอร์แมชชีนและเครือข่ายนิวรัลเฉพาะจุดข้อมูลเหล่านั้นที่อยู่ใกล้กับขอบเขตการตัดสินใจมีความสำคัญ ตราบใดที่จุดข้อมูลยังคงอยู่ในขอบเขตเดียวกันของขอบเขตการตัดสินใจมันจะมีส่วนทำให้เกิดการสูญเสียเท่ากัน ดังนั้นเหตุใดการถดถอยของโลจิสติกจึงมีประสิทธิภาพสูงกว่าเครื่องเวกเตอร์หรือโครงข่ายประสาทเนื่องจากว่า "เสียทรัพยากร" ในการพยายามที่จะปรับเส้นโค้งให้เข้ากับข้อมูลที่ไม่สำคัญ (จำแนกได้ง่าย ๆ ) ขอบเขต?

2
แปลปัญหาการเรียนรู้ของเครื่องเป็นกรอบการถดถอย
สมมติว่าฉันมีแผงของการอธิบายตัวแปรสำหรับฉัน= 1 . . N , T = 1 . . Tเช่นเดียวกับเวกเตอร์ของตัวแปรตามผลไบนารีY ฉันที ดังนั้นYจะสังเกตได้เฉพาะในครั้งสุดท้ายTและไม่ใช่ก่อนหน้านี้ กรณีทั่วไปอย่างสมบูรณ์คือการมีหลายX i j tสำหรับj = 1 ... Kสำหรับแต่ละหน่วยiในแต่ละครั้งtXฉันทีXitX_{it}ฉัน= 1 . . ยังไม่มีข้อความi=1...Ni = 1 ... NT = 1 . . Tt=1...Tt = 1 ... TYฉันTYiTY_{iT}YYYTTTXฉันเจทีXijtX_{ijt}j = 1 ... Kj=1...Kj=1...Kผมiitttแต่ขอเน้นที่กรณีเพื่อความกระชับK=1K=1K=1 การใช้งานของคู่ "ไม่สมดุล" มีตัวแปรอธิบายความสัมพันธ์ชั่วคราวเช่น (ราคาหุ้นรายวันเงินปันผลรายไตรมาส), (รายงานสภาพอากาศรายวัน, พายุเฮอริเคนรายปี) หรือ …

5
เครื่องจักรอัตโนมัติเรียนรู้ที่จะฝันหรือไม่?
เมื่อฉันค้นพบการเรียนรู้ของเครื่องฉันเห็นเทคนิคที่น่าสนใจต่าง ๆ เช่น: โดยอัตโนมัติขั้นตอนวิธีการปรับแต่งด้วยเทคนิคเช่นgrid search, ได้รับผลลัพธ์ที่ถูกต้องมากขึ้นผ่านการรวมกันของขั้นตอนวิธีการที่แตกต่างกันของ "พิมพ์" เหมือนกันว่าboosting, ได้รับผลลัพธ์ที่ถูกต้องมากขึ้นผ่านการรวมกันของขั้นตอนวิธีการที่แตกต่างกัน ( แต่ไม่ใช่ชนิดเดียวกันของอัลกอริทึม) ว่าstacking, และอาจมีอีกมากที่ฉันยังต้องค้นพบ ... คำถามของฉันมีดังต่อไปนี้: มีชิ้นส่วนเหล่านั้นทั้งหมด แต่เป็นไปได้หรือไม่ที่จะรวมเข้าด้วยกันเพื่อสร้างอัลกอริทึมที่ใช้เป็นข้อมูลที่ได้รับการทำความสะอาดและผลลัพธ์ที่ดีโดยการนำเอาเทคนิคที่ดีที่สุดออกมา? (แน่นอนว่ามันอาจจะมีประสิทธิภาพน้อยกว่าที่นักวิทยาศาสตร์ด้านข้อมูลมืออาชีพ แต่เขาจะดีกว่าฉัน!) ถ้าใช่คุณมีรหัสตัวอย่างหรือคุณรู้กรอบที่สามารถทำได้หรือไม่? แก้ไข:หลังจากคำตอบบางอย่างดูเหมือนว่าจะต้องแคบลงบางส่วน ลองยกตัวอย่างเรามีหนึ่งคอลัมน์ที่มีข้อมูลหมวดหมู่ลองเรียกมันมาyและเราต้องการทำนายจากข้อมูลตัวเลขที่เป็นข้อมูลXหุ่นหรือข้อมูลตัวเลขจริง (ความสูงอุณหภูมิ) เราถือว่าการทำความสะอาดเสร็จสิ้นแล้ว มีอัลกอริทึมที่มีอยู่ที่สามารถใช้ข้อมูลดังกล่าวและเอาท์พุททำนาย? (โดยการทดสอบอัลกอริธึมหลายตัวการปรับจูนการเพิ่มประสิทธิภาพ ฯลฯ ) ถ้าใช่มันมีประสิทธิภาพในการคำนวณ (การคำนวณเสร็จในเวลาที่เหมาะสมถ้าเราเปรียบเทียบกับอัลกอริทึมปกติ) และคุณมีตัวอย่างของรหัสหรือไม่?

3
อัลกอริทึมใดที่ฉันสามารถใช้เพื่อค้นหาความสัมพันธ์ระหว่างเหตุการณ์
ฉันยังใหม่กับการเรียนรู้ของเครื่องดังนั้นฉันจึงพยายามค้นหาวรรณกรรมบางอย่าง แต่ฉันไม่แน่ใจด้วยซ้ำว่าจะให้ Google ทำอะไร ข้อมูลของฉันอยู่ในรูปแบบต่อไปนี้: User A performs Action P User B performs Action Q User C performs Action R ... User C performs Action X User A performs Action Y User B performs Action Z ... ที่การดำเนินการแต่ละรายการมีลักษณะบางอย่าง (วันที่เวลาลูกค้า ฯลฯ ) มีผู้ใช้ประมาณ 300 คนและเรามีการดำเนินการประมาณ 20,000 รายการ คำถาม : ฉันต้องการตรวจสอบว่ามีสาเหตุ / …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.