คำถามติดแท็ก machine-learning

อัลกอริทึมการเรียนรู้ของเครื่องสร้างโมเดลของข้อมูลการฝึกอบรม คำว่า "การเรียนรู้ของเครื่อง" มีการกำหนดอย่างคลุมเครือ มันรวมถึงสิ่งที่เรียกว่าการเรียนรู้ทางสถิติการเรียนรู้เสริมการเรียนรู้แบบไม่สำรอง ฯลฯ มักเพิ่มแท็กเฉพาะเพิ่มเติม

3
มีปัญหาการเรียนรู้ภายใต้การดูแลที่ชัดเจน (ลึก) เครือข่ายประสาทเทียมไม่สามารถทำได้ดีกว่าวิธีการอื่น ๆ ?
ฉันเคยเห็นผู้คนใช้ความพยายามอย่างมากกับ SVM และ Kernels และพวกเขาดูน่าสนใจทีเดียวในฐานะผู้เริ่มต้นในการเรียนรู้ของเครื่อง แต่ถ้าเราคาดหวังว่าเกือบตลอดเวลาเราจะพบทางออกที่ดีกว่าในแง่ของเครือข่ายประสาท (ลึก) ความหมายของการลองใช้วิธีการอื่นในยุคนี้คืออะไร? นี่คือข้อ จำกัด ของฉันในหัวข้อนี้ เราคิดถึงการเรียนรู้แบบมีผู้ควบคุมเท่านั้น การถดถอยและการจำแนก การอ่านผลลัพธ์จะไม่ถูกนับ เฉพาะความแม่นยำในปัญหาการเรียนรู้ภายใต้การควบคุมเท่านั้นที่จะนับ การคำนวณต้นทุนไม่ได้พิจารณา ฉันไม่ได้บอกว่าวิธีการอื่นใดไร้ประโยชน์

3
ก่อนการฝึกอบรมในโครงข่ายประสาทเทียมแบบลึก?
มีใครเคยเห็นวรรณกรรมเกี่ยวกับการฝึกอบรมล่วงหน้าในโครงข่ายประสาทเทียมแบบลึกหรือไม่? ฉันเห็นเฉพาะการฝึกอบรมล่วงหน้าในเครื่องสร้างรหัสอัตโนมัติหรือเครื่องโบลต์แมนที่ จำกัด เท่านั้น

5
SVM สามารถทำการสตรีมการเรียนรู้ทีละตัวอย่างได้หรือไม่
ฉันมีชุดข้อมูลสตรีมมิ่งตัวอย่างสามารถใช้ได้ทีละชุด ฉันจะต้องทำการจำแนกประเภทหลายคลาสกับพวกเขา ทันทีที่ฉันป้อนตัวอย่างการฝึกอบรมให้กับกระบวนการเรียนรู้ฉันต้องทิ้งตัวอย่าง ในขณะเดียวกันฉันยังใช้รุ่นล่าสุดในการทำนายข้อมูลที่ไม่มีป้ายกำกับ เท่าที่ฉันรู้เครือข่ายประสาทสามารถทำการเรียนรู้ด้วยการส่งตัวอย่างหนึ่งครั้งและดำเนินการแพร่กระจายไปข้างหน้าและการสนับสนุนการย้อนหลังในตัวอย่าง SVM สามารถทำการสตรีมการเรียนรู้ทีละตัวอย่างและยกเลิกตัวอย่างได้ทันทีหรือไม่?

1
ความสำคัญของตัวแปรเชิงสัมพันธ์สำหรับการส่งเสริม
ฉันกำลังมองหาคำอธิบายว่าวิธีคำนวณความสำคัญของตัวแปรแบบสัมพันธ์ในต้นไม้ที่เพิ่มขึ้นแบบไล่ระดับสีซึ่งไม่ธรรมดา / ง่ายเกินไป: มาตรการจะขึ้นอยู่กับจำนวนครั้งที่ตัวแปรถูกเลือกสำหรับการแยกถ่วงน้ำหนักด้วยการปรับปรุงยกกำลังสองกับรูปแบบเป็นผลของแต่ละแยกและเฉลี่ยมากกว่าต้นไม้ทั้งหมด [ Elith และคณะ 2008, คู่มือการทำงานเพื่อเพิ่มความแข็งแกร่งให้กับต้นไม้ถดถอย ] และนั่นก็เป็นนามธรรมน้อยกว่า: ผม2J^( T) = ∑t = 1J- 1ผม2เสื้อ^1 ( vเสื้อ= j )ผมJ2^(T)=Σเสื้อ=1J-1ผมเสื้อ2^1(โวลต์เสื้อ=J)\hat{I_{j}^2}(T)=\sum\limits_{t=1}^{J-1} \hat{i_{t}^2} 1(v_{t}=j) โดยที่การรวมอยู่เหนือโหนดที่ไม่ใช่เทอร์มินัลของโหนดทรี ,คือตัวแปรการแยกที่เชื่อมโยงกับโหนดและเป็นการปรับปรุงเชิงประจักษ์ในข้อผิดพลาดกำลังสอง เป็นผลมาจากการแยกหมายถึงโดยที่คือการตอบสนองของลูกสาวด้านซ้ายและขวาตามลำดับและเป็นจำนวนเงินที่สอดคล้องกันของน้ำหนัก J T v t t ^ i 2 t i 2 ( R l , R r ) = w l w rเสื้อเสื้อtJJJTTTโวลต์เสื้อโวลต์เสื้อv_{t}เสื้อเสื้อtผม2เสื้อ^ผมเสื้อ2^\hat{i_{t}^2}ผม2( …

3
ความแตกต่างที่ใช้งานง่ายระหว่างโมเดล Markov ที่ซ่อนอยู่และฟิลด์สุ่มแบบมีเงื่อนไข
ฉันเข้าใจว่า HMM (โมเดลมาร์กมาร์คอฟ) เป็นรุ่นทั่วไปและ CRF เป็นรุ่นที่จำแนกได้ ฉันยังเข้าใจว่า CRFs (เขตสุ่มแบบมีเงื่อนไข) ได้รับการออกแบบและใช้งานอย่างไร สิ่งที่ฉันไม่เข้าใจก็คือพวกเขาแตกต่างจาก HMM อย่างไร ฉันอ่านว่าในกรณีของ HMM เราสามารถจำลองสถานะต่อไปของเราบนโหนดก่อนหน้าโหนดปัจจุบันและความน่าจะเป็นการเปลี่ยนแปลง แต่ในกรณีของ CRF เราสามารถทำสิ่งนี้ได้และสามารถเชื่อมต่อจำนวนโหนดด้วยกันเพื่อสร้างการอ้างอิง หรือบริบท ฉันแก้ไขที่นี่หรือไม่

4
ทำไม tanh เกือบดีกว่า sigmoid ในฐานะฟังก์ชั่นการเปิดใช้งานเกือบทุกครั้ง
ในแอนดรูอึ้งของหลักสูตรโครงข่ายประสาทและลึกการเรียนรู้เกี่ยวกับ Courseraเขากล่าวว่าการใช้มักจะดีกว่าที่จะใช้sigmoidtanhtanhtanhsigmoidsigmoidsigmoid เหตุผลที่เขาให้คือผลลัพธ์ที่ใช้ศูนย์ประมาณ 0 มากกว่า 's 0.5 และสิ่งนี้ "ทำให้การเรียนรู้สำหรับชั้นถัดไปง่ายขึ้นเล็กน้อย"tanhtanhtanhsigmoidsigmoidsigmoid เหตุใดการทำให้การเรียนรู้ความเร็วของการเปิดใช้งานเป็นศูนย์อยู่ตรงกลาง ฉันคิดว่าเขาพูดถึงเลเยอร์ก่อนหน้านี้เมื่อการเรียนรู้เกิดขึ้นระหว่างการทำโพสต์? มีคุณสมบัติอื่น ๆ ที่ทำให้ดีกว่า ? การไล่ระดับสีชันช้ากว่าจะทำให้การไล่ระดับสีหายไปหรือไม่tanhtanhtanh มีสถานการณ์ใดบ้างที่น่าจะดีกว่า?sigmoidsigmoidsigmoid ต้องการคำตอบทางคณิตศาสตร์ที่เข้าใจง่าย

4
เหตุใดจึงต้องใช้การทำให้เป็นมาตรฐานในการถดถอยพหุนามแทนที่จะลดระดับลง
เมื่อทำการถดถอยตัวอย่างเช่นพารามิเตอร์ไฮเปอร์สองตัวที่เลือกมักจะเป็นความสามารถของฟังก์ชัน (เช่นเลขชี้กำลังที่ใหญ่ที่สุดของพหุนาม) และปริมาณของการทำให้เป็นมาตรฐาน สิ่งที่ฉันสับสนคือทำไมไม่เพียงแค่เลือกฟังก์ชั่นความจุต่ำแล้วไม่สนใจการทำให้เป็นมาตรฐาน ด้วยวิธีนี้มันจะไม่เหมาะ ถ้าฉันมีฟังก์ชั่นที่มีความจุสูงพร้อมกับการทำให้เป็นมาตรฐานนั่นก็ไม่ใช่แค่ฟังก์ชั่นความจุต่ำและไม่มีการทำให้เป็นปกติ

1
เชื่อมโยงการตรวจจับความผิดปกติในเครือข่ายชั่วคราว
ฉันมาข้ามบทความนี้ที่ใช้เชื่อมโยงการตรวจสอบความผิดปกติในการทำนายแนวโน้มหัวข้อและผมพบว่ามันไม่น่าเชื่อที่น่าสนใจ: กระดาษ"การค้นพบหัวข้อที่เกิดขึ้นใหม่ในกระแสสังคมผ่านการเชื่อมโยงความผิดปกติของการตรวจสอบ" ฉันชอบที่จะทำซ้ำในชุดข้อมูลอื่น แต่ฉันไม่คุ้นเคยกับวิธีการที่จะรู้วิธีใช้ สมมติว่าฉันมีชุดของภาพรวมของเครือข่ายของโหนดในช่วงหกเดือน โหนมีการกระจายระดับเทลด์เทอร์มินัลโดยส่วนใหญ่มีการเชื่อมต่อเพียงเล็กน้อย แต่บางอันมีจำนวนมาก โหนดใหม่ปรากฏขึ้นภายในช่วงเวลานี้ ฉันจะใช้การคำนวณความน่าจะเป็นสูงสุดปกติแบบลดตามลำดับที่ใช้ในกระดาษเพื่อตรวจจับลิงก์ผิดปกติที่ฉันคิดว่าอาจเป็นตัวตั้งต้นให้เกิดการระเบิดได้อย่างไร มีวิธีการอื่นที่เหมาะสมกว่าหรือไม่ ฉันถามทั้งในทางทฤษฎีและในทางปฏิบัติ หากใครบางคนชี้ให้ฉันเห็นวิธีการใช้สิ่งนี้ใน python หรือ R นั่นจะเป็นประโยชน์อย่างมาก ใคร? ฉันรู้ว่าคุณสมาร์ทคนมีความคิดเริ่มต้นสำหรับคำตอบ


6
วิธีเริ่มต้นกับเครือข่ายประสาท
ฉันใหม่สำหรับเครือข่ายประสาทอย่างสมบูรณ์ แต่สนใจอย่างมากที่จะเข้าใจพวกเขา อย่างไรก็ตามการเริ่มต้นใช้งานไม่ใช่เรื่องง่ายเลย ใครช่วยแนะนำหนังสือดีๆหรือทรัพยากรประเภทอื่นได้บ้าง ต้องอ่านไหม? ฉันขอบคุณสำหรับเคล็ดลับใด ๆ


1
สถาปัตยกรรมของซีเอ็นเอ็นเพื่อการถดถอย?
ฉันกำลังทำงานกับปัญหาการถดถอยที่อินพุตเป็นภาพและฉลากเป็นค่าต่อเนื่องระหว่าง 80 และ 350 ภาพเป็นสารเคมีบางอย่างหลังจากปฏิกิริยาเกิดขึ้น สีที่ปรากฎออกมาบ่งบอกถึงความเข้มข้นของสารเคมีอื่นที่เหลืออยู่และนั่นคือสิ่งที่แบบจำลองนั้นต้องการออก - ความเข้มข้นของสารเคมีนั้น ภาพสามารถหมุนพลิกสะท้อนและออกที่คาดหวังควรจะยังคงเหมือนเดิม การวิเคราะห์แบบนี้ทำในห้องปฏิบัติการจริง (เครื่องจักรพิเศษมากให้ความเข้มข้นของสารเคมีโดยใช้การวิเคราะห์สีเช่นเดียวกับที่ฉันกำลังฝึกรุ่นนี้ให้ทำ) จนถึงตอนนี้ฉันได้ทดลองกับแบบจำลองโดยอ้างอิงจาก VGG (หลายลำดับของบล็อก Conv-conv-conv-conv-pool) ก่อนที่จะทำการทดลองกับสถาปัตยกรรมที่ใหม่กว่านี้ (Inception, ResNets ฯลฯ ) ฉันคิดว่าฉันจะทำการวิจัยถ้ามีสถาปัตยกรรมอื่น ๆ ที่ใช้กันโดยทั่วไปสำหรับการถดถอยโดยใช้รูปภาพ ชุดข้อมูลมีลักษณะดังนี้: ชุดข้อมูลมีตัวอย่างประมาณ 5,000 250x250 ตัวอย่างซึ่งฉันได้ปรับขนาดเป็น 64x64 เพื่อให้การฝึกอบรมง่ายขึ้น เมื่อฉันพบสถาปัตยกรรมที่มีแนวโน้มฉันจะทดลองกับภาพความละเอียดที่ใหญ่ขึ้น จนถึงตอนนี้โมเดลที่ดีที่สุดของฉันมีข้อผิดพลาดกำลังสองเฉลี่ยทั้งชุดการฝึกอบรมและการตรวจสอบความถูกต้องประมาณ 0.3 ซึ่งอยู่ไกลจากที่ยอมรับได้ในกรณีใช้งานของฉัน รุ่นที่ดีที่สุดของฉันมีลักษณะเช่นนี้: // pseudo code x = conv2d(x, filters=32, kernel=[3,3])->batch_norm()->relu() x = conv2d(x, filters=32, kernel=[3,3])->batch_norm()->relu() x = …

2
ฟังก์ชันต้นทุนในการถดถอยเชิงเส้น OLS
ฉันสับสนเล็กน้อยกับการบรรยายเกี่ยวกับการถดถอยเชิงเส้นที่ Andrew Ng ให้กับ Coursera เกี่ยวกับการเรียนรู้ของเครื่อง ที่นั่นเขาได้จัดทำฟังก์ชั่นต้นทุนที่จะลดผลรวมของกำลังสองเป็น: 12m∑i=1m(hθ(X(i))−Y(i))212m∑i=1m(hθ(X(i))−Y(i))2 \frac{1}{2m} \sum _{i=1}^m \left(h_\theta(X^{(i)})-Y^{(i)}\right)^2 ฉันเข้าใจว่ามาจากไหน ฉันคิดว่าเขาทำเพื่อที่ว่าเมื่อเขาทำอนุพันธ์บนเทอมสแควร์, 2 ในเทอมสแควร์จะยกเลิกด้วยครึ่งหนึ่ง แต่ฉันไม่เข้าใจว่ามาจากไหน 11212\frac{1}{2}1m1m\frac{1}{m} ทำไมเราต้องทำ ? ในการถดถอยเชิงเส้นมาตรฐานเราไม่มีมันเราแค่ลดจำนวนเหลือ ทำไมเราต้องการที่นี่?1m1m\frac{1}{m}

2
อะไรคือความแตกต่างระหว่าง“ การเรียนรู้ลึก” และการสร้างแบบจำลองหลายระดับ / ลำดับชั้น?
"การเรียนรู้ลึก" เป็นอีกคำหนึ่งสำหรับการสร้างแบบจำลองหลายระดับ / ลำดับชั้นหรือไม่? ฉันคุ้นเคยกับหลังมากกว่าเดิม แต่จากสิ่งที่ฉันสามารถบอกได้ความแตกต่างหลักไม่ได้อยู่ในคำจำกัดความของพวกเขา แต่วิธีที่พวกเขาใช้และประเมินผลภายในโดเมนแอปพลิเคชันของพวกเขา ดูเหมือนว่าจำนวนโหนดในแอปพลิเคชั่น "การเรียนรู้ลึก" โดยทั่วไปมีขนาดใหญ่กว่าและใช้รูปแบบลำดับชั้นทั่วไปในขณะที่การประยุกต์ใช้การสร้างแบบจำลองหลายระดับมักใช้ความสัมพันธ์แบบลำดับชั้นที่เลียนแบบกระบวนการกำเนิดแบบจำลอง การใช้ลำดับชั้นทั่วไปในโดเมนสถิติประยุกต์ (การสร้างแบบจำลองลำดับชั้น) จะถือเป็นแบบจำลอง "ไม่ถูกต้อง" ของปรากฏการณ์ในขณะที่การสร้างแบบจำลองลำดับชั้นของโดเมนเฉพาะอาจถือได้ว่าเป็นการทำลายวัตถุประสงค์ในการสร้างเครื่องเรียนรู้ทั่วไป สองสิ่งนี้เป็นเครื่องจักรชนิดเดียวกันจริงๆหรือไม่ภายใต้ชื่อที่ต่างกันสองชื่อ

7
ทำไมการตรวจสอบความถูกต้องจึงผันผวน
ฉันมีซีเอ็นเอ็นสี่ชั้นเพื่อทำนายการตอบสนองต่อโรคมะเร็งโดยใช้ข้อมูล MRI ฉันใช้การเปิดใช้งาน ReLU เพื่อแนะนำการไม่เชิงเส้น ความแม่นยำและการสูญเสียของขบวนรถไฟเพิ่มขึ้นและลดลงแบบ monotonically ตามลำดับ แต่ความแม่นยำในการทดสอบของฉันเริ่มผันผวนอย่างมาก ฉันลองเปลี่ยนอัตราการเรียนรู้ลดจำนวนเลเยอร์ แต่ก็ไม่ได้หยุดความผันผวน ฉันได้อ่านคำตอบนี้และลองทำตามคำแนะนำในคำตอบนั้น แต่ไม่โชคดี ใครช่วยให้ฉันคิดว่าฉันจะไปไหนผิด

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.