คำถามติดแท็ก machine-learning

อัลกอริทึมการเรียนรู้ของเครื่องสร้างโมเดลของข้อมูลการฝึกอบรม คำว่า "การเรียนรู้ของเครื่อง" มีการกำหนดอย่างคลุมเครือ มันรวมถึงสิ่งที่เรียกว่าการเรียนรู้ทางสถิติการเรียนรู้เสริมการเรียนรู้แบบไม่สำรอง ฯลฯ มักเพิ่มแท็กเฉพาะเพิ่มเติม

4
โครงข่ายประสาทเทียมใกล้เคียงกับการถดถอยเชิงเส้นพร้อมคุณสมบัติพหุนาม
ฉันต้องการปรับปรุงความเข้าใจของฉันเกี่ยวกับเครือข่ายประสาทและผลประโยชน์ของพวกเขาเปรียบเทียบกับอัลกอริทึมการเรียนรู้ของเครื่องอื่น ๆ ความเข้าใจของฉันเป็นด้านล่างและคำถามของฉันคือ: คุณช่วยแก้ไขและเสริมความเข้าใจของฉันได้ไหม? :) ความเข้าใจของฉัน: (1) เครือข่ายประสาทเทียม = ฟังก์ชันที่ทำนายค่าเอาต์พุตจากค่าอินพุต ตามทฤษฎีบทการประมาณแบบสากล ( https://en.wikipedia.org/wiki/Universal_approximation_theorem ) คุณมักจะมีฟังก์ชั่นการทำนายใด ๆ (แม้ว่ามันจะทำงานได้ดี) โดยมีเซลล์ประสาทเพียงพอ (2) สิ่งนี้เป็นจริงสำหรับการถดถอยเชิงเส้นโดยใช้พหุนามของค่าอินพุตเป็นค่าอินพุตเพิ่มเติมเนื่องจากคุณสามารถประมาณ (เปรียบเทียบการขยายตัวของเทย์เลอร์) แต่ละฟังก์ชั่นได้ดีโดยใช้ชื่อพหุนาม (3) ซึ่งหมายความว่า (ในแง่ที่เกี่ยวกับผลลัพธ์ที่ดีที่สุดที่เป็นไปได้) วิธีการทั้งสองนั้นจะเทียบเท่ากัน (4) ดังนั้นความแตกต่างหลักของพวกเขาอยู่ที่วิธีการยืมตัวเองเพื่อการดำเนินการคำนวณที่ดีขึ้น กล่าวอีกนัยหนึ่งด้วยวิธีการใดที่คุณสามารถค้นหาได้โดยอิงตามตัวอย่างการฝึกอบรมให้ค่าที่ดีขึ้นเร็วขึ้นสำหรับพารามิเตอร์ที่กำหนดฟังก์ชันการทำนายในที่สุด ฉันยินดีต้อนรับความคิดความคิดเห็นและคำแนะนำเกี่ยวกับลิงก์หรือหนังสืออื่น ๆ เพื่อปรับปรุงความคิดของฉัน

3
วิธีการใช้การทำให้เป็นมาตรฐาน L2 ไปยังจุดที่ว่างในพื้นที่?
นี่คือสิ่งที่ผมอ่านในหนังสือเอียน Goodfellow ของการเรียนรู้ลึก ในบริบทของเครือข่ายนิวรัล "การปรับค่าพารามิเตอร์ของพารามิเตอร์ L2 เป็นที่รู้กันทั่วไปว่าเป็นการลดน้ำหนักกลยุทธ์การทำให้เป็นมาตรฐานนี้ทำให้น้ำหนักใกล้เคียงกับแหล่งกำเนิด [... ] โดยทั่วไปเราสามารถทำให้ค่าพารามิเตอร์อยู่ใกล้กับจุดใด ๆ ในช่องว่าง "แต่มันเป็นเรื่องธรรมดามากที่จะทำให้พารามิเตอร์ของโมเดลเป็นศูนย์ (การเรียนรู้อย่างลึก Goodfellow และคณะ) ฉันแค่อยากรู้ ฉันเข้าใจว่าเพียงเพิ่มคำ normalizing ในฟังก์ชันต้นทุนของเราและด้วยการลดค่าใช้จ่ายทั้งหมดJJJเราสามารถส่งผลต่อพารามิเตอร์ของแบบจำลองให้มีขนาดเล็กลง: J(Θ,X,y)=L(Θ,X,y)+λ||w||22J(Θ,X,Y)=L(Θ,X,Y)+λ||W||22J(\boldsymbol{\Theta}, \boldsymbol{X}, \boldsymbol{y}) = L(\boldsymbol{\Theta}, \boldsymbol{X}, \boldsymbol{y}) + \lambda||\boldsymbol{w}||_{2}^{2} แต่เราจะใช้กลยุทธ์การทำให้เป็นมาตรฐานนี้ได้อย่างไรซึ่งจะนำพารามิเตอร์ไปสู่จุดใด ๆ (กล่าวว่าเราต้องการบรรทัดฐานมีแนวโน้มที่จะ 5)

2
การแยกข้อมูลออกเป็นการทดสอบและการฝึกอบรมเป็นการกำหนด“ สถิติ” อย่างแท้จริงหรือไม่?
ฉันเป็นนักเรียนฟิสิกส์ที่เรียนการเรียนรู้ด้วยเครื่อง / วิทยาศาสตร์ข้อมูลดังนั้นฉันจึงไม่ได้หมายความว่าคำถามนี้จะเริ่มต้นความขัดแย้งใด ๆ :) อย่างไรก็ตามส่วนใหญ่ของหลักสูตรฟิสิกส์ระดับปริญญาตรีคือการทำห้องปฏิบัติการ / การทดลองซึ่งหมายถึงข้อมูลจำนวนมาก การประมวลผลและการวิเคราะห์ทางสถิติ อย่างไรก็ตามฉันสังเกตเห็นความแตกต่างที่ชัดเจนระหว่างวิธีที่นักฟิสิกส์จัดการกับข้อมูลและวิธีที่วิทยาศาสตร์ข้อมูล / หนังสือการเรียนรู้ทางสถิติจัดการกับข้อมูล ความแตกต่างที่สำคัญคือเมื่อพยายามทำการถดถอยกับข้อมูลที่ได้จากการทดลองทางฟิสิกส์อัลกอริธึมการถดถอยจะถูกนำไปใช้กับชุดข้อมูลWHOLEไม่มีการแยกชุดฝึกอบรมและชุดทดสอบออกมาอย่างแน่นอน ในโลกฟิสิกส์การคำนวณ R ^ 2 หรือการหลอกบางชนิด -R ^ 2 สำหรับแบบจำลองนั้นขึ้นอยู่กับชุดข้อมูลทั้งหมด ในโลกสถิติข้อมูลจะถูกแบ่งออกเป็น 80-20, 70-30 และอื่น ๆ ... จากนั้นโมเดลจะถูกประเมินเทียบกับชุดข้อมูลการทดสอบ นอกจากนี้ยังมีการทดลองทางฟิสิกส์ที่สำคัญ (ATLAS, BICEP2, ฯลฯ ... ) ที่ไม่เคยทำข้อมูลแยกดังนั้นฉันสงสัยว่าทำไมมันมีความแตกต่างอย่างรุนแรงระหว่างวิธีที่นักฟิสิกส์ / นักทดลองทำสถิติและวิธีที่นักวิทยาศาสตร์ด้านข้อมูล ทำสถิติ

1
การอนุมานแบบแปรผันเป็นภาษาอังกฤษธรรมดา
หลังจากดูวิดีโอบน youtube แล้วฉันรู้สึกว่าฉันไม่สามารถกำหนดความแตกต่างของการอนุมานได้ ฉันสามารถทำตามขั้นตอนในขณะที่ฉันกำลังดูวิดีโอบรรยายเกี่ยวกับเรื่องนี้ แต่ยากที่จะกำหนดว่าจริงๆแล้วคืออะไร หวังว่าจะได้ยินเกี่ยวกับมัน

1
ขอบเขตทั่วไปบน SVM
ฉันสนใจในผลลัพธ์ทางทฤษฎีสำหรับความสามารถในการวางนัยทั่วไปของ Support Vector Machines เช่นขอบเขตของความน่าจะเป็นของข้อผิดพลาดการจัดหมวดหมู่และมิติ Vapnik-Chervonenkis (VC) ของเครื่องเหล่านี้ อย่างไรก็ตามการอ่านวรรณกรรมฉันรู้สึกว่าผลลัพธ์ที่คล้าย ๆ กันบางครั้งมีแนวโน้มที่จะแตกต่างกันเล็กน้อยจากผู้เขียนถึงผู้เขียนโดยเฉพาะอย่างยิ่งเกี่ยวกับเงื่อนไขทางเทคนิคที่จำเป็นสำหรับขอบเขตที่กำหนดไว้ ในต่อไปนี้ฉันจะเรียกคืนโครงสร้างของปัญหา SVM และสถานะ 3 ของผลลัพธ์การสรุปทั่วไปหลักที่ฉันพบซ้ำในรูปแบบเดียวหรืออีกรูปแบบหนึ่งฉันให้การอ้างอิงหลัก 3 รายการตลอดการจัดนิทรรศการ−−- การตั้งค่าปัญหา : สมมติว่าเรามีตัวอย่างข้อมูลของคู่อิสระและการกระจาย (iid) คู่โดยที่ ,และ\} เราสร้างเครื่องเวกเตอร์สนับสนุน (SVM) ที่เพิ่มระยะขอบให้น้อยที่สุดระหว่างไฮเปอร์เพลนแยกที่กำหนดโดย ,และและจุดที่ใกล้ที่สุดในหมู่เพื่อแยกทั้งสองเรียนที่กำหนดโดยและ1 เราปล่อยให้ SVM ยอมรับข้อผิดพลาดบางอย่างผ่านการทำกำไรขั้นต้นโดยการแนะนำตัวแปรหย่อน(xi,yi)1≤i≤n(xi,yi)1≤i≤n(x_i,y_i)_{1\leq i\leq n}iiixi∈Rpxi∈Rpx_i \in \mathbb{R}^pyi∈{−1,1}yi∈{−1,1}y_i \in \{-1,1\}m∗m∗m^*{x:w⋅x+b=0}{x:w⋅x+b=0}\{x : w \cdot x + b = 0\}w∈Rpw∈Rpw \in \mathbb{R}^pb∈Rb∈Rb \in \mathbb{R}x1,⋯,xnx1,⋯,xnx_1,\cdots,x_ny=−1y=−1y = …

2
การเรียนรู้แบบมีผู้สอนพร้อมข้อมูลที่ไม่แน่นอน?
มีวิธีการที่มีอยู่สำหรับการใช้โมเดลการเรียนรู้แบบมีผู้สอนเข้ากับชุดข้อมูลที่ไม่แน่นอนหรือไม่? ตัวอย่างเช่นสมมติว่าเรามีชุดข้อมูลที่มีคลาส A และ B: +----------+----------+-------+-----------+ | FeatureA | FeatureB | Label | Certainty | +----------+----------+-------+-----------+ | 2 | 3 | A | 50% | | 3 | 1 | B | 80% | | 1 | 1 | A | 100% | +----------+----------+-------+-----------+ เราจะฝึกโมเดลการเรียนรู้ของเครื่องได้อย่างไร? ขอบคุณ

4
อะไรคือวิธีที่เหมาะสมกว่าในการสร้างชุดการค้างเอาไว้: เพื่อลบบางวิชาหรือเพื่อลบการสังเกตออกจากแต่ละวิชา
ฉันมีชุดข้อมูลที่มี 26 คุณสมบัติและ 31,000 แถว มันเป็นชุดข้อมูลของ 38 วิชา มันเป็นระบบไบโอเมตริกซ์ ดังนั้นฉันต้องการที่จะสามารถระบุวิชา เพื่อให้มีชุดทดสอบฉันรู้ว่าฉันต้องลบค่าบางอย่าง แล้วจะทำอย่างไรดีและทำไม (a) รักษา 30 ชุดของชุดฝึกอบรมและลบ 8 ชุดเป็นชุดทดสอบ (b) รักษาอาสาสมัคร 38 คน แต่ลบบางแถวออกจากกัน ในตอนท้ายฉันจะจบด้วยชุดฝึกอบรม: 24800 แถวจาก 38 วิชาและชุดทดสอบ: 6200 แถวจาก 38 วิชา

1
เหตุใด K ตัวเลือกจำนวนมากจึงลดคะแนนการตรวจสอบความถูกต้องไขว้ของฉัน
การเล่นกับBoston Housing DatasetและRandomForestRegressor(w / พารามิเตอร์เริ่มต้น) ใน scikit-Learn ฉันสังเกตเห็นบางสิ่งที่แปลก: ค่าเฉลี่ยการตรวจสอบความถูกต้องลดลงเมื่อฉันเพิ่มจำนวน folds เกิน 10 กลยุทธ์การตรวจสอบข้ามของฉันมีดังนี้: cv_met = ShuffleSplit(n_splits=k, test_size=1/k) scores = cross_val_score(est, X, y, cv=cv_met) ... ที่num_cvsหลากหลาย ฉันตั้งค่าtest_sizeเป็น1/num_cvsกระจกจำลองพฤติกรรมการแยกขนาดของรถไฟ / ทดสอบของ k-fold CV โดยทั่วไปฉันต้องการบางสิ่งบางอย่างเช่น k-fold CV แต่ฉันต้องการการสุ่มด้วย (เช่น ShuffleSplit) การทดลองนี้ซ้ำหลายครั้งแล้วคะแนนเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานถูกวางแผนแล้ว (โปรดทราบว่าขนาดของkถูกระบุโดยพื้นที่ของวงกลมโดยค่าเบี่ยงเบนมาตรฐานอยู่บนแกน Y) การเพิ่มขึ้นอย่างต่อเนื่องk(จาก 2 เป็น 44) จะให้คะแนนเพิ่มขึ้นเล็กน้อยตามด้วยการลดลงอย่างต่อเนื่องเมื่อkเพิ่มขึ้นอีก (เกิน ~ 10 เท่า)! ถ้ามีอะไรฉันคาดหวังว่าข้อมูลการฝึกอบรมเพิ่มเติมจะนำไปสู่คะแนนเพิ่มขึ้นเล็กน้อย! ปรับปรุง …

2
เทคนิคการเรียนรู้ของเครื่องสำหรับข้อมูลระยะยาว
ฉันสงสัยว่ามีเทคนิคการเรียนรู้ด้วยเครื่อง (ไม่ได้รับอนุญาต) สำหรับการสร้างแบบจำลองข้อมูลระยะยาวหรือไม่? ฉันเคยใช้โมเดลเอฟเฟ็กต์แบบผสม (ส่วนใหญ่ไม่ใช่แบบเส้นตรง) แต่ฉันสงสัยว่ามีวิธีอื่นในการทำเช่นนี้ (โดยใช้การเรียนรู้ของเครื่อง) โดยการเรียนรู้ของเครื่องผมหมายถึงป่าสุ่มการจำแนก / การจัดกลุ่มต้นไม้การตัดสินใจและแม้แต่การเรียนรู้ลึก ฯลฯ

4
ตัวอย่าง / หนังสือ / แหล่งข้อมูลที่ดีเพื่อเรียนรู้เกี่ยวกับการเรียนรู้ด้วยเครื่องประยุกต์ (ไม่ใช่แค่ ML เท่านั้น)
ก่อนหน้านี้ฉันเคยเรียนหลักสูตร ML แต่ตอนนี้ฉันทำงานกับโครงการที่เกี่ยวข้องกับ ML ในงานของฉัน ฉันแน่ใจว่าสิ่งที่ฉันทำได้รับการวิจัย / จัดการกับก่อนหน้านี้ แต่ฉันไม่สามารถหาหัวข้อที่เฉพาะเจาะจง ตัวอย่างการเรียนรู้ของเครื่องทั้งหมดที่ฉันพบออนไลน์นั้นง่ายมาก (เช่นวิธีใช้โมเดล KMeans ใน Python และดูการคาดคะเน) ฉันกำลังมองหาแหล่งข้อมูลที่ดีเกี่ยวกับวิธีการใช้งานจริงเหล่านี้และอาจเป็นตัวอย่างรหัสของการใช้งานเครื่องเรียนรู้ขนาดใหญ่และการฝึกอบรมแบบจำลอง ฉันต้องการเรียนรู้เกี่ยวกับวิธีการดำเนินการอย่างมีประสิทธิภาพและสร้างข้อมูลใหม่ที่สามารถทำให้อัลกอริทึม ML มีประสิทธิภาพมากขึ้น

1
อะไรคือคำอธิบายของตัวอย่างว่าทำไมการทำแบทช์ให้เป็นมาตรฐานต้องทำด้วยความระมัดระวัง
ฉันกำลังอ่านเอกสารการทำให้เป็นมาตรฐานของแบทช์ [1] และมันมีส่วนหนึ่งที่ต้องผ่านตัวอย่างพยายามที่จะแสดงว่าทำไมการทำให้เป็นมาตรฐานต้องทำอย่างระมัดระวัง ฉันอย่างจริงใจไม่เข้าใจวิธีการทำงานของตัวอย่างและฉันอยากรู้อยากเห็นจริง ๆ เข้าใจพวกเขากระดาษมากที่สุดเท่าที่จะทำได้ ก่อนอื่นให้ฉันพูดที่นี่: ตัวอย่างเช่นพิจารณาชั้นด้วยการป้อนข้อมูลที่ยูที่เพิ่มเรียนรู้อคติ B และ normalizes ที่ x = U + B , x = { x 1 . . N }คือชุดของค่าของxในชุดฝึกอบรมและE [ x ] = ∑ N i = 1 x ix^= x - E[ x ]x^=x-E[x]\hat{x} = x − E[x]x = u + …

2
เครือข่ายที่เหลือเกี่ยวข้องกับการไล่ระดับสีอย่างรวดเร็วหรือไม่?
เมื่อเร็ว ๆ นี้เราเห็นการเกิดขึ้นของ Residual Neural Net นั้นแต่ละชั้นประกอบด้วยโมดูลการคำนวณและการเชื่อมต่อทางลัดที่เก็บรักษาอินพุตไว้กับเลเยอร์เช่นเอาท์พุทของการจัดแสดงชั้น ith: เครือข่ายอนุญาตให้แยกคุณลักษณะที่เหลือและช่วยให้ความลึกที่ลึกขึ้นในขณะที่มีประสิทธิภาพมากขึ้นสำหรับปัญหาการไล่ระดับสีที่หายไปเพื่อให้ได้ประสิทธิภาพการทำงานที่ทันสมัยy i + 1 = c i + y icicic_iyi+1=ci+yiyi+1=ci+yi y_{i+1} = c_i + y_i การขุดลึกลงไปในการเพิ่มระดับความลาดชันซึ่งเป็นเทคนิคการตระการตาที่ทรงพลังในโลกแห่งการเรียนรู้ของเครื่องซึ่งดูเหมือนว่าจะทำการเพิ่มประสิทธิภาพการไล่ระดับสีบนส่วนที่เหลือของการสูญเสียมันยากที่จะไม่เห็นความคล้ายคลึงกัน ฉันรู้ว่าพวกมันเหมือนกัน แต่ไม่เหมือนกัน - ข้อแตกต่างที่สำคัญอย่างหนึ่งที่ฉันสังเกตเห็นก็คือการเพิ่มความลาดชันนั้นจะทำการปรับให้เหมาะสมที่สุดกับคำศัพท์เสริมในขณะที่ส่วนที่เหลืออยู่จะทำให้เครือข่ายทั้งหมดดีที่สุด ผมไม่ได้เห็นเขา et al, ทราบว่านี่เป็นส่วนหนึ่งของแรงจูงใจของพวกเขาในของพวกเขากระดาษเดิม ดังนั้นฉันจึงสงสัยว่าความเข้าใจของคุณในหัวข้อนี้คืออะไรและขอให้คุณแบ่งปันแหล่งข้อมูลที่น่าสนใจที่คุณมี ขอบคุณ.

1
ความแตกต่างระหว่าง ElasticNet ใน Scikit-Learn Python และ Glmnet ใน R
มีใครพยายามที่จะตรวจสอบว่าเหมาะสมกับโมเดล Elastic Net ด้วยElasticNetใน scikit-Learn ใน Python และglmnetใน R บนชุดข้อมูลเดียวกันสร้างผลลัพธ์ทางคณิตศาสตร์ที่เหมือนกันหรือไม่ ฉันได้ทดลองกับการรวมกันของพารามิเตอร์หลายชุด (เนื่องจากทั้งสองฟังก์ชั่นแตกต่างกันในค่าเริ่มต้นที่พวกเขาส่งผ่านไปยังข้อโต้แย้ง) และปรับขนาดข้อมูล แต่ดูเหมือนไม่มีอะไรที่จะสร้างแบบจำลองเดียวกันระหว่างสองภาษา มีใครประสบปัญหาเดียวกันหรือไม่

1
นโยบายการเปิดตัวในกระดาษของ AlphaGo คืออะไร?
กระดาษเป็นที่นี่ นโยบายการเปิดตัว ... เป็นนโยบาย softmax เชิงเส้นที่ขึ้นอยู่กับคุณลักษณะของรูปแบบโลคัลที่คำนวณเพิ่มขึ้นอย่างรวดเร็ว ... ฉันไม่เข้าใจว่านโยบายการเปิดตัวคืออะไรและเกี่ยวข้องกับเครือข่ายนโยบายในการเลือกย้ายอย่างไร มีคำอธิบายที่ง่ายกว่านี้ไหม?

1
Support Vector Regression แตกต่างจาก SVM อย่างไร
ฉันรู้พื้นฐานเกี่ยวกับ SVM และ SVR แต่ถึงกระนั้นฉันก็ยังไม่เข้าใจว่าปัญหาของการหาไฮเปอร์เพลนที่เพิ่มระยะขอบให้พอดีกับ SVR ได้อย่างไร ประการที่สองฉันอ่านบางอย่างเกี่ยวกับใช้เป็นระยะเผื่อเผื่อใน SVR มันหมายความว่าอะไร?εε\epsilon ประการที่สามมีความแตกต่างระหว่างพารามิเตอร์ฟังก์ชันการตัดสินใจที่ใช้ใน SVM และ SVR หรือไม่?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.