คำถามติดแท็ก machine-learning

วิธีการและหลักการในการสร้าง "ระบบคอมพิวเตอร์ที่ปรับปรุงโดยอัตโนมัติด้วยประสบการณ์"

17
ห้องสมุดไพ ธ อนที่ดีที่สุดสำหรับเครือข่ายประสาทเทียม
ฉันใช้โครงข่ายประสาทเทียมเพื่อแก้ปัญหาการเรียนรู้ของเครื่องที่แตกต่างกัน ฉันใช้ Python และpybrainแต่ห้องสมุดนี้เกือบจะหยุดแล้ว มีทางเลือกอื่นที่ดีใน Python หรือไม่?

5
ปัญหา“ ตาย ReLU” ในเครือข่ายประสาทคืออะไร?
อ้างอิงจากบันทึกของหลักสูตรสแตนฟอร์ดเกี่ยวกับเครือข่ายประสาทเทียมเพื่อการจดจำภาพย่อหน้าบอกว่า: "น่าเสียดายที่หน่วย ReLU นั้นบอบบางในระหว่างการฝึกและสามารถ" ตาย "ได้ตัวอย่างเช่นการไล่ระดับสีขนาดใหญ่ที่ไหลผ่านเซลล์ประสาท ReLU อาจทำให้น้ำหนักนั้นอัปเดตในลักษณะที่เซลล์ประสาทจะไม่เปิดใช้งานบน datapoint ใด ๆ อีก เกิดขึ้นแล้วการไล่ระดับสีที่ไหลผ่านหน่วยจะเป็นศูนย์จากจุดนั้นตลอดไปนั่นคือหน่วย ReLU สามารถตายอย่างไม่สามารถกลับคืนได้ในระหว่างการฝึกอบรมเนื่องจากพวกเขาสามารถชนกับข้อมูลได้มากมายตัวอย่างเช่นคุณอาจพบว่า 40 % ของเครือข่ายของคุณอาจเป็น "ตาย" (เช่นเซลล์ประสาทที่ไม่เคยเปิดใช้งานในชุดข้อมูลการฝึกอบรมทั้งหมด) หากอัตราการเรียนรู้สูงเกินไปหากตั้งค่าอัตราการเรียนรู้ที่เหมาะสมจะทำให้เกิดปัญหาน้อยลง " การตายของเซลล์ประสาทที่นี่หมายถึงอะไร คุณช่วยกรุณาอธิบายคำอธิบายที่เข้าใจง่ายด้วยคำศัพท์ที่ง่ายขึ้นได้ไหม

5
ฟังก์ชันข้อผิดพลาดข้ามเอนโทรปีในเครือข่ายประสาท
ในMNIST สำหรับ ML Beginnersพวกเขานิยาม cross-entropy เป็น HY'( y) : = - ∑ผมY'ผมเข้าสู่ระบบ( yผม)Hy′(y):=−∑iyi′log⁡(yi)H_{y'} (y) := - \sum_{i} y_{i}' \log (y_i) Yผมyiy_iคือค่าความน่าจะเป็นที่คาดการณ์สำหรับ classและคือความน่าจะเป็นที่แท้จริงสำหรับคลาสนั้นy ′ ฉันผมiiY'ผมyi′y_i' คำถามที่ 1 เป็นปัญหาหรือไม่ที่ (ใน ) อาจเป็น 0? นี่แปลว่าเรามีลักษณนามที่แย่จริงๆ แต่คิดว่ามีข้อผิดพลาดในชุดของเราเช่นว่า "เห็นได้ชัด" ระบุว่าเป็น มันจะผิดพลาดหรือไม่ แบบจำลองที่เราเลือก (การเปิดใช้งาน softmax ในตอนท้าย) นั้นไม่เคยให้ความน่าจะเป็น 0 สำหรับคลาสที่ถูกต้องหรือไม่ log ( y i )Yผมyiy_iเข้าสู่ระบบ( yผม)log⁡(yi)\log(y_i)13 คำถามที่ …

15
Python vs R สำหรับการเรียนรู้ของเครื่อง
ฉันเพิ่งเริ่มพัฒนาแอปพลิเคชั่นการเรียนรู้ของเครื่องจักรเพื่อจุดประสงค์ทางวิชาการ ฉันกำลังใช้Rและฝึกฝนตัวเองอยู่ คนอย่างไรก็ตามในจำนวนมากที่ผมได้เห็นการใช้งูหลาม ผู้คนกำลังใช้อะไรในสถาบันการศึกษาและอุตสาหกรรมและคำแนะนำคืออะไร

8
การเลือกอัตราการเรียนรู้
ฉันกำลังทำงานเกี่ยวกับการใช้ Stochastic Gradient Descent SGDสำหรับอวนประสาทโดยใช้การขยายพันธุ์กลับและในขณะที่ฉันเข้าใจวัตถุประสงค์ของมันฉันมีคำถามเกี่ยวกับวิธีเลือกค่าสำหรับอัตราการเรียนรู้ อัตราการเรียนรู้ที่เกี่ยวข้องกับรูปร่างของการไล่ระดับสีผิดพลาดตามที่กำหนดอัตราการลดลงหรือไม่? ถ้าเป็นเช่นนั้นคุณจะใช้ข้อมูลนี้เพื่อแจ้งการตัดสินใจของคุณเกี่ยวกับคุณค่าอย่างไร หากไม่ใช่สิ่งที่ฉันควรเลือกค่าประเภทใดและฉันควรเลือกพวกเขาอย่างไร ดูเหมือนว่าคุณต้องการค่าเล็ก ๆ น้อย ๆ เพื่อหลีกเลี่ยงการแก้ไขปัญหา แต่คุณจะเลือกได้อย่างไรว่าคุณจะไม่ติดอยู่ใน minima ท้องถิ่นหรือใช้เวลานานในการสืบทอด มันสมเหตุสมผลหรือไม่ที่จะมีอัตราการเรียนรู้ที่คงที่หรือฉันควรใช้ตัวชี้วัดบางอย่างเพื่อเปลี่ยนค่าของมันเมื่อฉันเข้าใกล้การไล่ระดับสีน้อยที่สุด? กล่าวโดยย่อ: ฉันจะเลือกอัตราการเรียนรู้สำหรับ SGD ได้อย่างไร

15
คุณมองเห็นสถาปัตยกรรมเครือข่ายประสาทเทียมได้อย่างไร
เมื่อเขียนบทความ / นำเสนอเกี่ยวกับหัวข้อที่เกี่ยวกับโครงข่ายประสาทเทียมมักจะแสดงภาพสถาปัตยกรรมเครือข่าย อะไรคือวิธีที่ดี / ง่ายในการมองเห็นสถาปัตยกรรมทั่วไปโดยอัตโนมัติ

5
วิธีการวาดไดอะแกรมสถาปัตยกรรมเครือข่ายการเรียนรู้ระดับลึก
ฉันสร้างแบบจำลองของฉันแล้ว ตอนนี้ฉันต้องการวาดแผนภาพสถาปัตยกรรมเครือข่ายสำหรับงานวิจัยของฉัน ตัวอย่างที่แสดงด้านล่าง:

5
ทำไมฟังก์ชั่นค่าใช้จ่ายใช้ความผิดพลาดกำลังสอง?
ฉันเพิ่งเริ่มต้นด้วยการเรียนรู้ของเครื่องและจนถึงตอนนี้ฉันได้จัดการกับการถดถอยเชิงเส้นมากกว่าหนึ่งตัวแปร ฉันได้เรียนรู้ว่ามีสมมติฐานซึ่งก็คือ: hθ(x)=θ0+θ1xhθ(x)=θ0+θ1xh_\theta(x)=\theta_0+\theta_1x เพื่อหาค่าที่ดีสำหรับพารามิเตอร์และθ 1เราต้องการลดความแตกต่างระหว่างผลการคำนวณและผลลัพธ์จริงของข้อมูลทดสอบของเรา เราก็ลบออกθ0θ0\theta_0θ1θ1\theta_1 hθ(x(i))−y(i)hθ(x(i))−y(i)h_\theta(x^{(i)})-y^{(i)} สำหรับทุกจาก1ไปม. ดังนั้นเราคำนวณผลรวมเหนือความแตกต่างนี้แล้วคำนวณค่าเฉลี่ยด้วยการคูณผลรวมด้วย1iii111mmm . จนถึงตอนนี้ดีมาก สิ่งนี้จะส่งผลให้:1m1m\frac{1}{m} 1m∑mi=1hθ(x(i))−y(i)1m∑i=1mhθ(x(i))−y(i)\frac{1}{m}\sum_{i=1}^mh_\theta(x^{(i)})-y^{(i)} แต่นี่ไม่ใช่สิ่งที่ได้รับการแนะนำ แต่หลักสูตรแนะนำให้ใช้ค่ากำลังสองของความแตกต่างและคูณด้วย . ดังนั้นสูตรคือ:12m12m\frac{1}{2m} 12m∑mi=1(hθ(x(i))−y(i))212m∑i=1m(hθ(x(i))−y(i))2\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2 ทำไมถึงเป็นอย่างนั้น? ทำไมเราถึงใช้ฟังก์ชันสแควร์ตรงนี้, ทำไมเราคูณด้วยแทน112m12m\frac{1}{2m} ?1m1m\frac{1}{m}

8
เมื่อใดที่ฉันควรใช้ Gini Impurity เมื่อเทียบกับการได้รับข้อมูล
ใครบางคนสามารถอธิบายเหตุผลเบื้องหลังความไม่บริสุทธิ์ของ GiniกับInformation gain (อิงจากเอนโทรปี) ได้หรือไม่? ตัวชี้วัดใดดีกว่าที่จะใช้ในสถานการณ์ต่างๆในขณะที่ใช้แผนผังการตัดสินใจ

8
นักวิทยาศาสตร์ข้อมูลกับวิศวกรการเรียนรู้ของเครื่อง
อะไรคือความแตกต่างระหว่าง "นักวิทยาศาสตร์ข้อมูล" และ "วิศวกรการเรียนรู้ของเครื่อง"? ในช่วงปีที่ผ่านมา "วิศวกรการเรียนรู้ของเครื่องจักร" ได้เริ่มแสดงจำนวนมากในการโพสต์งาน นี่เป็นสิ่งที่เห็นได้ชัดเจนในซานฟรานซิสโกซึ่งเป็นที่มาของคำว่า "นักวิทยาศาสตร์ข้อมูล" จนถึงจุดหนึ่ง "นักวิทยาศาสตร์ข้อมูล" ตามทัน "นักสถิติ" และฉันสงสัยว่าตอนนี้สิ่งเดียวกันนี้กำลังเริ่มเกิดขึ้นอย่างช้าๆกับ "นักวิทยาศาสตร์ข้อมูล" หรือไม่ คำแนะนำด้านอาชีพมีการระบุว่าเป็นหัวข้อนอกเว็บไซต์นี้ แต่ฉันคิดว่าคำถามของฉันมีความเกี่ยวข้องอย่างมากเนื่องจากฉันถามถึงคำจำกัดความ ฉันไม่ได้ขอคำแนะนำเกี่ยวกับวิถีชีวิตการทำงานหรือสถานการณ์ส่วนตัวเช่นคำถามนอกหัวข้ออื่น ๆ คำถามนี้เป็นคำถามในหัวข้อเนื่องจากบางวันอาจมีนัยสำคัญสำหรับผู้ใช้หลายคนของไซต์นี้ ในความเป็นจริงไซต์แลกเปลี่ยนสแต็กนี้อาจไม่มีอยู่หากวิวัฒนาการ "สถิติ" เทียบกับ "นักวิทยาศาสตร์ข้อมูล" ไม่ได้เกิดขึ้น ในแง่นี้คำถามนี้เป็นคำถามที่ค่อนข้างตรงประเด็น

3
ข้อดีของ AUC กับความแม่นยำมาตรฐาน
ฉันเริ่มมองเข้าไปในพื้นที่ภายใต้โค้ง (AUC) และสับสนเล็กน้อยเกี่ยวกับประโยชน์ของมัน เมื่ออธิบายให้ฉันฟังเป็นครั้งแรก AUC ดูเหมือนจะเป็นตัวชี้วัดประสิทธิภาพที่ยอดเยี่ยม แต่ในการวิจัยของฉันฉันพบว่าบางคนอ้างว่าข้อได้เปรียบของมันนั้นส่วนใหญ่อยู่ในเกณฑ์ที่ดีที่สุดสำหรับการจับโมเดล 'โชคดี' . ดังนั้นฉันควรหลีกเลี่ยงการใช้ AUC สำหรับตรวจสอบรุ่นหรือชุดค่าผสมจะดีที่สุดหรือไม่ ขอบคุณสำหรับความช่วยเหลือของคุณ

6
สตริงเป็นคุณลักษณะในต้นไม้ตัดสินใจ / ฟอเรสต์แบบสุ่ม
ฉันกำลังทำปัญหาบางอย่างกับการใช้ต้นไม้ตัดสินใจ / ป่าสุ่ม ฉันกำลังพยายามหาปัญหาที่มีตัวเลขและสตริง (เช่นชื่อประเทศ) เป็นคุณลักษณะ ตอนนี้ห้องสมุดscikit-learnจะใช้ตัวเลขเป็นพารามิเตอร์เท่านั้น แต่ฉันต้องการฉีดสตริงรวมถึงมีความรู้จำนวนมาก ฉันจะจัดการสถานการณ์ดังกล่าวได้อย่างไร ฉันสามารถแปลงสตริงเป็นตัวเลขโดยกลไกบางอย่างเช่น hashing ใน Python แต่ฉันต้องการทราบวิธีปฏิบัติที่ดีที่สุดเกี่ยวกับวิธีการจัดการสตริงในปัญหาต้นไม้การตัดสินใจ

8
โอเพนซอร์สตรวจจับความผิดปกติใน Python
พื้นหลังของปัญหา: ฉันกำลังทำงานในโครงการที่เกี่ยวข้องกับไฟล์บันทึกที่คล้ายกับที่พบในพื้นที่การตรวจสอบไอที (เพื่อความเข้าใจที่ดีที่สุดของฉันเกี่ยวกับพื้นที่ไอที) ไฟล์บันทึกเหล่านี้เป็นข้อมูลอนุกรมเวลาซึ่งแบ่งเป็นหลายร้อย / หลายพันแถวของพารามิเตอร์ต่างๆ แต่ละพารามิเตอร์เป็นตัวเลข (ลอย) และมีค่าที่ไม่สำคัญ / ไม่ใช่ข้อผิดพลาดสำหรับแต่ละจุดเวลา งานของฉันคือการตรวจสอบว่าไฟล์บันทึกสำหรับการตรวจจับความผิดปกติ (แหลม, ตก, รูปแบบที่ผิดปกติกับพารามิเตอร์บางอย่างที่ไม่ได้ซิงค์, พฤติกรรมแปลกปลอมที่ 1/2 / ฯลฯ ฯลฯ ) ในการมอบหมายที่คล้ายกันฉันได้ลอง Splunk กับ Prelert แล้ว แต่ฉันกำลังสำรวจตัวเลือกโอเพนซอร์สในขณะนี้ ข้อ จำกัด : ฉัน จำกัด ตัวเองกับ Python เพราะฉันรู้ดีและต้องการชะลอการสลับเป็น R และเส้นโค้งการเรียนรู้ที่เกี่ยวข้อง เว้นแต่ว่าจะมีการสนับสนุน R (หรือภาษา / ซอฟต์แวร์อื่น ๆ ) อย่างล้นหลามฉันต้องการยึด Python สำหรับงานนี้ นอกจากนี้ฉันกำลังทำงานในสภาพแวดล้อม Windows ในขณะนี้ …

9
รถไฟ / ทดสอบ / การตรวจสอบการตั้งค่าการแยกใน Sklearn
ฉันจะแยกเมทริกซ์ข้อมูลและเวกเตอร์เลเบลที่สอดคล้องกันเป็น X_train, X_test, X_val, y_train, y_test, y_test, y_val ด้วย Sklearn ได้อย่างไร เท่าที่ฉันรู้sklearn.cross_validation.train_test_splitมีเพียงความสามารถในการแยกออกเป็นสองไม่ใช่ในสาม ...

3
RNN vs CNN ในระดับสูง
ฉันกำลังคิดเกี่ยวกับ Recurring Neural Networks (RNN) และความหลากหลายของพวกเขาและ Convolutional Neural Networks (CNN) และพันธุ์ของพวกเขา สองประเด็นนี้จะยุติธรรมหรือไม่ที่จะพูดว่า: ใช้ CNN เพื่อแยกส่วนประกอบ (เช่นรูปภาพ) ออกเป็นคอมโพเนนต์ย่อย (เช่นวัตถุในภาพเช่นโครงร่างของวัตถุในภาพ ฯลฯ ) ใช้ RNN เพื่อสร้างการรวมกันของคอมโพเนนต์ย่อย (คำบรรยายภาพ, การสร้างข้อความ, การแปลภาษา ฯลฯ ) ฉันจะขอบคุณถ้าใครต้องการชี้ให้เห็นความไม่ถูกต้องใด ๆ ในงบเหล่านี้ เป้าหมายของฉันที่นี่คือการได้รับรากฐานที่ชัดเจนยิ่งขึ้นเกี่ยวกับการใช้ CNN และ RNNs

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.