คำถามติดแท็ก machine-learning

อัลกอริทึมการเรียนรู้ของเครื่องสร้างโมเดลของข้อมูลการฝึกอบรม คำว่า "การเรียนรู้ของเครื่อง" มีการกำหนดอย่างคลุมเครือ มันรวมถึงสิ่งที่เรียกว่าการเรียนรู้ทางสถิติการเรียนรู้เสริมการเรียนรู้แบบไม่สำรอง ฯลฯ มักเพิ่มแท็กเฉพาะเพิ่มเติม

3
สิ่งที่ต้องพิจารณาเกี่ยวกับโปรแกรมต้นแบบในสถิติ
เป็นฤดูกาลรับสมัครนักศึกษาระดับบัณฑิตศึกษา ฉัน (และนักเรียนหลายคนอย่างฉัน) กำลังพยายามตัดสินใจเลือกโปรแกรมสถิติที่จะเลือก ผู้ที่ทำงานกับสถิติแนะนำอะไรเราแนะนำให้คุณพิจารณาเกี่ยวกับโปรแกรมปริญญาโทในสถิติ มีข้อผิดพลาดหรือข้อผิดพลาดทั่วไปที่นักเรียนทำ (อาจเกี่ยวกับชื่อเสียงของโรงเรียน) หรือไม่? สำหรับการจ้างงานเราควรมองที่จะมุ่งเน้นไปที่สถิติที่นำไปใช้หรือการผสมผสานของสถิติที่นำมาใช้และทางทฤษฎี แก้ไข:นี่คือข้อมูลเพิ่มเติมบางอย่างเกี่ยวกับสถานการณ์ส่วนบุคคลของฉัน: โปรแกรมทั้งหมดที่ฉันกำลังพิจารณาอยู่ในสหรัฐอเมริกา บางคนมุ่งเน้นไปที่การประยุกต์ใช้มากขึ้นและให้ปริญญาโทใน "สถิติที่ใช้" ในขณะที่คนอื่นมีการเรียนการสอนเชิงทฤษฎีมากขึ้นและให้องศาใน "สถิติ" โดยส่วนตัวแล้วฉันไม่ได้ตั้งใจที่จะทำงานในอุตสาหกรรมเดียวกัน ฉันมีพื้นหลังการเขียนโปรแกรมบางส่วนและรู้ว่าอุตสาหกรรมเทคโนโลยีดีขึ้นกว่าเดิมเล็กน้อยเช่นอุตสาหกรรมจีโนมิกหรือชีวสารสนเทศศาสตร์ อย่างไรก็ตามฉันกำลังมองหาอาชีพที่มีปัญหาที่น่าสนใจเป็นหลัก แก้ไข : พยายามทำให้คำถามมีผลบังคับใช้มากกว่าปกติ

4
แพลตฟอร์มการประมวลผลแบบคลาวด์สำหรับการเรียนรู้ของเครื่อง [ปิด]
ฉันมีรายชื่อ บริษัท เล็ก ๆ ที่ให้บริการแพลตฟอร์มสำหรับการรันสคริปต์ R, python หรืออ็อกเทฟบนคลัสเตอร์ที่สร้างขึ้นบน amazon EC2 มีชื่ออื่นที่ฉันควรเพิ่มหรือไม่ Cloudnumbers Opani crdata

3
สร้าง "คะแนนความมั่นใจ" จากคะแนนในป่าสุ่ม?
ฉันกำลังมองหาในการฝึกอบรมลักษณนามที่จะแยกแยะระหว่างType AและType Bวัตถุที่มีชุดการฝึกอบรมที่มีขนาดใหญ่พอสมควรประมาณ 10,000 วัตถุประมาณครึ่งหนึ่งของที่มีและครึ่งหนึ่งของที่มีType A Type Bชุดข้อมูลประกอบด้วย 100 คุณสมบัติอย่างต่อเนื่องซึ่งมีรายละเอียดคุณสมบัติทางกายภาพของเซลล์ (ขนาด, รัศมีเฉลี่ย, ฯลฯ ) การแสดงข้อมูลในสปิตเตอร์แพล็ตฟอร์มและแผนการแปลงความหนาแน่นบอกเราว่ามีการทับซ้อนกันอย่างมีนัยสำคัญในการแจกแจงของเซลล์มะเร็งและเซลล์ปกติในคุณลักษณะหลายอย่าง ขณะนี้ฉันกำลังสำรวจป่าสุ่มเป็นวิธีการจำแนกสำหรับชุดข้อมูลนี้และฉันได้เห็นผลลัพธ์ที่ดี การใช้ R ป่าแบบสุ่มสามารถจำแนกวัตถุได้อย่างถูกต้องประมาณ 90% หนึ่งในสิ่งที่เราต้องการลองทำคือการสร้าง "คะแนนความเชื่อมั่น" ที่จะบอกปริมาณว่าเรามีความมั่นใจในการจำแนกประเภทของวัตถุอย่างไร เรารู้ว่าลักษณนามของเราจะไม่ถูกต้อง 100% และแม้ว่าความแม่นยำสูงในการคาดการณ์ที่จะประสบความสำเร็จเราจะต้องการเทคนิคการฝึกอบรมที่จะระบุว่าวัตถุอย่างแท้จริงและType A Type Bดังนั้นแทนที่จะให้การคาดการณ์ที่แน่วแน่ของType AหรือType Bเราต้องการที่จะนำเสนอคะแนนสำหรับแต่ละวัตถุที่จะอธิบายถึงวิธีการAหรือBวัตถุ ตัวอย่างเช่นถ้าเรากำหนดคะแนนที่มีช่วงตั้งแต่ 0 ถึง 10 คะแนน 0 อาจบ่งบอกว่าวัตถุนั้นคล้ายกับType Aวัตถุมากในขณะที่คะแนน 10 จะบ่งบอกว่าวัตถุนั้นมีลักษณะคล้ายType Bกันมาก ฉันคิดว่าฉันสามารถใช้คะแนนภายในป่าสุ่มเพื่อคิดคะแนนเช่นนี้ เนื่องจากการจำแนกในป่าสุ่มจะกระทำโดยการโหวตส่วนใหญ่ภายในป่าของต้นไม้ที่สร้างขึ้นฉันจะสมมติว่าวัตถุที่ได้รับการโหวต 100% ของต้นไม้Type Aจะแตกต่างจากวัตถุที่ได้รับการโหวตโดยพูดว่า 51% ของต้นไม้ Type …

1
อนุมานความแปรปรวนเมื่อเทียบกับ MCMC: เมื่อเลือกหนึ่งมากกว่าอื่น ๆ ?
ฉันคิดว่าฉันเข้าใจความคิดทั่วไปของทั้ง VI และ MCMC รวมถึงรสชาติที่หลากหลายของ MCMC เช่นการสุ่มตัวอย่างของกิ๊บส์, Metropolis Hastings เป็นต้นบทความนี้ให้การอธิบายที่ยอดเยี่ยมของทั้งสองวิธี ฉันมีคำถามต่อไปนี้: หากฉันต้องการทำการอนุมานแบบเบย์ทำไมฉันถึงเลือกวิธีหนึ่งเหนืออีกวิธีหนึ่ง ข้อดีและข้อเสียของแต่ละวิธีคืออะไร? ฉันเข้าใจว่านี่เป็นคำถามที่ค่อนข้างกว้าง แต่ข้อมูลเชิงลึกใด ๆ จะได้รับการชื่นชมอย่างมาก

2
หากการคาดการณ์มีเพียงความสนใจทำไมต้องใช้บ่วงบาศเหนือสันเขา?
ในหน้า 223 ในบทนำสู่การเรียนรู้เชิงสถิติผู้เขียนสรุปความแตกต่างระหว่างการถดถอยของสันเขาและบ่วง พวกเขาให้ตัวอย่าง (รูปที่ 6.9) เมื่อ "lasso มีแนวโน้มที่จะมีประสิทธิภาพสูงกว่าการถดถอยสันในแง่ของอคติความแปรปรวนและ MSE" ฉันเข้าใจว่าทำไมบ่วงบาศจึงเป็นที่ต้องการ: มันส่งผลให้เกิดการแก้ปัญหาแบบเบาบางเนื่องจากมันลดค่าสัมประสิทธิ์จำนวนมากเป็น 0 ทำให้เกิดแบบจำลองที่เข้าใจง่าย แต่ฉันไม่เข้าใจว่ามันจะทำได้ดีกว่าสันเขาเมื่อมีเพียงการคาดการณ์เท่านั้นที่มีความสนใจ (เช่นมันจะทำให้ MSE ลดลงอย่างมีนัยสำคัญในตัวอย่างได้อย่างไร) ด้วยสันเขาหากนักทำนายหลายคนแทบไม่ส่งผลกระทบต่อการตอบสนอง (โดยมีผู้ทำนายไม่กี่คนที่มีเอฟเฟกต์ขนาดใหญ่) สัมประสิทธิ์ของพวกเขาจะไม่ถูกย่อเป็นจำนวนเล็ก ๆ ใกล้กับศูนย์มาก ... ? แล้วทำไมรุ่นสุดท้ายถึงมีประสิทธิภาพแย่กว่าเชือก

2
การไล่ระดับสีเพื่อเพิ่มการถดถอยเชิงเส้น - ทำไมมันไม่ทำงาน?
ในขณะที่เรียนรู้เกี่ยวกับการไล่ระดับสีแบบค่อยเป็นค่อยไปฉันไม่เคยได้ยินข้อ จำกัด ใด ๆ เกี่ยวกับคุณสมบัติของ "ตัวจําแนกแบบอ่อน" ที่วิธีใช้ในการสร้างและสร้างแบบจําลองทั้งหมด อย่างไรก็ตามฉันไม่สามารถจินตนาการแอปพลิเคชันของ GB ที่ใช้การถดถอยเชิงเส้นและในความเป็นจริงเมื่อฉันทำการทดสอบบางอย่าง - มันไม่ทำงาน ฉันกำลังทดสอบวิธีมาตรฐานที่สุดด้วยการไล่ระดับสีของผลรวมของส่วนที่เหลือกำลังสองและการเพิ่มแบบจำลองที่ตามมาเข้าด้วยกัน ปัญหาที่เห็นได้ชัดคือส่วนที่เหลือจากแบบจำลองแรกมีประชากรในลักษณะที่ไม่มีเส้นการถดถอยให้เหมาะสมอีกต่อไป การสังเกตอีกอย่างของฉันคือผลรวมของตัวแบบการถดถอยเชิงเส้นที่ตามมาสามารถแสดงเป็นตัวแบบการถดถอยแบบเดียวได้เช่นกัน (การเพิ่มการสกัดกั้นทั้งหมดและสัมประสิทธิ์ที่สอดคล้องกัน) ดังนั้นฉันจึงไม่สามารถจินตนาการได้ว่า การสังเกตครั้งสุดท้ายคือการถดถอยเชิงเส้น (วิธีการทั่วไปมากที่สุด) ใช้ผลรวมของค่าคงที่กำลังสองเป็นฟังก์ชันการสูญเสียซึ่งเป็นค่าเดียวกับที่ GB ใช้ ฉันคิดเกี่ยวกับการลดอัตราการเรียนรู้หรือใช้เพียงชุดย่อยของตัวทำนายสำหรับการวนซ้ำแต่ละครั้ง แต่ก็ยังสามารถสรุปได้ถึงการนำเสนอแบบจำลองเดียวในที่สุดดังนั้นฉันคิดว่ามันจะไม่ทำให้ดีขึ้น สิ่งที่ฉันหายไปที่นี่? การถดถอยเชิงเส้นอย่างใดที่ไม่เหมาะสมที่จะใช้กับการไล่ระดับสีไล่โทนสี? เป็นเพราะการถดถอยเชิงเส้นใช้ผลรวมของส่วนที่เหลือกำลังสองเป็นฟังก์ชันการสูญเสียหรือไม่? มีข้อ จำกัด บางประการเกี่ยวกับตัวพยากรณ์ที่อ่อนแอเพื่อให้สามารถใช้กับการไล่ระดับสีไล่โทนสีได้หรือไม่?

3
PCA และทางแยก / การทดสอบรถไฟ
ฉันมีชุดข้อมูลที่ฉันมีฉลากไบนารีหลายชุด สำหรับฉลากแต่ละชุดฉันจะฝึกอบรมตัวจําแนกโดยประเมินจากการตรวจสอบความถูกต้องข้าม ฉันต้องการลดมิติข้อมูลโดยใช้การวิเคราะห์องค์ประกอบหลัก (PCA) คำถามของฉันคือ: เป็นไปได้ไหมที่จะทำ PCA หนึ่งครั้งสำหรับชุดข้อมูลทั้งหมดแล้วใช้ชุดข้อมูลใหม่ที่มีมิติข้อมูลต่ำกว่าสำหรับการตรวจสอบข้ามตามที่อธิบายไว้ข้างต้น หรือฉันต้องทำPCA แยกต่างหากสำหรับชุดฝึกอบรมทุกชุด (ซึ่งหมายถึงการทำ PCA แยกต่างหากสำหรับตัวแยกประเภทและสำหรับการตรวจสอบข้าม) ในอีกด้านหนึ่ง PCA ไม่ได้ใช้ฉลากใด ๆ ในทางกลับกันมันใช้ข้อมูลทดสอบเพื่อทำการเปลี่ยนแปลงดังนั้นฉันจึงกลัวว่ามันจะทำให้เกิดอคติได้ ฉันควรพูดถึงว่านอกเหนือจากการบันทึกงานบางอย่างให้ฉันทำ PCA เพียงครั้งเดียวในชุดข้อมูลทั้งหมดจะช่วยให้ฉันเห็นภาพชุดข้อมูลสำหรับชุดฉลากทั้งหมดในครั้งเดียว หากฉันมี PCA ที่แตกต่างกันสำหรับแต่ละชุดฉลากฉันจะต้องเห็นภาพชุดฉลากแต่ละชุดแยกกัน

3
การเรียนรู้ของเครื่อง: ฉันควรใช้เอนโทรปีของการแยกประเภทเอนโทรปีหรือการสูญเสียเอนโทรปีในการทำนายแบบไบนารี
ก่อนอื่นฉันรู้ว่าฉันต้องทำการคาดคะเนไบนารีฉันต้องสร้างคลาสอย่างน้อยสองคลาสผ่านการเข้ารหัสหนึ่งครั้ง ถูกต้องหรือไม่ อย่างไรก็ตามเอนโทรปีของไบนารีไขว้สำหรับการทำนายด้วยคลาสเดียวเท่านั้น? หากฉันต้องใช้การสูญเสียเอนโทรปีของการจำแนกอย่างเป็นหมวดหมู่ซึ่งมักพบในห้องสมุดส่วนใหญ่ (เช่น TensorFlow) จะมีความแตกต่างที่สำคัญหรือไม่ ในความเป็นจริงอะไรคือความแตกต่างที่แน่นอนระหว่างเอนโทรปีของการแบ่งประเภทและการข้ามแบบไบนารี? ฉันไม่เคยเห็นการใช้งานของเอนโทรปีของการข้ามเลขฐานสองใน TensorFlow ดังนั้นฉันคิดว่าบางทีหมวดหมู่อาจใช้ได้ดี

4
ความแตกต่างระหว่างการเข้ารหัสแบบเบาบางและตัวเข้ารหัสอัตโนมัติคืออะไร
การเข้ารหัสแบบเบาบางหมายถึงการเรียนรู้ชุดเวกเตอร์พื้นฐานที่ครบวงจรเพื่อเป็นตัวแทนเวกเตอร์อินพุต (<- ทำไมเราต้องการสิ่งนี้) ความแตกต่างระหว่างการเข้ารหัสแบบเบาบางและตัวเข้ารหัสอัตโนมัติคืออะไร เมื่อใดที่เราจะใช้การเข้ารหัสแบบเบาบางและตัวเข้ารหัสอัตโนมัติ

5
ชุดข้อมูลฟรีสำหรับการจำแนกมิติที่สูงมาก [ปิด]
อะไรคือข้อมูลที่มีอยู่ได้อย่างอิสระที่กำหนดไว้สำหรับการจัดหมวดหมู่ที่มีมากกว่า 1000 คุณสมบัติ (หรือจุดตัวอย่างถ้ามีเส้นโค้ง)? มีวิกิชุมชนเกี่ยวกับชุดข้อมูลฟรีอยู่แล้ว: การ ค้นหาตัวอย่างข้อมูลที่มีอยู่อย่างอิสระ แต่ที่นี่จะเป็นการดีหากมีรายการที่เน้นที่สามารถใช้งานได้สะดวกยิ่งขึ้นนอกจากนี้ฉันขอเสนอกฎต่อไปนี้: หนึ่งโพสต์ต่อชุดข้อมูล ไม่มีลิงก์ไปยังชุดของชุดข้อมูล แต่ละชุดข้อมูลจะต้องเชื่อมโยงกับ ชื่อ (จะคิดออกว่ามันเป็นเรื่องเกี่ยว) และเชื่อมโยงไปยังชุดที่ (R ชุดข้อมูลสามารถตั้งชื่อที่มีชื่อแพคเกจ) จำนวนฟีเจอร์ (สมมติว่ามันคือp ) ขนาดของชุดข้อมูล (สมมุติว่ามันคือn ) และจำนวนเลเบล / คลาส (สมมติว่ามันคือk ) อัตราความผิดพลาดทั่วไปจากประสบการณ์ของคุณ (ระบุอัลกอริธึมที่ใช้เป็นคำ) หรือจากครอก (ในกรณีนี้ลิงก์กระดาษ)

5
คุณสามารถ overfit โดยการฝึกอบรมอัลกอริทึมการเรียนรู้โดยใช้ CV / Bootstrap ได้หรือไม่?
คำถามนี้อาจเปิดกว้างเกินไปที่จะได้รับคำตอบที่ชัดเจน แต่หวังว่าจะไม่ อัลกอริทึมการเรียนรู้ของเครื่องเช่น SVM, GBM, Random Forest เป็นต้นโดยทั่วไปจะมีพารามิเตอร์อิสระบางอย่างที่นอกเหนือจากกฎของคำแนะนำนิ้วหัวแม่มือจำเป็นต้องปรับจูนให้กับแต่ละชุดข้อมูล โดยทั่วไปจะทำด้วยเทคนิคการสุ่มตัวอย่างใหม่ (bootstrap, CV ฯลฯ ) เพื่อให้พอดีกับชุดของพารามิเตอร์ที่ให้ข้อผิดพลาดในการวางนัยทั่วไปที่ดีที่สุด คำถามของฉันคือคุณไปไกลเกินไปไหม ผู้คนพูดคุยเกี่ยวกับการค้นหากริดตามที่กล่าวมา แต่ทำไมไม่เพียงแค่คิดว่านี่เป็นปัญหาการปรับให้เหมาะสมแล้วเจาะลึกไปที่ชุดของพารามิเตอร์ที่ดีที่สุด ฉันถามเกี่ยวกับกลไกบางอย่างของคำถามนี้แต่ก็ไม่ได้รับความสนใจมากนัก อาจเป็นคำถามที่ถามไม่ดี แต่บางทีคำถามนั้นแสดงถึงแนวทางที่ไม่ดีที่คนทั่วไปไม่ทำ สิ่งที่รบกวนจิตใจฉันคือขาดระเบียบ ฉันอาจค้นหาด้วยการสุ่มตัวอย่างอีกครั้งว่าจำนวนต้นไม้ที่ดีที่สุดที่จะเติบโตใน GBM สำหรับชุดข้อมูลนี้คือ 647 กับความลึกของการโต้ตอบที่ 4 แต่ฉันแน่ใจได้อย่างไรว่านี่จะเป็นจริงของข้อมูลใหม่ (สมมติว่าประชากรใหม่ เหมือนกับชุดฝึกอบรม) หรือไม่ ไม่มีค่าที่สมเหตุสมผลในการ 'ลดขนาด' เป็น (หรือถ้าคุณต้องการไม่มีข้อมูลก่อนหน้านี้) การสุ่มตัวอย่างใหม่ดูเหมือนว่าดีที่สุดที่เราสามารถทำได้ ฉันแค่ไม่ได้ยินคำพูดใด ๆ เกี่ยวกับเรื่องนี้ดังนั้นมันทำให้ฉันสงสัยว่ามีบางสิ่งที่ฉันขาดหายไป เห็นได้ชัดว่ามีค่าใช้จ่ายในการคำนวณจำนวนมากที่เกี่ยวข้องกับการทำซ้ำหลาย ๆ ครั้งเพื่อบีบพลังการคาดเดาสุดท้ายออกจากแบบจำลองดังนั้นชัดเจนว่านี่คือสิ่งที่คุณจะทำถ้าคุณมีเวลา / ไม่เต็มใจที่จะทำการปรับให้เหมาะสม ของการปรับปรุงประสิทธิภาพนั้นมีค่า

3
วิธีการตีความค่าเฉลี่ยลดลงในความแม่นยำและค่าเฉลี่ยลดลง GINI ในรูปแบบป่าสุ่ม
ฉันมีความยากลำบากในการทำความเข้าใจวิธีตีความผลลัพธ์ความสำคัญของตัวแปรจากแพ็คเกจ Random Forest การลดความแม่นยำหมายถึงการลดลงของความแม่นยำของแบบจำลองจากการอนุญาตให้ใช้ค่าในแต่ละคุณสมบัติ นี่เป็นคำแถลงเกี่ยวกับสถานที่ทั้งหมดหรือเกี่ยวกับค่าเฉพาะภายในสถานที่หรือไม่? ไม่ว่าในกรณีใดค่าเฉลี่ยลดลงในความแม่นยำจำนวนหรือสัดส่วนของการสังเกตที่จำแนกอย่างไม่ถูกต้องโดยการลบคุณลักษณะ (หรือค่าจากคุณลักษณะ) ออกจากแบบจำลองหรือไม่ สมมติว่าเรามีรูปแบบดังต่อไปนี้: require(randomForest) data(iris) set.seed(1) dat <- iris dat$Species <- factor(ifelse(dat$Species=='virginica','virginica','other')) model.rf <- randomForest(Species~., dat, ntree=25, importance=TRUE, nodesize=5) model.rf varImpPlot(model.rf) Call: randomForest(formula = Species ~ ., data = dat, ntree = 25, proximity = TRUE, importance = TRUE, nodesize = 5) Type of …

5
แบบจำลอง Bayesian คืออะไร?
ฉันสามารถเรียกรูปแบบที่ทฤษฎีบทของเบย์ใช้ "แบบจำลองเบย์" ได้หรือไม่? ฉันกลัวคำจำกัดความดังกล่าวอาจกว้างเกินไป แบบจำลอง Bayesian คืออะไร?

4
ต้นไม้ด้านการตัดสินใจที่อ่อนแอคืออะไร?
ต้นไม้ตัดสินใจดูเหมือนจะเป็นวิธีการเรียนรู้ด้วยเครื่องที่เข้าใจได้ง่ายมาก เมื่อสร้างแล้วสามารถตรวจสอบได้ง่ายโดยมนุษย์ซึ่งเป็นข้อได้เปรียบที่ดีในการใช้งานบางอย่าง อะไรคือจุดอ่อนด้านการปฏิบัติของต้นไม้การตัดสินใจ?

6
การขุดข้อมูล: ฉันจะหารูปแบบการใช้งานได้อย่างไร?
ฉันอยากรู้เกี่ยวกับขั้นตอนการทำซ้ำที่สามารถใช้เพื่อค้นหารูปแบบการทำงานของฟังก์ชัน y = f(A, B, C) + error_termที่การป้อนข้อมูลของฉันเท่านั้นเป็นชุดของการสังเกต ( y, A, BและC) โปรดทราบว่ารูปแบบการทำงานของfไม่เป็นที่รู้จัก พิจารณาชุดข้อมูลต่อไปนี้: AA BB CC DD EE FF == == == == == == 98 11 66 84 67 10500 71 44 48 12 47 7250 54 28 90 73 95 5463 34 95 15 45 75 2581 …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.