คำถามติดแท็ก machine-learning

อัลกอริทึมการเรียนรู้ของเครื่องสร้างโมเดลของข้อมูลการฝึกอบรม คำว่า "การเรียนรู้ของเครื่อง" มีการกำหนดอย่างคลุมเครือ มันรวมถึงสิ่งที่เรียกว่าการเรียนรู้ทางสถิติการเรียนรู้เสริมการเรียนรู้แบบไม่สำรอง ฯลฯ มักเพิ่มแท็กเฉพาะเพิ่มเติม

2
เราจำเป็นต้องมีการไล่ระดับสีเพื่อหาค่าสัมประสิทธิ์ของตัวแบบการถดถอยเชิงเส้นหรือไม่?
ผมพยายามที่จะเรียนรู้การเรียนรู้เครื่องใช้วัสดุ Coursera ในการบรรยายครั้งนี้แอนดรูว์อึ้งใช้อัลกอริธึมการไล่ระดับสีเพื่อค้นหาค่าสัมประสิทธิ์ของตัวแบบการถดถอยเชิงเส้นที่จะลดฟังก์ชั่นข้อผิดพลาด (ฟังก์ชันต้นทุน) สำหรับการถดถอยเชิงเส้นเราจำเป็นต้องมีการไล่ระดับสี ดูเหมือนว่าฉันสามารถวิเคราะห์ความแตกต่างของฟังก์ชั่นข้อผิดพลาดและตั้งค่าเป็นศูนย์เพื่อแก้ค่าสัมประสิทธิ์; นั่นถูกต้องใช่ไหม?

2
ความสำคัญเชิงสัมพัทธ์ของชุดพยากรณ์ในการจำแนกประเภทป่าสุ่มใน R
ฉันต้องการพิจารณาความสำคัญสัมพัทธ์ของชุดของตัวแปรที่มีต่อการrandomForestจำแนกประเภทในอาร์importanceฟังก์ชั่นนี้ให้MeanDecreaseGiniตัวชี้วัดสำหรับตัวทำนายแต่ละตัว - มันง่ายเหมือนการรวมสิ่งนี้กับตัวทำนายแต่ละตัวในเซตหรือไม่? ตัวอย่างเช่น: # Assumes df has variables a1, a2, b1, b2, and outcome rf <- randomForest(outcome ~ ., data=df) importance(rf) # To determine whether the "a" predictors are more important than the "b"s, # can I sum the MeanDecreaseGini for a1 and a2 and compare to that of …

2
รูปแบบข้อมูล libsvm [ปิด]
ฉันใช้เครื่องมือ libsvm ( http://www.csie.ntu.edu.tw/~cjlin/libsvm/ ) เพื่อรองรับการจำแนกเวกเตอร์ อย่างไรก็ตามฉันสับสนเกี่ยวกับรูปแบบของข้อมูลอินพุต จาก README: รูปแบบของไฟล์ข้อมูลการฝึกอบรมและการทดสอบคือ: <label> <index1>:<value1> <index2>:<value2> ... . . . แต่ละบรรทัดมีอินสแตนซ์และสิ้นสุดด้วยอักขระ '\ n' สำหรับการจัดหมวดหมู่<label>เป็นจำนวนเต็มที่ระบุคลาสป้ายกำกับ (รองรับหลายคลาส) สำหรับการถดถอย<label>คือค่าเป้าหมายซึ่งอาจเป็นจำนวนจริงใด ๆ สำหรับ SVM แบบชั้นเดียวไม่ได้ใช้เพื่อให้เป็นหมายเลขใดก็ได้ ทั้งคู่<index>:<value>ให้ค่าคุณลักษณะ (คุณลักษณะ): <index>เป็นจำนวนเต็มเริ่มต้นจาก 1 และ<value> เป็นจำนวนจริง ข้อยกเว้นเพียงอย่างเดียวคือเคอร์เนลที่คำนวณล่วงหน้าซึ่ง <index>เริ่มต้นจาก 0; ดูส่วนของเมล็ดที่คำนวณล่วงหน้าได้ ดัชนีจะต้องอยู่ในลำดับ ASCENDING ฉลากในไฟล์ทดสอบใช้เพื่อคำนวณความแม่นยำหรือข้อผิดพลาดเท่านั้น หากไม่ทราบให้กรอกตัวเลขใด ๆ ในคอลัมน์แรก ฉันมีคำถามต่อไปนี้: การใช้งาน<index>คืออะไร? มันมีจุดประสงค์อะไร มีความสอดคล้องกันระหว่างค่าดัชนีเดียวกันของอินสแตนซ์ข้อมูลที่ต่างกันหรือไม่? ถ้าฉันพลาด / ข้ามดัชนีระหว่างนั้นล่ะ …

3
ยูทิลิตี้ของคุณสมบัติวิศวกรรม: เหตุใดจึงสร้างคุณลักษณะใหม่ตามคุณลักษณะที่มีอยู่
ฉันมักจะเห็นผู้คนสร้างคุณลักษณะใหม่ขึ้นอยู่กับคุณสมบัติที่มีอยู่ในปัญหาการเรียนรู้ของเครื่อง ตัวอย่างเช่นที่นี่: https://triangleinequality.wordpress.com/2013/09/08/basic-feature-engineering-with-the-titanic-data/คนได้พิจารณาขนาดของครอบครัวเป็นคุณลักษณะใหม่ตาม ตามจำนวนพี่น้องพี่น้องสตรีและผู้ปกครองซึ่งเป็นคุณลักษณะที่มีอยู่แล้ว แต่ประเด็นนี้คืออะไร? ฉันไม่เข้าใจว่าทำไมการสร้างคุณลักษณะใหม่ที่สัมพันธ์กันมีประโยชน์ มันเป็นหน้าที่ของอัลกอริทึมที่จะทำด้วยตัวเองหรือไม่?

2
การเรียนรู้แบบมีผู้เรียนการเรียนรู้แบบไม่มีผู้ดูแลและการเสริมแรง: พื้นฐานการทำงาน
การเรียนรู้ภายใต้การดูแล 1) มนุษย์สร้างลักษณนามอยู่บนพื้นฐานของการป้อนข้อมูลและการส่งออกข้อมูล 2) ลักษณนามนั้นได้รับการฝึกอบรมพร้อมชุดข้อมูลการฝึกอบรม 3) ลักษณนามนั้นทดสอบด้วยชุดข้อมูลทดสอบ 4) การปรับใช้ถ้าผลลัพธ์เป็นที่น่าพอใจ หากต้องการใช้เมื่อ "ฉันรู้วิธีจัดประเภทข้อมูลนี้ฉันแค่ต้องการให้คุณ (ตัวจําแนก) เพื่อจัดเรียงข้อมูล" จุดของวิธีการ: ใช้ป้ายกำกับคลาสหรือสร้างจำนวนจริง การเรียนรู้ที่ไม่จำเป็น 1) มนุษย์สร้างอัลกอริทึมบนพื้นฐานของการป้อนข้อมูล 2) อัลกอริทึมนั้นทดสอบด้วยชุดทดสอบข้อมูล (ซึ่งอัลกอริทึมสร้างลักษณนาม) 3) การปรับใช้ถ้าลักษณนามเป็นที่น่าพอใจ เมื่อต้องการใช้เมื่อ "ฉันไม่รู้ว่าจะจัดประเภทข้อมูลนี้ได้อย่างไรคุณ (อัลกอริทึม) สามารถสร้างตัวจําแนกสำหรับฉันได้หรือไม่" จุดของวิธีการ: ใช้ป้ายกำกับคลาสหรือทำนาย (PDF) เสริมการเรียนรู้ 1) มนุษย์สร้างอัลกอริทึมบนพื้นฐานของการป้อนข้อมูล 2) อัลกอริทึมนั้นนำเสนอสถานะที่ขึ้นอยู่กับข้อมูลอินพุตที่ผู้ใช้ให้รางวัลหรือลงโทษอัลกอริทึมผ่านการกระทำที่อัลกอริทึมดำเนินการซึ่งจะดำเนินต่อไปตามกาลเวลา 3) อัลกอริทึมนั้นเรียนรู้จากการให้รางวัล / การลงโทษและอัปเดตตัวเองซึ่งจะดำเนินต่อไป 4) มันอยู่ในการผลิตเสมอมันต้องเรียนรู้ข้อมูลจริงเพื่อให้สามารถนำเสนอการกระทำจากรัฐ เพื่อใช้เมื่อ "ฉันไม่รู้ว่าจะจำแนกข้อมูลนี้อย่างไรคุณสามารถจำแนกข้อมูลนี้และฉันจะให้รางวัลแก่คุณหากมันถูกต้องหรือฉันจะลงโทษคุณหากไม่ใช่" นี่คือการไหลของการปฏิบัติเหล่านี้ฉันได้ยินมามากมายเกี่ยวกับสิ่งที่พวกเขาทำ แต่ข้อมูลที่เป็นประโยชน์และเป็นแบบอย่างนั้นน่ากลัวเล็กน้อย!

7
การอนุมานกับการประมาณค่า?
อะไรคือความแตกต่างระหว่าง "การอนุมาน" และ "การประมาณค่า" ภายใต้บริบทของการเรียนรู้ของเครื่อง ? ในฐานะมือใหม่ฉันรู้สึกว่าเราอนุมานตัวแปรแบบสุ่มและประเมินพารามิเตอร์โมเดล ความเข้าใจนี้ถูกต้องหรือไม่ ถ้าไม่สิ่งที่แตกต่างกันคืออะไรและเมื่อใดที่ฉันควรใช้ นอกจากนี้คำพ้องความหมายของคำว่า "เรียนรู้" คืออะไร?

2
เครือข่ายประสาทเทียม Convolutional: เซลล์ประสาทส่วนกลางไม่ได้แสดงออกมามากเกินไปในผลลัพธ์หรือไม่
[คำถามนี้ถูกวางที่กองล้นเช่นกัน] คำถามในระยะสั้น ฉันกำลังศึกษาโครงข่ายประสาทเทียมและฉันเชื่อว่าเครือข่ายเหล่านี้ไม่ได้ปฏิบัติต่อเซลล์ประสาทอินพุต (พิกเซล / พารามิเตอร์) ทุกตัวเท่ากัน ลองจินตนาการว่าเรามีเครือข่ายที่ลึก (หลายเลเยอร์) ที่ใช้การแปลงภาพอินพุตบางส่วน เซลล์ประสาทใน "ตรงกลาง" ของภาพมีทางเดินที่ไม่ซ้ำกันหลายไปยังเซลล์ประสาทชั้นลึกที่มากขึ้นซึ่งหมายความว่าการเปลี่ยนแปลงเล็ก ๆ ในเซลล์ประสาทกลางมีผลอย่างมากต่อการส่งออก อย่างไรก็ตามเซลล์ประสาทที่ขอบของภาพมีเพียงวิธี (หรือขึ้นอยู่กับการดำเนินการตามลำดับที่1 ) ของเส้นทางที่ข้อมูลไหลผ่านกราฟ ดูเหมือนว่าสิ่งเหล่านี้เป็น "ภายใต้การเป็นตัวแทน"111111 ฉันกังวลเกี่ยวกับเรื่องนี้เนื่องจากการเลือกปฏิบัติของเซลล์ประสาทขอบขนาดนี้ ตัวอย่างมากด้วยความลึก (จำนวนชั้น) ของเครือข่าย แม้การเพิ่มเลเยอร์แบบรวมกำไรสูงสุดจะไม่หยุดการเพิ่มแบบเอ็กซ์โพเนนเชียล แต่การเชื่อมต่อแบบเต็มทำให้เซลล์ประสาททั้งหมดมีฐานรากเท่ากัน ฉันไม่เชื่อว่าเหตุผลของฉันถูกต้องแล้วดังนั้นคำถามของฉันคือ: ฉันถูกต้องไหมว่าเอฟเฟกต์นี้เกิดขึ้นในเครือข่ายการสนทนาเชิงลึก? มีทฤษฎีใดบ้างเกี่ยวกับเรื่องนี้เคยถูกกล่าวถึงในวรรณคดีหรือไม่? มีวิธีที่จะเอาชนะผลกระทบนี้หรือไม่? เพราะฉันไม่แน่ใจว่านี่จะให้ข้อมูลที่เพียงพอหรือไม่ฉันจะอธิบายเพิ่มเติมเกี่ยวกับคำแถลงปัญหาอีกเล็กน้อยและทำไมฉันจึงเชื่อว่านี่เป็นข้อกังวล คำอธิบายโดยละเอียดเพิ่มเติม ลองนึกภาพเรามีเครือข่ายประสาทลึกที่ใช้ภาพเป็นอินพุท สมมติว่าเราใช้ฟิลเตอร์แบบ Convolutional เป็นตัวกรองขนาดพิกเซลเหนือภาพซึ่งเราจะทำการเปลี่ยนวินโดว์คอนวิชัน4พิกเซลในแต่ละครั้ง ซึ่งหมายความว่าเซลล์ประสาทในการป้อนข้อมูลทุกส่งยืนยันการใช้งานของมันไป16 × 16 = 265เซลล์ประสาทในชั้น2 แต่ละเซลล์เหล่านี้อาจส่งการเปิดใช้งานของพวกเขาไปยังอีก265เช่นเซลล์ประสาทสูงสุดของเราจะถูกแสดงใน265 264×6464×6464\times 6444416×16=26516×16=26516 \times 16 = 26522226526526526522652265^2เซลล์ประสาทการส่งออกและอื่น ๆ …

8
วิชาคณิตศาสตร์ใดที่คุณแนะนำให้เตรียมตัวสำหรับการขุดข้อมูลและการเรียนรู้ของเครื่อง
ฉันพยายามรวบรวมหลักสูตรคณิตศาสตร์ที่กำกับตนเองเพื่อเตรียมการเรียนรู้การขุดข้อมูลและการเรียนรู้ของเครื่อง นี่คือแรงบันดาลใจจากการเริ่มเรียนการเรียนรู้ด้วยเครื่องจักรของ Andrew Ngบน Coursera และรู้สึกว่าก่อนที่จะดำเนินการต่อฉันต้องพัฒนาทักษะคณิตศาสตร์ของฉัน ฉันเรียนจบวิทยาลัยมานานแล้วดังนั้นพีชคณิตและสถิติของฉัน (โดยเฉพาะจากวิชารัฐศาสตร์ / จิตวิทยา) เป็นสนิม คำตอบในเธรดพื้นหลังที่แข็งแกร่งในวิชาคณิตศาสตร์เป็นสิ่งจำเป็นสำหรับ ML หรือไม่? แนะนำเฉพาะหนังสือหรือชั้นเรียนที่เกี่ยวข้องโดยตรงกับการเรียนรู้ของเครื่อง ฉันได้ดูในชั้นเรียนและหนังสือเหล่านั้นแล้วและไม่ทราบแน่ชัดว่าวิชาคณิตศาสตร์จะต้องเรียนอะไร (เช่น: เขตที่อยู่ทางคณิตศาสตร์ที่ได้รับสมการเพื่อ "ลดฟังก์ชั่นต้นทุน") หัวข้ออื่น ๆ ที่แนะนำ ( ทักษะและหลักสูตรที่จำเป็นในการเป็นนักวิเคราะห์ข้อมูล ) กล่าวถึงเฉพาะหมวดหมู่ทักษะที่จำเป็นสำหรับการวิเคราะห์ข้อมูลเท่านั้น ความรู้เบื้องต้นเกี่ยวกับสถิติสำหรับนักคณิตศาสตร์ไม่ได้ใช้เพราะฉันยังไม่มีวุฒิทางคณิตศาสตร์ หัวข้อที่คล้ายกันนักคณิตศาสตร์ต้องการความรู้ที่เทียบเท่ากับระดับสถิติที่มีคุณภาพ มีรายการสถิติหนังสือที่น่าเหลือเชื่อ แต่อีกครั้งฉันกำลังดูคณิตศาสตร์เริ่มต้นจากการจำพีชคณิตและสนิมขึ้นจากที่นั่น ดังนั้นสำหรับผู้ที่ทำงานในการเรียนรู้ของเครื่องจักรและการขุดข้อมูลคุณต้องใช้วิชาคณิตศาสตร์ในสาขาใด วิชาคณิตศาสตร์ใดที่คุณแนะนำให้เตรียมตัวสำหรับการขุดข้อมูลและการเรียนรู้ของเครื่องและในลำดับใด นี่คือรายการและคำสั่งที่ฉันมี: พีชคณิต Pre-แคลคูลัส แคลคูลัส พีชคณิตเชิงเส้น ความน่าจะเป็น สถิติ (ฟิลด์ย่อยต่าง ๆ มากมายที่นี่ แต่ไม่ทราบวิธีแบ่งย่อย) สำหรับการขุดข้อมูลและการเรียนรู้ของเครื่องจักรผ่านงานปัจจุบันของฉันฉันสามารถเข้าถึงบันทึกบนเว็บไซต์ / กิจกรรมแอพธุรกรรมลูกค้า / การสมัครสมาชิกและข้อมูลอสังหาริมทรัพย์ (ทั้งแบบคงที่และอนุกรมเวลา) ฉันหวังว่าจะใช้การขุดข้อมูลและการเรียนรู้เครื่องกับชุดข้อมูลเหล่านี้ …

4
เทคนิคการเรียนรู้ของเครื่องสำหรับการวิเคราะห์สตริง?
ฉันมีสตริงที่อยู่จำนวนมาก: 1600 Pennsylvania Ave, Washington, DC 20500 USA ฉันต้องการแยกพวกเขาเป็นส่วนประกอบของพวกเขา street: 1600 Pennsylvania Ave city: Washington province: DC postcode: 20500 country: USA แต่แน่นอนว่าข้อมูลสกปรก: มันมาจากหลายประเทศในหลาย ๆ ภาษาเขียนในรูปแบบที่แตกต่างกันมีการสะกดผิดชิ้นส่วนที่ขาดหายไปมีขยะพิเศษ ฯลฯ ตอนนี้แนวทางของเราคือการใช้กฎรวมกับการจับคู่ gazetteer แต่เราต้องการสำรวจเทคนิคการเรียนรู้ของเครื่อง เราได้ระบุข้อมูลการฝึกอบรมเพื่อการเรียนรู้แบบมีผู้สอน คำถามคือปัญหาการเรียนรู้ของเครื่องเป็นแบบใด ดูเหมือนจะไม่ใช่การรวมกลุ่มหรือการจำแนกหรือการถดถอย .... สิ่งที่ใกล้เคียงที่สุดที่ฉันสามารถทำได้คือจำแนกแต่ละโทเค็น แต่คุณต้องการจัดหมวดหมู่ทั้งหมดพร้อมกันข้อ จำกัด ที่น่าพอใจเช่น "ควรมีอย่างน้อยหนึ่งประเทศ และจริงๆมีหลายวิธีในการโทเค็นสตริงและคุณต้องการลองแต่ละอันและเลือกสิ่งที่ดีที่สุด .... ฉันรู้ว่ามีบางสิ่งที่เรียกว่าการแยกวิเคราะห์ทางสถิติ แต่ไม่รู้อะไรเกี่ยวกับมัน ดังนั้น: เทคนิคการเรียนรู้ของเครื่องใดที่ฉันสามารถสำรวจเพื่อแยกที่อยู่ได้

3
วิธีการกำหนดคุณภาพของตัวแยกประเภทมัลติคลาส
ป.ร. ให้ไว้ ชุดข้อมูลที่มีอินสแตนซ์xผมxผมx_iพร้อมกับคลาสที่ทุกอินสแตนซ์เป็นของคลาสหนึ่งยังไม่มีข้อความยังไม่มีข้อความNxผมxผมx_iYผมYผมy_i ตัวแยกประเภทมัลติคลาส หลังจากการฝึกอบรมและการทดสอบผมโดยทั่วไปมีตารางที่มีที่จริงชั้นและคาดการณ์ระดับเช่นทุกอยู่ในชุดทดสอบ ดังนั้นทุกครั้งที่ฉันมีการแข่งขัน ( ) หรือ miss ( )YผมYผมy_ix i y i = a i y i ≠ a iaผมaผมa_ixผมxผมx_iYผม= aผมYผม=aผมy_i= a_iYผม≠ผมYผม≠aผมy_i\neq a_i ฉันจะประเมินคุณภาพของการแข่งขันได้อย่างไร ปัญหาคือบางคลาสสามารถมีสมาชิกจำนวนมากได้เช่นหลายอินสแตนซ์เป็นสมาชิก เห็นได้ชัดว่าถ้า 50% ของจุดข้อมูลทั้งหมดอยู่ในชั้นหนึ่งและตัวจําแนกสุดท้ายของฉันนั้นถูกต้อง 50% โดยรวมแล้วฉันก็ไม่ได้อะไรเลย ฉันสามารถสร้างลักษณนามเล็กน้อยที่เอาท์พุทว่าคลาสที่ใหญ่ที่สุดไม่ว่าอินพุตจะเป็นเช่นไร มีวิธีมาตรฐานในการประมาณคุณภาพของตัวจําแนกตามการทดสอบที่ทราบชุดผลลัพธ์ของการจับคู่และการเข้าชมสำหรับแต่ละคลาสหรือไม่? อาจเป็นสิ่งสำคัญยิ่งที่จะแยกแยะอัตราการจับคู่สำหรับแต่ละชั้นเรียนหรือไม่ วิธีที่ง่ายที่สุดที่ฉันคิดได้คือยกเว้นการแข่งขันที่ถูกต้องของคลาสที่ใหญ่ที่สุด มีอะไรอีกบ้าง?

4
ปรับให้เหมาะสมสำหรับเส้นโค้ง Precision-Recall ภายใต้ความไม่สมดุลของคลาส
ฉันมีงานการจัดหมวดหมู่ที่ฉันมีตัวทำนายจำนวนหนึ่ง (หนึ่งในนั้นมีข้อมูลมากที่สุด) และฉันใช้แบบจำลองMARSเพื่อสร้างตัวจําแนกของฉัน (ฉันสนใจในแบบจําลองง่าย ๆ และใช้ glms เพื่อจุดประสงค์ในการอธิบาย ดีเกินไป). ตอนนี้ฉันมีความไม่สมดุลระดับมากในข้อมูลการฝึกอบรม (ประมาณ 2700 ตัวอย่างลบสำหรับตัวอย่างบวกแต่ละตัวอย่าง) เช่นเดียวกับงานสืบค้นข้อมูลฉันมีความกังวลมากขึ้นเกี่ยวกับการทำนายตัวอย่างการทดสอบเชิงบวกอันดับสูงสุด ด้วยเหตุนี้ประสิทธิภาพในการโค้งแม่นยำของ Recall จึงเป็นสิ่งสำคัญสำหรับฉัน ก่อนอื่นฉันเพียงแค่ฝึกฝนโมเดลข้อมูลการฝึกอบรมของฉันเพื่อรักษาความไม่สมดุลของคลาสเหมือนเดิม ฉันเห็นรูปแบบการฝึกของฉันเป็นสีแดงและอินพุตที่สำคัญที่สุดเป็นสีน้ำเงิน การฝึกอบรมเกี่ยวกับข้อมูลที่ไม่สมดุลการประเมินข้อมูลที่ไม่สมดุล : การคิดว่าความไม่สมดุลในชั้นเรียนกำลังลดลงของแบบจำลองเนื่องจากการเรียนรู้ตัวอย่างเชิงบวกอันดับสูงสุดเป็นส่วนสั้น ๆ ของชุดข้อมูลทั้งหมดฉันเพิ่มจุดฝึกอบรมเชิงบวกเพื่อให้ได้ชุดข้อมูลการฝึกอบรมที่สมดุล เมื่อฉันวางแผนการแสดงในชุดการฝึกอบรมที่สมดุลฉันจะได้รับประสิทธิภาพที่ดี ทั้งในส่วนโค้ง PR และ ROC แบบจำลองที่ผ่านการฝึกอบรมของฉันทำได้ดีกว่าอินพุต การฝึกอบรมเกี่ยวกับข้อมูลที่สมดุล (อัปแซมปิน) การประเมินบนข้อมูลที่สมดุล (อัปแซมปิน): อย่างไรก็ตามหากฉันใช้โมเดลนี้ที่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลที่สมดุลเพื่อคาดการณ์ชุดฝึกอบรมที่ไม่สมดุลแบบดั้งเดิมฉันยังคงได้รับประสิทธิภาพที่ไม่ดีบนกราฟเส้นโค้ง การฝึกอบรมเรื่องข้อมูลที่สมดุล (อัปตัวอย่าง), การประเมินข้อมูลที่ไม่สมดุลเดิม: ดังนั้นคำถามของฉันคือ: เหตุผลที่การสร้างภาพข้อมูลของเส้นโค้ง PR แสดงถึงประสิทธิภาพที่ด้อยกว่าของรุ่นที่ได้รับการฝึกอบรมของฉัน (สีแดง) ในขณะที่เส้นโค้ง ROC แสดงการปรับปรุงเนื่องจากความไม่สมดุลของคลาส? วิธี resampling / up-sampling …

3
การจัดหมวดหมู่ R เป็นข้อความได้ดีเพียงใด [ปิด]
ฉันพยายามเพิ่มความเร็วให้สูงขึ้นด้วย R. ในที่สุดฉันก็ต้องการใช้ไลบรารี R สำหรับการจำแนกข้อความ ฉันแค่สงสัยว่าประสบการณ์ของผู้คนเกี่ยวข้องกับความสามารถในการปรับขนาดของ R เมื่อพูดถึงการจำแนกข้อความ ฉันมีแนวโน้มที่จะพบข้อมูลมิติสูง (~ 300k มิติ) ฉันกำลังมองหาการใช้ SVM และ Random Forest โดยเฉพาะอย่างยิ่งเป็นอัลกอริทึมการจำแนกประเภท ไลบรารี R จะปรับขนาดตามขนาดปัญหาของฉันหรือไม่ ขอบคุณ แก้ไข 1: เพื่อชี้แจงชุดข้อมูลของฉันมีแนวโน้มที่จะมี 1,000-3,000 แถว (อาจเพิ่มอีกเล็กน้อย) และ 10 คลาส แก้ไข 2: ตั้งแต่ฉันยังใหม่กับ R ฉันจะขอโปสเตอร์ให้เฉพาะเจาะจงมากที่สุดเท่าที่จะเป็นไปได้ ตัวอย่างเช่นหากคุณกำลังแนะนำเวิร์กโฟลว์ / ไปป์ไลน์โปรดตรวจสอบให้แน่ใจว่าได้ระบุถึงไลบรารี R ที่เกี่ยวข้องในแต่ละขั้นตอนถ้าเป็นไปได้ พอยน์เตอร์เพิ่มเติมบางอย่าง (สำหรับตัวอย่างโค้ดตัวอย่าง ฯลฯ ) จะเป็นไอซิ่งบนเค้ก แก้ไข 3: ก่อนอื่นขอขอบคุณทุกคนสำหรับความคิดเห็นของคุณ และประการที่สองฉันขอโทษบางทีฉันควรจะให้บริบทมากขึ้นสำหรับปัญหา …

6
ความแตกต่างระหว่างเครือข่าย Bayes, โครงข่ายประสาทเทียม, ต้นไม้ตัดสินใจและตาข่ายของ Petri
อะไรคือความแตกต่างระหว่างโครงข่ายประสาทเทียม , เครือข่ายแบบเบย์ , ต้นไม้ตัดสินใจและตาข่ายของ Petriถึงแม้ว่าพวกมันจะเป็นโมเดลกราฟิกทั้งหมดและแสดงให้เห็นถึงความสัมพันธ์เชิงเหตุ - ผล

6
อะไรคือความแตกต่างระหว่างการถดถอยโลจิสติกและเปอร์เซ็นตรอน
ฉันกำลังอ่านบันทึกการบรรยายของ Andrew Ng เกี่ยวกับ Machine Learning บันทึกแนะนำให้รู้จักกับการถดถอยโลจิสติกและจากนั้นเพื่อ perceptron ในขณะที่อธิบาย Perceptron บันทึกย่อบอกว่าเราเพิ่งเปลี่ยนนิยามของฟังก์ชันขีด จำกัด ที่ใช้สำหรับการถดถอยโลจิสติก หลังจากนั้นเราสามารถใช้แบบจำลอง Perceptron สำหรับการจำแนกประเภท ดังนั้นคำถามของฉันคือ - ถ้าจำเป็นต้องระบุและเราถือว่า Perceptron เป็นเทคนิคการจำแนกประเภทแล้วการถดถอยโลจิสติกคืออะไร? ใช้เพื่อให้ได้ความน่าจะเป็นของจุดข้อมูลที่เป็นหนึ่งในคลาสหรือไม่

5
ความลึกของการโต้ตอบหมายถึงอะไรใน GBM
ฉันมีคำถามเกี่ยวกับพารามิเตอร์ความลึกของการโต้ตอบใน gbm ใน R นี่อาจเป็นคำถาม noob ซึ่งฉันต้องขออภัย แต่พารามิเตอร์ที่ฉันเชื่อว่าหมายถึงจำนวนของโหนดขั้วในต้นไม้โดยทั่วไปบ่งบอกถึงวิธี X ปฏิสัมพันธ์ระหว่างผู้ทำนายหรือไม่ แค่พยายามที่จะเข้าใจวิธีการทำงาน นอกจากนี้ฉันได้รับแบบจำลองที่แตกต่างกันมากถ้าฉันมีชุดข้อมูลที่มีตัวแปรปัจจัยสองตัวที่แตกต่างกันเมื่อเทียบกับชุดข้อมูลเดียวกันยกเว้นตัวแปรตัวประกอบสองตัวนั้นรวมกันเป็นปัจจัยเดียว (เช่นระดับ X ในปัจจัย 1, Y ระดับในปัจจัย 2) ปัจจัย X * Y) หลังมีความหมายมากกว่าเดิม ฉันคิดว่าการเพิ่มความลึกของการมีปฏิสัมพันธ์จะทำให้ความสัมพันธ์นี้ดีขึ้น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.