คำถามติดแท็ก machine-learning

อัลกอริทึมการเรียนรู้ของเครื่องสร้างโมเดลของข้อมูลการฝึกอบรม คำว่า "การเรียนรู้ของเครื่อง" มีการกำหนดอย่างคลุมเครือ มันรวมถึงสิ่งที่เรียกว่าการเรียนรู้ทางสถิติการเรียนรู้เสริมการเรียนรู้แบบไม่สำรอง ฯลฯ มักเพิ่มแท็กเฉพาะเพิ่มเติม

3
LASSO ที่มีเงื่อนไขการโต้ตอบ - ไม่เป็นไรหากเอฟเฟกต์หลักถูกย่อเป็นศูนย์?
การถดถอยแบบ LASSO จะลดค่าสัมประสิทธิ์เป็นศูนย์จึงเป็นการเลือกแบบจำลองได้อย่างมีประสิทธิภาพ ฉันเชื่อว่าในข้อมูลของฉันมีการโต้ตอบที่มีความหมายระหว่างค่าเล็กน้อยและค่าคงที่ต่อเนื่อง อย่างไรก็ตามไม่จำเป็นว่าเป็น 'เอฟเฟ็กต์หลัก' ของโมเดลจริงที่มีความหมาย (ไม่เป็นศูนย์) แน่นอนฉันไม่ทราบว่าสิ่งนี้เป็นรูปแบบจริงเพราะไม่เป็นที่รู้จัก วัตถุประสงค์ของฉันคือการหาแบบจำลองที่แท้จริงและทำนายผลลัพธ์ให้ใกล้เคียงที่สุด ฉันได้เรียนรู้ว่าวิธีการแบบดั้งเดิมในการสร้างแบบจำลองจะรวมถึงผลกระทบหลักเสมอก่อนที่จะรวมการโต้ตอบ ดังนั้นจึงไม่มีแบบจำลองโดยไม่มีผลกระทบหลักของ covariatesและหากมีปฏิสัมพันธ์ของ covariatesในรูปแบบเดียวกัน ฟังก์ชั่นใน จึงคัดสรรแง่รูปแบบ (เช่นขึ้นอยู่กับการย้อนกลับหรือส่งต่อ AIC) ปฏิบัติตามกฎนี้XXXZZZX∗ ZX* * * *ZX*ZstepR LASSO ดูเหมือนจะทำงานแตกต่างกัน เนื่องจากพารามิเตอร์ทั้งหมดถูกลงโทษมันอาจเกิดขึ้นได้อย่างไม่ต้องสงสัยเลยว่าเอฟเฟกต์หลักจะหดเป็นศูนย์ในขณะที่การทำงานร่วมกันของโมเดลที่ดีที่สุด (เช่นการตรวจสอบความถูกต้องแบบไขว้) ไม่ใช่ศูนย์ นี้ผมพบว่าโดยเฉพาะอย่างยิ่งสำหรับข้อมูลของฉันเมื่อใช้R's glmnetแพคเกจ ฉันได้รับการวิจารณ์ตามกฎข้อแรกที่กล่าวถึงข้างต้นนั่นคือรูปแบบ Lasso ที่ผ่านการตรวจสอบความถูกต้องครั้งสุดท้ายของฉันไม่ได้รวมคำศัพท์หลักที่มีผลกระทบที่สอดคล้องกันของการโต้ตอบที่ไม่เป็นศูนย์ อย่างไรก็ตามกฎนี้ดูเหมือนค่อนข้างแปลกในบริบทนี้ สิ่งที่เกิดขึ้นคือคำถามว่าพารามิเตอร์ในตัวแบบจริงเป็นศูนย์หรือไม่ สมมติว่ามันเป็น แต่การโต้ตอบไม่ใช่ศูนย์จากนั้น LASSO จะระบุสิ่งนี้บางทีจึงหารูปแบบที่ถูกต้อง ในความเป็นจริงดูเหมือนว่าการคาดการณ์จากรุ่นนี้จะแม่นยำกว่าเพราะโมเดลไม่มีผลกระทบหลักที่เป็นศูนย์จริงซึ่งเป็นตัวแปรเสียงได้อย่างมีประสิทธิภาพ ฉันขอปฏิเสธคำวิจารณ์ที่มีพื้นฐานมาจากนี้หรือฉันควรระมัดระวังไว้ก่อนว่า LASSO จะมีผลกระทบหลักก่อนที่จะมีการโต้ตอบหรือไม่?

10
ทำไมไม่ลองทิ้งโครงข่ายประสาทและการเรียนรู้อย่างลึกซึ้ง? [ปิด]
ปิด คำถามนี้เป็นคำถามความคิดเห็นตาม ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้สามารถตอบข้อเท็จจริงและการอ้างอิงได้โดยแก้ไขโพสต์นี้ ปิดให้บริการใน2 ปีที่ผ่านมา ปัญหาพื้นฐานกับการเรียนรู้ลึกและเครือข่ายประสาทโดยทั่วไป โซลูชั่นที่เหมาะสมกับข้อมูลการฝึกอบรมไม่มีที่สิ้นสุด เราไม่มีสมการทางคณิตศาสตร์ที่แม่นยำซึ่งเป็นที่น่าพอใจเพียงอันเดียวและเราสามารถพูดได้ว่าดีที่สุด เพียงแค่พูดเราไม่รู้ว่า generalizes ใดดีที่สุด การปรับน้ำหนักให้เหมาะสมไม่ใช่ปัญหานูนดังนั้นเราไม่มีทางรู้เลยว่าเราจะจบลงด้วยการใช้งานทั่วโลกหรือในระดับท้องถิ่น ดังนั้นทำไมไม่เพียงแค่ถ่ายโอนข้อมูลโครงข่ายประสาทเทียมและค้นหารุ่น ML ที่ดีกว่าแทน สิ่งที่เราเข้าใจและสิ่งที่สอดคล้องกับชุดของสมการทางคณิตศาสตร์หรือไม่ Linear และ SVM ไม่มีข้อบกพร่องทางคณิตศาสตร์นี้และสอดคล้องอย่างสมบูรณ์กับชุดของสมการทางคณิตศาสตร์ ทำไมไม่เพียงแค่คิดในบรรทัดเดียวกัน (ไม่จำเป็นต้องเป็นแบบเชิงเส้น) และมาพร้อมกับ ML โมเดลใหม่ที่ดีกว่า Linear และ SVM และโครงข่ายประสาทและการเรียนรู้เชิงลึก

5
อัลกอริทึมการเรียนรู้ของเครื่องเพื่อจัดการข้อมูลที่หายไป
ฉันพยายามที่จะพัฒนารูปแบบการทำนายโดยใช้ข้อมูลทางคลินิกมิติสูงรวมถึงค่าห้องปฏิบัติการ พื้นที่ข้อมูลเบาบางด้วยตัวอย่าง 5k และตัวแปร 200 ตัว แนวคิดคือการจัดอันดับตัวแปรโดยใช้วิธีการเลือกคุณสมบัติ (IG, RF ฯลฯ ) และใช้คุณสมบัติการจัดอันดับสูงสุดสำหรับการพัฒนาแบบจำลองการทำนาย ในขณะที่การเลือกคุณสมบัติเป็นไปได้ดีกับแนวทางของNaïve Bayes ตอนนี้ฉันกำลังตีปัญหาในการใช้แบบจำลองการทำนายเนื่องจากข้อมูลที่หายไป (NA) ในพื้นที่ตัวแปรของฉัน มีอัลกอริทึมการเรียนรู้ของเครื่องที่สามารถจัดการกับตัวอย่างที่มีข้อมูลที่ขาดหายไปอย่างระมัดระวังหรือไม่?

2
สัญชาตญาณเบื้องหลังการถดถอยโลจิสติก
เร็ว ๆ นี้ผมเริ่มศึกษาเรียนรู้ของเครื่อง แต่ฉันล้มเหลวที่จะเข้าใจสัญชาตญาณที่อยู่เบื้องหลังการถดถอยโลจิสติก ต่อไปนี้เป็นข้อเท็จจริงเกี่ยวกับการถดถอยโลจิสติกที่ฉันเข้าใจ ในฐานะที่เป็นพื้นฐานสำหรับสมมติฐานที่เราใช้ฟังก์ชั่น sigmoid ฉันเข้าใจว่าทำไมมันถึงเป็นตัวเลือกที่ถูกต้อง แต่ทำไมมันเป็นตัวเลือกเดียวที่ฉันไม่เข้าใจ สมมุติฐานแสดงถึงความน่าจะเป็นที่ผลลัพธ์ที่เหมาะสมคือดังนั้นโดเมนของฟังก์ชันของเราควรเป็นนี่คือคุณสมบัติเดียวของฟังก์ชัน sigmoid ที่ฉันพบว่ามีประโยชน์และเหมาะสมที่นี่ นอกจากนี้ฟังก์ชัน sigmoid มีอนุพันธ์ในรูปแบบนี้แต่ฉันไม่เห็นประโยชน์ของรูปแบบพิเศษนี้ในการถดถอยโลจิสติก111[0,1][0,1][0,1]f(x)(1−f(x))f(x)(1−f(x))f(x)(1-f(x)) คำถาม : ดังนั้นสิ่งที่พิเศษเกี่ยวกับฟังก์ชั่น sigmoid และทำไมเราไม่สามารถใช้ฟังก์ชั่นอื่น ๆ ที่มีโดเมน ?[0,1][0,1][0,1] ฟังก์ชันต้นทุนประกอบด้วยสองพารามิเตอร์ถ้าถ้า 0 ในทำนองเดียวกันเป็นข้างต้นฉันเข้าใจว่าทำไมมันถูกต้อง แต่ทำไมมันเป็นรูปแบบเดียว? ตัวอย่างเช่นทำไมไม่สามารถเป็นทางเลือกที่ดีสำหรับฟังก์ชันต้นทุนหรือไม่Cost(hθ(x),y)=−log(hθ(x))Cost(hθ(x),y)=−log⁡(hθ(x)){\rm Cost}(h_{\theta}(x),y)=-\log(h_{\theta}(x))y=1,Cost(hθ(x),y)=−log(1−hθ(x))y=1,Cost(hθ(x),y)=−log⁡(1−hθ(x))y=1, {\rm Cost}(h_{\theta}(x),y)=-\log(1-h_{\theta}(x))y=0y=0y=0|hθ(x)−y||hθ(x)−y||h_{\theta(x)}-y| คำถาม : อะไรเป็นพิเศษเกี่ยวกับรูปแบบของฟังก์ชั่นค่าใช้จ่าย; ทำไมเราไม่สามารถใช้รูปแบบอื่นได้? ฉันจะขอบคุณถ้าคุณสามารถแบ่งปันความเข้าใจของการถดถอยโลจิสติก

5
คุณควรสร้างมาตรฐานให้กับตัวแปรไบนารีหรือไม่?
ฉันมีชุดข้อมูลที่มีชุดคุณสมบัติ บางคนก็มีไบนารีใช้งานหรือไล่ออกใช้งานหรืออยู่เฉยๆ) และส่วนที่เหลือจะมีมูลค่าที่แท้จริงเช่น4564.342( 1 =(1=(1=0 =0=0=4564.3424564.3424564.342 ฉันต้องการที่จะเลี้ยงข้อมูลนี้ไปยังขั้นตอนวิธีการเรียนรู้ของเครื่องดังนั้นฉัน -score คุณสมบัติมูลค่าจริงทั้งหมด ฉันได้พวกมันมาระหว่างช่วงและโดยประมาณ ตอนนี้ค่าไบนารีนอกจากนี้ยังมี -scored ดังนั้นศูนย์กลายเป็นและคนที่กลายเป็น0.5555ZZz333- 2-2-2ZZz- 0.222-0.222-0.2220.55550.55550.5555 การทำให้เป็นมาตรฐานตัวแปรไบนารีเช่นนี้เหมาะสมหรือไม่

5
ขั้นตอนการทำคลัสเตอร์ที่แต่ละกลุ่มมีจำนวนคะแนนเท่ากันหรือไม่
ฉันมีบางจุดในR pและฉันต้องการจัดกลุ่มคะแนนเพื่อให้:X= { x1, . . . , xn}X={x1,...,xn}X=\{x_1,...,x_n\}RพีRพีR^p แต่ละคลัสเตอร์มีจำนวนเท่ากันขององค์ประกอบของX(สมมติว่าจำนวนกลุ่มหารn )XXXnnn แต่ละกลุ่มมี "ความสัมพันธ์เชิงพื้นที่" ในบางกรณีเช่นกลุ่มจาก -meanskkk เป็นเรื่องง่ายที่จะนึกถึงกระบวนการจัดกลุ่มจำนวนมากที่ตอบสนองความต้องการอย่างใดอย่างหนึ่ง แต่ไม่มีใครรู้วิธีที่จะทำให้ทั้งสองอย่างพร้อมกันได้หรือไม่

3
การวัดความถูกต้องของข้อมูลมัลติมิเตอร์มีอะไรบ้าง
พิจารณาสถานการณ์ที่คุณได้รับเมทริกซ์ KnownLabel และเมทริกซ์ PredictedLabel ฉันต้องการวัดความดีของเมทริกซ์ PredictedLabel เทียบกับเมทริกซ์ KnownLabel แต่ความท้าทายในที่นี้คือ KnownLabel Matrix มีเพียงไม่กี่แถวเท่านั้นที่มี 1 แถวและอีกสองสามแถวที่มีจำนวนมาก 1 แถว (อินสแตนซ์เหล่านั้นมีป้ายกำกับหลายรายการ) ตัวอย่างของ KnownLabel Matrix ได้รับด้านล่าง A =[1 0 0 0 0 1 0 0 0 1 1 0 0 0 1 1 0 1 1 1] ในเมทริกซ์ข้างต้นอินสแตนซ์ข้อมูล 1 และ 2 เป็นข้อมูลเลเบลเดียวอินสแตนซ์ข้อมูล 3 และ 4 …

2
การตรวจสอบความถูกต้องไขว้ 10 เท่าเทียบกับการตรวจสอบความถูกต้องข้ามแบบครั้งเดียว
ฉันกำลังทำการตรวจสอบข้ามแบบซ้อนกัน ฉันได้อ่านแล้วว่าการตรวจสอบไขว้แบบลาออกหนึ่งครั้งสามารถมีอคติได้ (จำไม่ได้ว่าทำไม) จะเป็นการดีกว่าหรือไม่ที่จะใช้การตรวจสอบความถูกต้องไขว้ 10 เท่าหรือการตรวจสอบความถูกต้องแบบ cross-one-out นอกเหนือจากการรันไทม์ที่นานขึ้นสำหรับการตรวจสอบความถูกต้องแบบ cross-one-out?

4
การ oversampling, undersampling และ SMOTE มีปัญหาอะไรบ้าง
ในคำถามล่าสุดที่ได้รับอย่างดีทิมถามว่าเมื่อใดที่ข้อมูลไม่สมดุลจริง ๆ เป็นปัญหาในการเรียนรู้ของเครื่อง ? สถานที่ตั้งของคำถามคือว่ามีเป็นจำนวนมากของการเรียนรู้วรรณคดีเครื่องถกสมดุลระดับและปัญหาของการเรียนการขาดดุล แนวคิดคือชุดข้อมูลที่มีความไม่สมดุลระหว่างคลาสบวกและลบทำให้เกิดปัญหาสำหรับการจัดหมวดหมู่การเรียนรู้ของเครื่องบางอย่าง (ฉันรวมถึงแบบจำลองความน่าจะเป็นที่นี่) อัลกอริทึมและควรหาวิธี "สมดุล" ชุดข้อมูล แยกระหว่างคลาสบวกและลบ ความรู้สึกทั่วไปของคำตอบที่ได้รับการโหวตขึ้นมาก็คือ "ไม่ใช่อย่างน้อยถ้าคุณมีความคิดในการสร้างแบบจำลอง" ม. เฮนรี่แอล. ในความเห็นที่โหวตแล้วว่าเป็นคำตอบที่ยอมรับแล้ว [... ] ไม่มีปัญหาในระดับต่ำเมื่อใช้ข้อมูลที่ไม่สมดุล จากประสบการณ์ของฉันคำแนะนำในการ "หลีกเลี่ยงข้อมูลที่ไม่สมดุล" เป็นข้อมูลเฉพาะของอัลกอริทึมหรือภูมิปัญญาที่สืบทอดมา ฉันเห็นด้วยกับ AdamO ว่าโดยทั่วไปแล้วข้อมูลที่ไม่สมดุลทำให้เกิดปัญหาทางแนวคิดกับโมเดลที่ระบุไว้อย่างดี AdamO ให้เหตุผลว่า "ปัญหา" กับความสมดุลของชั้นเรียนเป็นหนึ่งในความหายากของชั้นเรียน ดังนั้นอย่างน้อยในการถดถอย (แต่ฉันสงสัยว่าในทุกสถานการณ์) ปัญหาเดียวของข้อมูลที่ไม่สมดุลคือคุณมีขนาดตัวอย่างเล็ก หากวิธีการใดเหมาะสมกับจำนวนคนในคลาส rarer ไม่ควรมีปัญหาหากสมาชิกสัดส่วนของพวกเขาไม่สมดุล หากนี่เป็นปัญหาจริงในมือคำถามนี้จะเปิดทิ้งไว้: จุดประสงค์ของวิธีการ resampling ทั้งหมดที่มีวัตถุประสงค์เพื่อสร้างความสมดุลให้กับชุดข้อมูลคือ: เห็นได้ชัดว่าพวกเขาไม่ได้แก้ไขปัญหาของการมีตัวอย่างขนาดเล็กโดยปริยายคุณไม่สามารถสร้างข้อมูลจากอะไร!

1
empirical Bayes ใช้ได้อย่างไร?
ดังนั้นฉันเพิ่งเสร็จสิ้นการอ่านหนังสือที่ดีรู้เบื้องต้นเกี่ยวกับเชิงประจักษ์เบส์ ฉันคิดว่าหนังสือเล่มนี้ยอดเยี่ยม แต่การสร้างนักบวชจากข้อมูลรู้สึกผิด ฉันได้รับการฝึกฝนว่าคุณเกิดแผนการวิเคราะห์จากนั้นรวบรวมข้อมูลจากนั้นคุณทดสอบสมมติฐานที่คุณได้กำหนดไว้ก่อนหน้านี้ในแผนการวิเคราะห์ของคุณ เมื่อคุณทำเช่นการวิเคราะห์ข้อมูลที่เก็บรวบรวมไว้แล้วทำให้คุณเข้าสู่การอนุมานโพสต์เลือกที่คุณจะต้องมีความเข้มงวดมากขึ้นในสิ่งที่คุณเรียกว่า "อย่างมีนัยสำคัญ" ดูที่นี่ ฉันคิดว่าการเรียนรู้ด้วยเครื่องมีบางสิ่งที่คล้ายคลึงกันซึ่งเรียกว่า "การเก็บเชอร์รี่" ซึ่งหมายถึงการเลือกตัวทำนายล่วงหน้าก่อนตั้งค่าชุดการทดสอบและการฝึกอบรม ( รู้เบื้องต้นเกี่ยวกับสถิติ ) จากสิ่งที่ฉันได้เรียนรู้มาก่อนหน้านี้ดูเหมือนว่าสำหรับฉันแล้วเบย์เชิงประจักษ์ตั้งอยู่บนรากฐานที่อ่อนแอ ผู้คนใช้งานในการตั้งค่าที่ข้อมูลถูกสร้างขึ้นเฉยๆหรือไม่? ถ้าเป็นเช่นนั้นอาจเป็นเหตุผล แต่ดูเหมือนจะไม่ถูกต้องที่จะใช้เมื่อทำการออกแบบการทดลองอย่างเข้มงวด แต่ฉันรู้ว่าแบรด Efron ใช้เบย์เชิงประจักษ์โดยเฉพาะสำหรับชีวสถิติโดยทั่วไปเป็นเขต NHST มาก คำถามของฉันคือ: empirical Bayes ใช้ได้อย่างไร? ใช้ในสถานการณ์อะไร คุณควรหลีกเลี่ยงสถานการณ์ใดในการใช้วิธีทดลองเบย์และทำไม? ผู้คนใช้งานในสาขาอื่นนอกเหนือจากชีวสถิติและหากเป็นเช่นนั้นในสถานการณ์ใดที่พวกเขาใช้งานอยู่

1
ระบบเข้ารหัสอัตโนมัติแบบแปรปรวนคืออะไรและใช้งานการเรียนรู้อะไรบ้าง
ตามนี้และนี้คำตอบ autoencoders ดูเหมือนจะเป็นเทคนิคที่ใช้โครงข่ายประสาทเทียมสำหรับการลดมิติ ฉันต้องการทราบเพิ่มเติมว่าautoencoder แบบแปรผันคืออะไร(ความแตกต่าง / ประโยชน์หลัก ๆ ของมันมากกว่า autoencoders แบบดั้งเดิม) และสิ่งที่เป็นหน้าที่การเรียนรู้หลักที่อัลกอริทึมเหล่านี้ใช้

2
Bag-of-Words สำหรับการจำแนกข้อความ: ทำไมไม่เพียงแค่ใช้ความถี่ของคำแทน TFIDF
วิธีการทั่วไปในการจัดประเภทข้อความคือการฝึกอบรมลักษณนามจาก 'คำพูด' ผู้ใช้ใช้ข้อความที่จะจัดประเภทและนับความถี่ของคำในแต่ละวัตถุตามด้วยการเรียงลำดับของการตัดแต่งบางอย่างเพื่อให้เมทริกซ์ที่เกิดจากขนาดที่จัดการได้ บ่อยครั้งที่ฉันเห็นผู้ใช้สร้างเวกเตอร์คุณลักษณะของพวกเขาโดยใช้ TFIDF กล่าวอีกนัยหนึ่งความถี่ของข้อความที่ระบุไว้ข้างต้นนั้นมีน้ำหนักลดลงตามความถี่ของคำในคลังข้อมูล ฉันเห็นว่าทำไม TFIDF ถึงมีประโยชน์ในการเลือกคำที่ 'โดดเด่นที่สุด' ของเอกสารที่กำหนดให้พูดแสดงกับนักวิเคราะห์ของมนุษย์ แต่ในกรณีของการจัดหมวดหมู่ข้อความโดยใช้เทคนิค ML แบบมาตรฐานภายใต้การดูแลทำไมต้องลดน้ำหนักลงด้วยความถี่ของเอกสารในคลังข้อมูล ผู้เรียนจะไม่ตัดสินใจตัดสินความสำคัญของแต่ละคำ / การรวมกันของคำศัพท์หรือไม่? ฉันขอขอบคุณสำหรับความคิดของคุณเกี่ยวกับคุณค่าที่ IDF เพิ่มถ้ามี

1
การคำนวณความเป็นไปได้ที่จะเกิดจากกลุ่มตัวอย่าง MCMC
นี่เป็นคำถามที่เกิดขึ้น (ดูโพสต์นี้ , โพสต์นี้และโพสต์นี้ ) แต่ฉันมีสปินที่แตกต่างกัน สมมติว่าฉันมีกลุ่มตัวอย่างจากตัวอย่าง MCMC ทั่วไป สำหรับแต่ละตัวอย่างθθ\thetaฉันรู้ค่าของการบันทึกความเป็นไปได้เข้าสู่ระบบฉ( x | θ )เข้าสู่ระบบ⁡ฉ(x|θ)\log f(\textbf{x} | \theta)และเข้าสู่ระบบก่อนเข้าสู่ระบบฉ( θ )เข้าสู่ระบบ⁡ฉ(θ)\log f(\theta) ) ถ้ามันช่วยได้ฉันก็รู้ค่าของความน่าจะเป็นของการบันทึกต่อจุดข้อมูล, เข้าสู่ระบบฉ( xผม| θ)เข้าสู่ระบบ⁡ฉ(xผม|θ)\log f(x_i | \theta) (ข้อมูลนี้ช่วยในวิธีการบางอย่างเช่น WAIC และ PSIS-LOO) ฉันต้องการที่จะได้รับ (น้ำมันดิบ) ประมาณการของโอกาสร่อแร่เพียงกับกลุ่มตัวอย่างที่ฉันมีและอาจจะไม่กี่การประเมินผลการทำงานอื่น ๆ ( แต่ไม่ rerunning เฉพาะกิจ MCMC) ก่อนอื่นมาล้างตารางกันก่อน เราทุกคนรู้ว่าตัวประมาณค่าฮาร์มอนิกเป็นตัวประมาณที่แย่ที่สุดที่เคยมีมา ไปกันเถอะ หากคุณกำลังทำตัวอย่างกิ๊บส์กับนักบวชและผู้โพสต์ในรูปแบบปิดคุณสามารถใช้วิธีการของ Chib ; แต่ฉันไม่แน่ใจว่าจะพูดคุยกันนอกเรื่องเหล่านี้ได้อย่างไร นอกจากนี้ยังมีวิธีการที่ต้องการให้คุณปรับเปลี่ยนขั้นตอนการสุ่มตัวอย่าง (เช่นผ่านทางโปสเตอร์ที่มีอารมณ์ …

3
ทำไมการแปลงพลังงานหรือบันทึกจึงไม่ได้สอนในเรื่องการเรียนรู้ของเครื่อง
การเรียนรู้ของเครื่อง (ML) ใช้เทคนิคการถดถอยเชิงเส้นและโลจิสติกอย่างหนัก นอกจากนี้ยังต้องอาศัยเทคนิคคุณลักษณะวิศวกรรม ( feature transform, kernelฯลฯ ) ทำไมจึงไม่มีอะไรที่เกี่ยวกับvariable transformation(เช่นpower transformation) กล่าวถึงใน ML? (ตัวอย่างเช่นฉันไม่เคยได้ยินเกี่ยวกับการรูทหรือบันทึกไปยังฟีเจอร์พวกเขามักใช้พหุนามหรือ RBFs) เช่นเดียวกันทำไมผู้เชี่ยวชาญ ML ไม่สนใจการเปลี่ยนคุณสมบัติสำหรับตัวแปรตาม (ตัวอย่างเช่นฉันไม่เคยได้ยินเกี่ยวกับการเปลี่ยนแปลงการบันทึกของ y พวกเขาเพียงแค่ไม่แปลง y) การแก้ไข: อาจเป็นคำถามที่ไม่แน่นอนคำถามของฉันคือ "การแปลงพลังงานเป็นตัวแปรที่ไม่สำคัญใน ML หรือไม่"

4
เราเรียนรู้อะไรได้บ้างเกี่ยวกับสมองมนุษย์จากเครือข่ายประสาทเทียม
ฉันรู้ว่าคำถาม / ชื่อของฉันไม่เจาะจงมากดังนั้นฉันจะพยายามอธิบายให้ชัดเจน: โครงข่ายประสาทเทียมมีการออกแบบที่ค่อนข้างเข้มงวด แน่นอนโดยทั่วไปแล้วพวกเขาได้รับอิทธิพลจากชีววิทยาและพยายามสร้างแบบจำลองทางคณิตศาสตร์ของโครงข่ายประสาทจริง แต่ความเข้าใจของเราเกี่ยวกับโครงข่ายประสาทจริงนั้นไม่เพียงพอสำหรับการสร้างแบบจำลองที่แน่นอน ดังนั้นเราจึงไม่สามารถเข้าใจโมเดลที่แน่นอนหรือสิ่งใดก็ตามที่เกิดขึ้น "ใกล้" เครือข่ายประสาทจริง เท่าที่ฉันรู้เครือข่ายประสาทเทียมทั้งหมดอยู่ไกลจากเครือข่ายประสาทจริง MLP มาตรฐานที่เชื่อมต่ออย่างสมบูรณ์แบบคลาสสิกไม่มีอยู่ในชีววิทยา เครือข่ายประสาทที่เกิดขึ้นอีกมีการขาดความเป็นจริงของระบบประสาทแต่ละเซลล์ประสาทของ RNN แต่ละคนมี "สถาปัตยกรรมความคิดเห็น" ที่เหมือนกันในขณะที่เซลล์ประสาทที่แท้จริงบันทึกและแบ่งปันข้อมูลของพวกเขาค่อนข้างเป็นรายบุคคล Convolutional neural Networks นั้นมีประสิทธิภาพและเป็นที่นิยม แต่การประมวลผลภาพในสมองของมนุษย์นั้นประกอบด้วยเพียงสองสามชั้นในขณะที่วิธีการแก้ปัญหาที่ทันสมัย ​​(เช่น GoogLeNet) นั้นใช้หลายสิบชั้น ... และถึงแม้ว่าพวกมันจะสร้างผลลัพธ์ที่ยอดเยี่ยมสำหรับคอมพิวเตอร์ พวกเขาไม่ได้ใกล้เคียงกับประสิทธิภาพของมนุษย์ โดยเฉพาะอย่างยิ่งเมื่อเราคิดว่า "ประสิทธิภาพต่อเลเยอร์" เนื่องจากเราต้องการเลเยอร์และการลดข้อมูลที่ค่อนข้างสูงเมื่อเทียบกับเครือข่ายประสาทจริง นอกจากนี้ตามความรู้ของฉันแม้แต่เครือข่ายโครงข่ายประสาทเทียมที่ปรับขยาย / ปรับโครงสร้างด้วยตนเองนั้นค่อนข้าง "ค่อนข้างคงที่" เมื่อเทียบกับเครือข่ายประสาทจริงที่ปรับตัวได้มาก โดยปกติเซลล์ประสาทชีวภาพจะมี dendrites นับพันที่เชื่อมต่อเซลล์ประสาทกับพื้นที่ต่าง ๆ และเซลล์ประสาทอื่น ๆ มากมาย โครงข่ายประสาทเทียมเป็นวิธีที่ "ตรงไปตรงมา" มากกว่า ดังนั้นมีอะไรบ้างที่เราสามารถเรียนรู้เกี่ยวกับสมองมนุษย์ / เครือข่ายประสาทจริงจากเครือข่ายประสาทเทียม? หรือเป็นเพียงความพยายามในการสร้างซอฟต์แวร์ที่ทำงานได้ดีกว่าอัลกอริธึมแบบคงที่คลาสสิก …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.