คำถามติดแท็ก machine-learning

อัลกอริทึมการเรียนรู้ของเครื่องสร้างโมเดลของข้อมูลการฝึกอบรม คำว่า "การเรียนรู้ของเครื่อง" มีการกำหนดอย่างคลุมเครือ มันรวมถึงสิ่งที่เรียกว่าการเรียนรู้ทางสถิติการเรียนรู้เสริมการเรียนรู้แบบไม่สำรอง ฯลฯ มักเพิ่มแท็กเฉพาะเพิ่มเติม

1
อินพุตการทำให้เป็นมาตรฐานสำหรับเซลล์ประสาท ReLU
ตาม"Efficient Backprop" โดย LeCun et al (1998)เป็นวิธีปฏิบัติที่ดีในการทำให้มาตรฐานอินพุตทั้งหมดเป็นปกติดังนั้นพวกเขาจะอยู่กึ่งกลางรอบ 0 และอยู่ในช่วงของอนุพันธ์อันดับสองสูงสุด ตัวอย่างเช่นเราจะใช้ [-0.5,0.5] สำหรับฟังก์ชั่น "Tanh" นี่คือการช่วยให้ความคืบหน้าในการเผยแผ่กลับไปในขณะที่รัฐ Hessian มีเสถียรภาพมากขึ้น อย่างไรก็ตามฉันไม่แน่ใจว่าจะทำอย่างไรกับเซลล์ประสาท Rectifier ซึ่งมีค่าสูงสุด (0, x) (เช่นเดียวกันกับฟังก์ชั่นลอจิสติกตั้งแต่นั้นเราก็ต้องการ [0.1,0.9] แต่ไม่ได้อยู่ตรงกลางประมาณ 0)

2
คอขวดของการใช้การเรียนรู้อย่างลึกซึ้งในการปฏิบัติ
หลังจากอ่านบทความการเรียนรู้ลึก ๆ แล้วความรู้สึกคร่าวๆคือมีเทคนิคมากมายในการฝึกอบรมเครือข่ายเพื่อให้ได้ประสิทธิภาพที่ดีกว่าปกติ จากมุมมองของแอปพลิเคชันอุตสาหกรรมมันยากมากที่จะพัฒนาเทคนิคนี้ยกเว้นกลุ่มการวิจัยชั้นยอดใน บริษัท เทคโนโลยีขนาดใหญ่เช่น google หรือ facebook แล้ววิธีที่ดีที่สุดในการใช้อัลกอริทึมการเรียนรู้เชิงลึกในทางปฏิบัติคืออะไร ความคิดและข้อเสนอแนะใด ๆ จะได้รับการชื่นชมอย่างมาก

1
มีรูปทรง
ฉันถือว่าการตั้งค่าทั่วไปของการถดถอยนั่นคือฟังก์ชันต่อเนื่องถูกเลือกจากครอบครัวเพื่อให้พอดีกับข้อมูลที่ได้รับ (สามารถเป็นพื้นที่ใด ๆ เช่นลูกบาศก์หรือในความเป็นจริงใด ๆ ที่ทอพอโลยีพื้นที่เหมาะสม) ตามเกณฑ์ธรรมชาติบางอย่างhθ:X→Rnhθ:X→Rnh_\theta:X\to \mathbb R^n{hθ}θ{hθ}θ\{h_\theta\}_\theta(xi,yi)∈X×Rn,i=1,…,k(xi,yi)∈X×Rn,i=1,…,k(x_i,y_i)\in X\times \mathbb R^n, i=1,\ldots, kXXX[0,1]m[0,1]m[0,1]^m มีแอปพลิเคชันของการถดถอยหรือไม่ที่ใครสนใจในรูปร่าง h−1(y)h−1(y)h^{-1}(y) ของ hhh สำหรับบางจุด y∈Rny∈Rny\in \mathbb R^n - เช่นชุดศูนย์ h−1(0)h−1(0)h^{-1}(0)? คำอธิบายความสนใจของฉันมีดังต่อไปนี้: เนื่องจากในหลาย ๆ สถานการณ์มีความไม่แน่นอนเกิดขึ้นกับผู้เรียน hθhθh_\theta (ไม่แม่นยำหรือขาดข้อมูล) หนึ่งอาจต้องการวิเคราะห์ชุดศูนย์ h−1(0)h−1(0)h^{-1}(0)"ทนทาน" กล่าวคือศึกษาคุณลักษณะของชุดศูนย์ซึ่งเป็นเรื่องปกติสำหรับ "การก่อกวน" ทั้งหมดของhhh. ความเข้าใจที่ดีมากได้รับการพัฒนาเมื่อเร็ว ๆ นี้ในสภาพแวดล้อมที่ก่อกวนfff สามารถเป็นแผนที่ต่อเนื่องโดยพลการใกล้กับ hhh ใน ℓ∞ℓ∞\ell_\inftyบรรทัดฐาน หรืออย่างเท่าเทียมกันเป็นหลักfff มีความต่อเนื่องตามอำเภอใจเช่นนั้นสำหรับทุกคน x∈Xx∈Xx\in X เรามี |f(x)−h(x)|≤c(x)|f(x)−h(x)|≤c(x)|f(x)-h(x)|\le c(x) …

1
ทำไมสืบเชื้อสายการไล่ระดับสีใกล้เคียงแทนวิธีการ subgradient ธรรมดาสำหรับ Lasso?
ฉันคิดที่จะแก้ Lasso ผ่านวิธีการ subgradient วานิลลา แต่ฉันได้อ่านคนที่แนะนำให้ใช้การไล่ระดับสีแบบ Proximal บางคนสามารถเน้นว่าทำไม GD GD ใกล้เคียงแทนที่จะใช้วิธีการ subgradient วานิลลาสำหรับ Lasso?

1
ไม่สามารถทำให้ฟังก์ชั่นเครือข่าย autoencoder นี้ถูกต้อง (กับชั้น convolutional และ maxpool)
เครือข่ายAutoencoderดูเหมือนจะมีความซับซ้อนกว่าเครือข่าย MLP ลักษณนามทั่วไป หลังจากความพยายามหลายครั้งในการใช้Lasagneทุกสิ่งที่ฉันได้รับในผลลัพธ์ที่สร้างขึ้นใหม่นั้นเป็นสิ่งที่คล้ายกับค่าเฉลี่ยที่เบลอที่สุดของภาพทั้งหมดของฐานข้อมูลMNISTโดยไม่แยกแยะว่าตัวเลขที่ป้อนเข้านั้นคืออะไร โครงสร้างเครือข่ายที่ฉันเลือกคือเลเยอร์น้ำตกต่อไปนี้: ชั้นอินพุต (28x28) 2D convolutional layer ขนาดตัวกรอง 7x7 Max Pooling layer, ขนาด 3x3, stride 2x2 ชั้นแบนราบหนาแน่น (เชื่อมต่ออย่างเต็มที่) 10 ยูนิต (นี่คือคอขวด) ชั้นหนาแน่น (เชื่อมต่ออย่างเต็มที่) 121 หน่วย ปรับขนาดเลเยอร์เป็น 11x11 2D convolutional layer ขนาดตัวกรอง 3x3 ตัวคูณยกระดับ 2D 2 2D convolutional layer ขนาดตัวกรอง 3x3 ตัวคูณยกระดับ 2D 2 2D convolutional layer ขนาดตัวกรอง …

2
เมื่อใช้ SVM ทำไมฉันต้องขยายขนาดคุณสมบัติ
ตามเอกสารของStandardScalerวัตถุใน scikit-learn: เช่นองค์ประกอบหลายอย่างที่ใช้ในฟังก์ชันวัตถุประสงค์ของอัลกอริทึมการเรียนรู้ (เช่นเคอร์เนล RBF ของ Support Vector Machines หรือ L1 และ L1 normalizers โมเดลเชิงเส้น) สมมติว่าคุณลักษณะทั้งหมดอยู่กึ่งกลางรอบ 0 และมีความแปรปรวนในลำดับเดียวกัน หากคุณลักษณะมีความแปรปรวนที่เป็นลำดับความสำคัญมากกว่าที่อื่น ๆ มันอาจครอบงำฟังก์ชันวัตถุประสงค์และทำให้ตัวประมาณไม่สามารถเรียนรู้จากคุณลักษณะอื่นได้อย่างถูกต้องตามที่คาดไว้ ฉันควรปรับขนาดคุณสมบัติของฉันก่อนจัดประเภท มีวิธีง่าย ๆ ที่จะแสดงว่าทำไมฉันควรทำเช่นนี้? การอ้างอิงบทความทางวิทยาศาสตร์จะดียิ่งขึ้น ฉันได้พบหนึ่งแต่อาจมีอื่น ๆ อีกมากมาย

1
การกระทบยอดต้นไม้เพิ่มความถดถอย (BRT), รุ่นเพิ่มทั่วไป (GBM), และเครื่องเพิ่มความลาดชัน (GBM)
คำถาม: อะไรคือความแตกต่างระหว่างต้นไม้ถดถอยที่ได้รับการส่งเสริม (BRT) และรุ่นที่ได้รับการส่งเสริมทั่วไป (GBM)? พวกเขาสามารถใช้แทนกันได้? เป็นรูปแบบเฉพาะของอื่น ๆ ? ทำไมริดจ์เวย์ใช้วลีที่ว่า "Generalized Boosted Regression Models" (GBM) เพื่ออธิบายสิ่งที่ Friedman เคยเสนอให้เป็น "Gradient Boosting Machine" (GBM) มาก่อน? คำย่อสองตัวนี้เหมือนกันอธิบายสิ่งเดียวกัน แต่มาจากวลีที่แตกต่างกัน พื้นหลัง: ฉันมีปัญหาในการพิจารณาว่าข้อกำหนด BRT และ GBM แตกต่างกันอย่างไร จากสิ่งที่ฉันเข้าใจทั้งสองเป็นคำศัพท์เพื่ออธิบายการจัดหมวดหมู่และต้นไม้การถดถอยที่มีการสุ่มรวมอยู่ด้วยการส่งเสริมบางอย่าง (เช่นการบรรจุถุง bootstrapping การตรวจสอบข้าม) นอกจากนี้จากสิ่งที่ฉันรวบรวมคำศัพท์ GBM ได้รับการประกาศเกียรติคุณเป็นครั้งแรกโดย Friedman (2001) ในกระดาษของเขา "การประมาณฟังก์ชั่นโลภ: เครื่องเร่งการไล่ระดับสี" ริดจ์เวย์ได้ดำเนินการตามขั้นตอนที่อธิบายโดยฟรีดแมนในปี 2549 ในแพ็คเกจของเขา "Generalized Boosted Regression Models" …

2
การประมาณความผิดพลาดนอกถุงเพื่อเพิ่ม?
ในฟอเรสต์ฟอเรสต์ต้นไม้แต่ละต้นจะเติบโตขนานกันบนตัวอย่าง Boostrap ที่เป็นเอกลักษณ์ของข้อมูล เนื่องจากตัวอย่าง Boostrap แต่ละอันคาดว่าจะมีการสังเกตการณ์ที่เป็นเอกลักษณ์ประมาณ 63% ทำให้มีการสำรวจประมาณ 37% ของการสังเกตออกซึ่งสามารถใช้สำหรับการทดสอบต้นไม้ ตอนนี้ดูเหมือนว่าใน Stochastic Gradient Boosting ยังมีการคล้ายกับค่าใน RF:ต. ตBe r r o rOOBอีRRโอROOB_{error} หาก bag.fraction ถูกตั้งค่าเป็นมากกว่า 0 (แนะนำให้ 0.5) gbm จะคำนวณการประมาณค่าแบบไม่อยู่ในถุงเพื่อปรับปรุงประสิทธิภาพการทำนาย มันประเมินการลดความเบี่ยงเบนของข้อสังเกตเหล่านั้นที่ไม่ได้ใช้ในการเลือกแผนผังการถดถอยถัดไป แหล่งที่มา: Ridgeway (2007) , ส่วน 3.3 (หน้า 8) ฉันมีปัญหาในการเข้าใจวิธีการทำงาน / ใช้ได้ สมมติว่าฉันกำลังเพิ่มต้นไม้ในลำดับ ฉันกำลังปลูกต้นไม้นี้ในกลุ่มย่อยสุ่มของชุดข้อมูลดั้งเดิม ฉันสามารถทดสอบต้นไม้ต้นเดียวนี้ได้จากการสังเกตที่ไม่ได้นำมาปลูก ตกลง แต่เนื่องจากการส่งเสริมเป็นลำดับฉันจึงค่อนข้างใช้ลำดับของต้นไม้ทั้งหมดที่สร้างขึ้นเพื่อให้การคาดการณ์สำหรับการสังเกตจากซ้ายเหล่านั้น และมีโอกาสสูงที่ต้นไม้ก่อนหน้านี้จำนวนมากได้เห็นการสังเกตเหล่านี้แล้ว ดังนั้นรูปแบบนั้นไม่ได้ถูกทดสอบจริง ๆ ในแต่ละรอบจากการสังเกตการณ์ที่มองไม่เห็นเช่นเดียวกับ …

1
จะค้นหาและประเมิน discretization ที่เหมาะสมที่สุดสำหรับตัวแปรต่อเนื่องที่มีเกณฑ์อย่างไร
ฉันมีชุดข้อมูลที่มีตัวแปรต่อเนื่องและตัวแปรเป้าหมายไบนารี (0 และ 1) ฉันต้องจำแนกตัวแปรต่อเนื่อง (สำหรับการถดถอยโลจิสติก) ด้วยความเคารพต่อตัวแปรเป้าหมายและด้วยข้อ จำกัด ที่ความถี่ของการสังเกตในแต่ละช่วงเวลาควรมีความสมดุล ฉันลองใช้กลไกการเรียนรู้ของเครื่องอย่าง Chi Merge ต้นไม้ตัดสินใจ การรวมกันของชี่ทำให้ฉันมีช่วงเวลาที่มีจำนวนไม่สมดุลมากในแต่ละช่วงเวลา (ช่วงเวลาที่มีการสังเกต 3 ครั้งและอีกช่วงหนึ่งมี 1,000 ครั้ง) ต้นไม้ตัดสินใจยากที่จะตีความ ฉันได้ข้อสรุปว่าการแยกส่วนที่ดีที่สุดควรเพิ่มค่าสถิติระหว่างตัวแปรที่แยกส่วนกับตัวแปรเป้าหมายและควรมีช่วงเวลาที่มีจำนวนการสังเกตประมาณเท่ากันχ2χ2\chi^2 มีอัลกอริทึมสำหรับการแก้ปัญหานี้หรือไม่? นี่มันมีลักษณะอย่างไรใน R (def คือตัวแปรเป้าหมายและ x เป็นตัวแปรที่จะแยกส่วน) ฉันคำนวณของ Tschuprow เพื่อประเมิน "สหสัมพันธ์" ระหว่างการแปลงและตัวแปรเป้าหมายเนื่องจากสถิติมีแนวโน้มที่จะเพิ่มขึ้นตามจำนวนช่วงเวลา ฉันไม่แน่ใจว่านี่เป็นวิธีที่ถูกต้องหรือไม่TTTχ2χ2\chi^2 มีวิธีอื่นในการประเมินหรือไม่หาก discretization ของฉันนั้นดีที่สุดนอกเหนือจาก Tschuprow (เพิ่มขึ้นเมื่อจำนวนคลาสลดลง)?TTT chitest <- function(x){ interv <- cut(x, c(0, 1.6,1.9, 2.3, 2.9, max(x)), …

2
ต้นไม้ CART จับการโต้ตอบระหว่างผู้ทำนายหรือไม่?
บทความนี้อ้างว่าใน CART เนื่องจากมีการดำเนินการแยกแบบไบนารีใน covariate เดียวในแต่ละขั้นตอนการแยกทั้งหมดเป็นแบบมุมฉากดังนั้นจึงไม่ถือว่าการมีปฏิสัมพันธ์ระหว่าง covariates อย่างไรก็ตามมีการอ้างอิงที่จริงจังมากที่อ้างว่าโครงสร้างแบบลำดับชั้นของต้นไม้รับประกันได้ว่าการโต้ตอบระหว่างตัวทำนายจะถูกสร้างแบบจำลองโดยอัตโนมัติ (เช่นเอกสารนี้และแน่นอน Hastie) ถูกต้องใคร ต้นไม้ที่ปลูกในรถเข็นสามารถจับการโต้ตอบระหว่างตัวแปรอินพุตได้ไหม

1
ความแตกต่างระหว่างตัวกรองที่เรียนรู้ใน autoencoder และเครือข่ายประสาทเทียมคืออะไร?
ในซีเอ็นเอ็นเราจะได้เรียนรู้ตัวกรองเพื่อสร้างแผนที่คุณลักษณะในเลเยอร์ convolutional ใน Autoencoder หน่วยที่ซ่อนอยู่ของแต่ละเลเยอร์ถือเป็นตัวกรองได้ ความแตกต่างระหว่างตัวกรองที่เรียนในเครือข่ายทั้งสองนี้คืออะไร

3
ImageNet: ข้อผิดพลาดห้าอันดับแรกหมายถึงอะไร
หนึ่งในวิธีการประเมินผลสำหรับการแข่งขัน ImageNet (จำแนกภาพ 1,000 หมวดหมู่) เป็นข้อผิดพลาด 5 อันดับแรกนั่นหมายความว่าอย่างไร ดู: http://www.image-net.org/challenges/LSVRC/

2
จะพิสูจน์ได้อย่างไรว่าข้อสมมติฐานที่หลากหลายนั้นถูกต้อง?
ในการเรียนรู้ของเครื่องมันมักจะสันนิษฐานว่าชุดข้อมูลอยู่บนท่อร่วมที่มีมิติต่ำเรียบ (สมมติฐานของท่อร่วม) แต่มีวิธีใดที่จะพิสูจน์ว่าสมมติว่าเงื่อนไขเป็นที่พอใจแล้วชุดข้อมูลจะถูกสร้างขึ้นโดยประมาณ จากท่อเรียบแบบมิติต่ำ? ตัวอย่างเช่นกำหนดลำดับข้อมูล {X1...Xn}{X1…Xn}\{\mathbf{X}_1 \ldots \mathbf{X}_n\} ที่ไหน Xi∈RdXi∈Rd\mathbf X_i \in \mathbb{R}^d (พูดลำดับของภาพใบหน้าที่มีมุมต่างกัน) และลำดับฉลากที่เกี่ยวข้อง {y1…yn}{y1…yn}\{ y_1 \ldots y_n\} ที่ไหน y1⪯y2…⪯yny1⪯y2…⪯yny_1 \preceq y_2 \ldots \preceq y_n (พูดมุมของลำดับใบหน้า) สมมติว่าเมื่อXiXiX_i และ Xi+1Xi+1X_{i+1} อยู่ใกล้มากป้ายกำกับของพวกเขา yiyiy_i และ yi+1yi+1y_{i+1} อยู่ใกล้มากเราสามารถจินตนาการได้ว่ามันเป็นไปได้ว่า {X1…Xn}{X1…Xn}\{\mathbf{X}_1 \ldots \mathbf{X}_n\}นอนบนหลากหลายมิติ มันเป็นเรื่องจริงเหรอ? ถ้าเป็นเช่นนั้นเราจะพิสูจน์มันได้อย่างไร? หรือเงื่อนไขใดที่จำเป็นต้องมีการจัดลำดับเพื่อให้สมมติฐานที่หลากหลายสามารถพิสูจน์ได้ว่าเป็นจริง

2
การจัดกลุ่มข้อมูลที่มีเสียงดังหรือมีค่าผิดปกติ
ฉันมีข้อมูลที่มีเสียงดังของตัวแปรสองตัวเช่นนี้ x1 <- rep(seq(0,1, 0.1), each = 3000) set.seed(123) y1 <- rep (c(0.2, 0.8, 0.3, 0.9, 0.65, 0.35,0.7,0.1,0.25, 0.3, 0.95), each = 3000) set.seed(1234) e1 = rnorm(length(x1), 0.07,0.07) set.seed(1223) e2 = rnorm(length(x1), 0.07,0.07) set.seed(1334) yn <- rnorm(20000, 0.5,0.9) set.seed(2344) xn <- rnorm(20000, 0.5,0.9) y <- c(y1 + e1,yn) x <- …

2
จะค้นหาค่าที่ดีที่สุดสำหรับพารามิเตอร์การปรับแต่งในการเพิ่มต้นไม้ได้อย่างไร?
ฉันรู้ว่ามีพารามิเตอร์การปรับแต่ง 3 แบบในรูปแบบต้นไม้ที่เพิ่มขึ้นเช่น จำนวนต้นไม้ (จำนวนการวนซ้ำ) พารามิเตอร์การหดตัว จำนวนของการแยก (ขนาดของต้นไม้แต่ละต้น) คำถามของฉันคือ: สำหรับพารามิเตอร์การปรับแต่ละค่าฉันจะหาค่าที่ดีที่สุดได้อย่างไร และวิธีการอะไร โปรดทราบว่า: พารามิเตอร์การหดตัวและจำนวนพารามิเตอร์ trees ทำงานร่วมกันเช่นค่าที่น้อยกว่าสำหรับพารามิเตอร์การหดตัวจะนำไปสู่ค่าที่สูงขึ้นสำหรับจำนวนต้นไม้ และเราต้องคำนึงเรื่องนี้ด้วย ฉันสนใจเป็นพิเศษในวิธีการค้นหาค่าที่เหมาะสมที่สุดสำหรับจำนวนการแบ่ง มันควรจะขึ้นอยู่กับการตรวจสอบข้ามหรือความรู้เกี่ยวกับรูปแบบโดเมนที่อยู่เบื้องหลัง? และสิ่งเหล่านี้ถูกนำไปใช้ในgbmแพ็คเกจใน R อย่างไร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.