คำถามติดแท็ก deep-learning

พื้นที่ใหม่ของการเรียนรู้ของการเรียนรู้ด้วยเครื่องจักรที่เกี่ยวข้องกับเทคโนโลยีที่ใช้สำหรับการเรียนรู้การเป็นตัวแทนของข้อมูลแบบลำดับชั้นส่วนใหญ่ทำด้วยเครือข่ายนิวรัลลึก (เช่นเครือข่ายที่มีเลเยอร์ที่ซ่อนสองชั้นหรือมากกว่า)

3
เหตุใด NLP และชุมชนการเรียนรู้ของเครื่องจึงมีความสนใจในการเรียนรู้ลึก
ฉันหวังว่าคุณสามารถช่วยฉันได้เนื่องจากฉันมีคำถามในหัวข้อนี้ ฉันใหม่ในด้านการเรียนรู้อย่างลึกซึ้งและในขณะที่ฉันทำแบบฝึกหัดบางอย่างฉันไม่สามารถสร้างความสัมพันธ์หรือแยกแยะความคิดต่าง ๆ ได้

3
อะไรคือความแตกต่างระหว่าง Gradient Descent และ Stochastic Gradient Descent?
อะไรคือความแตกต่างระหว่าง Gradient Descent และ Stochastic Gradient Descent? ฉันไม่คุ้นเคยกับสิ่งเหล่านี้คุณสามารถอธิบายความแตกต่างด้วยตัวอย่างสั้น ๆ ได้หรือไม่?

6
ทำไมเครือข่ายประสาทเทียมแบบ Convolutional จึงทำงานได้?
ฉันมักจะได้ยินคนพูดว่าทำไมเครือข่ายประสาทเทียมยังคงเข้าใจไม่ดี เป็นที่ทราบหรือไม่ว่าทำไมเครือข่ายประสาทเทียมมักจะจบลงด้วยการเรียนรู้คุณสมบัติที่ซับซ้อนยิ่งขึ้นเมื่อเราไปถึงเลเยอร์? อะไรทำให้พวกเขาสร้างฟีเจอร์สแต็กเช่นนี้และมันจะเป็นจริงสำหรับเครือข่ายนิวรัลลึกชนิดอื่น ๆ ด้วยหรือไม่?

6
พื้นฐานการเรียนรู้ลึก
ฉันกำลังมองหากระดาษที่มีรายละเอียดพื้นฐานของการเรียนรู้ลึก จะเป็นการดีเลิศเช่นหลักสูตร Andrew Ng สำหรับการเรียนรู้อย่างลึกซึ้ง คุณรู้ไหมว่าฉันจะหาเจอได้จากที่ไหน

4
วิธีรับความแม่นยำ F1 ความแม่นยำและการเรียกคืนสำหรับโมเดล keras ได้อย่างไร
ฉันต้องการคำนวณความแม่นยำการเรียกคืนและคะแนน F1 สำหรับโมเดล KerasClassifier ไบนารีของฉัน แต่ไม่พบวิธีแก้ปัญหาใด ๆ นี่คือรหัสจริงของฉัน: # Split dataset in train and test data X_train, X_test, Y_train, Y_test = train_test_split(normalized_X, Y, test_size=0.3, random_state=seed) # Build the model model = Sequential() model.add(Dense(23, input_dim=45, kernel_initializer='normal', activation='relu')) model.add(Dense(1, kernel_initializer='normal', activation='sigmoid')) # Compile model model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy']) tensorboard = TensorBoard(log_dir="logs/{}".format(time.time())) time_callback = …

1
มีกฎสำหรับการเลือกขนาดของ mini-batch หรือไม่?
เมื่อฝึกอบรมโครงข่ายประสาทเทียมหนึ่งพารามิเตอร์ขนาดใหญ่คือขนาดของรถมินิบัส ตัวเลือกทั่วไปคือองค์ประกอบ 32, 64 และ 128 ต่อมินิแบทช์ มีกฎ / แนวทางใดบ้างที่ควรมี mini-batch ขนาดใหญ่? สิ่งพิมพ์ใดบ้างที่ตรวจสอบผลกระทบของการฝึกอบรม?

4
โคตรลาดลงมาบรรจบกันเป็นค่าที่เหมาะสมหรือไม่?
ฉันสงสัยว่ามีสถานการณ์ใดบ้างที่มีการไล่ระดับสีแบบเกรเดียนต์ไม่รวมกันเป็นอย่างต่ำ ฉันทราบดีว่าการไล่ระดับสีไม่ได้รับประกันว่าจะมาบรรจบกันในระดับที่เหมาะสมที่สุดในโลก ฉันก็ทราบด้วยว่ามันอาจจะแตกต่างจากที่เหมาะสมถ้าพูดขนาดก้าวใหญ่เกินไป อย่างไรก็ตามดูเหมือนว่าสำหรับฉันถ้ามันเบี่ยงเบนจากค่าที่เหมาะสมบางส่วนมันก็จะไปสู่ค่าที่เหมาะสมที่สุด ดังนั้นการไล่ระดับสีจะรับประกันได้ว่าจะมาบรรจบกันในระดับท้องถิ่นหรือระดับโลก นั่นถูกต้องใช่ไหม? ถ้าไม่คุณช่วยกรุณาอธิบายตัวอย่างคร่าวๆได้ไหม

1
การทำนายอนุกรมเวลาโดยใช้ LSTM: ความสำคัญของการสร้างอนุกรมเวลาให้ไม่หยุดนิ่ง
ในลิงค์นี้เกี่ยวกับ Stationarity และดิฟเฟอเรนเชียลมันถูกกล่าวถึงว่าโมเดลเช่น ARIMA ต้องการอนุกรมเวลาสำหรับการพยากรณ์เนื่องจากคุณสมบัติทางสถิติเช่นค่าเฉลี่ยความแปรปรวนความสัมพันธ์แบบออโตคอร์เรชั่น ฯลฯ คงที่ตลอดเวลา เนื่องจาก RNNs มีความสามารถที่ดีกว่าในการเรียนรู้ความสัมพันธ์ที่ไม่ใช่เชิงเส้น ( ตามที่กำหนดไว้ที่นี่: สัญญาของเครือข่ายประสาทที่เกิดขึ้นอีกสำหรับการพยากรณ์อนุกรมเวลา ) และทำงานได้ดีกว่าโมเดลอนุกรมเวลาทั่วไปเมื่อข้อมูลมีขนาดใหญ่ ข้อมูลจะมีผลต่อผลลัพธ์ คำถามที่ฉันต้องรู้คำตอบมีดังนี้: ในกรณีที่มีรูปแบบการพยากรณ์อนุกรมเวลาแบบดั้งเดิมความคงที่ของข้อมูลอนุกรมเวลาทำให้ง่ายต่อการคาดการณ์ว่าทำไมและอย่างไร ในขณะที่สร้างแบบจำลองการทำนายอนุกรมเวลาโดยใช้LSTM จำเป็นหรือไม่ที่จะต้องทำให้ข้อมูลอนุกรมเวลาคงที่ ถ้าเป็นเช่นนั้นทำไม

2
การเลือกระหว่าง TensorFlow หรือ Theano เป็นแบ็กเอนด์สำหรับ Keras
Kerasสนับสนุนทั้งTensorFlowและTheanoในฐานะแบ็กเอนด์: อะไรคือข้อดี / ข้อเสียของการเลือกแบบหนึ่งกับแบบอื่น ๆ นอกเหนือจากความจริงที่ว่าปัจจุบันการดำเนินการบางอย่างไม่ได้ถูกนำไปใช้กับแบ็กเอนด์ TensorFlow

3
การแยกคำหลัก / วลีจากข้อความโดยใช้ห้องสมุดการเรียนรู้ลึก
บางทีนี่อาจจะกว้างเกินไป แต่ฉันกำลังมองหาข้อมูลอ้างอิงเกี่ยวกับวิธีใช้การเรียนรู้อย่างลึกซึ้งในงานการสรุปข้อความ ฉันได้ใช้การสรุปข้อความโดยใช้วิธีการหาคำแบบมาตรฐานและการจัดอันดับประโยค แต่ฉันต้องการสำรวจความเป็นไปได้ของการใช้เทคนิคการเรียนรู้เชิงลึกสำหรับงานนี้ ฉันได้ผ่านการใช้งานบางอย่างที่ให้ไว้ในwildml.comโดยใช้ Convolutional Neural Networks (CNN) สำหรับการวิเคราะห์ความเชื่อมั่น ฉันต้องการทราบวิธีใช้ไลบรารีเช่น TensorFlow หรือ Theano สำหรับการสรุปข้อความและการแยกคำหลัก เป็นเวลาประมาณหนึ่งสัปดาห์แล้วที่ฉันเริ่มทดลองกับ Neural nets และฉันตื่นเต้นมากที่เห็นว่าประสิทธิภาพของห้องสมุดเหล่านี้เปรียบเทียบกับวิธีก่อนหน้าของฉันกับปัญหานี้อย่างไร ฉันกำลังมองหาเอกสารที่น่าสนใจและโครงการ GitHub ที่เกี่ยวข้องกับการสรุปข้อความโดยเฉพาะอย่างยิ่งโดยใช้กรอบงานเหล่านี้ ใครช่วยให้ฉันมีการอ้างอิงบางอย่าง?

2
Keras vs. tf.keras
ฉันสับสนเล็กน้อยในการเลือกระหว่างKeras (keras-team / keras) และtf.keras (tensorflow / tensorflow / python / keras /) สำหรับโครงการวิจัยใหม่ของฉัน มีการถกเถียงกันว่าKerasไม่ได้เป็นของใครดังนั้นผู้คนมีความสุขที่ได้มีส่วนร่วมและมันจะง่ายขึ้นมากในการจัดการโครงการในอนาคต ในด้านอื่น ๆ , tf.kerasเป็นเจ้าของโดย Google ทดสอบเพื่อให้เข้มงวดมากขึ้นและการบำรุงรักษา ยิ่งกว่านั้นดูเหมือนว่านี่เป็นตัวเลือกที่ดีกว่าสำหรับการใช้ประโยชน์จากคุณสมบัติใหม่ที่มีอยู่ใน Tensorflow v.2 ดังนั้นเพื่อเริ่มโครงการข้อมูลวิทยาศาสตร์ (การเรียนรู้ของเครื่อง) (ในขั้นตอนการวิจัย) ว่าทั้งคู่ไม่เป็นไรในตอนแรกคุณเลือกอันไหน?!

2
ทำไม ReLU ถูกใช้เป็นฟังก์ชั่นเปิดใช้งาน
ฟังก์ชั่นการเปิดใช้งานถูกใช้เพื่อแนะนำแบบไม่เชิงเส้นในเอาต์พุตเชิงเส้นของประเภทw * x + bในเครือข่ายประสาท ซึ่งฉันสามารถเข้าใจอย่างสังหรณ์ใจสำหรับฟังก์ชั่นการเปิดใช้งานเช่น sigmoid ฉันเข้าใจถึงข้อดีของ ReLU ที่หลีกเลี่ยงเซลล์ประสาทที่ตายแล้วในระหว่างการแพร่กระจาย อย่างไรก็ตามฉันไม่สามารถเข้าใจได้ว่าเหตุใด ReLU จึงถูกใช้เป็นฟังก์ชั่นการเปิดใช้งานหากเอาต์พุตของมันเป็นเส้นตรง จุดทั้งหมดของการเป็นฟังก์ชั่นการเปิดใช้งานไม่ได้รับการพ่ายแพ้หรือไม่หากไม่ได้นำมาซึ่งความไม่เชิงเส้น

4
การค้นหาพารามิเตอร์หลายระดับสำหรับ LSTM-RNN โดยใช้ Keras (Python)
จากการสอนของ Keras RNN: "RNN นั้นยุ่งยากการเลือกขนาดแบตช์เป็นสิ่งสำคัญตัวเลือกการสูญเสียและออพติไมเซอร์เป็นสิ่งสำคัญ ฯลฯ การกำหนดค่าบางอย่างจะไม่มาบรรจบกัน" ดังนั้นนี่เป็นคำถามทั่วไปเกี่ยวกับการปรับพารามิเตอร์ไฮเปอร์พารามิเตอร์ของ LSTM-RNN บน Keras ฉันต้องการทราบวิธีการในการค้นหาพารามิเตอร์ที่ดีที่สุดสำหรับ RNN ของคุณ ผมเริ่มต้นด้วยตัวอย่างเช่นไอเอ็มบน Keras' Github โมเดลหลักมีลักษณะดังนี้: (X_train, y_train), (X_test, y_test) = imdb.load_data(nb_words=max_features, test_split=0.2) max_features = 20000 maxlen = 100 # cut texts after this number of words (among top max_features most common words) batch_size = 32 model = …

2
คะแนน minima เทียบกับท้องถิ่นในการเรียนรู้อย่างลึกซึ้ง
ฉันได้ยินแอนดรูว์งะ (ในวิดีโอฉันโชคร้ายที่ไม่สามารถหาได้อีกแล้ว) พูดคุยเกี่ยวกับวิธีการเข้าใจความเข้าใจในปัญหาการเรียนรู้ที่ลึกลงไปในความรู้สึกที่พวกเขาถูกมองว่าเป็นปัญหาน้อยกว่าเพราะในพื้นที่มิติสูง การเรียนรู้เชิงลึก) จุดวิกฤติมีแนวโน้มที่จะเป็นจุดอานม้าหรือที่ราบสูงมากกว่าจุดเยือกแข็งในท้องถิ่น ฉันเคยเห็นเอกสาร (เช่นนี้ ) ที่กล่าวถึงสมมติฐานภายใต้ "ขั้นต่ำในท้องถิ่นทุกรายการเป็นขั้นต่ำทั่วโลก" สมมติฐานเหล่านี้ล้วน แต่เป็นเรื่องทางเทคนิค แต่จากสิ่งที่ฉันเข้าใจว่าพวกเขามีแนวโน้มที่จะกำหนดโครงสร้างในโครงข่ายประสาทที่ทำให้มันค่อนข้างเป็นเส้นตรง มันเป็นข้ออ้างที่ถูกต้องหรือไม่ว่าในการเรียนรู้อย่างลึกซึ้ง (รวมถึงสถาปัตยกรรมที่ไม่ใช่เชิงเส้น) ที่ราบสูงมักจะมีขนาดเล็กกว่าท้องถิ่นหรือไม่? และถ้าเป็นเช่นนั้นมีปรีชาญาณ มีอะไรพิเศษเกี่ยวกับการเรียนรู้อย่างลึกซึ้งและจุดอานม้าหรือไม่?

1
ความแตกต่างระหว่าง Keras val_loss และการสูญเสียระหว่างการฝึก
ความแตกต่างระหว่างval_lossและlossระหว่างการฝึกอบรมใน Keras คืออะไร? เช่น Epoch 1/20 1000/1000 [==============================] - 1s - loss: 0.1760, val_loss: 0.2032 ในบางเว็บไซต์ฉันอ่านว่าเรื่องการตรวจสอบความถูกต้องการออกกลางคันไม่ทำงาน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.