สถิติและข้อมูลขนาดใหญ่

4

ในฐานะนักชีววิทยาโครงการวิจัยจำนวนมากที่ฉันทำงานในบางประเด็นเกี่ยวข้องกับการทำงานร่วมกันกับนักสถิติไม่ว่าจะเป็นคำแนะนำง่ายๆหรือสำหรับการนำไปใช้และทดสอบแบบจำลองสำหรับข้อมูลของฉัน เพื่อนร่วมงานด้านสถิติของฉันยอมรับว่าพวกเขามีการทำงานร่วมกันอย่างมีนัยสำคัญจนถึงขั้นตอนการพิจารณาการพิจารณาจะพิจารณาเฉพาะเอกสารที่พวกเขาเป็นผู้เขียนคนแรกหรือคนสุดท้าย อะไรจะทำให้ฉัน (หรือนักวิทยาศาสตร์คนอื่น ๆ ) เป็นผู้ทำงานร่วมกันที่ดีกว่า อะไรจะทำให้การทำงานกับฉัน (ในฐานะนักสถิติ) ง่ายขึ้น? โดยเฉพาะแนวคิดทางสถิติเดียวที่คุณต้องการให้ผู้ทำงานร่วมกันของนักวิทยาศาสตร์ของคุณเข้าใจแล้ว

25 academia

2

วิธีรับมือกับการวิเคราะห์ข้อมูลเชิงสำรวจและการขุดลอกข้อมูลในการศึกษาตัวอย่างขนาดเล็กได้อย่างไร?

การวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) มักจะนำไปสู่การสำรวจ "รอยทาง" อื่น ๆ ที่ไม่จำเป็นต้องเป็นของชุดเริ่มต้นของสมมติฐาน ฉันต้องเผชิญกับสถานการณ์เช่นนี้ในกรณีของการศึกษาที่มีขนาดตัวอย่าง จำกัด และข้อมูลจำนวนมากที่รวบรวมผ่านแบบสอบถามที่แตกต่างกัน (ข้อมูลทางสังคม - ประชากรสถิติวิทยาหรือมาตรวิทยาทางการแพทย์ - เช่นการทำงานของจิตใจหรือร่างกายระดับความวิตกกังวล / วิตกกังวล ) มันเกิดขึ้นที่ EDA ช่วยเน้นความสัมพันธ์ที่ไม่คาดคิดบางอย่าง ("ไม่คาดหมาย" ซึ่งหมายความว่าพวกเขาไม่ได้รวมอยู่ในแผนการวิเคราะห์เบื้องต้น) ที่แปลเป็นคำถาม / สมมติฐานเพิ่มเติม ในกรณีของการ overfitting การขุดลอกข้อมูลหรือการสอดแนมจะนำไปสู่ผลลัพธ์ที่ไม่ได้สรุป อย่างไรก็ตามเมื่อมีข้อมูลจำนวนมากมันค่อนข้างยาก (สำหรับนักวิจัยหรือแพทย์) ในการตั้งสมมติฐานที่ จำกัด ฉันอยากจะรู้ว่ามีวิธีการที่เป็นที่ยอมรับคำแนะนำหรือกฎง่ายๆที่อาจช่วยอธิบาย EDA ในกรณีศึกษาตัวอย่างขนาดเล็กหรือไม่

25 multiple-comparisons epidemiology small-sample eda

2

รูปแบบการตรวจจับการโกงในการสอบแบบหลายคำถาม

คำถาม: ฉันมีข้อมูลเลขฐานสองสำหรับคำถามสอบ (ถูกต้อง / ไม่ถูกต้อง) บุคคลบางคนอาจเคยเข้าถึงชุดคำถามและคำตอบที่ถูกต้องมาก่อน ฉันไม่รู้ว่าใครเป็นใครหรืออะไร หากไม่มีการโกงคิดว่าฉันจะรูปแบบน่าจะเป็นของการตอบสนองที่ถูกต้องสำหรับรายการที่ผมผมiเป็นl o gฉันt ( ( pผม= 1 | Z) ) = βผม+ zล.โอก.ผมเสื้อ((พีผม=1|Z))=βผม+Zlogit((p_i = 1 | z)) = \beta_i + zที่βผมβผม\beta_iแสดงให้เห็นถึงความยากลำบากคำถามและZZzคือความสามารถแฝงของแต่ละบุคคล นี่คือรูปแบบการตอบสนองข้อสอบที่ง่ายมากที่สามารถประมาณได้ด้วยฟังก์ชั่นเช่น Rasch LTM ของ () ในอาร์นอกจากนี้ยังมีการประมาณการZ J (ที่เจดัชนีบุคคล) ของตัวแปรแฝงฉันมีการเข้าถึงการประมาณการแยกต่างหากQญของตัวแปรแฝงเดียวกันซึ่งได้มาจากชุดข้อมูลอื่นที่ไม่สามารถทำการโกงได้Z^JZ^J\hat{z}_jJJjQ^JQ^J\hat{q}_j เป้าหมายคือการระบุบุคคลที่น่าจะถูกโกงและสิ่งของที่พวกเขาถูกโกง คุณอาจใช้แนวทางอะไรบ้าง? βฉันβ^ผมβ^ผม\hat{\beta}_i , ซีเจและQญที่มีอยู่ทั้งหมดแม้จะเป็นครั้งแรกที่ทั้งสองจะมีอคติบางอย่างเกิดจากการโกง ตามหลักการแล้ววิธีแก้ปัญหาจะอยู่ในรูปแบบของการจัดกลุ่ม / การจัดกลุ่มความน่าจะเป็นแม้ว่าจะไม่จำเป็นก็ตาม แนวคิดเชิงปฏิบัติได้รับการต้อนรับอย่างสูงเช่นเดียวกับแนวทางที่เป็นทางการZ^JZ^J\hat{z}_jQ^JQ^J\hat{q}_j จนถึงตอนนี้ผมได้มีการเปรียบเทียบความสัมพันธ์ของคะแนนคำถามสำหรับคู่ของบุคคลที่มีสูงขึ้นเมื่อเทียบกับที่ลดลงQเจ- ซีเจคะแนน (ที่Qเจ- ซีเจเป็นดัชนีคร่าวๆของความน่าจะเป็นว่าพวกเขาโกง) …

25 r clustering classification psychometrics

8

วิธีประมาณจำนวนคนที่เข้าร่วมกิจกรรม (พูดการชุมนุมทางการเมือง)?

นักเรียนคนหนึ่งถามฉันในวันนี้ "พวกเขารู้ได้อย่างไรว่ามีผู้คนมากมายที่เข้าร่วมกิจกรรมกลุ่มใหญ่เช่น Stewart / Colbert 'Rally to Restore Sanity' ในวอชิงตัน ดี.ซี. " สำนักข่าวรายงานการประมาณการเป็นหมื่น แต่วิธีการใดที่ใช้ในการรับการประมาณการเหล่านั้นและเชื่อถือได้อย่างไร เห็นได้ชัดว่ามีบทความหนึ่งเรื่องการประเมินใบอนุญาตจอดรถของพวกเขา ... แต่เรามีเทคนิคอะไรอีกบ้าง โปรดทราบว่าฉันไม่ได้พูดถึงการทดลองจับภาพ / เอาคืนหรืออะไรทำนองนั้น ฉันไม่มีความคิดใด ๆ ฉันคาดเดาล่วงหน้าว่าไม่มีวิธีการเฉพาะสำหรับสิ่งนี้และสิ่งใดที่มีอยู่มาก (เช่นจำนวนใบอนุญาตจอดรถที่ถูกขาย) มันเป็นเรื่องจริงเหรอ? สำหรับวัตถุประสงค์ของความมั่นคงแห่งชาติ - แน่นอนว่ามันเป็นไปได้ที่จะให้นักวิเคราะห์นั่งลงพร้อมภาพถ่ายดาวเทียมและนับจำนวนผู้คนที่นั่นด้วย ฉันสงสัยว่าวิธีนี้ใช้บ่อยมาก

25 estimation sampling

2

ความน่าเชื่อถือระหว่างผู้ประเมินสำหรับข้อมูลอันดับหรือช่วงเวลา

วิธีการความน่าเชื่อถือระหว่างผู้ใดที่เหมาะสมที่สุดสำหรับข้อมูลลำดับหรือช่วงเวลา? ฉันเชื่อว่า "ความน่าจะเป็นร่วมกันของข้อตกลง" หรือ "คัปปา" ได้รับการออกแบบมาสำหรับข้อมูลเล็กน้อย ในขณะที่สามารถใช้ "Pearson" และ "Spearman" ได้ส่วนใหญ่จะใช้สำหรับผู้ประเมินสองคน (แม้ว่าพวกเขาจะสามารถใช้งานได้มากกว่าสองผู้ประเมิน) มาตรการอื่นใดที่เหมาะสมสำหรับข้อมูลลำดับหรือช่วงเวลาเช่นมากกว่าสองผู้ประเมิน

25 reliability psychometrics agreement-statistics cohens-kappa

3

การประยุกต์ใช้ขั้นตอนวิธีการตรวจจับความผิดปกติของเวฟเล็ตตามอนุกรมเวลา

ฉันเริ่มทำงานผ่านทางบทเรียนการทำเหมืองข้อมูลทางสถิติโดย Andrew Moore (แนะนำเป็นอย่างยิ่งสำหรับคนอื่นที่เริ่มเข้ามาในสาขานี้) ฉันเริ่มต้นด้วยการอ่านPDF ที่น่าสนใจอย่างยิ่งนี้ในหัวข้อ "ภาพรวมเบื้องต้นของอัลกอริธึมการตรวจจับความผิดปกติตามอนุกรมเวลา"ซึ่งมัวร์ติดตามด้วยเทคนิคต่างๆที่ใช้ในการสร้างอัลกอริทึมในการตรวจหาการระบาดของโรค ครึ่งทางผ่านภาพนิ่งในหน้า 27 เขาแสดงรายการ "วิธีการอันทันสมัย" อื่น ๆ อีกจำนวนหนึ่งที่ใช้ในการตรวจจับการระบาด คนแรกที่ระบุไว้เป็นระลอกคลื่น Wikipeida อธิบายเวฟเล็ตเป็น การแกว่งของคลื่นคล้ายกับแอมพลิจูดที่เริ่มต้นที่ศูนย์เพิ่มและลดลงกลับเป็นศูนย์ โดยทั่วไปสามารถมองเห็นเป็น "การแกว่งสั้น ๆ " แต่ไม่ได้อธิบายถึงแอปพลิเคชันของพวกเขาต่อสถิติและการค้นหาโดย Google ของฉันให้ผลงานทางวิชาการสูงซึ่งถือว่ามีความรู้ว่าเวฟเล็ตเกี่ยวข้องกับสถิติหรือหนังสือเล่มเต็มในเรื่อง ฉันต้องการความเข้าใจขั้นพื้นฐานเกี่ยวกับวิธีการนำเวฟเล็ตมาใช้ในการตรวจจับความผิดปกติของอนุกรมเวลาซึ่งมัวร์แสดงให้เห็นถึงเทคนิคอื่น ๆ ในการสอนของเขา บางคนสามารถให้คำอธิบายเกี่ยวกับวิธีการตรวจจับโดยใช้งานเวฟเล็ตหรือลิงก์ไปยังบทความที่เข้าใจได้ในเรื่องนี้หรือไม่?

25 time-series outliers signal-processing wavelet

7

ความน่าจะเป็นและสัดส่วนต่างกันอย่างไร

สมมติว่าฉันกินแฮมเบอร์เกอร์ทุกวันอังคารเป็นเวลาหลายปี คุณสามารถพูดได้ว่าฉันกินแฮมเบอร์เกอร์ 14% ในแต่ละครั้งหรือความเป็นไปได้ที่ฉันจะกินแฮมเบอร์เกอร์ในสัปดาห์ที่กำหนดคือ 14% อะไรคือความแตกต่างที่สำคัญระหว่างความน่าจะเป็นและสัดส่วน ความน่าจะเป็นเป็นสัดส่วนที่คาดหวังหรือไม่ ความน่าจะเป็นที่ไม่แน่นอนและมีการประกันสัดส่วน?

25 probability intuition

3

การแสดงข้อมูลการตอบสนองของรายการ Likert

มีวิธีใดที่ดีในการแสดงชุดคำตอบของ Likert ตัวอย่างเช่นชุดของรายการที่สอบถามเกี่ยวกับความสำคัญของ X ต่อการตัดสินใจเกี่ยวกับ A, B, C, D, E, F & G มีบางสิ่งที่ดีกว่าแผนภูมิแท่งแบบเรียงซ้อนหรือไม่? ควรทำอย่างไรกับคำตอบของ N / A พวกเขาจะเป็นตัวแทนได้อย่างไร? แผนภูมิแท่งควรรายงานเปอร์เซ็นต์หรือจำนวนคำตอบหรือไม่ (กล่าวคือแท่งควรมีความยาวเท่ากันหรือไม่) หากเป็นเปอร์เซ็นต์ตัวหารควรรวมการตอบสนองที่ไม่ถูกต้องและ / หรือ N / A หรือไม่ ฉันมีมุมมองของตัวเอง แต่ฉันกำลังมองหาความคิดของคนอื่น

25 data-visualization scales likert

3

การไล่ระดับสีของการสูญเสียบานพับ

ฉันกำลังพยายามใช้การไล่ระดับสีพื้นฐานและฉันทดสอบด้วยฟังก์ชันการสูญเสียบานพับเช่นlhinge=max(0,1−y x⋅w)lhinge=max(0,1−y x⋅w)l_{\text{hinge}} = \max(0,1-y\ \boldsymbol{x}\cdot\boldsymbol{w})}) อย่างไรก็ตามฉันสับสนเกี่ยวกับการไล่ระดับสีของการสูญเสียบานพับ ฉันอยู่ภายใต้ความประทับใจที่มันเป็น ∂∂wlhinge={−y x0if y x⋅w<1if y x⋅w≥1∂∂wlhinge={−y xif y x⋅w<10if y x⋅w≥1 \frac{\partial }{\partial w}l_{\text{hinge}} = \begin{cases} -y\ \boldsymbol{x} &\text{if } y\ \boldsymbol{x}\cdot\boldsymbol{w} < 1 \\ 0&\text{if } y\ \boldsymbol{x}\cdot\boldsymbol{w} \geq 1 \end{cases} แต่นี่จะไม่ส่งกลับเมทริกซ์ที่มีขนาดเท่ากับxx\boldsymbol{x}หรือไม่ ฉันคิดว่าเราต้องการคืนเวกเตอร์ที่มีความยาวww\boldsymbol{w} ? เห็นได้ชัดว่าฉันมีอะไรบางอย่างสับสน ใครบางคนสามารถชี้ไปในทิศทางที่ถูกต้องที่นี่? ฉันได้รวมรหัสพื้นฐานไว้ในกรณีที่คำอธิบายงานของฉันไม่ชัดเจน #Run standard gradient descent …

25 loss-functions

5

การค้นหาคำอธิบาย ARIMA บางประเภท

นี้อาจจะเป็นเรื่องยากที่จะหา แต่ฉันต้องการที่จะอ่านดีอธิบายตัวอย่าง ARIMAว่า ใช้คณิตศาสตร์น้อยที่สุด ขยายการอภิปรายนอกเหนือจากการสร้างแบบจำลองโดยใช้แบบจำลองนั้นเพื่อคาดการณ์กรณีเฉพาะ ใช้กราฟิกเช่นเดียวกับผลลัพธ์ที่เป็นตัวเลขเพื่อบอกลักษณะที่พอดีระหว่างค่าที่คาดการณ์และค่าจริง

25 time-series arima intuition

3

ทำไมการทดสอบ Kolmogorov-Smirnov ถึงใช้งานได้?

ในการอ่านเกี่ยวกับการทดสอบ KS 2 ตัวอย่างผมเข้าใจว่าสิ่งที่ทำแต่ผมไม่เข้าใจว่าทำไมมันทำงาน กล่าวอีกนัยหนึ่งฉันสามารถทำตามทุกขั้นตอนเพื่อคำนวณฟังก์ชันการกระจายเชิงประจักษ์ค้นหาความแตกต่างสูงสุดระหว่างทั้งสองเพื่อค้นหา D-statistic คำนวณค่าวิกฤตเปลี่ยนค่า D-statistic เป็น p-value เป็นต้น แต่ฉันไม่รู้ว่าทำไมสิ่งนี้จริง ๆ บอกอะไรฉันเกี่ยวกับการแจกแจงสองอย่าง บางคนอาจบอกฉันได้อย่างง่ายดายว่าฉันต้องกระโดดข้ามลาและนับว่ามันวิ่งเร็วแค่ไหนและถ้าความเร็วน้อยกว่า 2 กม. / ชม. ฉันก็ปฏิเสธสมมติฐานว่าง แน่ใจว่าฉันสามารถทำสิ่งที่คุณบอกให้ฉันทำ แต่สิ่งใดที่เกี่ยวข้องกับสมมติฐานว่าง? เหตุใดการทดสอบ KS 2 ตัวอย่างทำงาน การคำนวณความแตกต่างสูงสุดระหว่าง ECDF นั้นเกี่ยวข้องกับการแจกแจงสองแบบที่แตกต่างกันอย่างไร ความช่วยเหลือใด ๆ ที่ชื่นชม ฉันไม่ใช่นักสถิติดังนั้นให้สมมติว่าฉันเป็นคนงี่เง่าถ้าเป็นไปได้

25 distributions statistical-significance nonparametric kolmogorov-smirnov

3

LASSO ที่มีเงื่อนไขการโต้ตอบ - ไม่เป็นไรหากเอฟเฟกต์หลักถูกย่อเป็นศูนย์?

การถดถอยแบบ LASSO จะลดค่าสัมประสิทธิ์เป็นศูนย์จึงเป็นการเลือกแบบจำลองได้อย่างมีประสิทธิภาพ ฉันเชื่อว่าในข้อมูลของฉันมีการโต้ตอบที่มีความหมายระหว่างค่าเล็กน้อยและค่าคงที่ต่อเนื่อง อย่างไรก็ตามไม่จำเป็นว่าเป็น 'เอฟเฟ็กต์หลัก' ของโมเดลจริงที่มีความหมาย (ไม่เป็นศูนย์) แน่นอนฉันไม่ทราบว่าสิ่งนี้เป็นรูปแบบจริงเพราะไม่เป็นที่รู้จัก วัตถุประสงค์ของฉันคือการหาแบบจำลองที่แท้จริงและทำนายผลลัพธ์ให้ใกล้เคียงที่สุด ฉันได้เรียนรู้ว่าวิธีการแบบดั้งเดิมในการสร้างแบบจำลองจะรวมถึงผลกระทบหลักเสมอก่อนที่จะรวมการโต้ตอบ ดังนั้นจึงไม่มีแบบจำลองโดยไม่มีผลกระทบหลักของ covariatesและหากมีปฏิสัมพันธ์ของ covariatesในรูปแบบเดียวกัน ฟังก์ชั่นใน จึงคัดสรรแง่รูปแบบ (เช่นขึ้นอยู่กับการย้อนกลับหรือส่งต่อ AIC) ปฏิบัติตามกฎนี้XXXZZZX∗ ZX* * * *ZX*ZstepR LASSO ดูเหมือนจะทำงานแตกต่างกัน เนื่องจากพารามิเตอร์ทั้งหมดถูกลงโทษมันอาจเกิดขึ้นได้อย่างไม่ต้องสงสัยเลยว่าเอฟเฟกต์หลักจะหดเป็นศูนย์ในขณะที่การทำงานร่วมกันของโมเดลที่ดีที่สุด (เช่นการตรวจสอบความถูกต้องแบบไขว้) ไม่ใช่ศูนย์ นี้ผมพบว่าโดยเฉพาะอย่างยิ่งสำหรับข้อมูลของฉันเมื่อใช้R's glmnetแพคเกจ ฉันได้รับการวิจารณ์ตามกฎข้อแรกที่กล่าวถึงข้างต้นนั่นคือรูปแบบ Lasso ที่ผ่านการตรวจสอบความถูกต้องครั้งสุดท้ายของฉันไม่ได้รวมคำศัพท์หลักที่มีผลกระทบที่สอดคล้องกันของการโต้ตอบที่ไม่เป็นศูนย์ อย่างไรก็ตามกฎนี้ดูเหมือนค่อนข้างแปลกในบริบทนี้ สิ่งที่เกิดขึ้นคือคำถามว่าพารามิเตอร์ในตัวแบบจริงเป็นศูนย์หรือไม่ สมมติว่ามันเป็น แต่การโต้ตอบไม่ใช่ศูนย์จากนั้น LASSO จะระบุสิ่งนี้บางทีจึงหารูปแบบที่ถูกต้อง ในความเป็นจริงดูเหมือนว่าการคาดการณ์จากรุ่นนี้จะแม่นยำกว่าเพราะโมเดลไม่มีผลกระทบหลักที่เป็นศูนย์จริงซึ่งเป็นตัวแปรเสียงได้อย่างมีประสิทธิภาพ ฉันขอปฏิเสธคำวิจารณ์ที่มีพื้นฐานมาจากนี้หรือฉันควรระมัดระวังไว้ก่อนว่า LASSO จะมีผลกระทบหลักก่อนที่จะมีการโต้ตอบหรือไม่?

25 machine-learning lasso glmnet shrinkage penalized

10

ทำไมไม่ลองทิ้งโครงข่ายประสาทและการเรียนรู้อย่างลึกซึ้ง? [ปิด]

ปิด คำถามนี้เป็นคำถามความคิดเห็นตาม ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้สามารถตอบข้อเท็จจริงและการอ้างอิงได้โดยแก้ไขโพสต์นี้ ปิดให้บริการใน2 ปีที่ผ่านมา ปัญหาพื้นฐานกับการเรียนรู้ลึกและเครือข่ายประสาทโดยทั่วไป โซลูชั่นที่เหมาะสมกับข้อมูลการฝึกอบรมไม่มีที่สิ้นสุด เราไม่มีสมการทางคณิตศาสตร์ที่แม่นยำซึ่งเป็นที่น่าพอใจเพียงอันเดียวและเราสามารถพูดได้ว่าดีที่สุด เพียงแค่พูดเราไม่รู้ว่า generalizes ใดดีที่สุด การปรับน้ำหนักให้เหมาะสมไม่ใช่ปัญหานูนดังนั้นเราไม่มีทางรู้เลยว่าเราจะจบลงด้วยการใช้งานทั่วโลกหรือในระดับท้องถิ่น ดังนั้นทำไมไม่เพียงแค่ถ่ายโอนข้อมูลโครงข่ายประสาทเทียมและค้นหารุ่น ML ที่ดีกว่าแทน สิ่งที่เราเข้าใจและสิ่งที่สอดคล้องกับชุดของสมการทางคณิตศาสตร์หรือไม่ Linear และ SVM ไม่มีข้อบกพร่องทางคณิตศาสตร์นี้และสอดคล้องอย่างสมบูรณ์กับชุดของสมการทางคณิตศาสตร์ ทำไมไม่เพียงแค่คิดในบรรทัดเดียวกัน (ไม่จำเป็นต้องเป็นแบบเชิงเส้น) และมาพร้อมกับ ML โมเดลใหม่ที่ดีกว่า Linear และ SVM และโครงข่ายประสาทและการเรียนรู้เชิงลึก

25 machine-learning neural-networks svm deep-learning

6

สำหรับปัญหานูนการไล่ระดับสีใน Stochastic Gradient Descent (SGD) ชี้ไปที่ค่าที่สูงที่สุดในโลกเสมอหรือไม่?

ด้วยฟังก์ชั่นค่าใช้จ่ายนูนโดยใช้ SGD เพื่อเพิ่มประสิทธิภาพเราจะมีการไล่ระดับสี (เวกเตอร์) ณ จุดหนึ่งระหว่างกระบวนการปรับให้เหมาะสม คำถามของฉันคือเมื่อให้จุดบนนูนการไล่ระดับสีจะชี้ไปที่ทิศทางที่ฟังก์ชันเพิ่มขึ้น / ลดลงเร็วที่สุดหรือการไล่ระดับสีชี้ไปที่จุดที่เหมาะสมที่สุดหรือมากที่สุดของฟังก์ชันต้นทุนหรือไม่ อดีตเป็นแนวคิดในท้องถิ่นหลังเป็นแนวคิดระดับโลก ในที่สุดก็สามารถมารวมกันเป็นมูลค่าสุดยอดของฟังก์ชั่นค่าใช้จ่าย ฉันสงสัยเกี่ยวกับความแตกต่างระหว่างทิศทางของการไล่ระดับสีที่กำหนดจุดโดยพลการบนนูนและทิศทางที่ชี้ไปที่ค่าสุดขั้วทั่วโลก ทิศทางของการไล่ระดับสีควรเป็นทิศทางที่ฟังก์ชั่นเพิ่ม / ลดเร็วที่สุดในจุดนั้นใช่ไหม

25 neural-networks optimization gradient-descent sgd convex

3

อะไรคือข้อดีของการซ้อน LSTM หลาย ๆ ชุด?

อะไรคือข้อดีทำไมหนึ่งจะใช้ LSTM หลายซ้อนในเครือข่ายลึกด้านละด้าน ฉันใช้ LSTM เพื่อแสดงลำดับของอินพุตเป็นอินพุตเดียว ดังนั้นเมื่อฉันมีตัวแทนเดียว - ทำไมฉันจะผ่านมันอีกครั้ง ฉันถามสิ่งนี้เพราะฉันเห็นสิ่งนี้ในโปรแกรมสร้างภาษาที่เป็นธรรมชาติ

25 classification neural-networks deep-learning lstm rnn