สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

5
เหตุใดคุณสมบัติทางวิศวกรรมจึงทำงาน
เมื่อเร็ว ๆ นี้ฉันได้เรียนรู้ว่าวิธีหนึ่งในการค้นหาวิธีแก้ไขปัญหา ML ที่ดีกว่าคือการสร้างคุณลักษณะ หนึ่งสามารถทำได้โดยตัวอย่างเช่นการรวมสองคุณสมบัติ ตัวอย่างเช่นเรามีคุณสมบัติสองอย่างคือ "การโจมตี" และ "การป้องกัน" ของฮีโร่บางประเภท จากนั้นเราสร้างคุณลักษณะเพิ่มเติมที่เรียกว่า "ผลรวม" ซึ่งเป็นผลรวมของ "การโจมตี" และ "การป้องกัน" ตอนนี้สิ่งที่ดูเหมือนแปลกสำหรับฉันคือแม้แต่ "การโจมตี" และ "การป้องกัน" ที่ยากลำบากก็มีความสัมพันธ์อย่างสมบูรณ์แบบกับ "ทั้งหมด" เรายังคงได้รับข้อมูลที่เป็นประโยชน์ คณิตศาสตร์อยู่เบื้องหลังอะไร? หรือฉันคิดผิด นอกจากนี้นั่นไม่ใช่ปัญหาสำหรับผู้จัดประเภทเช่น kNN ว่า "ยอดรวม" จะใหญ่กว่า "การโจมตี" หรือ "การป้องกัน" เสมอหรือไม่ ดังนั้นแม้หลังจาก standarization เราจะมีคุณสมบัติที่มีค่าจากช่วงที่แตกต่างกันอย่างไร

1
ความแตกต่างระหว่างข้อมูลที่หายไปและข้อมูลกระจัดกระจายในอัลกอริทึมการเรียนรู้ของเครื่อง
อะไรคือความแตกต่างที่สำคัญระหว่างข้อมูลที่กระจัดกระจายและข้อมูลที่ขาดหายไป? และมันมีอิทธิพลต่อการเรียนรู้ของเครื่องอย่างไร โดยเฉพาะอย่างยิ่งสิ่งที่ทำให้ข้อมูลกระจัดกระจายและข้อมูลที่ขาดหายไปนั้นมีต่ออัลกอริธึมการจำแนกและประเภทการถดถอย ฉันกำลังพูดถึงสถานการณ์ที่เปอร์เซ็นต์ของข้อมูลที่ขาดหายไปมีความสำคัญและเราไม่สามารถวางแถวที่มีข้อมูลที่ขาดหายไปได้

2
มันสมเหตุสมผลที่จะทำ OLS หลังจากการเลือกตัวแปร LASSO อย่างไร
เมื่อเร็ว ๆ นี้ฉันได้พบว่าในวรรณคดีเศรษฐศาสตร์ประยุกต์ที่ใช้เมื่อจัดการกับปัญหาการเลือกคุณสมบัติมันไม่แปลกที่จะทำ LASSO ตามด้วย OLS ถดถอยโดยใช้ตัวแปรที่เลือก ฉันสงสัยว่าเราจะมีคุณสมบัติที่ถูกต้องของกระบวนการดังกล่าวได้อย่างไร มันจะทำให้เกิดปัญหาเช่นตัวแปรที่ละเว้นหรือไม่ หลักฐานใด ๆ ที่แสดงว่ามีประสิทธิภาพมากขึ้นหรือผลลัพธ์สามารถตีความได้มากกว่านี้? นี่คือการสนทนาที่เกี่ยวข้อง: การเลือกตัวแปรกับ LASSO การใช้ต้นไม้หลังจากการเลือกตัวแปรโดยใช้ Lasso / Random ถ้าตามที่ระบุไว้ขั้นตอนดังกล่าวไม่ถูกต้องโดยทั่วไปแล้วทำไมยังมีงานวิจัยมากมายที่ทำเช่นนั้น? ฉันสามารถพูดได้ไหมว่ามันเป็นเพียงแค่กฎของหัวแม่มือวิธีการประนีประนอมเนื่องจากคุณสมบัติที่ไม่สบาย ๆ ของเครื่องประมาณ LASSO และความชื่นชอบของผู้คนที่มีต่อ OLS?

4
ความแตกต่างระหว่างข้อเสนอแนะ RNN และ LSTM / GRU
ฉันกำลังพยายามที่จะเข้าใจโครงสร้างเครือข่ายนิวรัล (RNN) ที่แตกต่างกันเพื่อนำไปใช้กับข้อมูลอนุกรมเวลาและฉันสับสนเล็กน้อยกับชื่อต่าง ๆ ที่ใช้บ่อยเมื่ออธิบาย RNN โครงสร้างของหน่วยความจำระยะสั้นระยะยาว (LSTM) และ Gated Recurrent Unit (GRU) นั้นเป็น RNN ที่มีลูปข้อเสนอแนะหรือไม่?

3
วิธีการใช้การหยุด แต่เนิ่น ๆ อย่างถูกต้องสำหรับการฝึกอบรมโครงข่ายประสาทเทียมลึก?
ฉันมีรูปแบบโครงข่ายประสาทเทียมที่ลึกและฉันจำเป็นต้องฝึกกับชุดข้อมูลซึ่งประกอบด้วยตัวอย่างประมาณ 100,000 ตัวอย่างข้อมูลการตรวจสอบความถูกต้องของฉันมีประมาณ 1,000 ตัวอย่าง เนื่องจากต้องใช้เวลาในการฝึกฝนแต่ละตัวอย่าง (ประมาณ 0.5 ตัวอย่างสำหรับแต่ละตัวอย่าง) และเพื่อหลีกเลี่ยงการทำให้อ้วนมากเกินไปฉันจึงต้องการใช้การหยุดก่อนกำหนดเพื่อป้องกันการคำนวณที่ไม่จำเป็น แต่ฉันไม่แน่ใจว่าจะฝึกโครงข่ายประสาทอย่างถูกต้องด้วยการหยุด แต่เนิ่น ๆ หลายสิ่งที่ฉันยังไม่เข้าใจในตอนนี้: ความถี่การตรวจสอบที่ดีจะเป็นอย่างไร ฉันควรตรวจสอบโมเดลของฉันเกี่ยวกับข้อมูลการตรวจสอบความถูกต้องในตอนท้ายของแต่ละยุคหรือไม่ (ขนาดแบตช์ของฉันคือ 1) เป็นกรณีที่ epochs ไม่กี่ครั้งแรกอาจให้ผลลัพธ์ที่เลวร้ายกว่าก่อนที่จะเริ่มบรรจบกันเพื่อค่าที่ดีขึ้น? ในกรณีนี้เราควรฝึกอบรมเครือข่ายของเราสำหรับยุคหลาย ๆ ก่อนที่จะตรวจสอบการหยุดก่อน? วิธีจัดการกับกรณีที่การสูญเสียการตรวจสอบอาจขึ้นและลงได้อย่างไร ในกรณีนั้นการหยุดก่อนอาจทำให้โมเดลของฉันไม่สามารถเรียนรู้เพิ่มเติมได้ใช่ไหม ขอบคุณล่วงหน้า.

2
จากการแจกแจงแบบสม่ำเสมอจนถึงการแจกแจงแบบเลขชี้กำลังและในทางกลับกัน
นี้น่าจะเป็นคำถามเล็กน้อย แต่การค้นหาของฉันได้รับการไร้ผลเพื่อให้ห่างไกลรวมทั้งบทความวิกิพีเดียนี้และ "บทสรุปของการกระจาย" เอกสาร ถ้ามีการแจกแจงแบบเดียวกันนั่นหมายความว่าตามการแจกแจงเอ็กซ์โพเนนเชียลหรือไม่?XXXeXeXe^X ในทำนองเดียวกันถ้าตามการแจกแจงเอ็กซ์โปเนนเชียลมันหมายถึงตามการกระจายตัวแบบสม่ำเสมอหรือไม่?YYYln(Y)ln(Y)ln(Y)

2
ชื่ออะไร: ความแม่นยำ (อินเวอร์สของความแปรปรวน)
สังหรณ์ใจค่าเฉลี่ยเป็นเพียงค่าเฉลี่ยของการสังเกต ความแปรปรวนคือการสังเกตเหล่านี้แตกต่างจากค่าเฉลี่ยเท่าใด ฉันต้องการทราบว่าทำไมการผกผันของความแปรปรวนจึงเป็นที่รู้จักกันอย่างแม่นยำ เราสามารถทำอะไรได้จากสัญชาตญาณนี้ และทำไมเมทริกซ์ความแม่นยำจึงมีประโยชน์เหมือนเมทริกซ์ความแปรปรวนร่วมในการแจกแจงหลายตัวแปร (ปกติ) กรุณาเข้าใจด้วย

2
ในมุ้งประสาททำไมใช้วิธีการไล่ระดับสีมากกว่า metaheuristics อื่น ๆ ?
ในการฝึกอบรมโครงข่ายประสาทเทียมที่ลึกและตื้นเหตุใดจึงใช้วิธีการไล่ระดับสี (เช่นการไล่ระดับสีเนสโตฟนิวตัน - ราฟสัน) ที่ใช้กันโดยทั่วไป ฉันหมายถึงวิธีการต่าง ๆ เช่นการจำลองการหลอมการเพิ่มประสิทธิภาพของฝูงมด ฯลฯ ซึ่งได้รับการพัฒนาเพื่อหลีกเลี่ยงการติดอยู่ใน minima ท้องถิ่น

2
ทำความเข้าใจเกี่ยวกับการแลกเปลี่ยนความลำเอียงที่แปรปรวน
ฉันกำลังอ่านบทของการแลกเปลี่ยนความแปรปรวนแบบอคติขององค์ประกอบของการเรียนรู้ทางสถิติและฉันมีข้อสงสัยในสูตรที่หน้า 29 ให้ข้อมูลเกิดขึ้นจากแบบจำลองที่โดยที่สุ่ม จำนวนที่มีค่าคาดว่าและความแปรปรวน 2 ให้ค่าที่คาดหวังของข้อผิดพลาดของแบบจำลองคือ E [(Y-f_k (x)) ^ 2] โดยที่f_k (x)คือคำทำนายของxของผู้เรียนของเรา ข้อผิดพลาดคือ E [(Y-f_k (x)) ^ 2] = \ sigma ^ 2 + Bias (f_k) ^ 2 + Var (f_k (x)) Y=f(x)+ϵY=f(x)+ϵ Y = f(x)+\epsilonε = E [ ε ] = 0 E E [ ( Y - …

2
วิธีการเพิ่มประสิทธิภาพใดดีที่สุดสำหรับ LSTM
ฉันใช้ theano เพื่อทดสอบกับ LSTM และสงสัยว่าวิธีการเพิ่มประสิทธิภาพใด (SGD, Adagrad, Adadelta, RMSprop, Adam และอื่น ๆ ) ทำงานได้ดีที่สุดสำหรับ LSTMs หรือไม่ มีบทความวิจัยในหัวข้อนี้หรือไม่? นอกจากนี้คำตอบยังขึ้นอยู่กับประเภทของแอปพลิเคชันที่ฉันใช้ LSTM ด้วยหรือไม่ ถ้าเป็นเช่นนั้นฉันใช้ LSTM สำหรับการจำแนกข้อความ (โดยที่ข้อความถูกแปลงเป็นคำเวกเตอร์) ในที่สุดคำตอบจะเหมือนหรือแตกต่างกันสำหรับ RNNs หรือไม่ พอยน์เตอร์ใด ๆ สำหรับงานวิจัยหรือความเข้าใจส่วนบุคคลจะได้รับการชื่นชมอย่างมาก! LSTM ดูเหมือนจะทรงพลังมากและฉันสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับวิธีการใช้งานให้ดีที่สุด

2
แปลงที่เหลือ: ทำไมพล็อตกับค่าที่ติดตั้งไม่สังเกตค่า
ในบริบทของการถดถอย OLS ฉันเข้าใจว่าพล็อตที่เหลือ (เทียบกับค่าติดตั้ง) ถูกมองตามอัตภาพเพื่อทดสอบความแปรปรวนคงที่และประเมินรูปแบบของแบบจำลอง เหตุใดจึงมีการพล็อตสิ่งที่แนบมาพอดีและไม่ใช่ค่าข้อมูลแตกต่างจากทั้งสองแปลงอย่างไรYYY ฉันกำลังทำงานกับแบบจำลองที่สร้างแผนการที่เหลือต่อไปนี้: ดังนั้นพล็อตกับค่าติดตั้งจึงดูดีอย่างรวดเร็ว แต่พล็อตที่สองเทียบกับค่ามีรูปแบบ ฉันสงสัยว่าทำไมรูปแบบเด่นชัดดังกล่าวจะไม่ปรากฏในพล็อตที่เหลือเทียบกับพอดี ....YYY ฉันไม่ได้ต้องการความช่วยเหลือในการวินิจฉัยปัญหาเกี่ยวกับตัวแบบ แต่เพียงแค่พยายามเข้าใจความแตกต่าง (โดยทั่วไป) ระหว่าง (1) ส่วนที่เหลือเทียบกับพอดีและ & (2) ส่วนที่เหลือเทียบกับพล็อต YYY สำหรับสิ่งที่คุ้มค่าฉันแน่ใจว่ารูปแบบข้อผิดพลาดในแผนภูมิที่สองนั้นเกิดจากตัวแปรที่ละเว้นซึ่งมีผลต่อ DV ขณะนี้ฉันกำลังหาข้อมูลซึ่งฉันคาดหวังว่าจะช่วยให้พอดีและโดยรวมได้ ฉันกำลังทำงานกับข้อมูลอสังหาริมทรัพย์: DV = ราคาขาย เกลือ: sq.ft ของบ้าน # พื้นที่โรงรถปีสร้างขึ้นในปีสร้างขึ้น 2 22^2

4
การจัดกลุ่มเมทริกซ์สหสัมพันธ์
ฉันมีเมทริกซ์สหสัมพันธ์ซึ่งระบุว่ารายการทั้งหมดสัมพันธ์กับรายการอื่นอย่างไร ดังนั้นสำหรับรายการ N ฉันมีเมทริกซ์สหสัมพันธ์ N * N อยู่แล้ว การใช้เมทริกซ์สหสัมพันธ์นี้ฉันจะจัดกลุ่มรายการ N ในถังขยะ M อย่างไรเพื่อให้ฉันสามารถพูดได้ว่ารายการ Nk ในถังขยะ kth ทำงานเหมือนกัน กรุณาช่วยฉันออก ค่ารายการทั้งหมดเป็นหมวดหมู่ ขอบคุณ แจ้งให้เราทราบหากคุณต้องการข้อมูลเพิ่มเติม ฉันต้องการวิธีแก้ปัญหาใน Python แต่ความช่วยเหลือในการผลักดันฉันไปสู่ข้อกำหนดนั้นจะเป็นประโยชน์อย่างมาก

3
ทำไมต้องใช้ Normalizing Factor ในทฤษฎีบทของเบย์
Bayes theorem ไป P(model|data)=P(model)×P(data|model)P(data)P(model|data)=P(model)×P(data|model)P(data) P(\textrm{model}|\textrm{data}) = \frac{P(\textrm{model}) \times P(\textrm{data}|\textrm{model})}{P(\textrm{data})} ทั้งหมดนี้เป็นเรื่องปกติ แต่ฉันได้อ่านที่ไหนสักแห่ง: โดยพื้นฐานแล้ว P (data) คืออะไรนอกจากค่าคงที่ normalizing คือค่าคงที่ที่ทำให้ความหนาแน่นของด้านหลังรวมเข้าเป็นหนึ่งเดียว เรารู้ว่า0≤P(model)≤10≤P(model)≤10 \leq P(\textrm{model}) \leq 1และ0≤P(data|model)≤10≤P(data|model)≤1 0 \leq P(\textrm{data}|\textrm{model}) \leq 1 1 ดังนั้นP(model)×P(data|model)P(model)×P(data|model)P(\textrm{model}) \times P(\textrm{data}|\textrm{model})ต้องอยู่ระหว่าง 0 ถึง 1 เช่นกัน ในกรณีเช่นนี้เหตุใดเราจึงต้องมีค่าคงที่ normalizing เพื่อทำให้ส่วนหลังเข้ากันเป็นหนึ่งเดียว

4
“ พื้นที่ทั้งหมดภายใต้ฟังก์ชันความหนาแน่นของความน่าจะเป็นคือ 1” - เทียบกับอะไร
แนวคิดฉันเข้าใจความหมายของวลี "พื้นที่ทั้งหมดภายใต้ PDF คือ 1" ควรหมายความว่าโอกาสที่ผลลัพธ์จะอยู่ในช่วงเวลาทั้งหมดของความเป็นไปได้คือ 100% แต่ฉันไม่เข้าใจจริง ๆ จากมุมมอง "เรขาคณิต" ยกตัวอย่างเช่นในรูปแบบ PDF แกน x หมายถึงความยาวพื้นที่ทั้งหมดที่อยู่ใต้ส่วนโค้งจะไม่ใหญ่ขึ้นถ้าวัดในหน่วยมิลลิเมตรเป็นมิลลิเมตรมากกว่ากิโลเมตรหรือไม่ ฉันมักจะลองนึกภาพว่าพื้นที่ใต้เส้นโค้งจะดูอย่างไรถ้าฟังก์ชั่นนั้นแบนเป็นเส้นตรง ความสูง (ตำแหน่งบนแกน y) ของบรรทัดนั้นจะเหมือนกันสำหรับ PDF ใด ๆ หรือจะมีค่าขึ้นอยู่กับช่วงเวลาในแกน x ที่ฟังก์ชันกำหนดไว้หรือไม่

2
การเลือกระหว่าง -test และ -test
ความเป็นมา: ฉันกำลังนำเสนอให้กับเพื่อนร่วมงานที่ทำงานเกี่ยวกับการทดสอบสมมติฐานและเข้าใจว่าส่วนใหญ่ดี แต่มีแง่มุมหนึ่งที่ฉันคาดว่าจะเป็นปมพยายามเข้าใจและอธิบายให้ผู้อื่นฟัง นี่คือสิ่งที่ฉันคิดว่าฉันรู้ (โปรดแก้ไขถ้าผิด!) สถิติที่อาจเป็นเรื่องปกติหากทราบความแปรปรวนให้ทำตามการแจกแจงแบบtttหากไม่ทราบความแปรปรวน CLT (ทฤษฎีขีด จำกัด กลาง): การกระจายตัวตัวอย่างของค่าเฉลี่ยตัวอย่างนั้นประมาณปกติสำหรับขนาดใหญ่พอnnn (อาจเป็น303030 , อาจสูงถึง300300300สำหรับการแจกแจงแบบเบ้สูง) ttt -distribution สามารถพิจารณาปกติองศาอิสระ&gt;30&gt;30> 30 คุณใช้การทดสอบถ้า:zzz ประชากรปกติและความแปรปรวนเป็นที่รู้จัก (สำหรับขนาดตัวอย่างใด ๆ ) ประชากรปกติไม่ทราบความแปรปรวนและ (เนื่องจาก CLT)n&gt;30n&gt;30n>30 ประชากรทวินาม, , n q &gt; 10np&gt;10np&gt;10np>10nq&gt;10nq&gt;10nq>10 คุณใช้ -test ถ้า:ttt ประชากรปกติไม่ทราบความแปรปรวนและn&lt;30n&lt;30n<30 ไม่มีความรู้เกี่ยวกับประชากรหรือความแปรปรวนและแต่ข้อมูลตัวอย่างดูเป็นปกติ / ผ่านการทดสอบและอื่น ๆ เพื่อให้ประชากรสามารถสันนิษฐานได้ว่าเป็นปกติn&lt;30n&lt;30n<30 ดังนั้นฉันเหลือ: สำหรับตัวอย่างและ&lt; ≈ 300 (?) ไม่มีความรู้เกี่ยวกับประชากรและความแปรปรวนที่ทราบ / ไม่รู้จัก&gt;30&gt;30>30&lt;≈300&lt;≈300<\approx 300 …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.