สถิติและข้อมูลขนาดใหญ่ references

2

เมื่อใดและอย่างไรที่จะใช้ตัวแปรอธิบายที่เป็นมาตรฐานในการถดถอยเชิงเส้น

ฉันมีคำถามง่ายๆ 2 ข้อเกี่ยวกับการถดถอยเชิงเส้น: เมื่อใดควรที่จะสร้างมาตรฐานของตัวแปรอธิบาย? เมื่อการประมาณค่าดำเนินการด้วยค่ามาตรฐานแล้วหนึ่งคนจะคาดการณ์ด้วยค่าใหม่ได้อย่างไร (ควรประเมินค่ามาตรฐานใหม่อย่างไร) การอ้างอิงบางอย่างจะเป็นประโยชน์

37 regression predictive-models references standardization predictor

11

ตำราสถิติโอเพ่นซอร์ส

มีการไม่กี่คำถามเกี่ยวกับสถิติตำราเช่นคำถามฟรีตำราทางสถิติ อย่างไรก็ตามฉันกำลังมองหาหนังสือเรียนที่เป็น Open Source เช่นมีใบอนุญาตครีเอทีฟคอมมอนส์ เหตุผลก็คือในเนื้อหาหลักสูตรในโดเมนอื่นคุณยังคงต้องการรวมข้อความเกี่ยวกับสถิติพื้นฐาน ในกรณีนี้มันจะน่าสนใจที่จะนำวัสดุที่มีอยู่กลับมาใช้ใหม่แทนที่จะเขียนใหม่วัสดุนั้น ดังนั้นหนังสือโอเพ่นซอร์สอะไรที่เกี่ยวกับสถิติ (และบางทีอาจเป็นการเรียนรู้ของเครื่อง) ที่มีอยู่?

37 references open-source

2

ใครเป็นผู้คิดค้นการไล่ระดับสีแบบสุ่มสุ่ม?

ฉันพยายามที่จะเข้าใจประวัติศาสตร์ของการไล่โทนสีเชื้อสายและStochastic การไล่ระดับสีโคตร เชื้อสายไล่โทนสีถูกคิดค้นในCauchyใน 1,847 Méthode Generale pour la ความละเอียด des systèmes d'สมsimultanées ได้ pp. 536-538 สำหรับข้อมูลเพิ่มเติมเกี่ยวกับเรื่องนี้ดูที่นี่ ตั้งแต่นั้นมาวิธีการลาดลงของการไล่ระดับสีก็ยังคงพัฒนาอยู่และฉันไม่คุ้นเคยกับประวัติของพวกเขา โดยเฉพาะอย่างยิ่งฉันสนใจในการประดิษฐ์เชื้อสายการไล่ระดับสีสุ่ม การอ้างอิงที่สามารถใช้ในงานวิชาการได้มากกว่าที่ได้รับการต้อนรับ

36 references gradient-descent history sgd

13

คุณต้องการแนะนำบล็อกสถิติใด

คุณจะแนะนำบล็อกการวิจัยเชิงสถิติอะไรและเพราะเหตุใด

35 references

14

การอ้างอิงสำหรับการวิเคราะห์การอยู่รอด

ฉันกำลังมองหาหนังสือ / บทช่วยสอนที่ดีเพื่อเรียนรู้เกี่ยวกับการวิเคราะห์ความอยู่รอด ฉันยังสนใจในการอ้างอิงในการทำการวิเคราะห์การอยู่รอดในอาร์

33 r survival references

4

สัน, เชือกและยางยืด

วิธีเปรียบเทียบมาตรฐานของสันเขา LASSO และ elasticnet ทำอย่างไร? อะไรคือข้อดีและข้อเสียของพวกเขา? เอกสารทางเทคนิคที่ดีหรือบันทึกการบรรยายจะได้รับการชื่นชมเช่นกัน

33 references lasso regularization ridge-regression elastic-net

2

ทฤษฎีเบื้องหลังการถดถอยกำลังสองน้อยที่สุด

ใครสามารถแนะนำการอธิบายที่ดีของทฤษฎีที่อยู่เบื้องหลังการถดถอยกำลังสองน้อยที่สุด (มีให้ทางออนไลน์) สำหรับคนที่เข้าใจ SVD และ PCA? ฉันดูแหล่งข้อมูลออนไลน์มากมายและไม่พบสิ่งใดที่มีการผสมผสานที่ถูกต้องของความแม่นยำและการเข้าถึง ฉันได้ดูเป็นองค์ประกอบของการเรียนรู้ทางสถิติซึ่งได้รับการแนะนำในความคิดเห็นในคำถามที่ถามเกี่ยวกับการรอการตรวจสอบ , สี่เหลี่ยมอย่างน้อยบางส่วน (PLS) ถดถอยคืออะไรและวิธีการที่แตกต่างจาก OLS? แต่ฉันไม่คิดว่าการอ้างอิงนี้จะทำให้เกิดความยุติธรรมในหัวข้อ (สั้นเกินไปที่จะทำเช่นนั้นและไม่ได้ให้ทฤษฎีเกี่ยวกับเรื่องนี้มากนัก) จากสิ่งที่ฉันได้อ่าน PLS ใช้ประโยชน์จากการรวมกันเชิงเส้นของตัวแปรทำนายที่เพิ่มความแปรปรวนร่วมภายใต้ข้อ จำกัดและz_i ^ Tz_j = 0ถ้าฉัน \ neq j , ที่\ varphi_izi=Xφizi=Xφiz_i=X \varphi_iyTziyTzi y^Tz_i Z T ฉัน Z J = 0 ฉัน≠ เจφ ฉัน∥φi∥=1‖φi‖=1\|\varphi_i\|=1zTizj=0ziTzj=0z_i^Tz_j=0i≠ji≠ji \neq jφiφi\varphi_iจะถูกเลือกซ้ำตามลำดับที่พวกเขาเพิ่มความแปรปรวนร่วมสูงสุด แต่หลังจากทั้งหมดที่ฉันอ่านฉันยังคงไม่แน่ใจว่ามันเป็นเรื่องจริงและถ้าเป็นเช่นนั้นวิธีการที่จะดำเนินการ

33 regression references regularization svd partial-least-squares

5

แนวทาง AIC ในการเลือกแบบจำลอง

ฉันมักจะใช้ BIC เป็นความเข้าใจของฉันก็คือว่ามันให้ความสำคัญกับความแตกต่างอย่างยิ่งกว่า AIC อย่างไรก็ตามฉันตัดสินใจที่จะใช้วิธีการที่ครอบคลุมมากขึ้นในตอนนี้และต้องการใช้ AIC ด้วยเช่นกัน ฉันรู้ว่า Raftery (1995) นำเสนอแนวทางที่ดีสำหรับความแตกต่างของ BIC: 0-2 อ่อนแอ 2-4 เป็นหลักฐานเชิงบวกสำหรับแบบจำลองที่ดีกว่า ฯลฯ ฉันดูในตำราเรียนและพวกเขาดูแปลก ๆ ใน AIC (ดูเหมือนความแตกต่างที่มากขึ้นนั้นอ่อนแอและความแตกต่างเล็กน้อยใน AIC หมายถึงแบบจำลองที่ดีกว่า) สิ่งนี้ขัดกับสิ่งที่ฉันรู้ว่าฉันได้รับการสอนแล้ว ความเข้าใจของฉันคือคุณต้องการ AIC ที่ต่ำกว่า ไม่มีใครทราบว่าแนวทางของ Raftery ขยายไปถึง AIC ด้วยหรือฉันอาจอ้างอิงแนวทางบางประการสำหรับ "ความแข็งแกร่งของหลักฐาน" สำหรับรุ่นหนึ่งเทียบกับอีกรุ่นหนึ่งหรือไม่? และใช่การตัดไม่ได้ยอดเยี่ยม (ฉันคิดว่ามันน่ารำคาญ) แต่มันมีประโยชน์เมื่อเปรียบเทียบหลักฐานประเภทต่าง ๆ

32 r model-selection references aic bic

6

วิธีเริ่มต้นกับเครือข่ายประสาท

ฉันใหม่สำหรับเครือข่ายประสาทอย่างสมบูรณ์ แต่สนใจอย่างมากที่จะเข้าใจพวกเขา อย่างไรก็ตามการเริ่มต้นใช้งานไม่ใช่เรื่องง่ายเลย ใครช่วยแนะนำหนังสือดีๆหรือทรัพยากรประเภทอื่นได้บ้าง ต้องอ่านไหม? ฉันขอบคุณสำหรับเคล็ดลับใด ๆ

32 machine-learning neural-networks references

1

การใช้การตรวจสอบข้ามอย่างไม่ถูกต้อง (ประสิทธิภาพการรายงานสำหรับค่าพารามิเตอร์ไฮเปอร์พารามิเตอร์ที่ดีที่สุด)

เมื่อเร็ว ๆ นี้ฉันเจอกระดาษที่เสนอให้ใช้ตัวจําแนกk-NNบนชุดข้อมูลเฉพาะ ผู้เขียนใช้ตัวอย่างข้อมูลทั้งหมดที่มีเพื่อดำเนินการตรวจสอบความถูกต้องข้าม k-fold สำหรับค่าk ที่แตกต่างกันและรายงานผลการตรวจสอบความถูกต้องข้ามของการกำหนดค่าพารามิเตอร์พารามิเตอร์ที่ดีที่สุด สำหรับความรู้ของฉันผลลัพธ์นี้มีความลำเอียงและพวกเขาควรจะมีชุดการทดสอบแยกต่างหากเพื่อให้ได้การประเมินความถูกต้องของตัวอย่างที่ไม่ได้ใช้ในการเพิ่มประสิทธิภาพพารามิเตอร์มากเกินไป ฉันถูกไหม? คุณสามารถให้ข้อมูลอ้างอิงบางส่วน (ควรเป็นบทความวิจัย) ที่อธิบายการใช้การตรวจสอบไขว้ในทางที่ผิดหรือไม่?

30 cross-validation references model-selection model-evaluation

8

วิชาคณิตศาสตร์ใดที่คุณแนะนำให้เตรียมตัวสำหรับการขุดข้อมูลและการเรียนรู้ของเครื่อง

ฉันพยายามรวบรวมหลักสูตรคณิตศาสตร์ที่กำกับตนเองเพื่อเตรียมการเรียนรู้การขุดข้อมูลและการเรียนรู้ของเครื่อง นี่คือแรงบันดาลใจจากการเริ่มเรียนการเรียนรู้ด้วยเครื่องจักรของ Andrew Ngบน Coursera และรู้สึกว่าก่อนที่จะดำเนินการต่อฉันต้องพัฒนาทักษะคณิตศาสตร์ของฉัน ฉันเรียนจบวิทยาลัยมานานแล้วดังนั้นพีชคณิตและสถิติของฉัน (โดยเฉพาะจากวิชารัฐศาสตร์ / จิตวิทยา) เป็นสนิม คำตอบในเธรดพื้นหลังที่แข็งแกร่งในวิชาคณิตศาสตร์เป็นสิ่งจำเป็นสำหรับ ML หรือไม่? แนะนำเฉพาะหนังสือหรือชั้นเรียนที่เกี่ยวข้องโดยตรงกับการเรียนรู้ของเครื่อง ฉันได้ดูในชั้นเรียนและหนังสือเหล่านั้นแล้วและไม่ทราบแน่ชัดว่าวิชาคณิตศาสตร์จะต้องเรียนอะไร (เช่น: เขตที่อยู่ทางคณิตศาสตร์ที่ได้รับสมการเพื่อ "ลดฟังก์ชั่นต้นทุน") หัวข้ออื่น ๆ ที่แนะนำ ( ทักษะและหลักสูตรที่จำเป็นในการเป็นนักวิเคราะห์ข้อมูล ) กล่าวถึงเฉพาะหมวดหมู่ทักษะที่จำเป็นสำหรับการวิเคราะห์ข้อมูลเท่านั้น ความรู้เบื้องต้นเกี่ยวกับสถิติสำหรับนักคณิตศาสตร์ไม่ได้ใช้เพราะฉันยังไม่มีวุฒิทางคณิตศาสตร์ หัวข้อที่คล้ายกันนักคณิตศาสตร์ต้องการความรู้ที่เทียบเท่ากับระดับสถิติที่มีคุณภาพ มีรายการสถิติหนังสือที่น่าเหลือเชื่อ แต่อีกครั้งฉันกำลังดูคณิตศาสตร์เริ่มต้นจากการจำพีชคณิตและสนิมขึ้นจากที่นั่น ดังนั้นสำหรับผู้ที่ทำงานในการเรียนรู้ของเครื่องจักรและการขุดข้อมูลคุณต้องใช้วิชาคณิตศาสตร์ในสาขาใด วิชาคณิตศาสตร์ใดที่คุณแนะนำให้เตรียมตัวสำหรับการขุดข้อมูลและการเรียนรู้ของเครื่องและในลำดับใด นี่คือรายการและคำสั่งที่ฉันมี: พีชคณิต Pre-แคลคูลัส แคลคูลัส พีชคณิตเชิงเส้น ความน่าจะเป็น สถิติ (ฟิลด์ย่อยต่าง ๆ มากมายที่นี่ แต่ไม่ทราบวิธีแบ่งย่อย) สำหรับการขุดข้อมูลและการเรียนรู้ของเครื่องจักรผ่านงานปัจจุบันของฉันฉันสามารถเข้าถึงบันทึกบนเว็บไซต์ / กิจกรรมแอพธุรกรรมลูกค้า / การสมัครสมาชิกและข้อมูลอสังหาริมทรัพย์ (ทั้งแบบคงที่และอนุกรมเวลา) ฉันหวังว่าจะใช้การขุดข้อมูลและการเรียนรู้เครื่องกับชุดข้อมูลเหล่านี้ …

30 machine-learning references data-mining

1

ข้อผิดพลาดมาตรฐานคำนวณอย่างไรสำหรับค่าติดตั้งจากการถดถอยโลจิสติก

เมื่อคุณทำนายค่าที่ติดตั้งจากตัวแบบการถดถอยโลจิสติกจะคำนวณข้อผิดพลาดมาตรฐานอย่างไร ฉันหมายถึงค่าติดตั้งไม่ใช่สำหรับค่าสัมประสิทธิ์ (ซึ่งเกี่ยวข้องกับเมทริกซ์ข้อมูลฟิชเชอร์) ฉันค้นพบวิธีรับตัวเลขด้วยเท่านั้นR(เช่นที่นี่ในวิธีใช้ r-help หรือที่นี่ใน Stack Overflow) แต่ฉันไม่สามารถหาสูตรได้ pred <- predict(y.glm, newdata= something, se.fit=TRUE) หากคุณสามารถให้แหล่งข้อมูลออนไลน์ (ควรอยู่บนเว็บไซต์มหาวิทยาลัย) นั่นจะเป็นสิ่งที่ยอดเยี่ยม

29 r regression logistic mathematical-statistics references

3

บทเรียนการสุ่มตัวอย่างและการอ้างอิงที่ดีของกิ๊บส์

ฉันต้องการเรียนรู้ว่า Gibbs Sampling ทำงานอย่างไรและฉันกำลังมองหากระดาษขั้นพื้นฐานที่ดีถึงขั้นกลาง ฉันมีพื้นฐานด้านวิทยาการคอมพิวเตอร์และมีความรู้ด้านสถิติขั้นพื้นฐาน มีใครอ่านเนื้อหาที่ดีรอบ ๆ ? คุณเรียนที่ไหน ขอบคุณ

29 references gibbs

11

สถิติพอดแคสต์

พอดคาสต์บางส่วนเกี่ยวข้องกับการวิเคราะห์ทางสถิติอย่างไร ฉันพบบันทึกเสียงบางส่วนของการบรรยายในวิทยาลัยบน ITunes U แต่ฉันไม่ทราบว่าพอดแคสต์ทางสถิติใด ๆ สิ่งที่อยู่ใกล้ฉันรู้คือการดำเนินงานวิจัยพอดคาสต์วิทยาศาสตร์ของที่ดีกว่า มันสัมผัสกับปัญหาทางสถิติ แต่ไม่ใช่เฉพาะรายการทางสถิติ

29 references

2

ความหมาย (และหลักฐาน) ของ“ RNN สามารถประมาณอัลกอริทึมใด ๆ ”

เมื่อเร็ว ๆ นี้ฉันอ่านว่าเครือข่ายประสาทที่เกิดขึ้นซ้ำสามารถประมาณอัลกอริทึมใด ๆ ดังนั้นคำถามของฉันคือ: สิ่งนี้หมายความว่าอะไรและคุณสามารถให้ฉันอ้างอิงที่นี่พิสูจน์แล้ว?

28 references rnn

คำถามติดแท็ก references