สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
ค่า logit จริงหมายถึงอะไร
ฉันมีโมเดล logit ซึ่งมีตัวเลขระหว่าง 0 ถึง 1 ในหลาย ๆ กรณี แต่เราจะ interprete นี้ได้อย่างไร ใช้กรณีกับ logit ของ 0.20 เราสามารถยืนยันได้หรือไม่ว่ามีความเป็นไปได้ 20% ที่กรณีเป็นของกลุ่ม B กับกลุ่ม A? นั่นเป็นวิธีที่ถูกต้องในการตีความค่า logit หรือไม่

5
การรวมตัวแปรขึ้นอยู่กับความล่าช้าในการถดถอย
ฉันสับสนมากว่าการรวมตัวแปรที่ล้าหลังลงในแบบจำลองการถดถอยนั้นถูกต้องหรือไม่ โดยทั่วไปฉันคิดว่าถ้ารุ่นนี้มุ่งเน้นไปที่ความสัมพันธ์ระหว่างการเปลี่ยนแปลงใน Y และตัวแปรอิสระอื่น ๆ จากนั้นการเพิ่มตัวแปรที่ขึ้นต่อกันล้าหลังในด้านขวามือสามารถรับประกันได้ว่าสัมประสิทธิ์ก่อนค่า IV อื่น ๆ เป็นอิสระจากค่าก่อนหน้าของ Y บางคนบอกว่าการรวม LDV จะทำให้ค่าสัมประสิทธิ์ของ IV อื่น ๆ ลดลง บางคนบอกว่าสามารถรวม LDV ซึ่งสามารถลดความสัมพันธ์แบบอนุกรม ฉันรู้ว่าคำถามนี้ค่อนข้างทั่วไปในแง่ของการถดถอยชนิดใด แต่ความรู้ทางสถิติของฉันมี จำกัด และฉันมีเวลายากมากที่จะหาว่าถ้าฉันควรรวมตัวแปรที่ล้าหลังลงในแบบจำลองการถดถอยเมื่อโฟกัสคือการเปลี่ยนแปลงของ Y เมื่อเวลาผ่านไป มีวิธีอื่นที่จะจัดการกับอิทธิพลของ Xs ที่มีต่อการเปลี่ยนแปลงของ Y เมื่อเวลาผ่านไปหรือไม่? ฉันลองใช้คะแนนการเปลี่ยนแปลงที่แตกต่างกันเช่น DV แต่ R กำลังสองในสถานการณ์นั้นต่ำมาก

3
สิ่งที่จำเป็นต้องมีสำหรับการเปรียบเทียบแบบจำลอง AIC
อะไรคือสิ่งที่จำเป็นต้องมีซึ่งจำเป็นต้องทำให้สำเร็จสำหรับการเปรียบเทียบแบบจำลอง AIC กับการทำงาน ฉันเพิ่งพบคำถามนี้เมื่อฉันเปรียบเทียบเช่นนี้ > uu0 = lm(log(usili) ~ rok) > uu1 = lm(usili ~ rok) > AIC(uu0) [1] 3192.14 > AIC(uu1) [1] 14277.29 วิธีนี้ผมธรรมการเปลี่ยนแปลงของตัวแปรlog usiliแต่ฉันไม่รู้ว่าฉันสามารถเปรียบเทียบแบบจำลอง AIC ได้หรือไม่ตัวอย่างเช่นตัวแปรตามนั้นแตกต่างกันหรือไม่? คำตอบในอุดมคติจะรวมรายการของสิ่งที่จำเป็นต้องมี (ข้อสมมติฐานทางคณิตศาสตร์)

4
การตรวจสอบความถูกต้องไขว้ภายนอกและการเลือกรุ่น
ความเข้าใจของฉันคือว่าด้วยการตรวจสอบข้ามและการเลือกรูปแบบเราพยายามที่จะอยู่สองสิ่ง: P1 ประเมินการสูญเสียที่คาดหวังของประชากรเมื่อฝึกอบรมกับตัวอย่างของเรา P2 . วัดและรายงานความไม่แน่นอนของการประมาณนี้ของเรา (ความแปรปรวนช่วงความเชื่อมั่นอคติ ฯลฯ ) การปฏิบัติมาตรฐานดูเหมือนว่าจะทำการตรวจสอบข้ามซ้ำเนื่องจากจะช่วยลดความแปรปรวนของเครื่องมือประมาณค่าของเรา อย่างไรก็ตามเมื่อพูดถึงการรายงานและการวิเคราะห์ความเข้าใจของฉันคือการตรวจสอบภายในดีกว่าการตรวจสอบภายนอกเพราะ: เป็นการดีกว่าที่จะรายงาน: สถิติของเครื่องมือประมาณค่าของเราเช่นช่วงความเชื่อมั่น, ความแปรปรวน, ค่าเฉลี่ย ฯลฯ ของตัวอย่างเต็มรูปแบบ (ในกรณีนี้คือตัวอย่าง CV) กว่าการรายงาน: การสูญเสียตัวประมาณของเราในชุดย่อยที่ระงับไว้ของตัวอย่างดั้งเดิมเนื่องจาก: (i) นี่จะเป็นการวัดเดียว ( แม้ว่าเราเลือกตัวประมาณค่าของเรากับ CV ) (ii) เครื่องมือประมาณค่าของเราสำหรับการวัดเดี่ยวนี้จะได้รับการฝึกอบรมในชุด (เช่นชุด CV) ที่มีขนาดเล็กกว่าตัวอย่างเริ่มต้นของเราเนื่องจากเราต้องทำให้มีที่ว่างสำหรับชุดที่ค้างไว้ ผลนี้ในลำเอียงมากขึ้น (ในแง่ร้าย) การประมาณค่าในP1 ถูกต้องหรือไม่ ถ้าไม่ใช่เพราะอะไร พื้นหลัง: มันง่ายที่จะหาหนังสือที่แนะนำให้แบ่งตัวอย่างของคุณออกเป็นสองชุด: CVชุดซึ่งเป็นที่ต่อมาซ้ำแล้วซ้ำอีกแบ่งออกเป็นรถไฟและการตรวจสอบชุด ชุดhold-out (test) ใช้เฉพาะเมื่อสิ้นสุดเพื่อรายงานประสิทธิภาพของตัวประมาณ คำถามของฉันคือความพยายามในการทำความเข้าใจข้อดีและข้อได้เปรียบของวิธีตำราเรียนนี้โดยพิจารณาว่าเป้าหมายของเราคือการจัดการปัญหาP1และP2ในตอนต้นของโพสต์นี้ สำหรับฉันแล้วการรายงานเกี่ยวกับชุดทดสอบการระงับถือเป็นการปฏิบัติที่ไม่ดีเนื่องจากการวิเคราะห์ตัวอย่าง CV นั้นให้ข้อมูลมากกว่า K-fold ซ้อนกันซ้ำ K-fold: …

2
ใน caret ความแตกต่างที่แท้จริงระหว่าง cv และ repeatcv คืออะไร?
นี่คล้ายกับคำถามวิธีการสุ่มตัวอย่าง Caret อีกครั้งแม้ว่าจะไม่เคยตอบคำถามนี้ในส่วนที่ตกลงกัน ฟังก์ชั่นรถไฟเครื่องหมายของข้อเสนอและcv repeatedcvอะไรคือความแตกต่างของการพูด: MyTrainControl=trainControl( method = "cv", number=5, repeats=5 ) VS MyTrainControl=trainControl( method = "repeatedcv", number=5, repeats=5 ) ฉันเข้าใจว่าcvแบ่งการตั้งค่าเป็น k-folds (พารามิเตอร์number) แล้วเริ่มต้นใหม่และเรียกใช้พารามิเตอร์repeatsจำนวนครั้ง สิ่งเดียวที่ฉันจะคิดว่าอาจจะเป็นปกติcvด้วยrepeatsการใช้ดัชนีที่แน่นอนเดียวกันสำหรับพับแต่ละครั้ง? โดยพื้นฐานแล้วการรันcvเท่ากันแน่นอนในแต่ละครั้ง vs อาจrepeatedcvเลือกใหม่เท่าในแต่ละครั้ง? บางคนสามารถอธิบายได้หรือไม่

1
PCA, LDA, CCA และ PLS
PCA, LDA, CCA และ PLS เกี่ยวข้องกันอย่างไร พวกเขาดูเหมือน "เชิงสเปกตรัม" และเชิงพีชคณิตเชิงเส้นและเข้าใจเป็นอย่างดี (พูดมากกว่า 50 ปีของทฤษฎีที่สร้างขึ้นรอบ ๆ พวกเขา) พวกเขาจะใช้สำหรับสิ่งที่แตกต่างกันมาก (PCA สำหรับการลดขนาด, LDA สำหรับการจัดหมวดหมู่, PLS สำหรับการถดถอย) แต่พวกเขาก็ยังรู้สึกเกี่ยวข้องอย่างใกล้ชิด

4
การทำนายด้วยคุณสมบัติที่ต่อเนื่องและจัดหมวดหมู่
เทคนิคการสร้างแบบจำลองการทำนายบางอย่างได้รับการออกแบบมาเพื่อการจัดการตัวทำนายอย่างต่อเนื่องในขณะที่เทคนิคอื่น ๆ นั้นดีกว่าสำหรับการจัดการกับตัวแปรเด็ดขาด แน่นอนว่ามีเทคนิคในการแปลงประเภทหนึ่งไปเป็นอีกประเภทหนึ่ง (discretization, ตัวแปรจำลอง) อย่างไรก็ตามมีเทคนิคการสร้างแบบจำลองการคาดการณ์ที่ออกแบบมาเพื่อจัดการอินพุตทั้งสองประเภทในเวลาเดียวกันโดยไม่ต้องเปลี่ยนประเภทของคุณสมบัติหรือไม่ ถ้าเป็นเช่นนั้นเทคนิคการสร้างแบบจำลองเหล่านี้มีแนวโน้มที่จะทำงานได้ดีขึ้นกับข้อมูลที่พวกเขาเป็นแบบธรรมชาติมากขึ้น? สิ่งที่ใกล้เคียงที่ฉันรู้จะเป็นที่มักจะต้นไม้ตัดสินใจจัดการกับข้อมูลที่ไม่ต่อเนื่องได้ดีและพวกเขาจัดการข้อมูลอย่างต่อเนื่องโดยไม่ต้องมีขึ้นด้านหน้าไม่ต่อเนื่อง อย่างไรก็ตามนี่ไม่ใช่สิ่งที่ฉันกำลังมองหาเนื่องจากการแยกคุณสมบัติอย่างต่อเนื่องได้อย่างมีประสิทธิภาพเป็นเพียงการแยกส่วนแบบไดนามิก สำหรับการอ้างอิงต่อไปนี้เป็นคำถามที่เกี่ยวข้องและไม่ซ้ำกัน: ต้นไม้การตัดสินใจแยกควรนำมาใช้อย่างไรเมื่อทำนายตัวแปรต่อเนื่อง ฉันสามารถใช้การถดถอยแบบหลายครั้งได้หรือไม่เมื่อฉันมีตัวทำนายที่เป็นหมวดหมู่และแบบต่อเนื่องผสมกัน? มันสมเหตุสมผลไหมที่จะรักษาข้อมูลที่เป็นหมวดหมู่อย่างต่อเนื่อง? การวิเคราะห์ข้อมูลตัวแปรอย่างต่อเนื่องและเป็นหมวดหมู่

6
การประมาณแบบเดียวกันกับอนุกรมเวลาหลายชุด
ฉันมีพื้นฐานสามเณรในอนุกรมเวลา (ประมาณ ARIMA / การคาดการณ์ / การคาดการณ์) และฉันกำลังประสบปัญหาที่ฉันไม่เข้าใจ ความช่วยเหลือใด ๆ ที่จะได้รับการชื่นชมอย่างมาก. ฉันกำลังวิเคราะห์อนุกรมเวลาหลายช่วงเวลาในช่วงเวลาเดียวกันและความถี่เดียวกันทั้งหมดอธิบายถึงประเภทของข้อมูลที่คล้ายกัน แต่ละชุดเป็นเพียงตัวแปรเดียวไม่มีตัวทำนายอื่นที่เกี่ยวข้องที่ฉันดู ฉันถูกขอให้ประเมินแบบจำลองเดียวที่อธิบายชุดทั้งหมด - ตัวอย่างเช่นลองนึกภาพฉันสามารถหา ARIMA (p, d, q) หนึ่งชุดที่มีคำสั่งสัมประสิทธิ์และอื่น ๆ ที่เหมือนกันทุกชุด หัวหน้างานของฉันไม่ต้องการให้ฉันประเมินแต่ละชุดแยกกันและเขาไม่ต้องการให้ฉันทำแบบจำลอง VAR บางประเภทที่มีการพึ่งพาระหว่างชุด คำถามของฉันคืออะไรฉันจะเรียกรูปแบบดังกล่าวและฉันจะไปเกี่ยวกับการประเมิน / การคาดการณ์มันได้อย่างไร หากคุณใช้ตัวอย่างโค้ดได้ง่ายขึ้นฉันจะพูดทั้ง SAS และ R

4
จำนวนคุณสมบัติเทียบกับจำนวนการสังเกต
มีกระดาษ / หนังสือ / แนวคิดเกี่ยวกับความสัมพันธ์ระหว่างจำนวนของคุณสมบัติและจำนวนการสังเกตที่เราต้องใช้ในการฝึกอบรมลักษณนาม "ที่มีประสิทธิภาพ" หรือไม่? ตัวอย่างเช่นสมมติว่าฉันมีคุณสมบัติ 1,000 รายการและการสังเกต 10 ครั้งจากสองคลาสเป็นชุดฝึกอบรมและอีก 10 ข้อสังเกตเป็นชุดทดสอบ ฉันฝึกตัวแยกประเภท X และให้ความไว 90% และความจำเพาะ 90% ในชุดทดสอบ สมมติว่าฉันมีความสุขกับความแม่นยำนี้และฉันสามารถบอกได้ว่ามันเป็นลักษณนามที่ดี ในทางกลับกันฉันได้ประมาณฟังก์ชั่นของตัวแปร 1,000 ตัวโดยใช้ 10 คะแนนเท่านั้นซึ่งอาจดูเหมือนว่าไม่แข็งแกร่งมาก ...

3
วิธีการคำนวณช่วงความมั่นใจของอัตราส่วนของสองวิธีปกติ
ฉันต้องการได้รับขีด จำกัด สำหรับช่วงความเชื่อมั่นสำหรับอัตราส่วนของสองวิธี สมมติว่าและ เป็นอิสระอัตราส่วนเฉลี่ย\ ฉันพยายามแก้ปัญหา: แต่สมการนั้นไม่สามารถแก้ไขได้ในหลายกรณี (ไม่มีราก) ฉันกำลังทำอะไรผิดหรือเปล่า? มีแนวทางที่ดีกว่านี้ไหม? ขอบคุณX 1 ∼ N ( θ 1 , σ 2 ) X 2 ∼ N ( θ 2 , σ 2 ) Γ = θ 1 / θ 2 Pr ( - z ( α / 2 ) ) ≤ …

1
ความเท่าเทียมกันระหว่างกำลังสองน้อยที่สุดและ MLE ในแบบจำลองเกาส์เซียน
ฉันยังใหม่กับการเรียนรู้ของเครื่องและกำลังพยายามเรียนรู้ด้วยตัวเอง เมื่อเร็ว ๆ นี้ฉันกำลังอ่านบันทึกการบรรยายและมีคำถามพื้นฐาน สไลด์ 13 กล่าวว่า "Least Square Estimate เหมือนกับประมาณการความน่าจะเป็นสูงสุดภายใต้แบบจำลอง Gaussian" ดูเหมือนว่ามันเป็นอะไรที่เรียบง่าย แต่ฉันไม่สามารถเห็นสิ่งนี้ได้ บางคนช่วยอธิบายสิ่งที่เกิดขึ้นที่นี่ได้ไหม? ฉันสนใจที่จะเห็นคณิตศาสตร์ หลังจากนั้นฉันจะพยายามดูความน่าจะเป็นของการถดถอยแบบสันและแบบบ่วงบาศเช่นกันดังนั้นหากมีข้อเสนอแนะใด ๆ ที่จะช่วยฉันได้สิ่งนั้นก็จะได้รับการชื่นชมเช่นกัน


2
รองรับเครื่องเวกเตอร์และการถดถอย
มีการอภิปรายที่ยอดเยี่ยมเกี่ยวกับวิธีการที่เครื่องเวกเตอร์สนับสนุนจัดการการจำแนก แต่ฉันสับสนมากเกี่ยวกับวิธีการสนับสนุนเครื่องเวกเตอร์เพื่อสรุปการถดถอย ใครสนใจที่จะสอนฉัน

5
ความสัมพันธ์ที่คาดหวังระหว่างส่วนที่เหลือและตัวแปรตามคืออะไร?
ในการถดถอยเชิงเส้นหลายครั้งฉันสามารถเข้าใจความสัมพันธ์ระหว่างส่วนที่เหลือและตัวทำนายได้ว่าเป็นศูนย์ แต่ความสัมพันธ์ที่คาดหวังระหว่างตัวแปรที่เหลือและตัวแปรคืออะไร คาดว่าจะมีค่าเป็นศูนย์หรือมีความสัมพันธ์สูง? ความหมายของสิ่งนั้นคืออะไร?

1
วิธีการทำความเข้าใจ SARIMAX อย่างสังหรณ์ใจ?
ฉันพยายามที่จะเข้าใจกระดาษเกี่ยวกับการพยากรณ์โหลดไฟฟ้า แต่ฉันกำลังดิ้นรนกับแนวคิดที่อยู่ภายในโดยเฉพาะแบบจำลองSARIMAX แบบจำลองนี้ใช้ในการทำนายการโหลดและใช้แนวคิดทางสถิติมากมายที่ฉันไม่เข้าใจ (ฉันเป็นนักศึกษาวิทยาศาสตร์คอมพิวเตอร์ระดับปริญญาตรี - คุณสามารถพิจารณาฉันเป็นคนธรรมดาในสถิติ) ฉันไม่จำเป็นต้องเข้าใจอย่างสมบูรณ์ถึงวิธีการทำงาน แต่อย่างน้อยฉันก็ต้องเข้าใจอย่างถ่องแท้ว่าเกิดอะไรขึ้น ฉันพยายามแยก SARIMAX ออกเป็นชิ้นเล็ก ๆ และพยายามที่จะเข้าใจแต่ละชิ้นแยกกันแล้วรวมเข้าด้วยกัน พวกคุณช่วยฉันได้ไหม นี่คือสิ่งที่ฉันมี ฉันเริ่มต้นด้วย AR และ MA AR : อัตถดถอย ฉันได้เรียนรู้ว่าการถดถอยคืออะไรและจากความเข้าใจของฉันเพียงแค่ตอบคำถาม: จากชุดของค่า / คะแนนฉันจะหาแบบจำลองที่อธิบายค่าเหล่านี้ได้อย่างไร ตัวอย่างเช่นเรามีการถดถอยเชิงเส้นซึ่งพยายามหาเส้นที่สามารถอธิบายประเด็นเหล่านี้ทั้งหมด การตอบโต้อัตโนมัติคือการถดถอยที่พยายามอธิบายค่าโดยใช้ค่าก่อนหน้า MA : ค่าเฉลี่ยเคลื่อนที่ ที่นี่ฉันหลงทางจริงๆ ฉันรู้ว่าค่าเฉลี่ยเคลื่อนที่คืออะไร แต่โมเดลค่าเฉลี่ยเคลื่อนที่ดูเหมือนจะไม่มีส่วนเกี่ยวข้องกับค่าเฉลี่ยเคลื่อนที่ "ปกติ" สูตรของแบบจำลองนั้นดูคล้ายกับ AR อย่างเชื่องช้าและฉันไม่สามารถเข้าใจแนวคิดใด ๆ ที่ฉันพบในอินเทอร์เน็ต วัตถุประสงค์ของ MA คืออะไร? MA และ AR แตกต่างกันอย่างไร? ดังนั้นตอนนี้เรามี ARMA ผมแล้วมาจากแบบบูรณาการซึ่งเท่าที่ผมมีความเข้าใจเพียงแค่จุดมุ่งหมายของการช่วยให้รูปแบบ …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.