สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

7
การศึกษา“ กระบวนการสุ่ม” จะช่วยฉันในฐานะนักสถิติได้อย่างไร
ฉันต้องการที่จะตัดสินใจว่าฉันควรเรียนหลักสูตรที่เรียกว่า "บทนำสู่กระบวนการที่มั่นคง" ซึ่งจะจัดขึ้นในภาคการศึกษาถัดไปในมหาวิทยาลัยของฉัน ฉันถามอาจารย์ว่าการเรียนหลักสูตรนี้จะช่วยฉันในฐานะนักสถิติได้อย่างไรเขาบอกว่าเนื่องจากเขามาจากความน่าจะเป็นเขารู้สถิติน้อยมากและไม่รู้วิธีตอบคำถามของฉัน ฉันสามารถคาดเดาได้อย่างไม่มีการศึกษาว่ากระบวนการสุ่มมีความสำคัญในสถิติ แต่ฉันก็อยากรู้ว่าจะรู้ได้อย่างไร นั่นคือในสาขา / วิธีใดความเข้าใจพื้นฐานใน "กระบวนการสุ่ม" จะช่วยให้ฉันทำสถิติได้ดีขึ้นหรือไม่

2
พลังของการถดถอยโลจิสติกและการทดสอบทีเปรียบเทียบ
พลังของการถดถอยโลจิสติกและการทดสอบทีเทียบเท่าหรือไม่ ถ้าเป็นเช่นนั้นพวกเขาควรจะ "ความหนาแน่นของข้อมูลเทียบเท่า" โดยที่ฉันหมายถึงว่าการสังเกตที่สำคัญจำนวนเดียวกันให้ผลลัพธ์เดียวกันกับที่ได้รับค่าคงที่ของ. 05 พิจารณาสองกรณี: [การทดสอบสถิติพารามิเตอร์]: 30 การดึงออกมาจากการสังเกตแบบทวินามและค่าที่ได้จะเป็นค่าเฉลี่ย สิ่งนี้ทำได้ 30 ครั้งสำหรับกลุ่ม A (ซึ่งมีค่าทวินามเท่ากับ. 70 ที่เกิดขึ้น) และ 30 ครั้งสำหรับกลุ่ม B (ซึ่งมีราคาทวินามเท่ากับ. 75 ที่เกิดขึ้น) ผลตอบแทนนี้ 30 หมายถึงกลุ่มที่เป็นตัวแทนของสรุป 1,800 ดึงจากการกระจายทวินาม การทดสอบ t-58df ใช้เพื่อเปรียบเทียบค่าเฉลี่ย [การถดถอยโลจิสติก]: การถดถอยโลจิสติกจะดำเนินการกับความลาดชันรหัสจำลองที่เป็นตัวแทนของการเป็นสมาชิกกลุ่มและแต่ละ 1,800 วาด คำถามของฉันมีสองส่วน: เมื่อกำหนดค่าอัลฟ่าเป็น. 05 พลังของวิธีการเหล่านี้จะเหมือนหรือต่างกันหรือไม่ ทำไม? ฉันจะพิสูจน์ได้อย่างไร คำตอบสำหรับคำถามที่ 1 นั้นมีความอ่อนไหวต่อขนาดตัวอย่างที่จะเข้าสู่การทดสอบ t-size ขนาดตัวอย่างของแต่ละกลุ่มในการทดสอบ t-t ความน่าจะเป็นแบบทวินามพื้นฐานหรือปัจจัยอื่น ๆ ถ้าเป็นเช่นนั้นฉันจะรู้ได้อย่างไร …

1
ฉันคำนวณอัตราส่วนความน่าจะเป็นได้เหล่านี้ถูกต้องหรือไม่
ฉันเป็นผู้เขียนแพ็กเกจ ezสำหรับ R และฉันกำลังดำเนินการอัปเดตเพื่อรวมการคำนวณอัตโนมัติของอัตราส่วนความน่าจะเป็น (LRs) ในผลลัพธ์ของ ANOVAs ความคิดคือการให้ LR สำหรับแต่ละผลที่คล้ายกับการทดสอบของผลกระทบที่ ANOVA ประสบความสำเร็จ ตัวอย่างเช่น LR สำหรับเอฟเฟ็กต์หลักหมายถึงการเปรียบเทียบโมเดลโมฆะกับโมเดลที่มีเอฟเฟกต์หลัก LR สำหรับการโต้ตอบแสดงถึงการเปรียบเทียบของโมเดลที่มีเอฟเฟกต์หลักทั้งสองส่วนประกอบกับโมเดลที่มีเอฟเฟกต์หลักและปฏิสัมพันธ์ของพวกเขา ฯลฯ ตอนนี้ความเข้าใจของฉันเกี่ยวกับการคำนวณ LR มาจากGlover & Dixon ( PDF ) ซึ่งครอบคลุมการคำนวณพื้นฐานรวมถึงการแก้ไขความซับซ้อนและภาคผนวกของBortolussi & Dixon ( ภาคผนวก PDF ) ซึ่งครอบคลุมการคำนวณที่เกี่ยวข้องกับตัวแปรการวัดซ้ำ เพื่อทดสอบความเข้าใจของฉันฉันได้พัฒนาสเปรดชีตนี้ซึ่งใช้ dfs & SS จากตัวอย่าง ANOVA (สร้างจากการออกแบบ 2 * 2 * 3 * 4 โดยใช้ข้อมูลปลอม) และขั้นตอนในการคำนวณ …


3
ฉันจะประเมินข้อผิดพลาดมาตรฐานสัมประสิทธิ์ได้อย่างไรเมื่อใช้การถดถอยแบบสัน
ฉันใช้การถดถอยแบบสันบนข้อมูลที่มีค่าหลายระดับสูง ใช้ OLS ฉันได้รับข้อผิดพลาดมาตรฐานขนาดใหญ่ในค่าสัมประสิทธิ์เนื่องจากความหลากหลายทางชีวภาพ ฉันรู้ว่าการถดถอยของสันเขาเป็นวิธีการจัดการกับปัญหานี้ แต่ในการนำไปใช้ทั้งหมดของการถดถอยสันที่ฉันได้ดูไม่มีข้อผิดพลาดมาตรฐานที่รายงานสำหรับสัมประสิทธิ์ ฉันต้องการประเมินว่าการถดถอยของสันเขาช่วยได้มากน้อยเพียงใดโดยดูว่ามันลดความผิดพลาดมาตรฐานของสัมประสิทธิ์ที่เฉพาะเจาะจงได้อย่างไร มีวิธีการประเมินพวกเขาในการถดถอยสัน?

6
การแนะนำที่ดีในเอนโทรปีชนิดต่าง ๆ
ฉันกำลังมองหาหนังสือหรือแหล่งข้อมูลออนไลน์ที่อธิบายถึงเอนโทรปีชนิดต่าง ๆ เช่น Sample Entropy และแชนนอนเอนโทรปีและข้อดีและข้อเสีย ใครบางคนชี้ให้ฉันในทิศทางที่ถูกต้อง?


2
เมื่อไหร่ที่ MCMC กลายเป็นเรื่องธรรมดา?
ไม่มีใครรู้ว่าในปี MCMC กลายเป็นเรื่องธรรมดา (เช่นวิธีการที่นิยมสำหรับการอนุมานแบบเบย์)? ลิงก์ไปยังจำนวนบทความ MCMC (เจอร์นัล) ที่ตีพิมพ์เมื่อเวลาผ่านไปจะเป็นประโยชน์อย่างยิ่ง
18 bayesian  mcmc  history 

5
ทำไมเราไม่ใช้การแจกแจงแบบ t เพื่อสร้างช่วงความมั่นใจสำหรับสัดส่วน?
ในการคำนวณช่วงความเชื่อมั่น (CI) สำหรับค่าเฉลี่ยด้วยค่าเบี่ยงเบนมาตรฐานประชากรที่ไม่รู้จัก (sd) เราประมาณค่าเบี่ยงเบนมาตรฐานประชากรโดยใช้การแจกแจงแบบ t ยวดที่n} แต่เนื่องจากเราไม่ได้ประมาณค่าเบี่ยงเบนมาตรฐานของประชากรเราประเมินผ่านการประมาณโดยที่CI=X¯±Z95%σX¯CI=X¯±Z95%σX¯CI=\bar{X} \pm Z_{95\% }\sigma_{\bar X}σX¯=σn√σX¯=σn\sigma_{\bar X} = \frac{\sigma}{\sqrt n}CI=X¯±t95%(se)CI=X¯±t95%(se)CI=\bar{X} \pm t_{95\% }(se)se=sn√se=snse = \frac{s}{\sqrt n} ในทางตรงกันข้ามสำหรับสัดส่วนประชากรเพื่อคำนวณ CI เราประมาณว่าโดยที่ให้และCI=p^±Z95%(se)CI=p^±Z95%(se)CI = \hat{p} \pm Z_{95\% }(se)se=p^(1−p^)n−−−−−√se=p^(1−p^)nse = \sqrt\frac{\hat{p}(1-\hat{p})}{n}np^≥15np^≥15n \hat{p} \ge 15n(1−p^)≥15n(1−p^)≥15n(1-\hat{p}) \ge 15 คำถามของฉันคือทำไมเราพึงพอใจกับการกระจายมาตรฐานสำหรับสัดส่วนประชากร?

4
วาดจำนวนเต็มอย่างอิสระและสุ่มจาก 1 ถึงโดยใช้ยุติธรรม d6?
ฉันต้องการวาดจำนวนเต็มจาก 1 ถึงเฉพาะเจาะจงโดยการหมุนลูกเต๋าหกเหลี่ยมที่ยุติธรรมจำนวนหนึ่ง (d6) คำตอบที่ดีจะอธิบายว่าทำไมวิธีการในการสร้างจำนวนเต็มเหมือนกันและเป็นอิสระยังไม่มีข้อความNN ในฐานะที่เป็นตัวอย่างที่เป็นตัวอย่างก็จะเป็นประโยชน์ในการอธิบายถึงวิธีการแก้ปัญหาการทำงานสำหรับกรณีของNN = 150N=150N=150 นอกจากนี้ฉันต้องการให้กระบวนการมีประสิทธิภาพมากที่สุด: หมุนจำนวน d6 โดยเฉลี่ยสำหรับแต่ละหมายเลขที่สร้าง อนุญาตการแปลงจากSenaryเป็นทศนิยม คำถามนี้ได้รับแรงบันดาลใจจาก Meta หัวข้อนี้

2
มีการใช้วิธีการค้นหาสายในการเรียนรู้อย่างลึกซึ้งหรือไม่? ทำไมจะไม่ล่ะ?
บทเรียนออนไลน์มากมายพูดคุยเกี่ยวกับการไล่ระดับสีและเกือบทั้งหมดใช้ขนาดขั้นตอนคงที่ (อัตราการเรียนรู้ ) เหตุใดจึงไม่มีการใช้การค้นหาบรรทัด (เช่นการค้นหาบรรทัดย้อนรอยหรือการค้นหาเส้นตรง)αα\alpha

3
ขนาดของชุดงานมีผลต่อการรวมกันของ SGD และทำไม?
ฉันได้เห็นข้อสรุปที่คล้ายกันจากการพูดคุยหลายครั้งว่าเมื่อขนาดของรถมินิบัสเพิ่มขึ้นการบรรจบกันของ SGD จะยากขึ้น / แย่ลงตัวอย่างเช่นบทความนี้และคำตอบนี้ นอกจากนี้ฉันเคยได้ยินคนใช้เทคนิคเช่นอัตราการเรียนรู้ขนาดเล็กหรือขนาดชุดในระยะแรกเพื่อแก้ไขปัญหานี้ด้วยขนาดชุดใหญ่ อย่างไรก็ตามดูเหมือนว่าเคาน์เตอร์ - สัญชาตญาณขณะที่การสูญเสียเฉลี่ยของรถมินิบัสอาจจะคิดว่าเป็นการประมาณการสูญเสียข้อมูลที่คาดว่าจะกระจายข้อมูล ยิ่งขนาดแบทช์ยิ่งมีความแม่นยำมากขึ้นทำไมในทางปฏิบัติไม่เป็นเช่นนั้น?1|X|∑x∈Xl(x,w)≈Ex∼pdata[l(x,w)]1|X|∑x∈Xl(x,w)≈Ex∼pdata[l(x,w)]\frac{1}{|X|}\sum_{x\in X} l(x,w)\approx E_{x\sim p_{data}}[l(x,w)] นี่คือความคิด (อาจผิด) ของฉันที่พยายามอธิบาย พารามิเตอร์ของแบบจำลองขึ้นอยู่กับแต่ละอื่น ๆ เมื่อชุดมีขนาดใหญ่เกินไปมันจะส่งผลกระทบต่อพารามิเตอร์มากเกินไปในคราวเดียวมันยากสำหรับพารามิเตอร์ที่จะไปถึงการพึ่งพาที่มั่นคง? (เช่นปัญหากะกะแปรสภาพภายในที่กล่าวถึงในเอกสารการทำให้เป็นมาตรฐานชุด ) หรือเมื่อพารามิเตอร์เกือบทั้งหมดมีความรับผิดชอบในการวนซ้ำทุกครั้งพวกเขาจะมีแนวโน้มที่จะเรียนรู้รูปแบบที่ซ้ำซ้อนโดยนัยจึงลดความสามารถของตัวแบบ? (ฉันหมายถึงว่าสำหรับปัญหาการจำแนกเลขหลักบางรูปแบบควรมีความรับผิดชอบสำหรับจุดบางส่วนสำหรับขอบ แต่เมื่อสิ่งนี้เกิดขึ้นทุกรูปแบบพยายามที่จะรับผิดชอบรูปร่างทั้งหมด) หรือเป็นเพราะเมื่อขนาดของแบตช์ใกล้เคียงกับขนาดของชุดฝึกอบรมมินิบัสอาจไม่สามารถมองเห็นได้เหมือนไอดอลจากการกระจายข้อมูลอีกต่อไปเนื่องจากมีความน่าจะเป็นมากสำหรับมินิบัสที่สัมพันธ์กันหรือไม่ การปรับปรุง ตามที่ระบุไว้ในคำตอบของเบอนัวต์ซานเชซเหตุผลสำคัญอย่างหนึ่งคือมินิบัสขนาดใหญ่ต้องการการคำนวณที่มากขึ้นเพื่อทำให้การอัปเดตเสร็จสมบูรณ์หนึ่งครั้งและการวิเคราะห์ส่วนใหญ่ใช้จำนวนเงินที่แน่นอนของการฝึก อย่างไรก็ตามบทความนี้ (Wilson และ Martinez, 2003) แสดงให้เห็นว่าขนาดของชุดที่ใหญ่กว่านั้นยังคงเป็นข้อเสียเปรียบเล็กน้อย เป็นเช่นนั้นหรือไม่

2
เหตุใดตระกูลเลขชี้กำลังจึงไม่รวมการแจกแจงทั้งหมด
ฉันกำลังอ่านหนังสือ: บิชอปการจดจำรูปแบบและการเรียนรู้ของเครื่อง (2549) ซึ่งกำหนดตระกูลเอ็กซ์โพเนนเชียลเป็นการแจกแจงของแบบฟอร์ม (Eq. 2.194): p(x|η)=h(x)g(η)exp{ηTu(x)}p(x|η)=h(x)g(η)exp⁡{ηTu(x)}p(\mathbf x|\boldsymbol \eta) = h(\mathbf x) g(\boldsymbol \eta) \exp \{\boldsymbol \eta^\mathrm T \mathbf u(\mathbf x)\} แต่ผมไม่เห็นข้อ จำกัด ที่วางอยู่บนหรือ\ mathbf U (\ mathbf x) นี่ไม่ได้หมายความว่าการแจกแจงใด ๆสามารถใส่ในแบบฟอร์มนี้ได้โดยการเลือกh (\ mathbf x)และ\ mathbf u (\ mathbf x) (อันที่จริงแล้วจะต้องเลือกอย่างใดอย่างหนึ่งอย่างถูกต้อง!) แล้วทำไมครอบครัวเลขชี้กำลังถึงไม่ได้รวมการแจกแจงความน่าจะเป็นทั้งหมด ฉันพลาดอะไรไปu ( x )h(x)h(x)h(\mathbf x)u(x)u(x)\mathbf u(\mathbf x)u ( x …

3
วิธีการดำเนินการแปลงภาพอัตราส่วนภาพสามมิติ
ฉันมีข้อมูลเกี่ยวกับพฤติกรรมการเคลื่อนไหว (เวลาที่ใช้ในการนอนหลับอยู่ประจำที่และทำกิจกรรมทางกาย) ซึ่งมีจำนวนถึง 24 (เช่นในชั่วโมงต่อวัน) ฉันต้องการสร้างตัวแปรที่ใช้เวลาสัมพัทธ์ที่ใช้ในพฤติกรรมเหล่านี้ - ฉันได้รับแจ้งว่าการเปลี่ยนแปลงอัตราส่วนการบันทึกภาพสามมิติจะทำให้สิ่งนี้สำเร็จ ดูเหมือนว่าฉันควรใช้ฟังก์ชั่น ilr ใน R แต่ไม่สามารถหาตัวอย่างที่แท้จริงด้วยรหัสได้ ฉันจะเริ่มที่ไหน ตัวแปรที่ฉันมีคือเวลานอนหลับเวลานั่งนิ่งเฉลี่ยกิจกรรมออกกำลังกายเบา ๆ โดยเฉลี่ยกิจกรรมออกกำลังกายปานกลางปานกลางและออกกำลังกายแข็งแรงโดยเฉลี่ย รายงานการนอนหลับด้วยตนเองในขณะที่คนอื่น ๆ เป็นค่าเฉลี่ยจากวันที่ถูกต้องของข้อมูล accelerometer ดังนั้นสำหรับตัวแปรเหล่านี้เคสจะไม่รวมเท่ากับ 24 ฉันเดาว่าฉันทำงานใน SAS แต่ดูเหมือนว่า R จะใช้งานได้ง่ายกว่าสำหรับส่วนนี้ ดังนั้นการนำเข้าข้อมูลก่อนโดยมีเพียงตัวแปรที่น่าสนใจ จากนั้นใช้ฟังก์ชั่น acomp () จากนั้นฉันไม่สามารถหาไวยากรณ์สำหรับฟังก์ชัน ilr () ได้ ความช่วยเหลือใด ๆ ที่จะได้รับการชื่นชมมาก

2
ควรมีการสุ่มตัวอย่างตัวอย่างการฝึกอบรมสำหรับโครงข่ายประสาทการฝึกอบรมขนาดเล็กแบบสุ่มโดยไม่ต้องเปลี่ยนใหม่หรือไม่?
เรากำหนดยุคเมื่อผ่านตัวอย่างการฝึกอบรมที่มีทั้งหมดและขนาดมินิ - แบทช์เป็นจำนวนตัวอย่างที่เราเฉลี่ยเพื่อค้นหาการอัปเดตสำหรับน้ำหนัก / อคติที่จำเป็นในการไล่ระดับสี คำถามของฉันคือเราควรวาดโดยไม่เปลี่ยนจากชุดตัวอย่างการฝึกอบรมเพื่อสร้าง mini-batch แต่ละชุดภายในยุค ฉันรู้สึกว่าเราควรหลีกเลี่ยงการแทนที่เพื่อให้แน่ใจว่าเรา "ดึงตัวอย่างทั้งหมด" เพื่อตอบสนองความต้องการในตอนท้ายของยุค แต่มีปัญหาในการหาคำตอบที่ชัดเจนไม่ทางใดก็ทางหนึ่ง ฉันได้ลองใช้ Google และอ่าน Ch 1 ในเครือข่ายประสาทและการเรียนรู้เชิงลึกของ Nielsen แต่ไม่พบคำตอบที่ชัดเจน ในข้อความนั้น Nielsen ไม่ได้ระบุว่าการสุ่มตัวอย่างจะทำได้โดยไม่ต้องเปลี่ยน แต่ดูเหมือนจะบอกเป็นนัยว่า การฝึกอบรมอย่างเป็นทางการที่ชัดเจนในยุคนี้สามารถดูได้ที่นี่หากต้องการ - /stats//a/141265/131630 แก้ไข: คำถามนี้ดูเหมือนกับฉัน แต่มันก็ไม่ชัดเจนว่าจะใช้ความจริงที่ว่าความเป็นเส้นตรงของความคาดหวังไม่แยแสกับความเป็นอิสระกับสถานการณ์นี้ - ควรสุ่มตัวอย่างเกิดขึ้นโดยมีหรือไม่มีการเปลี่ยน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.