สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

4
ชาปิโร่ - วิลค์เป็นแบบทดสอบปกติที่ดีที่สุดหรือไม่? ทำไมมันจะดีกว่าการทดสอบอื่น ๆ เช่น Anderson-Darling
ฉันได้อ่านบางแห่งในวรรณคดีว่าการทดสอบ Shapiro – Wilk นั้นถือว่าเป็นการทดสอบเชิงบรรทัดฐานที่ดีที่สุดเพราะสำหรับระดับนัยสำคัญที่กำหนดความน่าจะเป็นที่จะปฏิเสธสมมติฐานว่างถ้ามันเป็นเท็จมากกว่าในกรณีอื่น ๆ การทดสอบปกติαα\alpha คุณช่วยอธิบายให้ฉันหน่อยได้มั้ยถ้าใช้วิธีการทางคณิตศาสตร์เทียบกับการทดสอบปกติอื่น ๆ (พูดแบบทดสอบ Anderson – Darling)


3
การตรวจสอบข้ามระบบหรือการบูตสแตรปเพื่อประเมินประสิทธิภาพการจัดหมวดหมู่?
วิธีการสุ่มตัวอย่างที่เหมาะสมที่สุดในการประเมินประสิทธิภาพของตัวจําแนกในชุดข้อมูลเฉพาะและเปรียบเทียบกับตัวจําแนกอื่น ๆ คืออะไร? การตรวจสอบความถูกต้องไขว้นั้นดูเหมือนจะเป็นแบบมาตรฐาน แต่ฉันได้อ่านวิธีการเช่น. 632 bootstrap เป็นตัวเลือกที่ดีกว่า การติดตามผล: การเลือกตัวชี้วัดประสิทธิภาพส่งผลกระทบต่อคำตอบหรือไม่ (ถ้าฉันใช้ AUC แทนความแม่นยำ) เป้าหมายสูงสุดของฉันคือสามารถพูดด้วยความมั่นใจว่าวิธีการเรียนรู้ของเครื่องวิธีหนึ่งดีกว่าอีกชุดหนึ่งสำหรับชุดข้อมูลเฉพาะ

5
ข้อดีของการรักษาแบบสุ่มในแบบผสมคืออะไร
ฉันมีปัญหาในการใช้ประโยชน์จากการติดฉลากแบบจำลองด้วยเหตุผลแบบสุ่มด้วยเหตุผลบางประการ สำหรับฉันดูเหมือนว่าในเกือบทุกกรณีทางออกที่ดีที่สุดคือการรักษาปัจจัยทั้งหมดตามที่ได้รับการแก้ไข ครั้งแรกความแตกต่างของการจับคู่เทียบกับการสุ่มค่อนข้างสุ่ม คำอธิบายมาตรฐานคือหากมีใครสนใจในหน่วยทดลองเฉพาะต่อหนึ่งคนก็ควรใช้เอฟเฟกต์คงที่และหากใครสนใจประชากรที่เป็นตัวแทนของหน่วยทดลองก็ควรใช้เอฟเฟกต์แบบสุ่ม สิ่งนี้ไม่ได้ช่วยอะไรมากเพราะมันบอกเป็นนัย ๆ ว่าสามารถสลับกันระหว่างมุมมองแบบคงที่และแบบสุ่มแม้ว่าข้อมูลและการออกแบบการทดลองยังคงเหมือนเดิม นอกจากนี้คำจำกัดความนี้ส่งเสริมภาพลวงตาว่าหากปัจจัยถูกระบุว่าเป็นแบบสุ่มการอนุมานที่ดึงมาจากตัวแบบนั้นมีความเหมาะสมกับประชากรมากกว่าในกรณีที่ตัวประกอบถูกระบุว่าเป็นแบบคงที่ ในที่สุดGelman แสดงให้เห็นว่าความแตกต่างแบบสุ่มคงที่ทำให้เกิดความสับสน แม้ในระดับคำจำกัดความเนื่องจากมีคำจำกัดความเพิ่มเติมอีกสี่คำของเอฟเฟกต์แบบคงที่และแบบสุ่ม ประการที่สองการประมาณค่าของตัวแบบผสมค่อนข้างซับซ้อน ซึ่งแตกต่างจากโมเดล "คงที่หมดจด" มีมากกว่าสองสามวิธีในการรับค่า p ศาสตราจารย์ Prof. Bates ที่ใช้การประมาณค่า REML ในแพ็คเกจ lme4 ใน R ไปไกลจนปฏิเสธที่จะรายงานค่า p ทั้งหมด . ประการที่สามมีปัญหาที่มืดของจำนวนพารามิเตอร์โดยนัยที่นำมาใช้โดยปัจจัยสุ่ม ตัวอย่างต่อไปนี้คือการปรับตัวของฉันที่อยู่ในอัม & Anderson, รุ่นการคัดเลือกและมีหลายรุ่นอนุมาน: วิธีการข้อมูลตามทฤษฎีปฏิบัติ จากมุมมองการแลกเปลี่ยนความแปรปรวนแบบอคติบทบาทของเอฟเฟกต์แบบสุ่มสามารถแสดงได้ดังนี้ พิจารณาการวิเคราะห์ความแปรปรวนแบบทางเดียวกับรีทเม้นต์และKปัจจัยหลักซึ่งK - 1สามารถประมาณได้ คำผิดพลาดมีN ( 0 , σ 2 )เพิ่มขึ้น สมมติว่าเราบอกว่าKผลกระทบหลักมาจากN (KKKKKKK−1K−1K - 1N(0,σ2)N(0,σ2)\mathcal …

5
ตัวอย่างของ PCA ที่พีซีที่มีความแปรปรวนต่ำ“ มีประโยชน์”
โดยปกติในการวิเคราะห์องค์ประกอบหลัก (PCA) มีการใช้พีซีสองสามเครื่องแรกและพีซีแบบแปรปรวนต่ำจะหล่นเนื่องจากไม่ได้อธิบายความแปรปรวนของข้อมูลมากนัก อย่างไรก็ตามมีตัวอย่างที่พีซีที่มีรูปแบบต่ำมีประโยชน์ (เช่นมีการใช้งานในบริบทของข้อมูลมีคำอธิบายที่เข้าใจง่ายเป็นต้น) และไม่ควรถูกทิ้ง?
24 pca 

1
ค่าเบี่ยงเบนมาตรฐานของการสังเกตที่ถูกทำให้โค้งงอ
ฉันมีชุดข้อมูลของการสังเกตตัวอย่างเก็บไว้เป็นจำนวนภายในช่วงถังขยะ เช่น: min/max count 40/44 1 45/49 2 50/54 3 55/59 4 70/74 1 ทีนี้การหาค่าประมาณโดยเฉลี่ยจากสิ่งนี้ค่อนข้างตรงไปตรงมา เพียงใช้ค่าเฉลี่ย (หรือค่ามัธยฐาน) ของแต่ละช่วง bin เป็นค่าสังเกตและนับเป็นน้ำหนักและหาค่าเฉลี่ยถ่วงน้ำหนัก: x¯∗=1∑Ni=1wi∑i=1Nwixix¯∗=1∑i=1Nwi∑i=1Nwixi\bar{x}^* = \frac{1}{\sum_{i=1}^N w_i} \sum_{i=1}^N w_ix_i สำหรับกรณีทดสอบของฉันนี่ให้ฉัน 53.82 คำถามของฉันตอนนี้คือวิธีที่ถูกต้องในการหาค่าเบี่ยงเบนมาตรฐาน (หรือความแปรปรวน) คืออะไร? จากการค้นหาของฉันฉันพบคำตอบหลายข้อ แต่ฉันไม่แน่ใจว่ามีชุดไหนที่เหมาะสมกับชุดข้อมูลของฉัน ผมสามารถที่จะหาสูตรต่อไปนี้ทั้งในคำถามที่นี่อีกและเอกสาร NIST สุ่ม s2∗=∑Ni=1wi(xi−x¯∗)2(M−1)M∑Ni=1wis2∗=∑i=1Nwi(xi−x¯∗)2(M−1)M∑i=1Nwis^{2*} = \frac{ \sum_{i=1}^N w_i (x_i - \bar{x}^*)^2 }{ \frac{(M-1)}{M} \sum_{i=1}^N w_i } ซึ่งให้ค่าเบี่ยงเบนมาตรฐาน …

2
ต้องมีชุดฝึกอบรมขนาดใหญ่เท่าใด
มีวิธีการทั่วไปที่ใช้ในการกำหนดจำนวนตัวอย่างการฝึกอบรมที่จำเป็นในการฝึกอบรมลักษณนาม (LDA ในกรณีนี้) หรือไม่ ฉันถามเพราะฉันต้องการลดเวลาในการสอบเทียบให้น้อยที่สุดตามปกติในอินเทอร์เฟซของคอมพิวเตอร์สมอง

3
กำหนดกลุ่มข้อมูล 1d ที่แตกต่างจากฐานข้อมูล
ฉันมีตารางฐานข้อมูลของการถ่ายโอนข้อมูลระหว่างโหนดที่แตกต่างกัน นี่เป็นฐานข้อมูลขนาดใหญ่ (มีการโอนเกือบ 40 ล้านครั้ง) หนึ่งในแอ็ตทริบิวต์คือจำนวนไบต์ (nbytes) ที่ถ่ายโอนซึ่งมีช่วงตั้งแต่ 0 ไบต์ถึง 2 tera ไบต์ ฉันต้องการคลัสเตอร์ nbytes เช่นนั้นที่ได้รับ k กลุ่มบางการถ่ายโอน x1 เป็นของคลัสเตอร์ k1, x2 transfters เพื่อ k2 ฯลฯ จากคำศัพท์ที่ฉันใช้คุณอาจเดาได้ว่าฉันกำลังจะไปกับอะไร: K-mean นี่เป็นข้อมูล 1d เนื่องจาก nbytes เป็นคุณสมบัติเดียวที่ฉันสนใจ เมื่อฉันกำลังค้นหาวิธีการที่แตกต่างกันนี้ฉันเห็น EM ถูกพูดถึงสองสามครั้งพร้อมกับวิธีการไม่จัดกลุ่ม ฉันต้องการทราบเกี่ยวกับมุมมองของคุณเกี่ยวกับวิธีการแก้ไขปัญหานี้ (โดยเฉพาะอย่างยิ่งว่าจะจัดกลุ่มหรือไม่จัดกลุ่ม) ขอบคุณ!

2
วิธีการออกแบบและใช้งานฟังก์ชั่นการสูญเสียไม่สมดุลสำหรับการถดถอย?
ปัญหา ในการถดถอยเรามักจะคำนวณความผิดพลาดกำลังสองเฉลี่ย (MSE) สำหรับตัวอย่าง: เพื่อวัดคุณภาพของเครื่องทำนายMSE=1n∑i=1n(g(xi)−gˆ(xi))2MSE=1n∑i=1n(g(xi)−g^(xi))2 \text{MSE} = \frac{1}{n} \sum_{i=1}^n\left(g(x_i) - \widehat{g}(x_i)\right)^2 ตอนนี้ฉันกำลังทำงานกับปัญหาการถดถอยที่เป้าหมายคือการคาดการณ์ราคาที่ลูกค้ายินดีจ่ายสำหรับผลิตภัณฑ์ที่มีคุณสมบัติเป็นตัวเลขจำนวนหนึ่ง หากราคาที่คาดการณ์ไว้สูงเกินไปไม่มีลูกค้าจะซื้อผลิตภัณฑ์ แต่การสูญเสียทางการเงินต่ำเพราะราคาสามารถลดลงได้ง่าย แน่นอนว่าไม่ควรสูงเกินไปเพราะอาจไม่สามารถซื้อผลิตภัณฑ์ได้เป็นเวลานาน ในทางกลับกันหากราคาที่คาดการณ์ไว้ต่ำเกินไปผลิตภัณฑ์จะถูกซื้ออย่างรวดเร็วโดยไม่มีโอกาสปรับราคา กล่าวอีกนัยหนึ่งอัลกอริทึมการเรียนรู้ควรทำนายราคาที่สูงขึ้นเล็กน้อยซึ่งสามารถลดลงได้หากจำเป็นแทนที่จะประเมินราคาที่แท้จริงต่ำกว่าซึ่งจะส่งผลให้เกิดการสูญเสียเงินทันที คำถาม คุณจะออกแบบเมตริกข้อผิดพลาดที่รวมค่าใช้จ่ายไม่สมดุลนี้ได้อย่างไร ทางออกที่เป็นไปได้ วิธีการกำหนดฟังก์ชั่นการสูญเสียแบบอสมมาตรคือเพียงแค่คูณด้วยน้ำหนัก: โดยที่เป็นพารามิเตอร์ที่เราสามารถปรับเปลี่ยนระดับของความไม่สมดุลได้ ฉันได้พบมันนี่ ดูเหมือนว่าสิ่งที่ตรงไปตรงมาที่สุดที่จะทำในขณะที่ยังคงสูญเสียกำลังสอง1n∑i=1n∣∣α−1(g(xi)−gˆ(xi))&lt;0∣∣⋅(g(xi)−gˆ(xi))21n∑i=1n|α−1(g(xi)−g^(xi))&lt;0|⋅(g(xi)−g^(xi))2 \frac{1}{n} \sum_{i=1}^n \left| \alpha - \mathbb{1}_{(g(x_i) - \widehat{g}(x_i)) < 0} \right|\cdot \left(g(x_i) - \widehat{g}(x_i)\right)^2 α∈(0,1)α∈(0,1)\alpha \in (0,1)

1
จะกำหนดเงื่อนไขการยกเลิกสำหรับการไล่ระดับสีได้อย่างไร
ที่จริงแล้วฉันอยากถามคุณว่าฉันจะกำหนดเงื่อนไขการยุติสำหรับการไล่ระดับสีได้อย่างไร ฉันสามารถหยุดมันตามจำนวนการวนซ้ำได้หรือไม่เช่นการพิจารณาค่าพารามิเตอร์สำหรับการพูดการวนซ้ำ 100 ครั้ง หรือฉันควรรอดังกล่าวที่แตกต่างกันในค่าพารามิเตอร์ที่สอง 'ใหม่' และ 'เก่า' ที่มีขนาดเล็กมากที่จะสั่งของให้พูด ? นี้จะใช้เวลาแน่นอน10- 610-610^{-6} วิธีที่ดีที่สุดคืออะไร? ในกรณีของฉันการทำซ้ำแม้แต่ครั้งเดียวก็ใช้เวลามาก ในสถานการณ์เช่นนี้หากฉันรอเงื่อนไขที่ 2 อาจต้องใช้เวลาหลายสัปดาห์กว่าที่ฉันจะเดาได้ ดังนั้นฉันควรใช้วิธีใด วิธีจัดการกับสถานการณ์นี้

1
วิธีการมองเห็นตารางฉุกเฉินที่กระจัดกระจายอย่างมาก?
ฉันมีสองตัวแปร: ชื่อยา (DN) และเหตุการณ์ไม่พึงประสงค์ที่เกี่ยวข้อง (AE) ที่เกี่ยวข้องซึ่งมีความสัมพันธ์แบบกลุ่มต่อกลุ่ม ชื่อยา 33,556 รายการและเหตุการณ์ไม่พึงประสงค์ 9,516 รายการ ขนาดตัวอย่างประมาณ 5.8 ล้านข้อสังเกต ฉันต้องการศึกษาและเข้าใจความสัมพันธ์ / ความสัมพันธ์ระหว่าง DN และ AE ฉันกำลังคิดเกี่ยวกับวิธีการมองภาพชุดนี้ใน R เพราะจะดีกว่าที่จะดูรูปภาพ ฉันไม่แน่ใจว่าจะทำอย่างไร ...

5
ตัวอย่างอิสระ t-test มีความแข็งแกร่งเพียงใดเมื่อการแจกแจงตัวอย่างไม่ปกติ?
ฉันได้อ่านแล้วว่าการทดสอบเสื้อยืดนั้น "แข็งแกร่งพอสมควร" เมื่อการแจกแจงของตัวอย่างนั้นออกจากภาวะปกติ แน่นอนว่ามันคือการกระจายตัวตัวอย่างของความแตกต่างที่สำคัญ ฉันมีข้อมูลสำหรับสองกลุ่ม กลุ่มใดกลุ่มหนึ่งมีความเบ้สูงของตัวแปรตาม ขนาดตัวอย่างค่อนข้างเล็กสำหรับทั้งสองกลุ่ม (n = 33 ในหนึ่งและ 45 ในอีกกลุ่ม) ฉันควรสมมติว่าภายใต้เงื่อนไขเหล่านี้การทดสอบเสื้อยืดของฉันจะทนทานต่อการละเมิดข้อสันนิษฐานทั่วไปหรือไม่

1
ช่วงการทำนายการถดถอยเชิงเส้น
หากการประมาณเชิงเส้นที่ดีที่สุด (โดยใช้กำลังสองน้อยที่สุด) ของจุดข้อมูลของฉันคือเส้นฉันจะคำนวณข้อผิดพลาดการประมาณได้อย่างไร ถ้าฉันคำนวณค่าเบี่ยงเบนมาตรฐานของความแตกต่างระหว่างการสังเกตและการคาดการณ์ฉันจะพูดในภายหลังว่าค่าจริง (แต่ไม่ได้สังเกต)เป็นของช่วง ( ) ที่มีความน่าจะเป็น ~ 68% สมมติว่ามีการแจกแจงแบบปกติหรือไม่?e i = r e a l ( x i ) - ( m x i + b ) y r = r e a l ( x 0 ) [ y p - σ , y p + σ …

4
สถิติทางคณิตศาสตร์และสถิติแตกต่างกันอย่างไร
สถิติและสถิติทางคณิตศาสตร์ต่างกันอย่างไร ฉันได้อ่านสิ่งนี้ : สถิติคือการศึกษาของการเก็บรวบรวมองค์กรการวิเคราะห์และการตีความข้อมูล มันเกี่ยวข้องกับทุกด้านของเรื่องนี้รวมถึงการวางแผนการเก็บข้อมูลในแง่ของการออกแบบการสำรวจและการทดลอง และนี่คือ : สถิติทางคณิตศาสตร์เป็นการศึกษาสถิติจากมุมมองทางคณิตศาสตร์โดยใช้ทฤษฎีความน่าจะเป็นรวมถึงสาขาคณิตศาสตร์อื่น ๆ เช่นพีชคณิตเชิงเส้นและการวิเคราะห์ ดังนั้นความแตกต่างระหว่างพวกเขาคืออะไร? ฉันสามารถเข้าใจได้ว่ากระบวนการของการรวบรวมอาจไม่ใช่คณิตศาสตร์ แต่ฉันเดาว่าการจัดระเบียบการวิเคราะห์และการตีความเป็นสิ่งที่ฉันทำหายไปหรือไม่

2
คุณควรทำการวินิจฉัยการถดถอยเชิงเส้นในลำดับใด
ในการวิเคราะห์การถดถอยเชิงเส้นเราวิเคราะห์ค่าผิดปกติตรวจสอบความสัมพันธ์หลายระดับทดสอบความแตกต่าง คำถามคือ: มีคำสั่งให้ใช้สิ่งเหล่านี้หรือไม่? ฉันหมายความว่าเราต้องวิเคราะห์ค่าผิดปกติก่อนแล้วจึงตรวจสอบค่าความสัมพันธ์หลายระดับ? หรือย้อนกลับ มีกฎของหัวแม่มือเกี่ยวกับเรื่องนี้หรือไม่?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.