สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
การปรับให้เรียบ - ควรใช้เมื่อใดและเมื่อใด?
มีโพสต์เก่า ๆ บนบล็อกของ William Briggsซึ่งดูที่ข้อผิดพลาดของการทำให้ข้อมูลเรียบและดำเนินการกับข้อมูลที่ราบรื่นผ่านการวิเคราะห์ อาร์กิวเมนต์ที่สำคัญคือ: หากในช่วงเวลาหนึ่งของความบ้าคุณทำข้อมูลอนุกรมเวลาที่ราบรื่นและคุณใช้มันเป็นข้อมูลป้อนเข้าในการวิเคราะห์อื่น ๆ คุณจะเพิ่มโอกาสในการหลอกตัวเองได้อย่างมาก! เพราะนี่คือการทำให้ราบรื่นสัญญาณปลอม - สัญญาณที่ดูสมจริงกับวิธีการวิเคราะห์อื่น ๆ ไม่ว่าคุณจะแน่ใจในผลลัพธ์สุดท้ายของคุณมากเกินไป! อย่างไรก็ตามฉันพยายามดิ้นรนเพื่อหาบทสนทนาที่ครอบคลุมว่าจะราบรื่นหรือไม่และเมื่อใด มันขมวดคิ้วเพียงเพื่อทำให้ราบรื่นเมื่อใช้ข้อมูลที่ทำให้ราบเรียบเป็นข้อมูลการวิเคราะห์อื่น ๆ หรือมีสถานการณ์อื่น ๆ เมื่อไม่แนะนำให้เรียบ? ในทางกลับกันมีสถานการณ์ที่ควรปรับให้เรียบหรือไม่?

1
วางตำแหน่งลูกศรบน PCA biplot
ฉันต้องการใช้ biplot สำหรับการวิเคราะห์องค์ประกอบหลัก (PCA) ใน JavaScript คำถามของฉันคือฉันจะกำหนดพิกัดของลูกศรจากเอาต์พุตของการแยกสลายเวกเตอร์เอกพจน์ (SVD) ของเมทริกซ์ข้อมูลได้อย่างไรU,V,DU,V,DU,V,D นี่คือตัวอย่าง biplot ที่ผลิตโดย R: biplot(prcomp(iris[,1:4])) ฉันลองค้นหามันในบทความ Wikipedia บน biplotแต่มันไม่มีประโยชน์มาก หรือถูกต้อง ไม่แน่ใจว่าอันไหน
18 pca  svd  biplot 

2
ค่า P ในการทดสอบแบบสองหางพร้อมการแจกแจงโมฆะแบบอสมมาตร
สถานการณ์ของฉันเป็นดังนี้: ฉันต้องการผ่านการศึกษา Monte-Carlo เพื่อเปรียบเทียบค่าpppของการทดสอบที่แตกต่างกันสองรายการสำหรับนัยสำคัญทางสถิติของพารามิเตอร์ที่ประมาณไว้ (null คือ "ไม่มีผล - พารามิเตอร์เป็นศูนย์" และทางเลือกโดยนัยคือ " พารามิเตอร์ไม่ใช่ศูนย์ ") การทดสอบAเป็นมาตรฐาน"อิสระสองตัวอย่าง t-test สำหรับความเท่าเทียมกันของวิธีการ"โดยมีความแปรปรวนเท่ากันภายใต้ null ทดสอบBฉันสร้างเองแล้ว ที่นี่การแจกแจงโมฆะที่ใช้คือการแจกแจงแบบไม่ต่อเนื่องทั่วไปแบบอสมมาตร แต่ฉันได้พบความคิดเห็นต่อไปนี้ในRohatgi & Saleh (2001, 2nd ed, p. 462) "ถ้าการกระจายไม่สมมาตรที่ppp -value ไม่ได้กำหนดไว้อย่างดีในกรณีที่สองด้านแม้จะเขียนหลายคนแนะนำให้สองเท่าด้านเดียวppp -value" ผู้เขียนไม่ได้พูดถึงเรื่องนี้เพิ่มเติมและพวกเขาไม่แสดงความคิดเห็นใน "คำแนะนำของผู้เขียนหลายคน" เพื่อเพิ่มค่า - valueด้านเดียว ppp(นี้จะสร้างคำถาม "คู่ppp -value ของที่ด้านข้างหรือไม่และทำไมด้านนี้และไม่อื่น ๆ ?) ฉันไม่สามารถค้นหาความคิดเห็นความเห็นหรือผลลัพธ์อื่น ๆ ในเรื่องทั้งหมดนี้ได้ ฉันเข้าใจว่าด้วยการกระจายแบบอสมมาตรถึงแม้ว่าเราสามารถพิจารณาช่วงเวลาแบบสมมาตรรอบ ๆ สมมุติฐานว่างเกี่ยวกับค่าของพารามิเตอร์เราจะไม่ได้ความสมมาตรปกติอันดับที่สองนั่นคือการจัดสรรมวลความน่าจะเป็น แต่ฉันไม่เข้าใจว่าทำไมจึงทำให้ ค่าppp …

2
การแจกแจงของตัวแปรปกติที่มีความสัมพันธ์สูงสุดสองตัว
ว่าฉันมีสองมาตรฐานตัวแปรสุ่มปกติX1X1X_1และที่มีร่วมกันตามปกติที่มีค่าสัมประสิทธิ์สหสัมพันธ์R rX2X2X_2rrr ฟังก์ชั่นการกระจายของคืออะไร?max(X1,X2)max(X1,X2)\max(X_1, X_2)

5
หนังสือดีเกี่ยวกับปรัชญาที่อยู่เบื้องหลังการคิดแบบเบย์คืออะไร?
อะไรคือหนังสือที่ดีเกี่ยวกับปรัชญาแบบเบย์, การเปรียบเทียบตัวแบบอัตนัยกับนักเขียนเชิงวัตถุ, อธิบายมุมมองของความน่าจะเป็นว่าเป็นความรู้ในสถิติแบบเบย์เป็นต้น? บางทีหนังสือของ Savage? ตอนแรกฉันคิดว่าเบอร์เกอร์ (1986) สามารถทำงานได้ แต่มันไม่ใช่สิ่งที่ฉันกำลังมองหา การค้นหาหนังสือเช่นนี้ไม่ได้นำไปสู่ผลลัพธ์ที่ฉันต้องการ

5
การตรวจจับการเปลี่ยนแปลงในอนุกรมเวลา (ตัวอย่าง R)
ฉันต้องการตรวจจับการเปลี่ยนแปลงในข้อมูลอนุกรมเวลาซึ่งมักจะมีรูปร่างเหมือนกัน จนถึงตอนนี้ฉันได้ทำงานกับchangepointแพ็คเกจสำหรับ R และcpt.mean(), cpt.var()และcpt.meanvar()ฟังก์ชั่น cpt.mean()ด้วยวิธี PELT จะทำงานได้ดีเมื่อข้อมูลอยู่ในระดับเดียว อย่างไรก็ตามฉันต้องการตรวจจับการเปลี่ยนแปลงในระหว่างการแทรก ตัวอย่างของการเปลี่ยนแปลงที่ฉันต้องการตรวจสอบคือส่วนที่เส้นโค้งสีดำลดลงอย่างกระทันหันในขณะที่จริงควรทำตามเส้นประสีแดงแบบตัวอย่าง ฉันได้ทดลองกับฟังก์ชัน cpt.var () แต่ฉันไม่ได้ผลลัพธ์ที่ดี คุณได้รับคำแนะนำ (ที่ไม่จำเป็นต้องใช้ R) หรือไม่? นี่คือข้อมูลที่มีการเปลี่ยนแปลง (เป็นวัตถุ R): dat.change <- c(12.013995263488, 11.8460207231808, 11.2845153487846, 11.7884417180764, 11.6865425802022, 11.4703118125303, 11.4677576899063, 11.0227199625084, 11.274775836817, 11.03073498338, 10.7771805591742, 10.7383206158923, 10.5847230134625, 10.2479315651441, 10.4196381241735, 10.467607842288, 10.3682422713283, 9.7834431752935, 9.76649842404295, 9.78257968297228, 9.87817694914062, 9.3449034905713, 9.56400153361727, 9.78120084558148, 9.3445162813738, 9.36767436354887, 9.12070987223648, …

1
ความหมายภาษาธรรมดาของการทดสอบแบบ "พึ่งพา" และ "อิสระ" ในวรรณคดีเปรียบเทียบหลายรายการ?
ในทั้งวรรณกรรมอัตราข้อผิดพลาดครอบครัว (FWER) และอัตราการค้นพบที่ผิดพลาด (FDR), วิธีการเฉพาะในการควบคุม FWER หรือ FDR กล่าวว่ามีความเหมาะสมกับการทดสอบขึ้นอยู่กับหรืออิสระ ตัวอย่างเช่นในปี 1979 บทความ "ขั้นตอนการทดสอบการปฏิเสธหลายครั้งอย่างง่าย ๆ " โฮล์มเขียนเพื่อเปรียบเทียบวิธีการแบบupidákแบบ step-up contrastidákกับวิธีการควบคุม Bonferroni แบบขั้นตอนของเขา: ความเรียบง่ายในการคำนวณเดียวกันจะได้รับเมื่อสถิติการทดสอบมีความเป็นอิสระ ใน "การควบคุมอัตราการค้นพบที่ผิด" โดย Benjamini และ Hochberg (1995) ผู้เขียนเขียน: ทฤษฎีบท 1.สำหรับอิสระสถิติการทดสอบและการกำหนดค่าของสมมติฐานที่ผิดพลาดใด ๆ ดังกล่าวข้างต้นการควบคุมขั้นตอนที่ FDR *q∗q∗q^{*} ต่อมาในปี 2544 เบญจมินิและเยคุเตเอลลีเขียน: 1.3 ปัญหาที่เกิดขึ้น เมื่อพยายามที่จะใช้วิธีการ FDR ในทางปฏิบัติสถิติการทดสอบขึ้นอยู่กับการพบบ่อยกว่าคนที่เป็นอิสระตัวอย่างของจุดปลายหลายจุดที่กล่าวถึงข้างต้นเป็นแบบตรงประเด็น ผู้เขียนเหล่านี้ใช้ความหมายใดเป็นพิเศษในการพึ่งพาความเป็นอิสระ ฉันจะมีความสุขกับคำจำกัดความที่เป็นทางการของสิ่งที่ทำให้การทดสอบขึ้นอยู่กับหรือเป็นอิสระจากกันถ้าพวกเขามาพร้อมกับคำอธิบายภาษาธรรมดา ฉันสามารถคิดถึงความหมายต่าง ๆ ที่เป็นไปได้สองสามอย่าง แต่ฉันไม่คิดเลยว่าจะเป็นเช่นนั้น: "Dependent" …

6
จะอธิบายการทดสอบสมมติฐานสำหรับวัยรุ่นในเวลาน้อยกว่า 10 นาทีได้อย่างไร
เป็นเวลากว่าหนึ่งปีแล้วที่ฉันได้ให้เวลาหนึ่งชั่วโมงกับ ทุกครั้งที่ฉันได้รับกลุ่มเด็กที่แตกต่างกันมาและฉันให้พวกเขาเรียน ชุดรูปแบบของชั้นเรียนคือเราทำการทดลองที่เด็ก 10 คน (ผู้ที่ชอบดื่มโคคา - โคล่า) จะได้รับถ้วยสองใบ เด็ก ๆ จะถูกขอให้ตรวจสอบตามรสชาติและกลิ่นซึ่งถ้วยมีเครื่องดื่มโคคาโคล่า จากนั้นฉันต้องอธิบายให้พวกเขารู้วิธีตัดสินใจว่าเด็ก ๆ จะเดาหรือว่าพวกเขา (หรืออย่างน้อยก็พอพวกเขา) มีความสามารถในการลิ้มรสความแตกต่าง 10 ใน 10 ประสบความสำเร็จดีพอหรือไม่ แล้ว 7 จาก 10 ล่ะ แม้หลังจากให้คลาสนี้หลายสิบครั้ง (ในรูปแบบที่แตกต่างกัน) ฉันก็ยังไม่รู้สึกว่าฉันรู้วิธีรับแนวคิดในแบบที่คลาสส่วนใหญ่จะได้รับ หากคุณมีแนวคิดใด ๆ เกี่ยวกับแนวคิดของการทดสอบสมมติฐานสมมติฐานว่างสมมติฐานทางเลือกภูมิภาคที่ถูกปฏิเสธ ฯลฯ สามารถอธิบายได้อย่างง่าย ๆ (!) และวิธีที่เข้าใจง่าย - ฉันชอบที่จะรู้ว่า

1
การใช้ bootstrap ภายใต้ H0 เพื่อทำการทดสอบความแตกต่างของสองวิธี: การเปลี่ยนภายในกลุ่มหรือภายในกลุ่มตัวอย่าง
สมมติว่าฉันมีข้อมูลที่มีสองกลุ่มอิสระ: g1.lengths <- c (112.64, 97.10, 84.18, 106.96, 98.42, 101.66) g2.lengths <- c (84.44, 82.10, 83.26, 81.02, 81.86, 86.80, 85.84, 97.08, 79.64, 83.32, 91.04, 85.92, 73.52, 85.58, 97.70, 89.72, 88.92, 103.72, 105.02, 99.48, 89.50, 81.74) group = rep (c ("g1", "g2"), c (length (g1.lengths), length (g2.lengths))) lengths = data.frame( lengths …

3
ในการทดสอบที่แม่นยำของฟิชเชอร์: การทดสอบใดที่เหมาะสมถ้าผู้หญิงไม่ทราบจำนวนถ้วยแรกของนม?
ในการทดลองชิมชาของผู้หญิงที่มีชื่อเสียงโดย RA Fisher ผู้หญิงคนนั้นได้รับแจ้งว่ามีนมถ้วยแรก / ถ้วยชาครั้งแรกกี่ตัว (4 ถ้วยต่อ 8 ถ้วย) สิ่งนี้จะเป็นการเคารพสมมติฐานทั้งหมดของการทดสอบที่แน่นอนของ Fisher ฉันคิดว่าจะทำแบบทดสอบนี้กับเพื่อนของฉัน แต่ความคิดนั้นทำให้ฉัน ถ้าผู้หญิงสามารถบอกความแตกต่างระหว่างนมคนแรกกับถ้วยชาครั้งแรกได้เธอก็ควรจะสามารถหาผลรวมทั้งหมดของถ้วยนมถ้วยแรกและถ้วยแรกได้เช่นกัน ดังนั้นนี่คือคำถาม: การทดสอบใดที่สามารถนำมาใช้ถ้า RA Fisher ไม่ได้แจ้งให้ผู้หญิงทราบถึงจำนวนถ้วยแรกและถ้วยแรก

2
Hidden Markov Model เทียบกับ Markov Transition Model เทียบกับ State-Space Model …?
สำหรับวิทยานิพนธ์ปริญญาโทของฉันฉันกำลังทำงานเพื่อพัฒนาแบบจำลองทางสถิติสำหรับการเปลี่ยนระหว่างสถานะต่าง ๆ ที่กำหนดโดยสถานะทางเซรุ่มวิทยา สำหรับตอนนี้ฉันจะไม่ให้รายละเอียดมากเกินไปในบริบทนี้เนื่องจากคำถามของฉันเป็นเรื่องทั่วไป / ทางทฤษฎี อย่างไรก็ตามปรีชาญาณของฉันคือฉันควรใช้ Hidden Markov Model (HMM); ปัญหาที่ฉันเจอในขณะที่ฉันอ่านวรรณกรรมและการวิจัยพื้นฐานอื่น ๆ ที่จำเป็นในการสร้างแบบจำลองของฉันคือความสับสนเกี่ยวกับคำศัพท์และความแตกต่างที่แน่นอนระหว่างแบบจำลองกระบวนการที่ซ่อนอยู่ประเภทต่างๆ ฉันเพียง แต่ตระหนักถึงสิ่งที่แตกต่างอย่างชัดเจน (ตัวอย่างมา) ยิ่งกว่านั้นฉันคิดว่าอย่างน้อยจากสิ่งที่ฉันได้เห็นในวรรณคดีมีคำศัพท์ที่ไม่ได้มาตรฐานที่สร้างขึ้นจากการสร้างแบบจำลองนี้ ดังนั้นฉันหวังว่าผู้คนจะช่วยให้ฉันเข้าใจคำศัพท์บางส่วนให้ฉันได้ ฉันมีคำถามจำนวนหนึ่ง แต่ฉันเดาว่าเป็นหนึ่งหรือสองคนได้รับคำตอบที่น่าพอใจส่วนที่เหลือจะกลายเป็น disentangled ฉันหวังว่านี่จะไม่ยืดยาวเกินไป หากผู้ดำเนินรายการต้องการให้ฉันแยกส่วนนี้ออกเป็นหลายโพสต์ ไม่ว่าในกรณีใดฉันใส่คำถามตัวหนาแล้วตามด้วยรายละเอียดของคำถามที่ฉันค้นพบระหว่างการค้นหาวรรณกรรม ดังนั้นในลำดับที่ไม่มี: 1) "รูปแบบกระบวนการที่ซ่อนอยู่" คืออะไร? ฉันทำงานภายใต้ความประทับใจว่า "แบบจำลองกระบวนการซ่อนเร้น" เป็นคำศัพท์ในร่มที่สามารถใช้อธิบายแบบจำลองทางสถิติหลายประเภทคำอธิบายความน่าจะเป็นทั้งหมดของข้อมูลอนุกรมเวลาที่สร้างขึ้นโดย "ระบบการซ้อนทับกัน" อาจซ่อนกระบวนการเชิงเส้น "([1]) อันที่จริง [2] กำหนด "แบบจำลองกระบวนการซ่อนเร้น" เป็น "คำทั่วไปหมายถึงทั้งแบบพื้นที่รัฐหรือแบบจำลองมาร์คอฟที่ซ่อนอยู่" [1] ดูเหมือนจะอนุมานได้ว่าแบบจำลองของมาร์คอฟที่ซ่อนอยู่เป็นรูปแบบย่อยของแบบจำลองกระบวนการที่ซ่อนไว้ซึ่งมุ่งเน้นไปที่การอนุมานในสถานะไบนารี ความหมายพื้นฐานดูเหมือนว่าสำหรับฉันว่าโมเดลกระบวนการที่ซ่อนอยู่เป็นลักษณะทั่วไปของโมเดลมาร์คอฟที่ซ่อนอยู่ บางครั้งฉันเห็น "แบบจำลองกระบวนการที่ซ่อนอยู่" และวลี " สัญชาตญาณในส่วนของฉันนี้ถูกต้องหรือไม่? ถ้าไม่มีใครมีการอ้างอิงที่ชัดเจนกว่าวิธีการเหล่านี้หรือไม่ …

2
ค่าเฉลี่ยของตัวอย่างบู๊ตสแตรปเทียบกับสถิติของตัวอย่าง
บอกว่าผมมีตัวอย่างและตัวอย่างบูตจากตัวอย่างนี้สำหรับ stastitic χχ\chi (เช่นค่าเฉลี่ย) ในฐานะที่เราทุกคนรู้ว่าตัวอย่างบูตนี้ประมาณการกระจายการสุ่มตัวอย่างของประมาณการของสถิติที่ ทีนี้ค่าเฉลี่ยของตัวอย่าง bootstrapนี้เป็นการประมาณค่าสถิติประชากรได้ดีกว่าสถิติของตัวอย่างดั้งเดิมหรือไม่? ภายใต้เงื่อนไขใดที่เป็นเช่นนั้น

2
ทำไม
ลำดับของตัวประมาณค่าUnUnU_nสำหรับพารามิเตอร์θθ\thetaนั้นเป็นสัญญาณเชิงเส้นกำกับปกติหากn−−√(Un−θ)→N(0,v)n(Un−θ)→N(0,v)\sqrt{n}(U_n - \theta) \to N(0,v)) (แหล่งที่มา) แล้วเราเรียกvvvแปรปรวน asymptotic ของUnUnU_nn หากความแปรปรวนนี้มีค่าเท่ากับCramer-Rao ที่ถูกผูกไว้เราบอกว่าตัวประมาณ / ลำดับนั้นมีประสิทธิภาพแบบเชิงเส้นกำกับ คำถาม:ทำไมเราถึงใช้n−−√n\sqrt{n}โดยเฉพาะอย่างยิ่ง? ฉันรู้ว่าสำหรับค่าเฉลี่ยตัวอย่างและดังนั้นตัวเลือกนี้ทำให้มันเป็นมาตรฐาน แต่เนื่องจากคำจำกัดความข้างต้นนำไปใช้กับค่าเฉลี่ยตัวอย่างมากกว่าเหตุใดเราจึงยังคงเลือกที่จะทำให้เป็นมาตรฐานโดย√Var(X¯)=σ2nVar(X¯)=σ2nVar(\bar{X}) = \frac{\sigma^2}{n} .n−−√n\sqrt{n}

1
การแยกแหล่งที่มาของส่วนผสมที่นูนออกมาตาบอด?
สมมติว่าฉันมีแหล่งที่มาอิสระ ,และฉันสังเกตการผสมนูน: X 1 , X 2 , . . , X n m Y 1nnnX1,X2,...,XnX1,X2,...,XnX_1, X_2, ..., X_nmmmY1...Ym=a11X1+a12X2+⋯+a1nXn=am1X1+am2X2+⋯+amnXnY1=a11X1+a12X2+⋯+a1nXn...Ym=am1X1+am2X2+⋯+amnXn\begin{align} Y_1 &= a_{11}X_1 + a_{12}X_2 + \cdots + a_{1n}X_n\\ ...&\\ Y_m &= a_{m1}X_1 + a_{m2}X_2 + \cdots + a_{mn}X_n \end{align} กับสำหรับทุกและสำหรับทุก j∑jaij=1∑jaij=1\sum_j a_{ij} = 1iiiaij≥0aij≥0a_{ij} \ge 0i,ji,ji,j สถานะของศิลปะในการกู้คืนXXXจากYYYคืออะไร PCA ไม่เป็นปัญหาเพราะฉันต้องการส่วนประกอบที่สามารถระบุตัวตนได้ ฉันดูที่ …
18 pca  ica 

2
ทำไมความโด่งของการแจกแจงแบบปกติคือ 3 แทนที่จะเป็น 0
โดยความหมายของคำว่า kurtosis ของการแจกแจงแบบปกติคือ 3 หมายความว่าบนเส้นแนวนอนค่า 3 สอดคล้องกับความน่าจะเป็นสูงสุดหรือ 3 คือโหมดของระบบ? เมื่อฉันดูเส้นโค้งปกติดูเหมือนว่าจุดสูงสุดเกิดขึ้นที่ศูนย์กลางหรือที่ 0 ดังนั้นเหตุใดเคิร์ตซีสจึงไม่เป็น 0 และแทนที่จะเป็น 3

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.