สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
ช่วงความเชื่อมั่นสำหรับการสุ่มตัวอย่าง Bernoulli
ฉันมีตัวอย่างแบบสุ่มของตัวแปรสุ่มของ Bernoulliโดยที่คือ iidrv และและเป็นพารามิเตอร์ที่ไม่รู้จักX1...XNX1...XNX_1 ... X_NXiXiX_iP(Xi=1)=pP(Xi=1)=pP(X_i = 1) = pppp เห็นได้ชัดว่าหนึ่งสามารถหาประมาณการสำหรับ : Npppp^:=(X1+⋯+XN)/Np^:=(X1+⋯+XN)/N\hat{p}:=(X_1+\dots+X_N)/N คำถามของฉันคือฉันจะสร้างช่วงความมั่นใจสำหรับอย่างไรppp

3
ฟังก์ชั่นวัตถุประสงค์ของ PCA คืออะไร?
การวิเคราะห์องค์ประกอบหลักสามารถใช้การสลายตัวของเมทริกซ์ แต่นั่นเป็นเพียงเครื่องมือในการเดินทาง คุณจะค้นหาส่วนประกอบหลักโดยไม่ใช้พีชคณิตเมทริกซ์ได้อย่างไร ฟังก์ชั่นวัตถุประสงค์ (เป้าหมาย) คืออะไรและมีข้อ จำกัด อะไร?
42 pca 

5
การเรียนรู้ของเครื่องมีประโยชน์น้อยกว่าสำหรับการทำความเข้าใจถึงเวรกรรมซึ่งน่าสนใจน้อยกว่าสำหรับสังคมศาสตร์หรือไม่?
ความเข้าใจของฉันเกี่ยวกับความแตกต่างระหว่างการเรียนรู้ด้วยเครื่อง / เทคนิคการทำนายเชิงสถิติอื่น ๆ กับชนิดของสถิติที่นักวิทยาศาสตร์สังคม (เช่นนักเศรษฐศาสตร์) ใช้คือนักเศรษฐศาสตร์ดูเหมือนจะสนใจอย่างมากในการทำความเข้าใจผลของตัวแปรเดี่ยวหรือตัวแปรหลายตัว ขนาดและการตรวจสอบว่าความสัมพันธ์เป็นสาเหตุ สำหรับเรื่องนี้คุณจะต้องเกี่ยวข้องกับตัวเองด้วยวิธีการทดลองและกึ่งทดลอง ฯลฯ การเรียนรู้ด้วยเครื่องหรือการสร้างแบบจำลองทางสถิติที่สามารถคาดการณ์ได้มักจะมองข้ามแง่มุมนี้และในหลายกรณีไม่ได้ให้ระดับที่เฉพาะเจาะจงซึ่งตัวแปรหนึ่งมีผลต่อผลลัพธ์ (logit และ probit ดูเหมือนจะทำทั้งสองอย่าง) คำถามที่เกี่ยวข้องคือตัวแบบทางเศรษฐศาสตร์หรือแบบจำลองพฤติกรรมที่ได้รับแรงบันดาลใจทางทฤษฎีในระดับใดมีข้อได้เปรียบมากกว่าตัวแบบแบบไม่เชื่อเรื่องพระเจ้าเมื่อคาดการณ์โดเมนใหม่? การเรียนรู้ด้วยเครื่องหรือนักสถิติเชิงพยากรณ์จะพูดอย่างไรกับการวิพากษ์วิจารณ์ว่าหากไม่มีแบบจำลองทางเศรษฐกิจคุณจะไม่สามารถคาดการณ์ตัวอย่างใหม่ได้อย่างถูกต้องที่ผู้แปรสภาพมีความแตกต่างกันมาก ฉันมีความสุขจริงๆที่ได้ยินว่าผู้คนรับสิ่งนี้จากทุกมุมมอง

5
สัมประสิทธิ์การถดถอยโลจิสติกส์มีความสำคัญอย่างไร?
ฉันกำลังอ่านบทความเกี่ยวกับตำแหน่งการลงคะแนนและการตั้งค่าการลงคะแนนในการเลือกตั้งปี 2000 และ 2004 ในนั้นมีแผนภูมิที่แสดงค่าสัมประสิทธิ์การถดถอยโลจิสติก จากหลักสูตรปีหลัง ๆ และอ่านน้อยฉันเข้าใจการถดถอยโลจิสติกเป็นวิธีการอธิบายความสัมพันธ์ระหว่างตัวแปรอิสระหลายตัวและตัวแปรตอบกลับแบบไบนารี่ สิ่งที่ฉันสับสนเกี่ยวกับคือให้ตารางด้านล่างเพราะภาคใต้มีค่าสัมประสิทธิ์การถดถอยโลจิสติกที่. 903 นั่นหมายความว่า 90.3% ของภาคใต้โหวตสาธารณรัฐรีพับลิกัน? เนื่องจากลักษณะทางลอจิสติกของตัวชี้วัดจึงไม่มีความสัมพันธ์โดยตรงนี้ แต่ฉันคิดว่าคุณสามารถพูดได้ว่าทางใต้ด้วย. 903 โหวตให้รีพับลิกันมากกว่าภูเขา / ที่ราบด้วยการลดลงของ. 506 เมื่อพิจารณาถึงกรณีฉันจะรู้ได้อย่างไรว่าอะไรคือสิ่งสำคัญและอะไรที่ไม่เป็นไปได้และเป็นไปได้ที่จะประเมินเปอร์เซ็นต์ของการลงมติพรรครีพับลิกันจากค่าสัมประสิทธิ์การถดถอยแบบโลจิสติกส์ ในฐานะที่เป็นบันทึกด้านข้างโปรดแก้ไขโพสต์ของฉันหากมีสิ่งใดที่ระบุไว้ไม่ถูกต้อง

8
วิธีการตรวจหาชุมชนในเครือข่ายโซเชียล / กราฟถ่วงน้ำหนัก
ฉันสงสัยว่าใครบางคนสามารถแนะนำสิ่งที่เป็นจุดเริ่มต้นที่ดีเมื่อพูดถึงการดำเนินการตรวจสอบชุมชน / การแบ่งกราฟ / การจัดกลุ่มบนกราฟที่มีขอบแบบถ่วงน้ำหนักและไม่มีทิศทาง กราฟที่มีปัญหานั้นมีขอบประมาณ 3 ล้านเส้นและแต่ละขอบจะแสดงระดับความคล้ายคลึงกันระหว่างจุดยอดทั้งสองที่เชื่อมต่อ โดยเฉพาะอย่างยิ่งในชุดข้อมูลนี้เป็นบุคคลและจุดยอดเป็นตัวชี้วัดความคล้ายคลึงกันของพฤติกรรมที่สังเกตได้ ในอดีตฉันทำตามคำแนะนำที่ฉันได้รับที่นี่ใน stats.stackexchange.com และใช้การดำเนินการตามกฎเกณฑ์ของการจัดกลุ่มแบบแยกส่วนของนิวแมนและพอใจกับผลการทดลอง มีอัลกอริทึมเฉพาะที่ฉันควรจะดูหรือไม่?

5
วิธีที่จะทำให้ชุดเวลานิ่ง?
นอกเหนือจากการรับความแตกต่างแล้วมีเทคนิคอื่นใดสำหรับการสร้างซีรีส์เวลาที่ไม่หยุดนิ่ง ปกติหนึ่งหมายถึงชุดว่า " บูรณาการของการสั่งซื้อหน้า " ถ้ามันสามารถทำนิ่งผ่านผู้ประกอบการล่าช้าX_t(1−L)PXt(1−L)PXt(1-L)^P X_t


8
ฉันจะให้ผู้คนดูแลข้อมูลได้ดีขึ้นได้อย่างไร
สถานที่ทำงานของฉันมีพนักงานจากหลากหลายสาขาดังนั้นเราจึงสร้างข้อมูลในรูปแบบที่แตกต่างกันมากมาย ดังนั้นแต่ละทีมจึงได้พัฒนาระบบของตัวเองเพื่อเก็บข้อมูล บางคนใช้ฐานข้อมูล Access หรือ SQL บางทีม (กับความสยองขวัญของฉัน) พึ่งพาสเปรดชีต Excel เกือบทั้งหมด บ่อยครั้งที่รูปแบบข้อมูลเปลี่ยนจากโครงการเป็นโครงการ ในบางกรณีเรียกมันว่า 'ระบบ' ใจดีเกินไป ปัญหาที่เกิดขึ้นคือฉันต้องเขียนโค้ดใหม่เพื่อล้างข้อมูลสำหรับทุกโครงการซึ่งมีราคาแพง ผู้คนทำการแก้ไขสเปรดชีตด้วยตนเองทำให้สามารถทำซ้ำได้และตรวจสอบข้อมูลไม่ได้ และยิ่งแย่ลงไปกว่านั้นมีโอกาสที่ข้อมูลจะสูญหายหรือทำให้ข้อมูลไม่ถูกต้อง ฉันได้รับโอกาสในการหารือเกี่ยวกับปัญหาเหล่านี้กับสมาชิกคณะกรรมการของ บริษัท และฉันต้องอธิบายสิ่งที่จะบอกเขา ฉันคิดว่าฉันได้ชักชวนเขาว่าเรามีปัญหาและการได้รับสิทธินี้จะช่วยให้วิทยาศาสตร์ดีขึ้นและประหยัดเงินได้ คำถามคือเราควรจะตั้งเป้าหมายอะไรและเราจะไปที่นั่นได้อย่างไร โดยเฉพาะอย่างยิ่ง: เราควรเก็บข้อมูลอย่างไรในแบบที่ทำให้เราสามารถติดตามได้ตั้งแต่การสร้างไปจนถึงการเผยแพร่ในกระดาษ (ฐานข้อมูลเก็บไว้ในเซิร์ฟเวอร์กลางหรือไม่?) คุณจะทำอย่างไรเกี่ยวกับรูปแบบฐานข้อมูลมาตรฐาน? มีแหล่งข้อมูลที่ดีสำหรับการให้การศึกษาแก่ผู้คนเกี่ยวกับวิธีการดูแลข้อมูลหรือไม่ (ตามกฎทั่วไปนักสุขอนามัยและวิศวกรวัตถุระเบิดไม่ใช่ผู้เชี่ยวชาญด้านข้อมูลดังนั้นควรเลือกเนื้อหาที่ไม่ใช่ด้านเทคนิค)

6
ขั้นตอนวิธีใดที่ใช้ในการถดถอยเชิงเส้น
ฉันมักจะได้ยินเกี่ยวกับ "กำลังสองน้อยที่สุดธรรมดา" นั่นเป็นอัลกอริทึมที่ใช้กันอย่างแพร่หลายที่สุดสำหรับการถดถอยเชิงเส้นหรือไม่? มีเหตุผลที่จะใช้อันอื่นหรือไม่?

6
ทำไมต้องลดตัวอย่าง
สมมติว่าฉันต้องการเรียนรู้ลักษณนามที่ทำนายว่าอีเมลเป็นสแปมหรือไม่ และสมมติว่าอีเมลเพียง 1% เท่านั้นที่เป็นสแปม สิ่งที่ง่ายที่สุดที่จะทำคือการเรียนรู้ลักษณนามลวงที่ระบุว่าไม่มีอีเมลใดเป็นสแปม ตัวจําแนกนี้จะให้ความแม่นยำกับเราถึง 99% แต่จะไม่ได้เรียนรู้อะไรที่น่าสนใจ เพื่อแก้ปัญหานี้ผู้คนบอกให้ฉัน "ตัวอย่าง" หรือเรียนรู้ในส่วนย่อยของข้อมูลที่ตัวอย่าง 50% เป็นสแปมและ 50% ไม่ใช่สแปม แต่ฉันกังวลเกี่ยวกับวิธีการนี้ตั้งแต่เมื่อเราสร้างตัวจําแนกนี้และเริ่มใช้มันในคลังข้อความจริง ไม่จริงๆ เพียงเพราะมันเคยเห็นสแปมมากกว่าที่มีอยู่ในชุดข้อมูล แล้วเราจะแก้ไขปัญหานี้อย่างไร ("Upsampling" หรือทำซ้ำตัวอย่างการฝึกอบรมเชิงบวกหลาย ๆ ครั้งดังนั้นข้อมูล 50% เป็นตัวอย่างการฝึกอบรมเชิงบวกดูเหมือนว่าจะประสบปัญหาที่คล้ายกัน)

3
การคำนวณสหสัมพันธ์ของเพียร์สันหรือสเปียร์แมนนั้นมีความหมายหรือไม่ระหว่างสองเวกเตอร์บูลีน
มีเวกเตอร์บูลีนสองตัวซึ่งมี 0 และ 1 เท่านั้น หากฉันคำนวณความสัมพันธ์ของ Pearson หรือ Spearman พวกเขามีความหมายหรือสมเหตุสมผลหรือไม่

2
วิธีการเขียนคำศัพท์ใน lm แตกต่างกันอย่างไร
ฉันมีคำถามเกี่ยวกับวิธีที่ดีที่สุดในการระบุการโต้ตอบในตัวแบบการถดถอย พิจารณาข้อมูลต่อไปนี้: d <- structure(list(r = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L), .Label = c("r1","r2"), class = "factor"), s = structure(c(1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 1L, 1L, 1L, 1L, 1L, 2L, …

5
เราตีความน้ำหนักของคุณสมบัติ SVM อย่างไร
ฉันกำลังพยายามตีความน้ำหนักของตัวแปรที่กำหนดโดยการปรับ SVM เชิงเส้นให้เหมาะสม (ฉันใช้Scikit เรียนรู้ ): from sklearn import svm svm = svm.SVC(kernel='linear') svm.fit(features, labels) svm.coef_ ฉันไม่พบสิ่งใดในเอกสารที่ระบุวิธีการคำนวณหรือตีความน้ำหนักเหล่านี้โดยเฉพาะ เครื่องหมายของน้ำหนักมีส่วนร่วมกับชั้นเรียนหรือไม่?

4
ความฉงนคืออะไร?
ฉันเจอคำที่ทำให้งงซึ่งหมายถึงความน่าจะเป็นค่าผกผันเฉลี่ยของข้อมูลที่มองไม่เห็น บทความ Wikipedia เกี่ยวกับความงุนงงไม่ได้ให้ความหมายที่เข้าใจง่ายสำหรับสิ่งเดียวกัน การวัดความฉงนสนเท่ห์นี้ใช้ในกระดาษpLSA ใครสามารถอธิบายความต้องการและความหมายที่เข้าใจง่ายของการวัดที่น่างง ?

6
ความสำคัญของการฟื้นฟูท้องถิ่นใน CNN
ฉันพบว่า Imagenet และ CNN ขนาดใหญ่อื่น ๆ ใช้ประโยชน์จากเลเยอร์การทำให้เป็นมาตรฐานการตอบสนองในท้องถิ่น อย่างไรก็ตามฉันไม่พบข้อมูลมากมายเกี่ยวกับพวกเขา มีความสำคัญเพียงใดและควรใช้เมื่อใด จากhttp://caffe.berkeleyvision.org/tutorial/layers.html#data-layers : "เลเยอร์การปรับสภาพการตอบสนองแบบโลคอลดำเนินการ“ การยับยั้งด้านข้าง” โดยการทำให้เป็นมาตรฐานในพื้นที่อินพุตท้องถิ่นในโหมด ACROSS_CHANNELS ภูมิภาคภายในจะขยายผ่านช่องทางใกล้เคียง แต่ไม่มีขอบเขตเชิงพื้นที่ (เช่นมีรูปร่างเป็น local_size x 1 x 1) ในโหมด WITHIN_CHANNEL ภูมิภาคท้องถิ่นจะขยายพื้นที่ออกไป แต่อยู่ในช่องแยก (เช่นพวกเขามีรูปร่าง 1 x local_size x local_size) แต่ละค่าอินพุตจะถูกหารด้วย (1+ (α / n) ∑ix2i) βโดยที่ n คือขนาดของแต่ละพื้นที่ท้องถิ่นและผลรวมจะถูกยึดเหนือพื้นที่ที่อยู่กึ่งกลางที่ค่านั้น (เพิ่มการเติมศูนย์เป็นศูนย์หากจำเป็น) " แก้ไข: ดูเหมือนว่าชั้นเหล่านี้มีผลกระทบน้อยที่สุดและไม่ได้ใช้อีกต่อไป โดยทั่วไปบทบาทของพวกเขาได้รับการ outplayed โดยเทคนิคการทำให้เป็นมาตรฐานอื่น ๆ …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.