สถิติและข้อมูลขนาดใหญ่

2

ช่วงความเชื่อมั่นสำหรับการสุ่มตัวอย่าง Bernoulli

ฉันมีตัวอย่างแบบสุ่มของตัวแปรสุ่มของ Bernoulliโดยที่คือ iidrv และและเป็นพารามิเตอร์ที่ไม่รู้จักX1...XNX1...XNX_1 ... X_NXiXiX_iP(Xi=1)=pP(Xi=1)=pP(X_i = 1) = pppp เห็นได้ชัดว่าหนึ่งสามารถหาประมาณการสำหรับ : Npppp^:=(X1+⋯+XN)/Np^:=(X1+⋯+XN)/N\hat{p}:=(X_1+\dots+X_N)/N คำถามของฉันคือฉันจะสร้างช่วงความมั่นใจสำหรับอย่างไรppp

42 confidence-interval binomial bernoulli-distribution

3

ฟังก์ชั่นวัตถุประสงค์ของ PCA คืออะไร?

การวิเคราะห์องค์ประกอบหลักสามารถใช้การสลายตัวของเมทริกซ์ แต่นั่นเป็นเพียงเครื่องมือในการเดินทาง คุณจะค้นหาส่วนประกอบหลักโดยไม่ใช้พีชคณิตเมทริกซ์ได้อย่างไร ฟังก์ชั่นวัตถุประสงค์ (เป้าหมาย) คืออะไรและมีข้อ จำกัด อะไร?

42 pca

5

การเรียนรู้ของเครื่องมีประโยชน์น้อยกว่าสำหรับการทำความเข้าใจถึงเวรกรรมซึ่งน่าสนใจน้อยกว่าสำหรับสังคมศาสตร์หรือไม่?

ความเข้าใจของฉันเกี่ยวกับความแตกต่างระหว่างการเรียนรู้ด้วยเครื่อง / เทคนิคการทำนายเชิงสถิติอื่น ๆ กับชนิดของสถิติที่นักวิทยาศาสตร์สังคม (เช่นนักเศรษฐศาสตร์) ใช้คือนักเศรษฐศาสตร์ดูเหมือนจะสนใจอย่างมากในการทำความเข้าใจผลของตัวแปรเดี่ยวหรือตัวแปรหลายตัว ขนาดและการตรวจสอบว่าความสัมพันธ์เป็นสาเหตุ สำหรับเรื่องนี้คุณจะต้องเกี่ยวข้องกับตัวเองด้วยวิธีการทดลองและกึ่งทดลอง ฯลฯ การเรียนรู้ด้วยเครื่องหรือการสร้างแบบจำลองทางสถิติที่สามารถคาดการณ์ได้มักจะมองข้ามแง่มุมนี้และในหลายกรณีไม่ได้ให้ระดับที่เฉพาะเจาะจงซึ่งตัวแปรหนึ่งมีผลต่อผลลัพธ์ (logit และ probit ดูเหมือนจะทำทั้งสองอย่าง) คำถามที่เกี่ยวข้องคือตัวแบบทางเศรษฐศาสตร์หรือแบบจำลองพฤติกรรมที่ได้รับแรงบันดาลใจทางทฤษฎีในระดับใดมีข้อได้เปรียบมากกว่าตัวแบบแบบไม่เชื่อเรื่องพระเจ้าเมื่อคาดการณ์โดเมนใหม่? การเรียนรู้ด้วยเครื่องหรือนักสถิติเชิงพยากรณ์จะพูดอย่างไรกับการวิพากษ์วิจารณ์ว่าหากไม่มีแบบจำลองทางเศรษฐกิจคุณจะไม่สามารถคาดการณ์ตัวอย่างใหม่ได้อย่างถูกต้องที่ผู้แปรสภาพมีความแตกต่างกันมาก ฉันมีความสุขจริงๆที่ได้ยินว่าผู้คนรับสิ่งนี้จากทุกมุมมอง

42 machine-learning econometrics

5

สัมประสิทธิ์การถดถอยโลจิสติกส์มีความสำคัญอย่างไร?

ฉันกำลังอ่านบทความเกี่ยวกับตำแหน่งการลงคะแนนและการตั้งค่าการลงคะแนนในการเลือกตั้งปี 2000 และ 2004 ในนั้นมีแผนภูมิที่แสดงค่าสัมประสิทธิ์การถดถอยโลจิสติก จากหลักสูตรปีหลัง ๆ และอ่านน้อยฉันเข้าใจการถดถอยโลจิสติกเป็นวิธีการอธิบายความสัมพันธ์ระหว่างตัวแปรอิสระหลายตัวและตัวแปรตอบกลับแบบไบนารี่ สิ่งที่ฉันสับสนเกี่ยวกับคือให้ตารางด้านล่างเพราะภาคใต้มีค่าสัมประสิทธิ์การถดถอยโลจิสติกที่. 903 นั่นหมายความว่า 90.3% ของภาคใต้โหวตสาธารณรัฐรีพับลิกัน? เนื่องจากลักษณะทางลอจิสติกของตัวชี้วัดจึงไม่มีความสัมพันธ์โดยตรงนี้ แต่ฉันคิดว่าคุณสามารถพูดได้ว่าทางใต้ด้วย. 903 โหวตให้รีพับลิกันมากกว่าภูเขา / ที่ราบด้วยการลดลงของ. 506 เมื่อพิจารณาถึงกรณีฉันจะรู้ได้อย่างไรว่าอะไรคือสิ่งสำคัญและอะไรที่ไม่เป็นไปได้และเป็นไปได้ที่จะประเมินเปอร์เซ็นต์ของการลงมติพรรครีพับลิกันจากค่าสัมประสิทธิ์การถดถอยแบบโลจิสติกส์ ในฐานะที่เป็นบันทึกด้านข้างโปรดแก้ไขโพสต์ของฉันหากมีสิ่งใดที่ระบุไว้ไม่ถูกต้อง

42 regression logistic interpretation

8

วิธีการตรวจหาชุมชนในเครือข่ายโซเชียล / กราฟถ่วงน้ำหนัก

ฉันสงสัยว่าใครบางคนสามารถแนะนำสิ่งที่เป็นจุดเริ่มต้นที่ดีเมื่อพูดถึงการดำเนินการตรวจสอบชุมชน / การแบ่งกราฟ / การจัดกลุ่มบนกราฟที่มีขอบแบบถ่วงน้ำหนักและไม่มีทิศทาง กราฟที่มีปัญหานั้นมีขอบประมาณ 3 ล้านเส้นและแต่ละขอบจะแสดงระดับความคล้ายคลึงกันระหว่างจุดยอดทั้งสองที่เชื่อมต่อ โดยเฉพาะอย่างยิ่งในชุดข้อมูลนี้เป็นบุคคลและจุดยอดเป็นตัวชี้วัดความคล้ายคลึงกันของพฤติกรรมที่สังเกตได้ ในอดีตฉันทำตามคำแนะนำที่ฉันได้รับที่นี่ใน stats.stackexchange.com และใช้การดำเนินการตามกฎเกณฑ์ของการจัดกลุ่มแบบแยกส่วนของนิวแมนและพอใจกับผลการทดลอง มีอัลกอริทึมเฉพาะที่ฉันควรจะดูหรือไม่?

42 clustering data-visualization networks partitioning modularity

5

วิธีที่จะทำให้ชุดเวลานิ่ง?

นอกเหนือจากการรับความแตกต่างแล้วมีเทคนิคอื่นใดสำหรับการสร้างซีรีส์เวลาที่ไม่หยุดนิ่ง ปกติหนึ่งหมายถึงชุดว่า " บูรณาการของการสั่งซื้อหน้า " ถ้ามันสามารถทำนิ่งผ่านผู้ประกอบการล่าช้าX_t(1−L)PXt(1−L)PXt(1-L)^P X_t

42 time-series stationarity

5

การขอร้องนักบวชจากผู้เชี่ยวชาญ

ฉันจะล้วงแจกแจงก่อนหน้านี้จากผู้เชี่ยวชาญเมื่อปรับรุ่นแบบเบย์ได้อย่างไร

42 bayesian prior elicitation

8

ฉันจะให้ผู้คนดูแลข้อมูลได้ดีขึ้นได้อย่างไร

สถานที่ทำงานของฉันมีพนักงานจากหลากหลายสาขาดังนั้นเราจึงสร้างข้อมูลในรูปแบบที่แตกต่างกันมากมาย ดังนั้นแต่ละทีมจึงได้พัฒนาระบบของตัวเองเพื่อเก็บข้อมูล บางคนใช้ฐานข้อมูล Access หรือ SQL บางทีม (กับความสยองขวัญของฉัน) พึ่งพาสเปรดชีต Excel เกือบทั้งหมด บ่อยครั้งที่รูปแบบข้อมูลเปลี่ยนจากโครงการเป็นโครงการ ในบางกรณีเรียกมันว่า 'ระบบ' ใจดีเกินไป ปัญหาที่เกิดขึ้นคือฉันต้องเขียนโค้ดใหม่เพื่อล้างข้อมูลสำหรับทุกโครงการซึ่งมีราคาแพง ผู้คนทำการแก้ไขสเปรดชีตด้วยตนเองทำให้สามารถทำซ้ำได้และตรวจสอบข้อมูลไม่ได้ และยิ่งแย่ลงไปกว่านั้นมีโอกาสที่ข้อมูลจะสูญหายหรือทำให้ข้อมูลไม่ถูกต้อง ฉันได้รับโอกาสในการหารือเกี่ยวกับปัญหาเหล่านี้กับสมาชิกคณะกรรมการของ บริษัท และฉันต้องอธิบายสิ่งที่จะบอกเขา ฉันคิดว่าฉันได้ชักชวนเขาว่าเรามีปัญหาและการได้รับสิทธินี้จะช่วยให้วิทยาศาสตร์ดีขึ้นและประหยัดเงินได้ คำถามคือเราควรจะตั้งเป้าหมายอะไรและเราจะไปที่นั่นได้อย่างไร โดยเฉพาะอย่างยิ่ง: เราควรเก็บข้อมูลอย่างไรในแบบที่ทำให้เราสามารถติดตามได้ตั้งแต่การสร้างไปจนถึงการเผยแพร่ในกระดาษ (ฐานข้อมูลเก็บไว้ในเซิร์ฟเวอร์กลางหรือไม่?) คุณจะทำอย่างไรเกี่ยวกับรูปแบบฐานข้อมูลมาตรฐาน? มีแหล่งข้อมูลที่ดีสำหรับการให้การศึกษาแก่ผู้คนเกี่ยวกับวิธีการดูแลข้อมูลหรือไม่ (ตามกฎทั่วไปนักสุขอนามัยและวิศวกรวัตถุระเบิดไม่ใช่ผู้เชี่ยวชาญด้านข้อมูลดังนั้นควรเลือกเนื้อหาที่ไม่ใช่ด้านเทคนิค)

42 dataset reproducible-research quality-control

6

ขั้นตอนวิธีใดที่ใช้ในการถดถอยเชิงเส้น

ฉันมักจะได้ยินเกี่ยวกับ "กำลังสองน้อยที่สุดธรรมดา" นั่นเป็นอัลกอริทึมที่ใช้กันอย่างแพร่หลายที่สุดสำหรับการถดถอยเชิงเส้นหรือไม่? มีเหตุผลที่จะใช้อันอื่นหรือไม่?

42 regression least-squares algorithms computational-statistics numerics

6

ทำไมต้องลดตัวอย่าง

สมมติว่าฉันต้องการเรียนรู้ลักษณนามที่ทำนายว่าอีเมลเป็นสแปมหรือไม่ และสมมติว่าอีเมลเพียง 1% เท่านั้นที่เป็นสแปม สิ่งที่ง่ายที่สุดที่จะทำคือการเรียนรู้ลักษณนามลวงที่ระบุว่าไม่มีอีเมลใดเป็นสแปม ตัวจําแนกนี้จะให้ความแม่นยำกับเราถึง 99% แต่จะไม่ได้เรียนรู้อะไรที่น่าสนใจ เพื่อแก้ปัญหานี้ผู้คนบอกให้ฉัน "ตัวอย่าง" หรือเรียนรู้ในส่วนย่อยของข้อมูลที่ตัวอย่าง 50% เป็นสแปมและ 50% ไม่ใช่สแปม แต่ฉันกังวลเกี่ยวกับวิธีการนี้ตั้งแต่เมื่อเราสร้างตัวจําแนกนี้และเริ่มใช้มันในคลังข้อความจริง ไม่จริงๆ เพียงเพราะมันเคยเห็นสแปมมากกว่าที่มีอยู่ในชุดข้อมูล แล้วเราจะแก้ไขปัญหานี้อย่างไร ("Upsampling" หรือทำซ้ำตัวอย่างการฝึกอบรมเชิงบวกหลาย ๆ ครั้งดังนั้นข้อมูล 50% เป็นตัวอย่างการฝึกอบรมเชิงบวกดูเหมือนว่าจะประสบปัญหาที่คล้ายกัน)

42 machine-learning classification

3

การคำนวณสหสัมพันธ์ของเพียร์สันหรือสเปียร์แมนนั้นมีความหมายหรือไม่ระหว่างสองเวกเตอร์บูลีน

มีเวกเตอร์บูลีนสองตัวซึ่งมี 0 และ 1 เท่านั้น หากฉันคำนวณความสัมพันธ์ของ Pearson หรือ Spearman พวกเขามีความหมายหรือสมเหตุสมผลหรือไม่

42 correlation binary-data pearson-r spearman-rho

2

วิธีการเขียนคำศัพท์ใน lm แตกต่างกันอย่างไร

ฉันมีคำถามเกี่ยวกับวิธีที่ดีที่สุดในการระบุการโต้ตอบในตัวแบบการถดถอย พิจารณาข้อมูลต่อไปนี้: d <- structure(list(r = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L), .Label = c("r1","r2"), class = "factor"), s = structure(c(1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 1L, 1L, 1L, 1L, 1L, 2L, …

42 r regression interaction

5

เราตีความน้ำหนักของคุณสมบัติ SVM อย่างไร

ฉันกำลังพยายามตีความน้ำหนักของตัวแปรที่กำหนดโดยการปรับ SVM เชิงเส้นให้เหมาะสม (ฉันใช้Scikit เรียนรู้ ): from sklearn import svm svm = svm.SVC(kernel='linear') svm.fit(features, labels) svm.coef_ ฉันไม่พบสิ่งใดในเอกสารที่ระบุวิธีการคำนวณหรือตีความน้ำหนักเหล่านี้โดยเฉพาะ เครื่องหมายของน้ำหนักมีส่วนร่วมกับชั้นเรียนหรือไม่?

42 svm feature-selection python scikit-learn

4

ความฉงนคืออะไร?

ฉันเจอคำที่ทำให้งงซึ่งหมายถึงความน่าจะเป็นค่าผกผันเฉลี่ยของข้อมูลที่มองไม่เห็น บทความ Wikipedia เกี่ยวกับความงุนงงไม่ได้ให้ความหมายที่เข้าใจง่ายสำหรับสิ่งเดียวกัน การวัดความฉงนสนเท่ห์นี้ใช้ในกระดาษpLSA ใครสามารถอธิบายความต้องการและความหมายที่เข้าใจง่ายของการวัดที่น่างง ?

42 measurement perplexity

6

ความสำคัญของการฟื้นฟูท้องถิ่นใน CNN

ฉันพบว่า Imagenet และ CNN ขนาดใหญ่อื่น ๆ ใช้ประโยชน์จากเลเยอร์การทำให้เป็นมาตรฐานการตอบสนองในท้องถิ่น อย่างไรก็ตามฉันไม่พบข้อมูลมากมายเกี่ยวกับพวกเขา มีความสำคัญเพียงใดและควรใช้เมื่อใด จากhttp://caffe.berkeleyvision.org/tutorial/layers.html#data-layers : "เลเยอร์การปรับสภาพการตอบสนองแบบโลคอลดำเนินการ“ การยับยั้งด้านข้าง” โดยการทำให้เป็นมาตรฐานในพื้นที่อินพุตท้องถิ่นในโหมด ACROSS_CHANNELS ภูมิภาคภายในจะขยายผ่านช่องทางใกล้เคียง แต่ไม่มีขอบเขตเชิงพื้นที่ (เช่นมีรูปร่างเป็น local_size x 1 x 1) ในโหมด WITHIN_CHANNEL ภูมิภาคท้องถิ่นจะขยายพื้นที่ออกไป แต่อยู่ในช่องแยก (เช่นพวกเขามีรูปร่าง 1 x local_size x local_size) แต่ละค่าอินพุตจะถูกหารด้วย (1+ (α / n) ∑ix2i) βโดยที่ n คือขนาดของแต่ละพื้นที่ท้องถิ่นและผลรวมจะถูกยึดเหนือพื้นที่ที่อยู่กึ่งกลางที่ค่านั้น (เพิ่มการเติมศูนย์เป็นศูนย์หากจำเป็น) " แก้ไข: ดูเหมือนว่าชั้นเหล่านี้มีผลกระทบน้อยที่สุดและไม่ได้ใช้อีกต่อไป โดยทั่วไปบทบาทของพวกเขาได้รับการ outplayed โดยเทคนิคการทำให้เป็นมาตรฐานอื่น ๆ …

41 deep-learning convolution conv-neural-network