สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
ถ้าเป็น IID ให้คำนวณโดยที่
คำถาม หากมี IID แล้วคำนวณที่x_iX1,⋯,Xn∼N(μ,1)X1,⋯,Xn∼N(μ,1)X_1,\cdots,X_n \sim \mathcal{N}(\mu, 1)E(X1∣T)E(X1∣T)\mathbb{E}\left( X_1 \mid T \right)T=∑iXiT=∑iXiT = \sum_i X_i ความพยายาม : โปรดตรวจสอบว่าด้านล่างถูกต้องหรือไม่ สมมติว่าเราใช้ผลรวมของความคาดหวังตามเงื่อนไขเหล่านั้น หมายความว่าแต่ละตั้งแต่คือ IID∑iE(Xi∣T)=E(∑iXi∣T)=T.∑iE(Xi∣T)=E(∑iXi∣T)=T.\begin{align} \sum_i \mathbb{E}\left( X_i \mid T \right) = \mathbb{E}\left( \sum_i X_i \mid T \right) = T . \end{align}E(Xi∣T)=TnE(Xi∣T)=Tn\mathbb{E}\left( X_i \mid T \right) = \frac{T}{n}X1,…,XnX1,…,XnX_1,\ldots,X_n ดังนั้นE(X1∣T)=TnE(X1∣T)=Tn\mathbb{E}\left( X_1 \mid T \right) = \frac{T}{n}{n} …

1
ความลึกของต้นไม้ตัดสินใจ
เนื่องจากอัลกอริธึมแผนผังการตัดสินใจแยกบนแอ็ตทริบิวต์ในทุกขั้นตอนความลึกสูงสุดของแผนผังการตัดสินใจจะเท่ากับจำนวนของแอ็ตทริบิวต์ของข้อมูล ถูกต้องหรือไม่

6
สถิติที่สำคัญยิ่งกว่า: '90 เปอร์เซ็นต์ของผู้หญิงทุกคนรอดชีวิต 'หรือ '90 เปอร์เซ็นต์ของผู้หญิงที่รอดชีวิตมาจากผู้หญิง'?
พิจารณาข้อความต่อไปนี้ที่เขียนว่า Titanic: ข้อสันนิษฐานที่ 1: มีเพียงผู้ชายและผู้หญิงเท่านั้นที่อยู่บนเรือ ข้อสันนิษฐานที่ 2: มีผู้ชายเป็นจำนวนมากเช่นเดียวกับผู้หญิง คำแถลงที่ 1: 90 เปอร์เซ็นต์ของผู้หญิงทุกคนรอดชีวิตมาได้ คำแถลงที่ 2: 90 เปอร์เซ็นต์ของผู้รอดชีวิตทั้งหมดเป็นผู้หญิง คนแรกบ่งชี้ว่าผู้หญิงที่รอดชีวิตอาจมีความสำคัญสูง สถิติที่สองมีประโยชน์เมื่อใด เราสามารถพูดได้ว่าหนึ่งในนั้นมักจะมีประโยชน์มากกว่าอีกหรือไม่

1
ขั้นตอนวิธีการบรรจุถุงใดที่สืบทอดมาจากป่าสุ่ม
สำหรับการเพิ่มอัลกอริธึมฉันจะบอกว่าพวกมันมีวิวัฒนาการค่อนข้างดี ในช่วงต้นปี 1995 AdaBoost เปิดตัวหลังจากนั้นไม่นานมันก็เป็น Gradient Boosting Machine (GBM) เมื่อเร็ว ๆ นี้มีการเปิดตัว XGBoost ราว ๆ ปี 2015 ซึ่งมีความถูกต้องจัดการกับการมีน้ำหนักเกินและเป็นผู้ชนะการแข่งขัน Kaggle หลายครั้ง ในปี 2560 Microsoft ได้เปิดตัว LightGBM ซึ่งมีเวลาฝึกอบรมที่ต่ำกว่าอย่างมากเมื่อเทียบกับ XGBoost Yandex ยังได้รับการแนะนำให้รู้จักกับ CatBoost สำหรับการจัดการคุณสมบัติที่เป็นหมวดหมู่ ป่าสุ่มถูกนำมาใช้ในต้นปี 2000 แต่มีผู้สืบทอดที่สมควรได้รับมันหรือไม่? ฉันคิดว่าถ้าอัลกอริทึมการห่อที่ดีกว่า Random Forest มีอยู่ (ซึ่งสามารถนำไปใช้ในทางปฏิบัติได้ง่าย) มันจะได้รับความสนใจในสถานที่เช่น Kaggle นอกจากนี้ทำไมการส่งเสริมให้กลายเป็นเทคนิควงดนตรีที่ได้รับความนิยมมากขึ้นเป็นเพราะคุณสามารถสร้างต้นไม้น้อยลงสำหรับการทำนายที่ดีที่สุด?

3
คำแนะนำในการร่วมมือกับนักวิทยาศาสตร์ประยุกต์
ฉันเป็นนักศึกษาระดับบัณฑิตศึกษาในสถิติและมีส่วนร่วมในความร่วมมือกับนักวิทยาศาสตร์ประยุกต์ (นักเศรษฐศาสตร์ผู้พิทักษ์…) ความร่วมมือเหล่านี้สนุก (ส่วนใหญ่) และฉันเรียนรู้มาก แต่ก็มีบางอย่างที่ซับซ้อนเช่น: บางครั้งฉันเห็นว่าแบบจำลองทางสถิติที่ดีนั้นแตกต่างจากภูมิหลังของผู้ทำงานร่วมกันและการปฏิบัติทั่วไปในสาขาของตน มันยากที่จะโน้มน้าวให้พวกเขาลองทำสิ่งใหม่ ๆ เพราะพวกเขาพยายามเข้าใจรูปแบบหรือเพราะพวกเขาลังเลที่จะเปลี่ยนนิสัย เมื่อเสนอให้ใช้วิธีการทางสถิติที่แตกต่างกันฉันมักจะรู้สึกว่าผู้ทำงานร่วมกันพิจารณาว่าเป็นการวิพากษ์วิจารณ์วิธีการ "มาตรฐาน" ของพวกเขา อย่างไรก็ตามฉันไม่ได้ตั้งใจที่จะวิพากษ์วิจารณ์ใครก็ตามสำหรับความรู้ทางสถิติหรือนิสัยของพวกเขา และในที่สุดก็มีอีกอันหนึ่ง: บางคนคาดหวังมากเกินไป พวกเขาคิดว่าฉันสามารถดึงข้อมูลที่น่าสนใจจากข้อมูลของพวกเขาได้อย่างน่าอัศจรรย์โดยปราศจากความช่วยเหลือ แน่นอนว่านี่ไม่เป็นความจริงโดยเฉพาะอย่างยิ่งถ้าฉันคิดถึงฉากหลังที่เฉพาะเจาะจง ฉันอาจคิดคะแนนเพิ่มเติม แต่สิ่งเหล่านี้เป็นครั้งแรกที่มาถึงใจของฉัน คำถามที่ฉันถามคุณคือ: คุณประสบปัญหาเดียวกันหรือคล้ายกันในการร่วมมือของคุณหรือไม่? คุณเผชิญหน้ากับพวกเขาอย่างไร โดยทั่วไปแล้วคุณจะทำอย่างไรเพื่อเป็นผู้ทำงานร่วมกันทางสถิติที่ดี มีทรัพยากรบุคคลที่สามในหัวข้อนี้หรือไม่เช่นทักษะอ่อน ๆ ที่จำเป็นในการทำงานร่วมกันระหว่างนักสถิติและนักวิทยาศาสตร์ประยุกต์? หมายเหตุ: คำถามนี้จะมากหรือน้อยสนทนาของคนนี้
14 references 

4
ตัวแบบทำนายผล: สถิติไม่สามารถเอาชนะการเรียนรู้ของเครื่องได้? [ปิด]
ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน2 ปีที่ผ่านมา ขณะนี้ฉันกำลังติดตามโปรแกรมหลักที่เน้นเรื่องสถิติ / เศรษฐมิติ ในอาจารย์ของฉันนักเรียนทุกคนต้องทำวิจัย 3 เดือน สัปดาห์ที่แล้วทุกกลุ่มต้องนำเสนองานวิจัยของพวกเขากับนักศึกษาปริญญาโทคนอื่น ๆ เกือบทุกกลุ่มมีการสร้างแบบจำลองทางสถิติและแบบจำลองการเรียนรู้ของเครื่องสำหรับหัวข้อการวิจัยและการคาดการณ์นอกเวลาตัวอย่างทุกครั้งจะมาพูดคุยเกี่ยวกับแบบจำลองการเรียนรู้ของเครื่องอย่างง่าย ๆ เอาชนะแบบจำลองทางสถิติที่ซับซ้อนมาก เดือน ไม่ว่าแบบจำลองทางสถิติของทุกคนจะดีแค่ไหนป่าสุ่มที่เรียบง่ายก็มีข้อผิดพลาดน้อยกว่าตัวอย่างมาก ฉันสงสัยว่านี่เป็นข้อสังเกตที่ยอมรับกันโดยทั่วไปหรือไม่? ถ้ามันมาจากการพยากรณ์นอกตัวอย่างไม่มีวิธีใดที่จะเอาชนะรูปแบบป่าเรียบง่ายหรือรูปแบบการไล่ระดับสีที่รุนแรง ทั้งสองวิธีนี้ง่ายมากที่จะใช้งานโดยใช้แพ็คเกจ R ในขณะที่โมเดลสถิติทั้งหมดที่ทุกคนสร้างขึ้นนั้นต้องการทักษะความรู้และความพยายามในการประเมินค่อนข้างมาก คุณคิดอย่างไรกับเรื่องนี้? ประโยชน์เพียงอย่างเดียวของตัวแบบเชิงสถิติ / เศรษฐมิติที่คุณได้รับการตีความคืออะไร? หรือโมเดลของเราไม่ดีพอที่พวกเขาล้มเหลวที่จะมีประสิทธิภาพสูงกว่าการทำนายป่าแบบสุ่มอย่างง่ายหรือไม่? มีเอกสารใดบ้างที่ตอบปัญหานี้?

1
ทำไมเราไม่ใช้อัตราการเรียนรู้ที่ไม่คงที่เพื่อไล่ระดับสีที่เหมาะสมสำหรับสิ่งอื่น ๆ จากนั้นจึงใช้โครงข่ายประสาทเทียม
วรรณกรรมการเรียนรู้ลึกนั้นเต็มไปด้วยเทคนิคที่ชาญฉลาดโดยใช้อัตราการเรียนรู้ที่ไม่คงที่ในการไล่ระดับสี สิ่งต่าง ๆ เช่นการสลายตัวแบบเอ็กซ์โพเนนเชียล, RMSprop, Adagrad ฯลฯ นั้นง่ายต่อการติดตั้งและมีอยู่ในชุดการเรียนรู้ลึก ๆ มีเหตุผลสำหรับสิ่งนี้หรือไม่? ถ้าเป็นที่คนไม่สนใจมีเหตุผลทำไมเราไม่ต้องดูแลนอกเครือข่ายประสาท?

1
Hamiltonian Monte Carlo สำหรับหุ่น
คุณช่วยอธิบายทีละขั้นตอนเกี่ยวกับวิธีการทำงานของ Hamiltonian Monte Carlo ได้ไหม? PS: ฉันได้อ่านคำตอบที่นี่แล้วHamiltonian monte carloและที่นี่Hamiltonian Monte Carlo กับ Sequential Monte Carloและที่นี่Hamiltonian Monte Carlo: จะทำให้รู้สึกถึงข้อเสนอของ Metropolis-Hasting อย่างไร และพวกเขาไม่ได้กล่าวถึงอย่างเป็นขั้นเป็นตอน
14 bayesian  hmc 

6
Nitpicking เกี่ยวกับการใช้งาน / passive ของ“ correlated”
ฉันลังเลที่จะถามคำถามนี้ที่สถิติ StackExchange หรือในภาษาศาสตร์ / ภาษาอังกฤษ แต่ฉันคิดว่าอาจมีผู้ใช้ภาษามากกว่าที่นี่มากกว่าผู้ใช้สถิติที่เข้าใจในฟอรัมอื่น;) ฉันมักจะอ่านรายงานที่พูดถึงความสัมพันธ์เป็นคำกริยาในเสียงที่ใช้งานอยู่เช่นเดียวกับใน "เราก็มีความสัมพันธ์ A กับ B และพบว่า ... " สำหรับฉันคำกริยานี้มีความหมายเฉพาะในเสียงเฉื่อยเฉยเช่นเมื่อพูดเช่น "เราพบว่า A และ B มีความสัมพันธ์อย่างมีนัยสำคัญ" ฉันอาจจะผิดที่สิ่งนี้ถือเป็นเสียงที่ใช้งานได้จริงกับการโต้ตอบทางไวยากรณ์ แต่สิ่งที่ฉันอธิบายคือความแตกต่างระหว่างการทำอะไรบางอย่างกับ A และ B เช่นที่พวกเขาแต่ละคนจบลงเปลี่ยนไปเมื่อเทียบกับการคำนวณตัวแปรที่สาม แน่นอนหนึ่งสามารถลดความสัมพันธ์อย่างแข็งขันสองตัวแปร แต่ดูเหมือนว่าฉัน "สัมพันธ์" พวกเขาแทนที่จะอ้างถึงสิ่งที่ใช้งานอยู่เพียงแค่ใช้เป็นชวเลขเพื่อตรวจสอบว่ามีความสัมพันธ์ที่สำคัญอยู่! ฉันผิดหรือเปล่า? มันมีเหตุผลอย่างอื่นหรือไม่ที่จะบอกว่าคุณ [มีความสัมพันธ์อย่างแข็งขันกับ A กับ B]?

3
ปัญหาทางสถิติแบบใดที่จะได้รับประโยชน์จากการคำนวณควอนตัม
เราอยู่ที่การกำเนิดของควอนตัมคอมพิวเตอร์ด้วยภาษาควอนตัมที่คาดว่าจะมีคอมพิวเตอร์ควอนตัมฮาร์ดแวร์ในระดับสูงและต่ำสำหรับคอมพิวเตอร์ควอนตัมจำลอง คอมพิวเตอร์ควอนตัมนำเสนอฟังก์ชั่นพื้นฐานใหม่เช่นพัวพันและการเคลื่อนย้ายของ qubits การวัด qubits และการวางซ้อนของการซ้อนทับบน qubits ปัญหาทางสถิติประเภทใดที่จะได้รับประโยชน์จากการคำนวณควอนตัม ตัวอย่างเช่นคอมพิวเตอร์ควอนตัมจะให้การสร้างหมายเลขสุ่มที่แพร่หลายมากขึ้นหรือไม่ สิ่งที่เกี่ยวกับการสร้างตัวเลขเทียมเทียมราคาถูก? การคำนวณเชิงควอนตัมจะช่วยเร่งการบรรจบ MCMC หรือทำให้แน่ใจว่าขอบเขตสูงสุดของเวลาการลู่เข้า จะมีอัลกอริธึมเชิงปริมาณสำหรับตัวประมาณที่ใช้การสุ่มตัวอย่างอื่น ๆ หรือไม่? นี่เป็นคำถามที่กว้างขวางและคำตอบที่ยอมรับได้ก็จะกว้างเช่นกัน แต่ความรุ่งโรจน์ถ้าพวกเขาแยกความแตกต่างของการคำนวณควอนตัมและคลาสสิก (หากนี่เป็นคำถามที่กว้างเกินไปโปรดช่วยฉันทำให้เป็นคำถามที่ดีขึ้น)

3
สามารถสร้างการกระจายข้อต่อ 3D ได้อีกครั้งด้วยระยะขอบ 2 มิติหรือไม่
สมมติว่าเรารู้ว่า p (x, y), p (x, z) และ p (y, z), จริงไหมที่การกระจายข้อต่อ p (x, y, z) สามารถระบุได้? นั่นคือมีเพียง p (x, y, z) ที่เป็นไปได้ซึ่งมีระยะขอบเกินหรือไม่

5
เหตุใดการถดถอยเชิงเส้นจึงใช้ฟังก์ชันต้นทุนตามระยะทางแนวดิ่งระหว่างสมมติฐานและจุดข้อมูลอินพุต
สมมติว่าเรามีจุดข้อมูลอินพุต (ตัวทำนายผล) และเอาต์พุต (ตอบกลับ) A, B, C, D, E และเราต้องการให้เส้นตรงผ่านจุดต่างๆ นี่เป็นปัญหาง่าย ๆ ในการอธิบายคำถาม แต่สามารถขยายไปยังมิติที่สูงขึ้นได้เช่นกัน คำชี้แจงปัญหา แบบที่ดีที่สุดในปัจจุบันหรือสมมติฐานจะถูกแสดงด้วยเส้นสีดำด้านบน ลูกศรสีน้ำเงิน ( →→\color{blue}\rightarrow ) แสดงระยะทางแนวตั้งระหว่างจุดข้อมูลกับจุดที่เหมาะสมที่สุดในปัจจุบันโดยการวาดเส้นแนวตั้งจากจุดจนถึงจุดตัดกับเส้น ลูกศรสีเขียว ( ) ถูกวาดเช่นนั้นในแนวตั้งฉากกับสมมติฐานปัจจุบันที่จุดตัดดังนั้นจึงแสดงระยะห่างน้อยที่สุดระหว่างจุดข้อมูลและสมมติฐานปัจจุบัน สำหรับจุด A และ B เส้นที่ลากขึ้นมานั้นจะเป็นแนวตั้งกับการคาดเดาที่ดีที่สุดในปัจจุบันและคล้ายกับเส้นที่แนวตั้งกับแกน x สำหรับจุดสองจุดนี้เส้นสีฟ้าและสีเขียวทับซ้อนกัน แต่ไม่ใช้สำหรับจุด C, D และ E→→\color{green}\rightarrow หลักการกำลังสองน้อยสุดกำหนดฟังก์ชันต้นทุนสำหรับการถดถอยเชิงเส้นโดยการลากเส้นแนวตั้งผ่านจุดข้อมูล (A, B, C, D หรือ E) ไปยังสมมติฐานที่คาดการณ์ ( ) ในรอบการฝึกอบรมที่กำหนดและแสดงด้วย→→\color{blue}\rightarrow CostFunction=∑Ni=1(yi−hθ(xi))2CostFunction=∑i=1N(yi−hθ(xi))2Cost Function …

2
การทดสอบทางสถิติที่แข็งแกร่งคืออะไร การทดสอบทางสถิติที่มีประสิทธิภาพคืออะไร
การทดสอบทางสถิติบางอย่างมีประสิทธิภาพและบางการทดสอบนั้นไม่ ความทนทานหมายถึงอะไรกันแน่? น่าแปลกที่ฉันไม่พบคำถามดังกล่าวในเว็บไซต์นี้ นอกจากนี้บางครั้งความแข็งแรงและพลังของการทดสอบจะถูกกล่าวถึงด้วยกัน และอย่างสังหรณ์ใจฉันไม่สามารถแยกความแตกต่างระหว่างสองแนวคิด การทดสอบที่ทรงพลังคืออะไร? มันแตกต่างจากการทดสอบทางสถิติที่มีประสิทธิภาพอย่างไร

3
คำจำกัดความของตระกูลของการแจกแจง?
ตระกูลการแจกแจงมีคำจำกัดความทางสถิติที่แตกต่างจากในสาขาอื่นหรือไม่? โดยทั่วไปแล้วตระกูลของเส้นโค้งคือชุดของเส้นโค้งซึ่งแต่ละชุดจะได้รับจากฟังก์ชั่นหรือ parametrization ซึ่งพารามิเตอร์หนึ่งตัวหรือมากกว่านั้นแตกต่างกันไป ครอบครัวดังกล่าวจะใช้สำหรับตัวอย่างเช่นในการอธิบายลักษณะของชิ้นส่วนอิเล็กทรอนิกส์ สำหรับสถิติตระกูลตามแหล่งเดียวคือผลลัพธ์ของการเปลี่ยนแปลงพารามิเตอร์รูปร่าง แล้วเราจะเข้าใจได้อย่างไรว่าการแจกแจงแกมม่านั้นมีพารามิเตอร์รูปร่างและขนาดและมีเพียงการกระจายแกมม่าทั่วไปเท่านั้นที่มีอยู่นอกจากนี้พารามิเตอร์ตำแหน่ง? สิ่งนี้ทำให้ครอบครัวเป็นผลมาจากการเปลี่ยนพารามิเตอร์ตำแหน่งที่ตั้งหรือไม่ ตามที่ @whuber ความหมายของครอบครัวนั้นโดยปริยาย"พารามิเตอร์" ของครอบครัวนั้นเป็นแผนที่ต่อเนื่องจากเซตย่อยของℝ nโดยมีโทโพโลยีปกติเข้าสู่พื้นที่ของการกระจายซึ่งเป็นภาพครอบครัวนั้นnn^n ครอบครัวที่ใช้ภาษาง่าย ๆ คืออะไรสำหรับการแจกแจงเชิงสถิติ? คำถามเกี่ยวกับความสัมพันธ์ระหว่างคุณสมบัติทางสถิติของการแจกแจงจากตระกูลเดียวกันได้สร้างความขัดแย้งอย่างมากสำหรับคำถามที่แตกต่างดังนั้นมันจึงคุ้มค่าที่จะสำรวจความหมาย ว่านี่ไม่ใช่คำถามง่าย ๆ ที่เกิดจากการใช้ในวลีexponential familyซึ่งไม่มีส่วนเกี่ยวข้องกับตระกูลของ curves แต่เกี่ยวข้องกับการเปลี่ยนรูปแบบ PDF ของการแจกแจงโดยการเปลี่ยนพารามิเตอร์ใหม่ไม่เพียง แต่พารามิเตอร์ แต่ยังทดแทนหน้าที่ของตัวแปรสุ่มอิสระ

4
ความน่าจะเป็นที่สมมติฐานของ Null นั้นเป็นจริง
ดังนั้นนี่อาจเป็นคำถามทั่วไป แต่ฉันไม่เคยพบคำตอบที่น่าพอใจ คุณจะตัดสินความน่าจะเป็นที่สมมติฐานว่างเป็นจริงได้อย่างไร (หรือเท็จ) สมมติว่าคุณให้นักเรียนทดสอบสองรุ่นที่แตกต่างกันและต้องการดูว่ารุ่นนั้นเทียบเท่ากันหรือไม่ คุณทำการทดสอบ t และให้ค่า p เป็น. 02 ช่างเป็นสิ่งที่คุ้มค่า! นั่นต้องหมายความว่าไม่น่าเป็นไปได้ที่การทดสอบจะเทียบเท่ากันใช่มั้ย ไม่น่าเสียดายที่ปรากฏว่า P (ผลลัพธ์ | null) ไม่ได้บอกคุณ P (null | ผลลัพธ์) สิ่งปกติที่ต้องทำคือการปฏิเสธสมมติฐานว่างเมื่อเราพบ p-value ต่ำ แต่เราจะรู้ได้อย่างไรว่าเราไม่ปฏิเสธสมมติฐานว่างที่น่าจะเป็นจริง? เพื่อยกตัวอย่างที่โง่ฉันสามารถออกแบบการทดสอบสำหรับอีโบลาด้วยอัตราบวกที่ผิดพลาดที่. 02: ใส่ 50 ลูกลงในถังและเขียน“ อีโบลา” ในที่เดียว ถ้าฉันทดสอบบางคนด้วยสิ่งนี้และพวกเขาเลือกลูกบอล "อีโบลา" ค่า p (P (เลือกลูก | พวกเขาไม่มีอีโบลา)) คือ. 02 สิ่งที่ฉันได้พิจารณาแล้ว: สมมติว่า P (null | ผลลัพธ์) …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.