สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
ความสัมพันธ์ระหว่างการวิเคราะห์องค์ประกอบอิสระและการวิเคราะห์ปัจจัยคืออะไร?
ฉันยังใหม่กับการวิเคราะห์ส่วนประกอบอิสระ (ICA) และมีเพียงความเข้าใจพื้นฐานของวิธีการ สำหรับฉันดูเหมือนว่า ICA จะคล้ายกับการวิเคราะห์ปัจจัย (FA) โดยมีข้อยกเว้นอย่างหนึ่ง: ICA ถือว่าตัวแปรสุ่มที่สังเกตนั้นเป็นการรวมกันของส่วนประกอบ / ปัจจัยอิสระที่ไม่ใช่แบบเกาส์ในขณะที่แบบจำลอง FA ดั้งเดิมสันนิษฐานว่าตัวแปรสุ่มสังเกต เป็นการรวมกันเชิงเส้นขององค์ประกอบ / ปัจจัยที่มีความสัมพันธ์แบบเกาส์เซียน ถูกต้องหรือไม่

3
วิธีที่เหมาะสมในการใช้เครือข่ายประสาทกำเริบสำหรับการวิเคราะห์อนุกรมเวลา
เครือข่ายประสาทที่เกิดขึ้นอีกนั้นแตกต่างจากคน "ปกติ" โดยข้อเท็จจริงที่ว่าพวกเขามี "หน่วยความจำ" เลเยอร์ เนื่องจากเลเยอร์นี้เอ็นเอ็นที่กำเริบจึงควรจะมีประโยชน์ในการสร้างแบบจำลองอนุกรมเวลา อย่างไรก็ตามฉันไม่แน่ใจว่าฉันเข้าใจวิธีการใช้อย่างถูกต้อง สมมติว่าฉันมีอนุกรมเวลาต่อไปนี้ (จากซ้ายไปขวา): [0, 1, 2, 3, 4, 5, 6, 7]เป้าหมายของฉันคือการทำนายiจุดที่ -th โดยใช้จุดi-1และi-2เป็นอินพุต (สำหรับแต่ละรายการi>2) ใน "ปกติ" ANN ที่ไม่เกิดซ้ำฉันจะดำเนินการกับข้อมูลดังต่อไปนี้: target| input 2| 1 0 3| 2 1 4| 3 2 5| 4 3 6| 5 4 7| 6 5 ฉันจะสร้างเน็ตที่มีสองอินพุตและหนึ่งเอาต์พุตโหนดและฝึกกับข้อมูลข้างต้น เราจำเป็นต้องเปลี่ยนแปลงกระบวนการนี้อย่างไร (ถ้ามี) ในกรณีของเครือข่ายที่เกิดซ้ำ

6
การบรรจบกันของความน่าจะเป็นเทียบกับการบรรจบกันเกือบ
ฉันไม่เคยหาความแตกต่างระหว่างการบรรจบกันทั้งสองแบบนี้ (หรืออันที่จริงแล้วการบรรจบกันชนิดต่าง ๆ แต่ฉันพูดถึงสองสิ่งนี้โดยเฉพาะอย่างยิ่งเนื่องจากกฎที่อ่อนแอและแข็งแกร่งของคนจำนวนมาก) แน่นอนฉันสามารถอ้างอิงคำนิยามของแต่ละคนและยกตัวอย่างที่พวกเขาต่างกัน แต่ฉันก็ยังไม่ค่อยเข้าใจ เป็นวิธีที่ดีในการเข้าใจความแตกต่างอะไร ทำไมความแตกต่างจึงสำคัญ มีตัวอย่างที่น่าจดจำโดยเฉพาะอย่างยิ่งที่พวกเขาแตกต่างกันอย่างไร

8
สถิติพื้นฐานที่ดีที่จะใช้สำหรับข้อมูลอันดับคืออะไร
ฉันมีข้อมูลลำดับที่ได้จากคำถามสำรวจ ในกรณีของฉันพวกเขาคือการตอบสนองสไตล์ Likert (ไม่เห็นด้วยอย่างยิ่ง - ไม่เห็นด้วย - เป็นกลาง - เห็นด้วย - เห็นด้วยอย่างยิ่ง) ในข้อมูลของฉันพวกเขาถูกเข้ารหัสเป็น 1-5 ฉันไม่คิดว่าจะมีความหมายมากที่นี่ดังนั้นสถิติสรุปแบบพื้นฐานใดที่ถือว่ามีประโยชน์


5
นักสถิติตกลงกันว่าจะใช้ (n-1) เป็นตัวประมาณค่าที่เป็นกลางสำหรับความแปรปรวนของประชากรโดยไม่มีการจำลองอย่างไร
สูตรสำหรับการคำนวณความแปรปรวนมีในตัวส่วน:(n−1)(n−1)(n-1) s2=∑Ni=1(xi−x¯)2n−1s2=∑i=1N(xi−x¯)2n−1s^2 = \frac{\sum_{i=1}^N (x_i - \bar{x})^2}{n-1} ฉันสงสัยอยู่เสมอว่าทำไม อย่างไรก็ตามการอ่านและดูวิดีโอดีๆสองสามเรื่องเกี่ยวกับ "ทำไม" ดูเหมือนว่าเป็นตัวประมาณค่าความแปรปรวนของประชากรที่ไม่เอนเอียง ในขณะที่ประเมินต่ำเกินไปและประเมินค่าความแปรปรวนของประชากรมากเกินไป(n−1)(n−1)(n-1)nnn(n−2)(n−2)(n-2) สิ่งที่ฉันอยากรู้ก็คือว่าในยุคที่ไม่มีคอมพิวเตอร์ตัวเลือกนี้เกิดขึ้นได้อย่างไร มีหลักฐานทางคณิตศาสตร์จริง ๆ ที่พิสูจน์สิ่งนี้หรือว่าเป็นเชิงประจักษ์และนักสถิติได้ทำการคำนวณจำนวนมากด้วยมือเพื่อมากับ "คำอธิบายที่ดีที่สุด" ในเวลานั้น? นักสถิติใช้สูตรนี้อย่างไรในต้นศตวรรษที่ 19 ด้วยความช่วยเหลือของคอมพิวเตอร์ ด้วยตนเองหรือมีมากเกินกว่าที่เห็นได้หรือไม่

5
Loadings vs eigenvectors ใน PCA: เมื่อใดควรใช้อย่างใดอย่างหนึ่ง
ในการวิเคราะห์องค์ประกอบหลัก (PCA) เราได้ค่า eigenvector (หน่วยเวกเตอร์) และค่าลักษณะเฉพาะ ตอนนี้ให้เรากำหนดภาระเป็นLoadings=Eigenvectors⋅Eigenvalues−−−−−−−−−−√.Loadings=Eigenvectors⋅Eigenvalues.\text{Loadings} = \text{Eigenvectors} \cdot \sqrt{\text{Eigenvalues}}. ฉันรู้ว่า eigenvectors เป็นเพียงทิศทางและการโหลด (ตามที่ระบุไว้ข้างต้น) รวมถึงความแปรปรวนตามทิศทางเหล่านี้ แต่เพื่อความเข้าใจที่ดีขึ้นฉันอยากจะรู้ว่าฉันควรใช้การโหลดแทน eigenvector ตัวอย่างจะสมบูรณ์แบบ! โดยทั่วไปฉันเคยเห็นคนใช้ eigenvectors แต่ทุกครั้งในขณะที่พวกเขาใช้การโหลด (ตามที่กำหนดไว้ด้านบน) และจากนั้นฉันก็รู้สึกว่าฉันไม่เข้าใจความแตกต่าง
67 pca 

4
อะไรทำให้เคอร์เนลเกาส์เซียนมีมนต์ขลังสำหรับ PCA และโดยทั่วไปแล้ว?
ฉันอ่านเกี่ยวกับเคอร์เนล PCA ( 1 , 2 , 3 ) กับเกาส์เซียนและเมล็ดพหุนาม เคอร์เนลเกาส์เซียนนั้นแยกข้อมูลที่ไม่เป็นเชิงเส้นออกจากกันได้อย่างไรอย่างดีเป็นพิเศษ? กรุณาให้การวิเคราะห์ที่ใช้งานง่ายเช่นเดียวกับที่เกี่ยวข้องกับคณิตศาสตร์ถ้าเป็นไปได้ อะไรคือคุณสมบัติของเคอร์เนลเกาส์เซียน (มีอุดมคติ ) ที่เมล็ดอื่นไม่มี โครงข่ายประสาทเทียม SVM และเครือข่าย RBF เป็นสิ่งสำคัญσσ\sigma ทำไมเราไม่ใส่บรรทัดฐานพูด Cauchy PDF และคาดหวังผลลัพธ์เดียวกัน

1
ความสัมพันธ์แบบใดที่ทำให้เมทริกซ์เอกพจน์และความหมายของเอกพจน์หรือความใกล้เคียงเอกฐานคืออะไร
ฉันกำลังคำนวณบางอย่างกับเมทริกซ์ที่แตกต่างกัน (ส่วนใหญ่ในการถดถอยโลจิสติก) และฉันมักจะได้รับข้อผิดพลาด "เมทริกซ์คือเอกพจน์" ที่ฉันต้องย้อนกลับไปและลบตัวแปรที่เกี่ยวข้อง คำถามของฉันที่นี่คือสิ่งที่คุณจะพิจารณาเมทริกซ์ที่มีความสัมพันธ์ "สูง" มีค่าขีด จำกัด ของความสัมพันธ์เพื่อเป็นตัวแทนของคำนี้หรือไม่? เช่นเดียวกับตัวแปรที่มีความสัมพันธ์ 0.97 กับอีกอันหนึ่งมันสูงพอที่จะทำให้เมทริกซ์เอกพจน์หรือไม่? ขออภัยหากคำถามนี้เป็นพื้นฐานมากฉันไม่สามารถหาการอ้างอิงใด ๆ ที่พูดถึงปัญหานี้ (คำแนะนำเกี่ยวกับการอ้างอิงใด ๆ จะเป็นประโยชน์อย่างมาก!)

9
แผนภูมินี้แสดงแนวโน้มของการโจมตีของผู้ก่อการร้ายที่เป็นประโยชน์หรือไม่?
ฉันเห็นภาพนี้ผ่านไปมาก ฉันมีความรู้สึกว่าข้อมูลที่ให้ในลักษณะนี้ไม่สมบูรณ์หรือผิดพลาด แต่ฉันไม่มีประสบการณ์เพียงพอในสถิติที่จะตอบสนอง มันทำให้ฉันคิดว่าการ์ตูน xkcdนี้ถึงแม้จะมีข้อมูลทางประวัติศาสตร์ที่แข็งแกร่งบางสถานการณ์ก็สามารถเปลี่ยนวิธีการทำนายสิ่งต่าง ๆ ได้ แผนภูมินี้ตามที่นำเสนอมีประโยชน์สำหรับการแสดงระดับภัยคุกคามจากผู้ลี้ภัยอย่างถูกต้องหรือไม่ มีบริบททางสถิติที่จำเป็นที่ทำให้แผนภูมินี้มีประโยชน์มากขึ้นหรือน้อยลง? หมายเหตุ: พยายามเก็บไว้ในเงื่อนไขของคนธรรมดา :)

7
ต้องจ่ายเท่าไหร่ ปัญหาในทางปฏิบัติ
นี่ไม่ใช่คำถามทำงานที่บ้าน แต่ปัญหาที่แท้จริงของ บริษัท ของเรา เมื่อเร็ว ๆ นี้ (2 วันที่ผ่านมา) เราสั่งให้ผลิตฉลากผลิตภัณฑ์ 10,000 รายการให้กับตัวแทนจำหน่าย ตัวแทนจำหน่ายเป็นบุคคลที่เป็นอิสระ เขาได้รับฉลากที่ผลิตจากภายนอกและ บริษัท ชำระเงินให้กับตัวแทนจำหน่าย ป้ายกำกับแต่ละรายการมีราคาเท่ากับ $ 1 ถึง บริษัท เมื่อวานนี้ดีลเลอร์มาพร้อมกับฉลาก แต่มีการรวมฉลากในแพ็คเก็ตละ 100 ป้าย ด้วยวิธีนี้มี 100 แพ็กเก็ตและแต่ละแพ็คเก็ตมี 100 ป้ายดังนั้นรวม 10,000 ป้าย ก่อนที่จะชำระเงินให้กับตัวแทนจำหน่ายของ $ 10,000 เราตัดสินใจที่จะนับแพ็คเก็ตน้อยเพื่อให้แน่ใจว่าแต่ละแพ็คเก็ตมี 100 ป้าย เมื่อเรานับฉลากเราพบว่าแพ็คเก็ตสั้น 100 ป้าย (เราพบ 97 ป้าย) เพื่อให้แน่ใจว่านี่ไม่ใช่โดยบังเอิญ แต่ได้ทำไปโดยเจตนาเราได้นับ 5 แพ็กเก็ตเพิ่มเติมและพบจำนวนป้ายกำกับต่อไปนี้ในแต่ละแพ็คเก็ต (รวมถึงแพ็กเก็ตแรก): Packet …

4
ดูแล้วคุณจะพบ (ความสัมพันธ์)
ฉันมีการวัดหลายร้อย ตอนนี้ฉันกำลังพิจารณาใช้ซอฟต์แวร์บางชนิดเพื่อเชื่อมโยงทุกการวัดกับทุกการวัด ซึ่งหมายความว่ามีความสัมพันธ์นับพัน ในกลุ่มคนเหล่านี้ควรมีความสัมพันธ์ทางสถิติสูงแม้ว่าข้อมูลจะสุ่มอย่างสมบูรณ์ (แต่ละการวัดมีเพียง 100 ดาต้าพอยน์) เมื่อฉันพบความสัมพันธ์ฉันจะรวมข้อมูลเกี่ยวกับความยากลำบากที่ฉันมองหาความสัมพันธ์ลงไปได้อย่างไร ฉันไม่ได้อยู่ในระดับสูงในสถิติดังนั้นโปรดอดทนกับฉัน

7
เหตุใดจึงต้องปรับความน่าจะเป็นบันทึกสูงสุดให้เหมาะสมแทนความน่าจะเป็น
ในงานการเรียนรู้เครื่องมากที่สุดที่คุณสามารถกำหนดบางส่วนน่าจะเป็นซึ่งควรจะขยายเราจริงจะเพิ่มประสิทธิภาพการบันทึกความน่าจะเป็นบันทึกหน้าแทนน่าจะเป็นสำหรับบางพารามิเตอร์θ เช่นในการฝึกความเป็นไปได้สูงสุดมักจะเป็นโอกาสในการบันทึก เมื่อทำเช่นนี้ด้วยวิธีการไล่ระดับสีบางสิ่งนี้เกี่ยวข้องกับปัจจัย:พีppเข้าสู่ระบบพีlog⁡p\log pθθ\theta ∂เข้าสู่ระบบพี∂θ= 1พี⋅ ∂พี∂θ∂log⁡p∂θ=1p⋅∂p∂θ \frac{\partial \log p}{\partial \theta} = \frac{1}{p} \cdot \frac{\partial p}{\partial \theta} ดูที่นี่หรือที่นี่สำหรับตัวอย่างบางส่วน แน่นอนว่าการเพิ่มประสิทธิภาพนั้นเทียบเท่า แต่การไล่ระดับจะแตกต่างกันดังนั้นวิธีการไล่ระดับสีใด ๆ จะทำงานแตกต่างกัน (โดยเฉพาะวิธีการไล่ระดับสีแบบสุ่ม stochastic) มีเหตุผลใดที่เข้าสู่ระบบพีlog⁡p\log pลาดทำงานดีกว่าพีppลาด?


7
การคำนวณพารามิเตอร์ของการแจกแจงแบบเบต้าโดยใช้ค่าเฉลี่ยและความแปรปรวน
ฉันจะคำนวณพารามิเตอร์และสำหรับการแจกแจงแบบเบต้าได้อย่างไรถ้าฉันรู้ค่าเฉลี่ยและความแปรปรวนที่ฉันต้องการให้การกระจายมี ตัวอย่างของคำสั่ง R เพื่อทำสิ่งนี้จะเป็นประโยชน์มากที่สุดบีตาαα\alphaββ\beta

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.