สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

6
ค่าที่คาดหวังของเวลารอคอยสำหรับรถเมล์แรกของสองคันที่วิ่งทุก ๆ 10 และ 15 นาที
ฉันเจอคำถามสัมภาษณ์: มีรถไฟสีแดงที่ออกทุก 10 นาที มีรถไฟสีน้ำเงินมาทุก ๆ 15 นาที ทั้งคู่เริ่มจากเวลาสุ่มดังนั้นคุณไม่มีตารางเวลาใด ๆ หากคุณมาถึงสถานีโดยการสุ่มเวลาและขึ้นรถไฟขบวนใดที่มาก่อนเวลารอที่คาดหวังคืออะไร

2
ข้อดีของตระกูลเอ็กซ์โปแนนเชียล: ทำไมเราควรศึกษาและใช้มัน?
ดังนั้นที่นี่ฉันกำลังศึกษาอนุมาน ฉันต้องการให้ใครบางคนสามารถระบุข้อดีของตระกูลเอ็กซ์โปเนนเชียล โดยตระกูลเอ็กซ์โพเนนเชียลฉันหมายถึงการแจกแจงที่ได้รับเป็น ฉ( x | θ ) = h ( x ) exp{ η( θ ) T( x ) - B ( θ ) }ฉ(x|θ)=ชั่วโมง(x)ประสบการณ์⁡{η(θ)T(x)-B(θ)}\begin{align*} f(x|\theta) = h(x)\exp\left\{\eta(\theta)T(x) - B(\theta)\right\} \end{align*} สนับสนุนซึ่งไม่ขึ้นอยู่กับพารามิเตอร์\นี่คือข้อดีที่ฉันค้นพบ:θθ\theta (a) ประกอบด้วยการกระจายที่หลากหลาย (b) มีสถิติที่เพียงพอตามธรรมชาติตามทฤษฎีบทของเนย์แมน - ฟิชเชอร์T( x )T(x)T(x) (ค) มันทำให้เป็นไปได้เพื่อให้เป็นสูตรที่ดีสำหรับฟังก์ชั่นช่วงเวลาที่ก่อให้เกิดของT(x )T(x)T(x)(x) (d) ทำให้ง่ายต่อการแยกความสัมพันธ์ระหว่างการตอบสนองและตัวทำนายจากการแจกแจงแบบมีเงื่อนไขของการตอบสนอง (ผ่านฟังก์ชั่นลิงค์) ใครสามารถให้ประโยชน์อื่น ๆ ได้บ้าง?

3
พล็อตนี้มีชื่ออะไรที่มีแถวที่มีจุดเชื่อมต่อสองจุด
ฉันอ่านรายงาน EIA และโครงเรื่องนี้ได้รับความสนใจ ตอนนี้ฉันต้องการที่จะสร้างพล็อตประเภทเดียวกัน มันแสดงให้เห็นถึงวิวัฒนาการการผลิตพลังงานระหว่างสองปี (2533-2558) และเพิ่มมูลค่าการเปลี่ยนแปลงระหว่างสองช่วงเวลานี้ พล็อตประเภทนี้ชื่ออะไร ฉันจะสร้างพล็อตเดียวกัน (กับประเทศต่าง ๆ ) ใน excel ได้อย่างไร

1
ประวัติของกล่องแปลงคืออะไรและการออกแบบ“ กล่องและหนวด” พัฒนาอย่างไร?
หลายแหล่งวันที่ออกแบบ "แผนกล่อง" คลาสสิกกับจอห์น Tukeyและ "แผนผังแผน" ของ 2513 การออกแบบที่ดูเหมือนจะค่อนข้างคงที่ตั้งแต่นั้นมากับเอ็ดเวิร์ด Tufteตัดลงมาเป็นกล่องรุ่น - พล็อตไม่ทันตั้งตัวขณะแผนการของไวโอลิน - แม้ว่าจะเป็นข้อมูลที่แตกต่างของพล็อตกล่อง - ยังคงได้รับความนิยมน้อยลง ข้อเสนอแนะของคลีฟแลนด์ที่เคราขยายออกไปเป็นร้อยละ 10 และ 90 มีผู้สนับสนุนบางส่วนดูCox (2009)แต่ไม่ใช่บรรทัดฐาน Hadley Wickham และ Lisa Stryjewski เขียนกระดาษที่ไม่ได้เผยแพร่เกี่ยวกับประวัติความเป็นมาของแผนการกล่องแต่ดูเหมือนว่ามันจะไม่ครอบคลุมถึงบรรพบุรุษของกล่องแปลง แล้วพล็อตปัจจุบัน "แพร่หลาย" และ "หนวด" จึงเกิดขึ้นได้อย่างไร การสร้างภาพข้อมูลแบบใดที่วิวัฒนาการมาจากการออกแบบก่อนหน้านี้มีข้อได้เปรียบที่สำคัญและทำไมพวกเขาถึงดูเหมือนจะถูกบดบังดังนั้นการใช้งานอย่างละเอียดตามแบบแผนการของ Tukey? คำตอบที่แสดงให้เห็นจะเป็นโบนัส แต่จะถูกนำไปอ้างอิงที่ดำลึกในอดีตกว่า Wickham และ Stryjewski จะเป็นประโยชน์ อ้างอิง Cox, NJ (2009) Stata พูด: การสร้างและการแปลงกล่องแปลง Stata Journal , …

2
ทำไมการย่อขนาดแม่ให้เล็กที่สุดนำไปสู่การคาดการณ์ค่ามัธยฐานไม่ใช่ค่าเฉลี่ย?
จากการพยากรณ์: หลักการและแบบฝึกหัดโดย Rob J Hyndman และ George Athanasopoulosโดยเฉพาะในส่วนของการวัดความแม่นยำ : วิธีการพยากรณ์ที่ย่อขนาดเล็กที่สุดจะนำไปสู่การคาดการณ์ของค่ามัธยฐานในขณะที่การลด RMSE จะนำไปสู่การคาดการณ์ค่าเฉลี่ย บางคนสามารถให้คำอธิบายที่เข้าใจง่ายว่าทำไมการย่อขนาดแม่ให้เล็กที่สุดนำไปสู่การคาดคะเนค่ามัธยฐานไม่ใช่ค่าเฉลี่ย? และนี่หมายถึงอะไรในทางปฏิบัติ ฉันได้ถามลูกค้า: "สิ่งที่สำคัญกว่าสำหรับคุณคือการคาดการณ์หมายถึงแม่นยำยิ่งขึ้นหรือเพื่อหลีกเลี่ยงการคาดการณ์ที่ไม่ถูกต้องมาก" เขาบอกว่าการคาดหมายที่แม่นยำยิ่งกว่านั้นจะมีลำดับความสำคัญสูงกว่า ดังนั้นในกรณีนี้ฉันควรใช้ Mae หรือ RMSE หรือไม่ ก่อนที่ฉันจะอ่านหนังเรื่องนี้ฉันเชื่อว่าแม่จะดีขึ้นสำหรับเงื่อนไขดังกล่าว และตอนนี้ฉันสงสัย
19 forecasting  mean  median  rms  mae 

3
จะบอกได้อย่างไรว่าแฟนสามารถบอกอนาคต (เช่นทำนายสต๊อก)?
แฟนของฉันเพิ่งได้งานขายและการซื้อขายที่ธนาคารใหญ่ จากงานใหม่ของเธอเธอเชื่อว่าเธอสามารถทำนายได้ว่าหุ้นจะขึ้นหรือลงในช่วงสิ้นเดือนที่ยิ่งใหญ่กว่าโอกาส (เธอเชื่อว่าเธอสามารถทำได้ด้วยความแม่นยำ 80%!) ฉันสงสัยมาก เราได้ตกลงที่จะทำการทดสอบที่เธอจะเลือกจำนวนหุ้นและในเวลาที่กำหนดไว้เราจะตรวจสอบว่าพวกเขาจะขึ้นหรือลง คำถามของฉันคือ: เธอจะต้องเลือกหุ้นจำนวนเท่าไหร่และเธอจะต้องทำให้ถูกต้องเพื่อที่จะมีพลังทางสถิติเพียงพอที่จะบอกด้วยความมั่นใจว่าเธอสามารถทำนายหุ้นได้อย่างแม่นยำ? ตัวอย่างเช่นเธอจะเลือกหุ้นกี่หุ้นเพื่อบอกด้วยความมั่นใจ 95% ว่าเธอเลือกหุ้นที่มีความแม่นยำ 80% แก้ไข: สำหรับการทดสอบที่เราเห็นด้วยเธอไม่จำเป็นต้องคาดเดาว่าหุ้นจะขึ้นหรือลงเท่าไร แต่จะขึ้นหรือลงเท่านั้น

5
หลีกเลี่ยงการ overfitting ในการถดถอย: ทางเลือกเพื่อ normalization
การทำให้เป็นปกติในการถดถอย (เชิงเส้น, โลจิสติก ... ) เป็นวิธีที่นิยมมากที่สุดในการลดความกระชับ เมื่อเป้าหมายคือการคาดการณ์ความแม่นยำ (ไม่อธิบาย) มีทางเลือกอื่นที่ดีสำหรับการทำให้เป็นมาตรฐานหรือไม่โดยเฉพาะอย่างยิ่งเหมาะสำหรับชุดข้อมูลขนาดใหญ่ (ไมล์ / พันล้านการสังเกตและคุณสมบัตินับล้าน)

4
ทำไมการเพิ่มขนาดตัวอย่างของการโยนเหรียญจึงไม่ทำให้การประมาณส่วนโค้งปกติดีขึ้น?
ฉันกำลังอ่านหนังสือสถิติ (ฟรีแมน, Pisani, Purves) และฉันพยายามสร้างตัวอย่างที่เหรียญถูกโยน 50 ครั้งจำนวนหัวนับและซ้ำ 1,000 ครั้ง ก่อนอื่นฉันเก็บจำนวนของการโยน (ขนาดตัวอย่าง) ที่ 1,000 และเพิ่มการซ้ำ ยิ่งมีการซ้ำซ้อนมากเท่าไหร่ข้อมูลก็จะยิ่งมีความโค้งมากขึ้นเท่านั้น ต่อไปฉันพยายามรักษาจำนวนการทำซ้ำที่ 1,000 และเพิ่มขนาดตัวอย่าง ยิ่งขนาดตัวอย่างใหญ่ขึ้นเท่าไหร่โค้งที่แย่ที่สุดก็ดูเหมือนจะพอดีกับข้อมูล สิ่งนี้ดูเหมือนจะขัดแย้งกับตัวอย่างหนังสือซึ่งใกล้เคียงกับเส้นโค้งปกติมากขึ้นเมื่อขนาดตัวอย่างเพิ่มขึ้น ฉันต้องการดูว่าจะเกิดอะไรขึ้นถ้าฉันเพิ่มขนาดตัวอย่าง แต่ด้วยจำนวนการทำซ้ำที่มากขึ้นซึ่งกำหนดไว้ที่ 10,000 เรื่องนี้ดูเหมือนจะขัดแย้งกับหนังสือ ความคิดเห็นใดที่ฉันทำผิด รหัสและกราฟด้านล่าง %matplotlib inline def plot_hist(num_repetitions, num_tosses): tosses = np.random.randint(0, 2, size=[num_repetitions, num_tosses]) sums = np.apply_along_axis(lambda a: np.sum(a == 1), 1, tosses) xmin, xmax = min(sums), …

4
ความสัมพันธ์ระหว่างสหสัมพันธ์และสาเหตุ
จากหน้าวิกิพีเดียหัวข้อความสัมพันธ์ไม่ได้หมายความถึงเวรกรรม , สำหรับเหตุการณ์ที่มีความสัมพันธ์สองเหตุการณ์ A และ B ความสัมพันธ์ที่เป็นไปได้ที่แตกต่างกัน ได้แก่ : สาเหตุ B (สาเหตุโดยตรง); B ทำให้เกิด A (การกลับรายการตรงกันข้าม); A และ B เป็นผลสืบเนื่องจากสาเหตุที่พบบ่อย แต่ไม่ก่อให้เกิดซึ่งกันและกัน A และ B ทั้งสองทำให้ C ซึ่งเป็นเงื่อนไข (อย่างชัดเจนหรือโดยปริยาย) เมื่อ; สาเหตุ B และ B ทำให้ A (สาเหตุสองทิศทางหรือเป็นรอบ); สาเหตุ C ซึ่งทำให้ B (สาเหตุทางอ้อม); ไม่มีการเชื่อมต่อระหว่าง A และ B ความสัมพันธ์เป็นเรื่องบังเอิญ จุดที่สี่หมายถึงอะไร A และ B …

1
การทดสอบแบบไม่อิงพารามิเตอร์หากดึงตัวอย่างสองตัวอย่างจากการแจกแจงแบบเดียวกัน
ฉันต้องการทดสอบสมมติฐานว่ามีตัวอย่างสองตัวอย่างมาจากประชากรเดียวกันโดยไม่มีการตั้งสมมติฐานใด ๆ เกี่ยวกับการกระจายตัวของกลุ่มตัวอย่างหรือประชากร ฉันจะทำสิ่งนี้ได้อย่างไร จากวิกิพีเดียความประทับใจของฉันคือการทดสอบ Mann Whitney U ควรเหมาะสม แต่ดูเหมือนจะไม่เหมาะสำหรับฉันในทางปฏิบัติ สำหรับ concreteness ฉันได้สร้างชุดข้อมูลที่มีสองตัวอย่าง (a, b) ที่มีขนาดใหญ่ (n = 10,000) และดึงมาจากประชากรสองกลุ่มที่ไม่ปกติ (bimodal) มีความคล้ายคลึงกัน (ค่าเฉลี่ยเดียวกัน) แตกต่างกัน (ค่าเบี่ยงเบนมาตรฐาน รอบ "humps.") ฉันกำลังมองหาการทดสอบที่จะรับรู้ว่าตัวอย่างเหล่านี้ไม่ได้มาจากประชากรเดียวกัน มุมมองฮิสโตแกรม: รหัส R: a <- tibble(group = "a", n = c(rnorm(1e4, mean=50, sd=10), rnorm(1e4, mean=100, sd=10))) b <- tibble(group = "b", n …

1
การสุ่มตัวอย่างเชิงลบทำงานอย่างไรใน word2vec
ฉันพยายามอย่างหนักที่จะเข้าใจแนวคิดของการสุ่มตัวอย่างเชิงลบในบริบทของ word2vec ฉันไม่สามารถแยกแยะความคิดในการสุ่มตัวอย่าง [เชิงลบ] ตัวอย่างเช่นในเอกสารของ Mikolovความคาดหวังการสุ่มตัวอย่างเชิงลบนั้นถูกกำหนดเป็น เข้าสู่ระบบσ( ⟨ w , c ⟩ ) + k ⋅ Eคยังไม่มีข้อความ~ PD[ บันทึกσ( - ⟨ w , cยังไม่มีข้อความ⟩ ) ]เข้าสู่ระบบ⁡σ(⟨W,ค⟩)+k⋅Eคยังไม่มีข้อความ~PD[เข้าสู่ระบบ⁡σ(-⟨W,คยังไม่มีข้อความ⟩)].\log \sigma(\langle w,c\rangle ) + k \cdot \mathbb E_{c_N\sim PD}[\log\sigma(−\langle w,c_N\rangle)]. ฉันเข้าใจคำศัพท์ด้านซ้ายแต่ฉันไม่เข้าใจแนวคิดของการสุ่มตัวอย่างคำศัพท์บริบทบริบทเชิงลบlogσ(⟨w,c⟩)log⁡σ(⟨w,c⟩)\log \sigma(\langle w,c\rangle)

2
อะไรคือสิ่งที่ / นัยในสถิติบ่อย ๆ คืออะไร?
ฉันเคยได้ยินความคิดที่ว่าเจย์เนสอ้างว่าผู้ใช้บ่อยใช้งานด้วย "โดยปริยายมาก่อน" นักบวชโดยนัยคืออะไรหรือ นี่หมายความว่าแบบจำลองผู้ใช้ประจำเป็นกรณีพิเศษทั้งหมดของแบบจำลอง Bayesian ที่รอการค้นพบหรือไม่?

5
เมื่อทฤษฎีบทขีด จำกัด กลางและกฎจำนวนมากไม่เห็นด้วย
นี่เป็นการจำลองแบบของคำถามที่ฉันพบที่ math.seซึ่งไม่ได้รับคำตอบที่ฉันหวังไว้ ปล่อยเป็นลำดับของตัวแปรสุ่มแบบกระจายที่เหมือนกันโดยมีและ . E [ X i ] = 1{Xi}i∈N{Xi}i∈N\{ X_i \}_{i \in \mathbb{N}}E[Xi]=1E[Xi]=1\mathbb{E}[X_i] = 1V[Xi]=1V[Xi]=1\mathbb{V}[X_i] = 1 พิจารณาการประเมินผลของ limn→∞P(1n−−√∑i=1nXi≤n−−√)limn→∞P(1n∑i=1nXi≤n) \lim_{n \to \infty} \mathbb{P}\left(\frac{1}{\sqrt{n}} \sum_{i=1}^n X_i \leq \sqrt{n}\right) การแสดงออกนี้จะต้องมีการจัดการตั้งแต่นั้นมาทั้งสองด้านของเหตุการณ์ความไม่เท่าเทียมมีแนวโน้มที่จะไม่มีที่สิ้นสุด A) การทดลองใช้งานระบบย่อย ก่อนพิจารณาคำสั่งที่ จำกัด ให้ลบn−−√n\sqrt{n}จากทั้งสองด้าน: limn→∞P(1n−−√∑i=1nXi−n−−√≤n−−√−n−−√)=limn→∞P(1n−−√∑i=1n(Xi−1)≤0)=Φ(0)=12limn→∞P(1n∑i=1nXi−n≤n−n)=limn→∞P(1n∑i=1n(Xi−1)≤0)=Φ(0)=12\lim_{n \to \infty} \mathbb{P}\left(\frac{1}{\sqrt{n}} \sum_{i=1}^n X_i -\sqrt{n} \leq \sqrt{n}-\sqrt{n} \right) = \lim_{n \to \infty} \mathbb{P}\left(\frac{1}{\sqrt{n}} …

2
ตัวชี้วัดการจำแนกหลายป้ายบน scikit
ฉันกำลังพยายามสร้างตัวแยกประเภทแบบหลายป้ายกำกับเพื่อกำหนดหัวข้อให้กับเอกสารที่มีอยู่โดยใช้ scikit ฉันกำลังประมวลผลเอกสารของฉันผ่านพวกเขาผ่านTfidfVectorizerป้ายผ่านที่MultiLabelBinarizerและสร้างOneVsRestClassifierด้วยการSGDClassifierเป็นประมาณการ อย่างไรก็ตามเมื่อทำการทดสอบลักษณนามของฉันฉันได้รับคะแนนสูงสุดเพียง. 29ซึ่งจากสิ่งที่ฉันได้อ่านนั้นค่อนข้างต่ำสำหรับปัญหาที่คล้ายกัน ฉันลองตัวเลือกหลายอย่างใน TfidfVectorizer เช่น stopwords, unigrams, stemming และไม่มีอะไรน่าจะเปลี่ยนผลลัพธ์ได้มากนัก ฉันยังเคยGridSearchCVได้รับพารามิเตอร์ที่ดีที่สุดสำหรับตัวประมาณของฉันและตอนนี้ฉันไม่มีแนวคิดว่าจะลองทำอะไรต่อไป ในเวลาเดียวกันจากสิ่งที่ฉันเข้าใจว่าฉันไม่สามารถใช้scikit.metricsกับOneVsRestClassifierดังนั้นฉันจะได้รับตัวชี้วัดบางอย่าง (F1, Precision, Recall และอื่น ๆ ) เพื่อหาว่ามีอะไรผิดปกติหรือไม่ อาจเป็นปัญหากับคลังข้อมูลของฉันหรือไม่ ปรับปรุง: ฉันยังพยายามใช้CountVectorizerและHashingVectorizerและวิธี pipeline พวกเขาไปTfidfTransformerแต่ผลที่มีลักษณะคล้ายกัน ดังนั้นฉันเดาว่าวิธีการแบบถุงคำกำลังทำดีที่สุดในโดเมนโทเค็นและส่วนที่เหลือขึ้นอยู่กับลักษณนาม ...

3
เราจะตัดสินความแม่นยำของการทำนายของ Nate Silver ได้อย่างไร
ประการแรกเขาให้ความน่าจะเป็นของผลลัพธ์ ตัวอย่างเช่นการคาดการณ์ของเขาสำหรับการเลือกตั้งสหรัฐปัจจุบัน 82% คลินตันเทียบกับ 18% ทรัมป์ ตอนนี้ถึงแม้ว่าทรัมป์ชนะฉันจะรู้ได้อย่างไรว่าไม่ใช่แค่ 18% ของเวลาที่เขาควรจะชนะ ปัญหาอื่นคือความน่าจะเป็นของเขาเปลี่ยนไปตามกาลเวลา ดังนั้นในวันที่ 31 กรกฎาคมมันเกือบ 50-50 ระหว่างทรัมป์และคลินตัน คำถามของฉันคือเนื่องจากเขามีโอกาสที่แตกต่างกันทุกวันสำหรับเหตุการณ์ในอนาคตเดียวกันกับผลลัพธ์เดียวกันฉันจะวัดความแม่นยำของเขาในแต่ละวันได้อย่างไรว่าเขาจะทำนายตามข้อมูลที่มีอยู่ในวันนั้นหรือไม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.