สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

1
ตัวเลขที่ถูกตัดทอนจากเครื่องกำเนิดตัวเลขสุ่มยังคงเป็น 'สุ่ม' หรือไม่
ต่อไปนี้'การตัดปลาย'หมายถึงการลดความแม่นยำของตัวเลขสุ่มและไม่ตัดทอนชุดตัวเลขสุ่ม ตัวอย่างเช่นถ้าฉันมีตัวเลขสุ่มอย่างแท้จริง (ดึงมาจากการแจกแจงใด ๆ เช่นปกติเครื่องแบบ ฯลฯ ) ด้วยความแม่นยำตามอำเภอใจและฉันจะตัดทอนตัวเลขทั้งหมดเพื่อให้ท้ายที่สุดฉันก็จบด้วยชุดตัวเลขnแต่ละตัวมี 2 หลักหลังจุดทศนิยม ฉันสามารถเรียกหมายเลขสุ่มใหม่นี้ได้หรือไม่nnnnnn ฉันมากับคำถามนี้เมื่อฉันได้อ่านเกี่ยวกับฮาร์ดแวร์ที่สร้างตัวเลขสุ่ม บทความ Wikipedia กล่าวว่าพวกเขาสร้างตัวเลขสุ่มโดยการวัดกระบวนการทางกายภาพ แต่เนื่องจากการวัดนี้มีข้อ จำกัด (ข้อผิดพลาดในการวัดความแม่นยำแน่นอน ฯลฯ ) เราสามารถโทรหาหมายเลขที่สร้างโดยฮาร์ดแวร์เหล่านี้ได้หรือไม่

5
สถิติสรุปใดที่จะใช้กับตัวแปรเด็ดขาดหรือเชิงคุณภาพ
เพียงเพื่อชี้แจงเมื่อฉันหมายถึงสถิติสรุปฉันหมายถึงช่วงค่าเฉลี่ย, ควอไทล์มัธยฐาน, ความแปรปรวน, ส่วนเบี่ยงเบนมาตรฐาน เมื่อทำการสรุป univariate ซึ่งเป็นหมวดหมู่หรือเชิงคุณภาพเมื่อพิจารณาทั้งกรณีที่มีชื่อและลำดับก็ทำให้รู้สึกถึงการหาค่าเฉลี่ยมัธยฐานช่วงควอไทล์ความแปรปรวนและส่วนเบี่ยงเบนมาตรฐานหรือไม่ ถ้าเป็นเช่นนั้นจะแตกต่างจากถ้าคุณสรุปตัวแปรต่อเนื่องและอย่างไร

3
MDS มีบทบาทอย่างไรในสถิติสมัยใหม่
ฉันเพิ่งเจอการปรับสเกลหลายมิติ ฉันพยายามทำความเข้าใจเครื่องมือนี้ให้ดีขึ้นและบทบาทของมันในสถิติสมัยใหม่ ดังนั้นนี่คือคำถามที่แนะนำเล็กน้อย: คำถามใดตอบ นักวิจัยคนไหนที่สนใจจะใช้มัน? มีเทคนิคทางสถิติอื่น ๆ ที่ทำหน้าที่คล้ายกันหรือไม่? ทฤษฎีอะไรที่พัฒนาไปรอบ ๆ มัน? "MDS" เกี่ยวข้องกับ "SSA" อย่างไร ฉันขออภัยล่วงหน้าสำหรับการถามคำถามแบบผสม / ไม่มีการจัดระเบียบ แต่เป็นลักษณะของเวทีปัจจุบันของฉันในสาขานี้

2
อะไรคือค่า“
อะไรคือค่า ให้ไว้ในบทสรุปของโมเดล coxph ใน R ตัวอย่างเช่น,R2R2R^2 Rsquare= 0.186 (max possible= 0.991 ) ฉันรวมบทความต้นฉบับอย่างโง่เขลาเป็นค่าและผู้ตรวจสอบเพิ่มขึ้นโดยบอกว่าเขาไม่ได้ตระหนักถึงอนาล็อกของ สถิติจากการถดถอยเชิงเส้นแบบคลาสสิกที่พัฒนาขึ้นสำหรับโมเดล Cox และหากมีสิ่งใดสิ่งหนึ่งโปรด ให้การอ้างอิง ความช่วยเหลือใด ๆ จะดีมาก!R 2R2R2R^2R2R2R^2

4
หากชาร์ตเกจไม่ถูกต้องทำไมรถยนต์ถึงมีเกจ
ดูเหมือนว่าผู้เชี่ยวชาญด้านการสร้างภาพข้อมูลโดยทั่วไปจะไม่อนุมัติแผนภูมิมาตรวัด (ดูที่นี่: คุณเรียกแผนภูมิที่ดูเหมือนแผนภูมิครึ่งวงกลมโดยมีเข็มที่แสดงเปอร์เซ็นต์ ) เหตุผลหลักคือแผนภูมิมาตรวัดมีอัตราส่วนข้อมูลต่อหมึกต่ำ ตั้งแต่ฉันได้สัมผัสกับแนวคิดเหล่านี้ (หนังสือ Tufte สองสามเล่ม) ฉันมักจะเห็นด้วยกับพวกเขา แต่วันนี้มันทำให้ฉันสงสัยว่า: ถ้ามาตรวัดไม่มีประสิทธิภาพในการสื่อสารข้อมูลแล้วทำไมรถยนต์ / เรือ / เครื่องบินจึงมีมาตรวัดมากมาย แดชบอร์ดของพวกเขา และไม่คำตอบว่าคำถามมีชนิดของความเกี่ยวข้องบางส่วนเพื่อสร้างแดชบอร์ดที่ซอฟแวร์สำหรับองค์กรขนาดใหญ่? แก้ไขเพื่อรวมข้อมูลเพิ่มเติมที่ฉันพบ: ฉันพบคำว่า "ห้องนักบินแก้ว" ซึ่งหมายถึงห้องนักบินที่มีมาตรวัดทางกลแทนที่ด้วยหน้าจอ LCD เรื่องนี้ให้ความน่าเชื่อถือกับ "การประชุม" การโต้เถียงโดยเวน http://en.wikipedia.org/wiki/Glass_cockpit นี่คือแอพ iPad ที่ให้การอ่านข้อมูล telemetry ในรถของคุณเหมือนกับแดชบอร์ดโดยไม่ต้องดูมาตรวัด http://itunes.apple.com/us/app/dashcommand-obd-ii-gauge-dashboards/id321293183?mt=8 ฉันยังพบตัวอย่างขั้นต้นของเกจดิจิตอลสำหรับรถยนต์ (แนะนำให้ใช้ดุลยพินิจของผู้ดู) http://www.chetcodigital.com/index-Automotive.htm

3
ผลรวมของตัวแปรสุ่มเลขชี้กำลังดังต่อไปนี้แกมม่าสับสนโดยพารามิเตอร์
ฉันได้เรียนรู้ผลรวมของตัวแปรสุ่มแบบเอกซ์โพเนนเชียลหลังจากการแจกแจงแกมม่า แต่ทุกที่ที่ฉันอ่านการตั้งค่าที่แตกต่างกัน ตัวอย่างเช่น Wiki อธิบายถึงความสัมพันธ์ แต่อย่าพูดว่าพารามิเตอร์ของพวกเขาหมายถึงอะไรจริง ๆ รูปร่างขนาดอัตรา 1 / อัตรา การแจกแจงแบบเชียล: ~xxxexp(λ)exp(λ)exp(\lambda) f(x|λ)=λe−λxf(x|λ)=λe−λxf(x|\lambda )=\lambda {{e}^{-\lambda x}} E[x]=1/λE[x]=1/λE[x]=1/ \lambda var(x)=1/λ2var(x)=1/λ2var(x)=1/{{\lambda}^2} การแจกแจงแกมมา:Γ(shape=α,scale=β)Γ(shape=α,scale=β)\Gamma(\text{shape}=\alpha, \text{scale}=\beta) f(x|α,β)=1βα1Γ(α)xα−1e−xβf(x|α,β)=1βα1Γ(α)xα−1e−xβf(x|\alpha ,\beta )=\frac{1}{{{\beta }^{\alpha }}}\frac{1}{\Gamma (\alpha )}{{x}^{\alpha -1}}{{e}^{-\frac{x}{\beta }}} E[x]=αβE[x]=αβE[x]=\alpha\beta var[x]=αβ2var[x]=αβ2var[x]=\alpha{\beta}^{2} ในการตั้งค่านี้∑i=1nxi∑i=1nxi\sum\limits_{i=1}^{n}{{{x}_{i}}}คืออะไร สิ่งที่ถูกต้องจะเป็นอย่างไร วิธีการเกี่ยวกับการขยายนี้เพื่อไคสแควร์?

1
รูปแบบการสุ่มตัวอย่างสำหรับข้อมูลแบบหนาแน่น
ฉันกำลังทำงานกับแอปพลิเคชันสำรวจสุขภาพแบบเปิดซึ่งวางแผนจะใช้ในประเทศกำลังพัฒนา แนวความคิดพื้นฐานคือการสัมภาษณ์แบบสำรวจนั้นเป็นเรื่องที่มีคนหนาแน่น - ดำเนินการโดยอาสาสมัครที่ไม่มีการรวบรวมข้อมูลที่ส่งแบบฟอร์มข้อมูลการสัมภาษณ์ที่พวกเขาทำโดยใช้อุปกรณ์พกพาของพวกเขาและการสำรวจแต่ละครั้ง การสำรวจแบบดั้งเดิมที่รวบรวมโดยหน่วยงานของรัฐมักจะใช้รูปแบบการสุ่มตัวอย่างแบบมาตรฐาน สิ่งนี้ต้องการการวางแผนแบบรวมศูนย์จำนวนมากที่ไม่สามารถทำได้ตลอดเวลา (กล่าวถึงสิ่งนี้เพื่อตั้งคำถามของฉันในบริบทที่ถูกต้อง) เราสามารถพูดได้ว่าอาสาสมัครจะใช้การสุ่มตัวอย่างความสะดวกสบายรอบ ๆ พื้นที่ของเขา เขาจะสัมภาษณ์คนที่เขาสามารถเข้าถึงได้โดยไม่ จำกัด จำนวน ปัญหาพื้นฐานคือ: จะเข้าใจและอธิบายรูปแบบการสุ่มตัวอย่างโดยรวมของระบบสำรวจนี้ได้อย่างไร มีวิธีการหรือแบบจำลองที่จะจัดการกับกรณีดังกล่าวหรือไม่?
18 sampling 

1
หลังการทดสอบหลัง Kruskal-Wallis: การทดสอบของ Dunn หรือ Bonferroni แก้ไขการทดสอบ Mann-Whitney หรือไม่
ฉันมีตัวแปรแบบกระจายที่ไม่ใช่แบบเกาส์และต้องตรวจสอบว่ามีความแตกต่างอย่างมีนัยสำคัญระหว่างค่าของตัวแปรนี้ใน 5 กลุ่มที่แตกต่างกันหรือไม่ ฉันทำการวิเคราะห์ความแปรปรวนทางเดียวของ Kruskal-Wallis (ซึ่งมีนัยสำคัญมาก) และหลังจากนั้นฉันต้องตรวจสอบว่ากลุ่มใดมีความแตกต่างอย่างมีนัยสำคัญ เนื่องจากกลุ่มเรียงลำดับแล้ว (ค่าของตัวแปรในกลุ่มแรกควรต่ำกว่าค่าของตัวแปรในกลุ่มที่สองซึ่งควรต่ำกว่าค่าของตัวแปรในกลุ่มที่สามเป็นต้น บน) ฉันทำการทดสอบ 4 ครั้งเท่านั้น: Group 1 vs Group 2 Group 2 vs Group 3 Group 3 vs Group 4 Group 4 vs Group 5 ฉันทำการวิเคราะห์ด้วยวิธีที่ต่างกันสองวิธี ฉันเริ่มโดยใช้การทดสอบการเปรียบเทียบหลายอย่างของดันน์ แต่ไม่มีอะไรสำคัญเกิดขึ้น ในทางกลับกันถ้าฉันใช้การทดสอบ Mann-Whitney และแก้ไขจำนวนการทดสอบ (4) โดยใช้ Bonferroni การทดสอบ 3 ครั้งจะมีความสำคัญ มันหมายความว่าอะไร? ฉันควรเชื่อถือผลลัพธ์ใด

4
การใช้ offset ในรูปแบบทวินามเพื่ออธิบายจำนวนผู้ป่วยที่เพิ่มขึ้น
คำถามสองข้อที่เกี่ยวข้องจากฉัน ฉันมีกรอบข้อมูลซึ่งมีจำนวนผู้ป่วยในหนึ่งคอลัมน์ (ช่วงผู้ป่วย 10 - 17 คน) และ 0s และ 1s แสดงว่าเหตุการณ์เกิดขึ้นในวันนั้นหรือไม่ ฉันใช้รูปแบบทวินามเพื่อลดความน่าจะเป็นของเหตุการณ์ที่เกิดขึ้นกับจำนวนผู้ป่วย อย่างไรก็ตามฉันต้องการที่จะปรับให้เข้ากับความจริงที่ว่าเมื่อมีผู้ป่วยมากขึ้นจะมีเหตุการณ์ที่เกิดขึ้นอย่างหลีกเลี่ยงไม่ได้เพราะจำนวนเวลาผู้ป่วยทั้งหมดในวอร์ดนั้นสูงขึ้นในวันนั้น ดังนั้นฉันใช้รูปแบบทวินามแบบออฟเซ็ตเช่นนี้ (รหัส R): glm(Incident~Numbers, offset=Numbers, family=binomial, data=threatdata) คำถามของฉันคือ: มันโอเคที่จะมีตัวแปรที่เหมือนกันในการทำนายและใน offset หรือไม่? ฉันต้องการแยกความน่าจะเป็นของยาชูกำลังที่เพิ่มขึ้นและดูว่ามีอะไรเหลืออยู่บ้างหรือไม่ มันสมเหตุสมผลสำหรับฉัน แต่ฉันก็ค่อนข้างระมัดระวังในกรณีที่ฉันผิด มีการระบุออฟเซ็ตอย่างถูกต้องหรือไม่? ฉันรู้ว่าในรูปแบบปัวซองมันจะอ่าน offset=log(Numbers) ฉันไม่ทราบว่ามีสิ่งที่เทียบเท่าที่นี่และฉันไม่สามารถหาการชดเชยทวินามใด ๆ กับ Google (ปัญหาหลักคือการที่ฉันได้รับทวินามลบซึ่งแน่นอนว่าไม่ดี)

2
การวิเคราะห์จำแนกเชิงเส้นจะลดขนาดได้อย่างไร
มีคำจาก "องค์ประกอบของการเรียนรู้ทางสถิติ" ที่หน้า 91: K centroids ในพื้นที่อินพุต p-dimension ขยายพื้นที่ส่วนใหญ่มิติ K-1 และถ้า p มีขนาดใหญ่กว่า K นี่จะเป็นมิติที่ลดลงอย่างมาก ฉันมีสองคำถาม: ทำไม K centroids ในพื้นที่อินพุต p-p ขยายที่พื้นที่ส่วนใหญ่ K-1 มิติ? K centroid เป็นอย่างไรบ้าง? ไม่มีคำอธิบายในหนังสือและฉันไม่พบคำตอบจากเอกสารที่เกี่ยวข้อง

2
ทำไมการประมวลผลภาษาธรรมชาติไม่อยู่ในโดเมนการเรียนรู้ของเครื่อง? [ปิด]
ตามที่เป็นอยู่ในปัจจุบันคำถามนี้ไม่เหมาะสำหรับรูปแบบคำถาม & คำตอบของเรา เราคาดหวังคำตอบที่จะได้รับการสนับสนุนจากข้อเท็จจริงการอ้างอิงหรือความเชี่ยวชาญ แต่คำถามนี้อาจเรียกร้องให้มีการถกเถียงอภิปรายโต้แย้งหรือการอภิปรายเพิ่มเติม หากคุณรู้สึกว่าคำถามนี้สามารถปรับปรุงและเปิดใหม่ได้โปรดไปที่ศูนย์ช่วยเหลือเพื่อขอคำแนะนำ ปิดให้บริการใน7 ปีที่ผ่านมา ฉันพบมันในหนังสือหลายเล่มรวมทั้งเว็บ การประมวลผลภาษาธรรมชาติและการเรียนรู้ของเครื่องนั้นถูกกล่าวกันว่าเป็นส่วนย่อยที่แตกต่างกันของปัญญาประดิษฐ์ ทำไมล่ะ เราสามารถบรรลุผลลัพธ์ของการประมวลผลภาษาธรรมชาติด้วยการป้อนรูปแบบเสียงให้กับอัลกอริทึมการเรียนรู้ของเครื่อง แล้วความแตกต่างคืออะไร?

2
จะคำนวณความสับสนของโฮลด์ได้อย่างไรด้วย Latent Dirichlet Allocation
ฉันสับสนเกี่ยวกับวิธีการคำนวณความฉงนสนเท่ห์ของตัวอย่างที่เก็บไว้เมื่อทำการจัดสรร Latent Dirichlet (LDA) เอกสารในหัวข้อง่ายกว่าทำให้ฉันคิดว่าฉันขาดอะไรบางอย่างที่ชัดเจน ... ความงุนงงถูกมองว่าเป็นตัวชี้วัดประสิทธิภาพที่ดีสำหรับ LDA แนวคิดคือให้คุณเก็บตัวอย่างของการพักการฝึกอบรม LDA ของคุณในส่วนที่เหลือของข้อมูลจากนั้นคำนวณความน่าฉงนของการถือออก ความน่างงสามารถกำหนดโดยสูตร: per(Dtest)=exp{−∑Md=1logp(wd)∑Md=1Nd}per(Dtest)=exp{−∑d=1Mlog⁡p(wd)∑d=1MNd}per(D_{test})=exp\{-\frac{\sum_{d=1}^{M}\log p(\mathbb{w}_d)}{\sum_{d=1}^{M}N_d}\} (นำมาจากการดึงภาพในฐานข้อมูลภาพขนาดใหญ่, Horster และคณะ ) นี่ คือจำนวนของเอกสาร (ในตัวอย่างทดสอบสมมุติ) W dหมายถึงคำในเอกสารd , N วันที่จำนวนของคำในเอกสารdMMMwdwd\mathbb{w}_ddddNdNdN_dddd มันไม่ชัดเจนสำหรับฉันที่จะประกาศอย่างสมเหตุสมผลเนื่องจากเราไม่มีหัวข้อผสมสำหรับเอกสารที่จัดขึ้น โดยหลักการแล้วเราจะรวมเข้ากับ Dirichlet ก่อนสำหรับการผสมหัวข้อที่เป็นไปได้ทั้งหมดและใช้หัวข้อมัลตินิเคชันที่เราเรียนรู้ การคำนวณอินทิกรัลนี้ดูเหมือนจะไม่ใช่เรื่องง่ายp(wd)p(wd)p(\mathbb{w}_d) หรือเราอาจพยายามเรียนรู้หัวข้อที่เหมาะสมที่สุดสำหรับแต่ละเอกสารที่จัดไว้ (กำหนดหัวข้อที่เรียนรู้ของเรา) และใช้สิ่งนี้เพื่อคำนวณความงุนงง นี่น่าจะเป็นไปได้ แต่มันก็ไม่สำคัญเหมือนเอกสารเช่น Horter et al และ Blei et al ดูเหมือนว่าจะแนะนำและไม่ชัดเจนสำหรับฉันทันทีว่าผลลัพธ์จะเทียบเท่ากับกรณีอุดมคติข้างต้น

2
ฉันจะได้รับ ANOVA โดยรวมที่สำคัญได้อย่างไร
ฉันแสดงด้วย ANOVA R และฉันก็มีความแตกต่างที่สำคัญ อย่างไรก็ตามเมื่อตรวจสอบว่าคู่ไหนมีความแตกต่างอย่างมีนัยสำคัญโดยใช้ขั้นตอนของ Tukey ฉันไม่ได้รับเลย สิ่งนี้จะเป็นไปได้อย่างไร นี่คือรหัส: fit5_snow<- lm(Response ~ Stimulus, data=audio_snow) anova(fit5_snow) > anova(fit5_snow) Analysis of Variance Table Response: Response Df Sum Sq Mean Sq F value Pr(>F) Stimulus 5 73.79 14.7578 2.6308 0.02929 * Residuals 84 471.20 5.6095 --- Signif. codes: 0 '***' 0.001 '**' 0.01 …

3
"ระยะขอบของข้อผิดพลาด" และ "ข้อผิดพลาดมาตรฐาน" แตกต่างกันอย่างไร
"ระยะขอบของข้อผิดพลาด" เหมือนกับ "ข้อผิดพลาดมาตรฐาน" หรือไม่ ตัวอย่าง (ง่าย) เพื่อแสดงให้เห็นถึงความแตกต่างจะดีมาก!
18 definition 

5
วิธีการสหสัมพันธ์ที่แข็งแกร่งแบบใดที่ใช้จริง
ฉันวางแผนที่จะทำการศึกษาแบบจำลองที่ฉันเปรียบเทียบประสิทธิภาพของเทคนิคความสัมพันธ์ที่แข็งแกร่งหลายอย่างกับการแจกแจงที่ต่างกัน (เบ้กับค่าผิดปกติ ฯลฯ ) ด้วยความแข็งแกร่งฉันหมายถึงกรณีในอุดมคติของการมีความแข็งแกร่งต่อก) การแจกแจงแบบเบ้, b) ค่าผิดปกติและ c) ก้อยที่หนัก นอกจากความสัมพันธ์ของเพียร์สันในฐานะที่เป็นพื้นฐานแล้วฉันยังคิดที่จะรวมมาตรการที่แข็งแกร่งกว่านี้ไว้ด้วย: Spearman's ρρ\rho เปอร์เซ็นต์ความสัมพันธ์โค้ง (Wilcox, 1994, [1]) รูปไข่ปริมาณต่ำสุด, ปัจจัยแปรปรวนร่วมขั้นต่ำ ( cov.mve/ cov.mcdพร้อมกับcor=TRUEตัวเลือก) อาจจะเป็นความสัมพันธ์ที่ได้รับรางวัล แน่นอนมีตัวเลือกมากมาย (โดยเฉพาะถ้าคุณรวมเทคนิคการถดถอยที่แข็งแกร่งเช่นกัน) แต่ฉันต้องการ จำกัด ตัวเองกับวิธีที่ใช้ส่วนใหญ่ / เป็นแนวโน้ม ตอนนี้ฉันมีสามคำถาม (อย่าลังเลที่จะตอบคำถามเดียวเท่านั้น): มีวิธีสหสัมพันธ์ที่แข็งแกร่งอื่น ๆ ที่ฉันสามารถ / ควรรวมไว้หรือไม่ เทคนิคการสหสัมพันธ์ที่แข็งแกร่งแบบใดที่ใช้ จริง ในสาขาของคุณ (การพูดเพื่อการวิจัยทางจิตวิทยายกเว้นสเปียร์แมนผมไม่เคยเห็นใด ๆ ที่แข็งแกร่งนอกเทคนิคความสัมพันธ์ของกระดาษเทคนิคร่วมมือจะได้รับความนิยมมากขึ้น แต่สถิติที่แข็งแกร่งอื่น ๆ มีมากหรือน้อยไม่ได้มีอยู่เพื่อให้ห่างไกล.)ρρ\rho มีการเปรียบเทียบเชิงเทคนิคของเทคนิคสหสัมพันธ์ที่คุณรู้จักหรือไม่? นอกจากนี้โปรดแสดงความคิดเห็นรายการวิธีการที่ระบุด้านบน [1] Wilcox, …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.