สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

1
การตรวจสอบความถูกต้องไขว้เป็นการทดแทนที่เหมาะสมสำหรับชุดการตรวจสอบหรือไม่
ในการจัดประเภทข้อความฉันมีชุดการฝึกอบรมที่มีประมาณ 800 ตัวอย่างและชุดทดสอบที่มีประมาณ 150 ตัวอย่าง ไม่เคยใช้ชุดทดสอบและรอจนกว่าจะหมด ฉันใช้ชุดการฝึกอบรมตัวอย่าง 800 ชุดพร้อมการตรวจสอบไขว้ 10 เท่าในขณะที่ปรับแต่งและปรับแต่งตัวแยกประเภทและคุณสมบัติ ซึ่งหมายความว่าฉันไม่ได้มีชุดการตรวจสอบแยกต่างหาก แต่แต่ละชุดมี 10 เท่าชุดตรวจสอบจะถูกเลือกโดยอัตโนมัติ หลังจากที่ฉันจะพอใจกับทุกสิ่งและต้องการเข้าสู่ขั้นตอนสุดท้ายของการประเมินผลฉันจะฝึกตัวแยกประเภทของฉันในตัวอย่าง 800 ตัวอย่าง และทดสอบชุดทดสอบตัวอย่าง 150 ชุด ฉันเข้าใจหรือไม่ว่าการใช้การตรวจสอบข้ามในการจำแนกข้อความถูกต้องหรือไม่? วิธีนี้ใช้ได้หรือไม่ คำถามอื่นการตรวจสอบข้าม wrt คือ: แทนที่จะเป็น 10 เท่าฉันก็ลองใช้ตัวบ่งชี้ทั่วไปสำหรับการแสดงแทน เพราะสำหรับการออกไปข้างนอกเป็นไปไม่ได้ที่จะมีข้อมูลเกี่ยวกับ f1 / ความแม่นยำ / การเรียกคืนฉันสงสัยว่าความสัมพันธ์ระหว่างความถูกต้องจากการออกจากที่หนึ่งกับตัวชี้วัดจาก 10 เท่าคืออะไร ข้อมูลเชิงลึกใด ๆ จะได้รับการชื่นชมอย่างมาก แก้ไข: นี่เป็นการแนะนำที่ดีมากสำหรับการตรวจสอบความถูกต้องข้าม มันยังอ้างถึงงานวิจัยอื่น ๆ

3
เหตุใดนักบวช Jeffreys จึงถูกมองว่าไม่เป็นประโยชน์?
พิจารณา Jeffreys ก่อนที่ที่ฉันเป็นข้อมูลฟิชเชอร์p(θ)∝|i(θ)|−−−−√p(θ)∝|i(θ)|p(\theta) \propto \sqrt{|i(\theta)|}iii ฉันเคยเห็นสิ่งนี้ก่อนหน้านี้ถูกกล่าวถึงว่าเป็นคนที่ไม่รู้เรื่องมาก่อน แต่ฉันไม่เคยเห็นข้อโต้แย้งว่าทำไมมันถึงไม่เป็นที่รู้จัก ท้ายที่สุดมันไม่ได้เป็นค่าคงที่มาก่อนดังนั้นจึงต้องมีข้อโต้แย้งอื่น ๆ ฉันเข้าใจว่ามันไม่ได้ขึ้นอยู่กับ reparametrization ซึ่งนำฉันไปสู่คำถามต่อไป มันเป็นปัจจัยที่กำหนดข้อมูลฟิชเชอร์ไม่ได้ขึ้นอยู่กับการซ่อมแซมใหม่? เพราะข้อมูลชาวประมงขึ้นอยู่กับการแก้ไขปัญหาอย่างมาก ขอบคุณ
27 bayesian  prior 

4
การสร้างแผนที่ความหนาแน่นของความร้อนที่ดึงดูดสายตา
ในขณะที่ฉันรู้ว่ามีฟังก์ชั่นหลายชุดสำหรับสร้างแผนที่ความร้อนใน R ปัญหาคือฉันไม่สามารถสร้างแผนที่ที่ดึงดูดสายตาได้ ตัวอย่างเช่นภาพด้านล่างเป็นตัวอย่างแผนที่ความร้อนที่ฉันต้องการหลีกเลี่ยง อย่างแรกชัดเจนไม่มีรายละเอียดในขณะที่อีกคนหนึ่ง (ตามจุดเดียวกัน) มีรายละเอียดเกินไปที่จะเป็นประโยชน์ แปลงทั้งสองถูกสร้างขึ้นโดยฟังก์ชันความหนาแน่น () ในแพ็คเกจ spatstat R ฉันจะเพิ่ม "flow" ลงในแปลงของฉันได้อย่างไร สิ่งที่ฉันตั้งเป้าหมายคือการดูผลลัพธ์ของซอฟต์แวร์ SpatialKey ( ภาพหน้าจอ ) เชิงพาณิชย์มากขึ้นสามารถผลิตได้ คำแนะนำอัลกอริทึมแพคเกจหรือบรรทัดของโค้ดใดบ้างที่จะพาฉันไปในทิศทางนี้?

4
เหตุใดจึงมีความไม่สมดุลระหว่างขั้นตอนการฝึกอบรมและขั้นตอนประเมินผล
เป็นที่รู้จักกันดีโดยเฉพาะอย่างยิ่งในการประมวลผลภาษาธรรมชาติที่การเรียนรู้ของเครื่องควรดำเนินการในสองขั้นตอนขั้นตอนการฝึกอบรมและขั้นตอนการประเมินผลและพวกเขาควรใช้ข้อมูลที่แตกต่างกัน ทำไมนี้ โดยสังหรณ์ใจกระบวนการนี้ช่วยหลีกเลี่ยงการบีบอัดข้อมูลมากเกินไป แต่ฉันไม่เห็นเหตุผล (ข้อมูลเชิงทฤษฎี) ในกรณีนี้ ที่เกี่ยวข้องฉันได้เห็นตัวเลขจำนวนหนึ่งโยนไปรอบ ๆ สำหรับชุดข้อมูลที่ควรใช้สำหรับการฝึกอบรมและจำนวนการประเมินเช่น 2/3 และ 1/3 ตามลำดับ มีพื้นฐานทางทฤษฎีสำหรับการเลือกการแจกแจงแบบพิเศษหรือไม่?

3
โรงพยาบาลไหนควรเลือก หนึ่งมีอัตราความสำเร็จที่สูงขึ้น แต่อื่น ๆ มีอัตราความสำเร็จโดยรวมที่สูงขึ้น
ฉันมีคำถามเกี่ยวกับสิ่งที่ครูสถิติของฉันพูดเกี่ยวกับปัญหาต่อไปนี้ คำถามของฉันไม่ได้เกี่ยวกับการเกิดขึ้นของความขัดแย้งของ Simpson ในสถานการณ์นี้ คำถามของฉันเป็นเพียงการยืนยันของอาจารย์ว่า A) และ D) เป็นคำตอบที่ถูกต้องแทนที่จะเป็น A) และ F) เขาพูดว่า: "เนื่องจากอัตราความสำเร็จต่ำมากสำหรับการผ่าตัด Type E เราจึงสามารถสรุปได้ว่ามันยากและไม่ใช่เรื่องแปลกดังนั้นความเมตตาอาจมีเครื่องมือ / แพทย์ที่ดีกว่าเมื่อเทียบกับ Hope" ฉันไม่เข้าใจว่าเขาสามารถอนุมานได้อย่างไรว่าความเมตตาทำให้ "การผ่าตัดยากขึ้น" เห็นได้ชัดว่าความเมตตามีอัตราความสำเร็จดีกว่าในการทำศัลยกรรมประเภท E แต่เหตุใดจึงหมายความว่าพวกเขาทำ "การผ่าตัดที่ยากขึ้น" ฉันคิดว่าฉันกำลังเมาเพราะถ้อยคำของปัญหานี้และอาจารย์ไม่ได้ทำอะไร ใครช่วยอธิบายหน่อยได้ไหมว่าทำไมฉันถึงทำผิดหรืออธิบายได้อย่างไรกับอาจารย์? มีโรงพยาบาลสองแห่งชื่อ Mercy and Hope ในเมืองของคุณ คุณต้องเลือกหนึ่งในสิ่งเหล่านี้ที่จะเข้ารับการผ่าตัด คุณตัดสินใจที่จะตัดสินใจบนพื้นฐานของความสำเร็จของทีมผ่าตัดของพวกเขา โชคดีที่ภายใต้แผนสุขภาพใหม่โรงพยาบาลให้ข้อมูลเกี่ยวกับความสำเร็จในการดำเนินงานของพวกเขาแบ่งออกเป็นห้าประเภทกว้างของการดำเนินงาน สมมติว่าคุณได้รับข้อมูลต่อไปนี้สำหรับโรงพยาบาลสองแห่ง: Mercy Hospital Type A B C D E All Operations 359 1836 299 …

3
การคำนวณสัญลักษณ์ใน R?
ฉันสงสัยว่าเป็นไปได้ไหมที่จะทำการคำนวณเชิงสัญลักษณ์ใน R? ตัวอย่างเช่น, ฉันหวังว่าจะได้ค่าผกผันของเมทริกซ์ความแปรปรวนเชิงสัญลักษณ์ของการแจกแจงแบบเกาส์ 3D ฉันยังสามารถรวมสัญลักษณ์และสร้างความแตกต่างใน R ได้หรือไม่?
27 r 

3
AIC สามารถเปรียบเทียบกับรุ่นต่าง ๆ ได้หรือไม่?
ฉันใช้ AIC (เกณฑ์ข้อมูลของ Akaike) เพื่อเปรียบเทียบแบบจำลองที่ไม่ใช่เชิงเส้นใน R มันถูกต้องหรือไม่ที่จะเปรียบเทียบ AIC ของแบบจำลองชนิดต่าง ๆ ? โดยเฉพาะฉันกำลังเปรียบเทียบแบบจำลองที่ติดตั้งโดย glm กับแบบจำลองที่มีระยะเอฟเฟกต์แบบสุ่มติดตั้งโดย glmer (lme4) ถ้าไม่มีวิธีการเปรียบเทียบเช่นนี้สามารถทำได้หรือไม่? หรือความคิดที่ไม่ถูกต้องสมบูรณ์?

12
เครื่องมือบรรทัดคำสั่งเพื่อคำนวณสถิติพื้นฐานสำหรับกระแสค่า [ปิด]
มีเครื่องมือบรรทัดคำสั่งใดบ้างที่ยอมรับการไหลของตัวเลข (ในรูปแบบ ascii) จากอินพุตมาตรฐานและให้สถิติเชิงพรรณนาพื้นฐานสำหรับโฟลว์นี้เช่น min, max, average, median, RMS, quantiles และอื่น ๆ ? เอาต์พุตยินดีที่จะแยกวิเคราะห์โดยคำสั่งถัดไปในห่วงโซ่บรรทัดคำสั่ง สภาพแวดล้อมการทำงานคือ Linux แต่มีตัวเลือกอื่น ๆ ยินดีต้อนรับ


5
จะคลุมเครือก่อนหน้าเช่นเดียวกับที่ไม่ให้ข้อมูลก่อน
นี่เป็นคำถามเกี่ยวกับคำศัพท์ "คลุมเครือก่อนหน้า" เหมือนกันกับที่ไม่ให้ข้อมูลมาก่อนหรือว่ามีความแตกต่างระหว่างทั้งสองหรือไม่? ความประทับใจของฉันคือพวกเขาเหมือนกัน (จากการค้นหาคลุมเครือและไม่ให้ข้อมูลด้วยกัน) แต่ฉันไม่สามารถมั่นใจได้

2
ความสัมพันธ์ถือว่ามีความคงที่ของข้อมูลหรือไม่?
การวิเคราะห์ระหว่างตลาดเป็นวิธีการสร้างแบบจำลองพฤติกรรมของตลาดโดยใช้วิธีการค้นหาความสัมพันธ์ระหว่างตลาดที่แตกต่างกัน บ่อยครั้งที่ความสัมพันธ์ถูกคำนวณระหว่างสองตลาดพูดว่า S&P 500 และสมบัติ 30 ปีของสหรัฐฯ การคำนวณเหล่านี้มักจะไม่ได้ขึ้นอยู่กับข้อมูลราคาซึ่งเห็นได้ชัดสำหรับทุกคนว่ามันไม่เหมาะกับคำจำกัดความของอนุกรมเวลาคงที่ วิธีแก้ปัญหาที่เป็นไปได้ (ใช้การส่งคืนแทน) การคำนวณความสัมพันธ์ซึ่งข้อมูลไม่อยู่นิ่งแม้จะคำนวณทางสถิติที่ถูกต้องหรือไม่ คุณจะบอกว่าการคำนวณสหสัมพันธ์นั้นค่อนข้างไม่น่าเชื่อถือหรือไร้สาระธรรมดา ๆ ?

2
ความหมายของค่า p ในการถดถอย
เมื่อฉันดำเนินการถดถอยเชิงเส้นในบางแพคเกจซอฟต์แวร์ (เช่น Mathematica) ฉันจะได้รับค่า p ที่เกี่ยวข้องกับพารามิเตอร์แต่ละตัวในรูปแบบ ตัวอย่างเช่นผลลัพธ์ของการถดถอยเชิงเส้นที่สร้างผลลัพธ์จะมีค่า p ที่เกี่ยวข้องกับaและหนึ่งที่มีbax+bax+bax+baaabbbข ค่า p เหล่านี้มีความหมายเกี่ยวกับพารามิเตอร์เหล่านั้นที มีวิธีทั่วไปในการคำนวณพารามิเตอร์สำหรับตัวแบบการถดถอยหรือไม่? p-value ที่เชื่อมโยงกับแต่ละพารามิเตอร์สามารถรวมกันเป็น p-value สำหรับรุ่นทั้งหมดได้หรือไม่? เพื่อให้คำถามทางคณิตศาสตร์เป็นไปตามธรรมชาติฉันกำลังมองหาเฉพาะการตีความค่า p ในแง่ของความน่าจะเป็น

4
วิธีวัด / จัดอันดับ“ ความสำคัญของตัวแปร” เมื่อใช้ CART (โดยเฉพาะการใช้ {rpart} จาก R)
เมื่อสร้างโมเดล CART (โดยเฉพาะแผนผังการจำแนกหมวดหมู่) โดยใช้ rpart (ใน R) มันมักจะน่าสนใจที่จะรู้ว่าอะไรคือความสำคัญของตัวแปรต่างๆที่นำมาใช้กับโมเดล ดังนั้นคำถามของฉันคือ: มีมาตรการทั่วไปสำหรับการจัดอันดับ / การวัดความสำคัญของตัวแปรของตัวแปรที่มีส่วนร่วมในรูปแบบ CART อย่างไร และสิ่งนี้จะคำนวณได้อย่างไรโดยใช้ R (ตัวอย่างเช่นเมื่อใช้แพ็คเกจ rpart) ตัวอย่างเช่นต่อไปนี้เป็นรหัสจำลองสร้างขึ้นเพื่อให้คุณแสดงโซลูชันของคุณ ตัวอย่างนี้มีโครงสร้างเพื่อให้ชัดเจนว่าตัวแปร x1 และ x2 เป็น "สำคัญ" ในขณะที่ (ในบางแง่) x1 มีความสำคัญมากกว่า x2 (เนื่องจาก x1 ควรใช้กับกรณีเพิ่มเติมดังนั้นจึงมีผลต่อโครงสร้างของข้อมูลมากขึ้น จากนั้น x2) set.seed(31431) n <- 400 x1 <- rnorm(n) x2 <- rnorm(n) x3 <- rnorm(n) x4 <- …

3
ความน่าจะเป็นด้านลบ / แอมพลิจูดของความน่าจะเป็นเชิงลบมีแอปพลิเคชันนอกกลศาสตร์ควอนตัม
ควอนตัมกลศาสตร์มีทฤษฎีความน่าจะเป็นทั่วไปสำหรับตัวเลขลบ / จำนวนจินตภาพส่วนใหญ่เพื่ออธิบายรูปแบบการรบกวนคลื่นคู่ / อนุภาคและสิ่งแปลกประหลาดทั่วไปเช่นนั้น มันสามารถเห็นได้อย่างเป็นนามธรรมมากขึ้นอย่างไรก็ตามในฐานะที่เป็นลักษณะทั่วไปที่ไม่ใช่มาตรการของความน่าจะเป็นแบบเบย์ (อ้างอิงจาก Terrence Tao) ฉันอยากรู้เกี่ยวกับสิ่งเหล่านี้ แต่ไม่เคยมีผู้เชี่ยวชาญ สิ่งนี้มีแอพพลิเคชั่นอื่น ๆ นอก Quantum Mechanics หรือไม่ แค่สงสัย.

2
แนวโน้ม STL ของอนุกรมเวลาโดยใช้ R
ฉันยังใหม่กับ R และการวิเคราะห์อนุกรมเวลา ฉันพยายามค้นหาแนวโน้มของอนุกรมเวลาอุณหภูมิรายวัน (40 ปี) ที่ยาวนานและพยายามประมาณที่แตกต่างกัน อันแรกเป็นเพียงการถดถอยเชิงเส้นอย่างง่ายและอันที่สองคือการสลายตัวตามฤดูกาลของอนุกรมเวลาโดย Loess ในระยะหลังปรากฏว่าองค์ประกอบตามฤดูกาลมากกว่าแนวโน้ม แต่ฉันจะหาแนวโน้มได้อย่างไร ฉันต้องการตัวเลขที่บอกว่าแนวโน้มนั้นแข็งแกร่งเพียงใด Call: stl(x = tsdata, s.window = "periodic") Time.series components: seasonal trend remainder Min. :-8.482470191 Min. :20.76670 Min. :-11.863290365 1st Qu.:-5.799037090 1st Qu.:22.17939 1st Qu.: -1.661246674 Median :-0.756729578 Median :22.56694 Median : 0.026579468 Mean :-0.005442784 Mean :22.53063 Mean : …
27 r  time-series  trend 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.