สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
อนุกรมเวลาและการตรวจจับความผิดปกติ
ฉันต้องการติดตั้งอัลกอริทึมสำหรับตรวจจับความผิดปกติในอนุกรมเวลาและฉันวางแผนที่จะใช้การทำคลัสเตอร์สำหรับสิ่งนั้น เหตุใดฉันจึงควรใช้เมทริกซ์ระยะทางสำหรับการจัดกลุ่มและไม่ใช่ข้อมูลอนุกรมเวลา สำหรับการตรวจจับความผิดปกติฉันจะใช้การจัดกลุ่มตามความหนาแน่นอัลกอริธึมเป็น DBscan ดังนั้นกรณีนี้จะใช้ได้หรือไม่ มีเวอร์ชั่นออนไลน์สำหรับการสตรีมข้อมูลหรือไม่ ฉันต้องการตรวจจับความผิดปกติก่อนที่จะเกิดขึ้นดังนั้นการใช้อัลกอริธึมการตรวจจับแนวโน้ม (ARIMA) เป็นทางเลือกที่ดีหรือไม่?

2
รวมลักษณนามโดยการพลิกเหรียญ
ฉันกำลังศึกษาหลักสูตรการเรียนรู้ของเครื่องและสไลด์บรรยายมีข้อมูลที่ฉันพบว่าขัดแย้งกับหนังสือที่แนะนำ ปัญหาดังต่อไปนี้: มีตัวแยกประเภทสามตัว: ลักษณนาม Aให้ประสิทธิภาพที่ดีขึ้นในช่วงล่างของขีด จำกัด ลักษณนามขให้ประสิทธิภาพที่ดีขึ้นในช่วงที่สูงขึ้นของเกณฑ์ ลักษณนาม Cสิ่งที่เราได้รับโดยการโยนเหรียญและเลือกจากตัวแยกประเภทสองตัว ประสิทธิภาพของลักษณนาม C คืออะไรเมื่อดูบนเส้นโค้ง ROC สไลด์บรรยายระบุว่าเพียงแค่พลิกเหรียญนี้เราจะได้รับ " เรือนูน " ที่มีมนต์ขลังของตัวแยกประเภท A และ B ของเส้นโค้ง ROC ฉันไม่เข้าใจประเด็นนี้ เพียงแค่โยนเหรียญเราจะได้รับข้อมูลได้อย่างไร สไลด์บรรยาย หนังสือเล่มนี้พูดอะไร หนังสือที่แนะนำ ( Data Mining ... โดย Ian H. Witten, Eibe Frank และ Mark A. Hall ) ในทางกลับกันระบุว่า: หากต้องการดูสิ่งนี้ให้เลือกความน่าจะเป็นที่เฉพาะเจาะจงสำหรับวิธี A ที่ให้อัตราบวกจริงและเท็จของ tA และ fA …

2
จะทดสอบผลกระทบของตัวแปรการจัดกลุ่มด้วยตัวแบบที่ไม่ใช่เชิงเส้นได้อย่างไร?
ฉันมีคำถามเกี่ยวกับการใช้ตัวแปรการจัดกลุ่มในรูปแบบที่ไม่ใช่เชิงเส้น เนื่องจากฟังก์ชั่น nls () ไม่อนุญาตให้ใช้กับตัวแปรปัจจัยฉันพยายามดิ้นรนเพื่อหาว่าใครสามารถทดสอบผลกระทบของปัจจัยที่มีต่อแบบจำลองได้ ฉันได้รวมตัวอย่างด้านล่างที่ฉันต้องการให้พอดีกับรูปแบบการเติบโต "ตามฤดูกาล von Bertalanffy" กับการรักษาการเจริญเติบโตที่แตกต่างกัน (ส่วนใหญ่ใช้กับการเจริญเติบโตของปลา) ฉันต้องการทดสอบผลกระทบของทะเลสาบที่ปลาโตขึ้นรวมถึงอาหารที่ได้รับ (เป็นเพียงตัวอย่างเทียม) ฉันคุ้นเคยกับวิธีแก้ปัญหานี้ - การใช้แบบจำลองการทดสอบแบบทดสอบ F เปรียบเทียบกับข้อมูลที่ถูกรวบรวมเทียบกับความเหมาะสมที่แยกจากกันโดย Chen et al (1992) (ARSS - "การวิเคราะห์ผลรวมที่เหลือของกำลังสอง") กล่าวอีกนัยหนึ่งสำหรับตัวอย่างด้านล่าง ฉันคิดว่ามีวิธีที่ง่ายกว่าในการใช้ R โดยใช้ nlme () แต่ฉันพบปัญหา ก่อนอื่นเลยโดยใช้ตัวแปรการจัดกลุ่มระดับความอิสระนั้นสูงกว่าที่ฉันจะได้รับจากการปรับรุ่นแยกต่างหาก ประการที่สองฉันไม่สามารถซ้อนตัวแปรการจัดกลุ่มได้ - ฉันไม่เห็นว่าปัญหาของฉันอยู่ที่ไหน ความช่วยเหลือใด ๆ ที่ใช้ nlme หรือวิธีการอื่น ๆ นั้นได้รับการชื่นชมอย่างมาก ด้านล่างเป็นรหัสสำหรับตัวอย่างของฉันประดิษฐ์: ###seasonalized von Bertalanffy growth model soVBGF …
15 r  mixed-model  nls 

3
วิธีที่ดีที่สุดในการเห็นภาพการขัดสีโดยใช้ R?
ผ่านเว็บไซต์นี้ฉันเพิ่งค้นพบ Sankey Diagrams วิธีที่ยอดเยี่ยมในการมองภาพสิ่งที่เกิดขึ้นในแผนภูมิการไหลแบบดั้งเดิม นี่คือตัวอย่างที่ดีของ Sankey Diagram โดยGeorge M. Whitesides และ George W. Crabtree , Source; อย่าลืมการวิจัยพื้นฐานด้านพลังงานระยะยาววิทยาศาสตร์ 9 กุมภาพันธ์ 2550: ฉบับที่ 5 315. ไม่ใช่ 5813, pp. 796 - 798 หลังจากที่ฉันรู้ว่าไม่มีแพ็คเกจ Sankey R ฉันพบสคริปต์ R ออนไลน์โชคไม่ดีที่สคริปต์นี้ค่อนข้างดิบและค่อนข้าง จำกัด ด้วยความหวังสูงฉันขอแพคเกจ Sankey R หรือฟังก์ชั่นที่เป็นผู้ใหญ่มากกว่าที่ stackoverflowแต่ฉันประหลาดใจที่ดูเหมือนว่าเราไม่มีฟังก์ชั่นที่เป็นผู้ใหญ่สำหรับการสร้าง Sankey Diagrams ใน R หลังจากที่ฉันโพสต์Geek On Acid จำนวนมากก็ใจดีพอที่จะแนะนำการแฮ็กขนาดเล็กในสคริปต์ที่มีอยู่ซึ่งทำให้มันทำงานได้มากหรือน้อยตามวัตถุประสงค์เฉพาะของฉัน R-script …

1
เมื่อไหร่ / ที่ไหนที่จะใช้การวิเคราะห์ข้อมูลการทำงาน?
ฉันมากใหม่เพื่อการวิเคราะห์ข้อมูลการทำงาน (FDA) ฉันกำลังอ่าน: Ramsay, James O. , และ Silverman, Bernard W. (2006), การวิเคราะห์ข้อมูลเชิงหน้าที่, 2 ed., Springer, New York อย่างไรก็ตามฉันยังไม่ชัดเจนว่าจะใช้ FDA ที่ไหนเมื่อไร? ใครช่วยกรุณายกตัวอย่างให้ฉันโดยเฉพาะอย่างยิ่งในการศึกษาทางการแพทย์? ฉันไม่รู้จริง ๆ ว่าที่ไหน / เมื่อไหร่ที่จะใช้ FDA ในการปฏิบัติ สำหรับข้อมูลกราฟการเจริญเติบโตเราสามารถใช้โมเดลผสมแบบไม่เชิงเส้นสำหรับข้อมูลระยะยาวเราสามารถใช้ ANOVA แบบวัดซ้ำได้และสำหรับข้อมูลหลายตัวแปร / ข้อมูลมิติสูงเราสามารถใช้ PCA, FA และอื่น ๆ ดังนั้นเมื่อใด / ที่ไหน / สถานการณ์ที่จะใช้ FDA?

2
กระบวนการสำหรับ“ การตรวจสอบ bootstrap” (aka“ resampling cross-validation”) คืออะไร?
"การตรวจสอบความถูกต้อง Bootstrap" / "การตรวจสอบความถูกต้องแบบข้ามภาพ" เป็นสิ่งใหม่สำหรับฉัน แต่ได้มีการพูดคุยกันโดยคำตอบของคำถามนี้ ฉันรวบรวมมันประกอบด้วยข้อมูล 2 ประเภท: ข้อมูลจริงและข้อมูลจำลองที่ชุดข้อมูลจำลองที่กำหนดถูกสร้างขึ้นจากข้อมูลจริงโดยการสุ่มใหม่พร้อมเปลี่ยนใหม่จนกระทั่งข้อมูลจำลองมีขนาดเท่ากับข้อมูลจริง ฉันสามารถคิดถึงวิธีการสองแบบในการใช้ชนิดข้อมูลดังกล่าว: (1) ปรับโมเดลให้เหมาะสมครั้งเดียวประเมินมันหลายครั้งในชุดข้อมูลจำลองจำนวนมาก (2) ปรับโมเดลให้เหมาะสมหลายครั้งโดยใช้ชุดข้อมูลจำลองจำนวนมากแต่ละชุดแต่ละครั้งประเมินกับข้อมูลจริง อันไหนดีกว่ากัน?

4
ทดสอบความแตกต่างอย่างมีนัยสำคัญทางสถิติในอนุกรมเวลาหรือไม่
ฉันมีอนุกรมเวลาของราคาของหลักทรัพย์สองหลักทรัพย์คือ A และ B ในช่วงเวลาเดียวกันและเก็บตัวอย่างที่ความถี่เดียวกัน ฉันต้องการทดสอบว่ามีความแตกต่างอย่างมีนัยสำคัญทางสถิติในช่วงเวลาระหว่างราคาทั้งสองหรือไม่ (สมมติฐานว่างของฉันคือความแตกต่างนั้นเป็นโมฆะ) โดยเฉพาะฉันใช้ความแตกต่างของราคาเป็นตัวแทนเพื่อประสิทธิภาพของตลาด ลองนึกภาพ A และ B เป็นระบบรักษาความปลอดภัยและการสังเคราะห์ที่เทียบเท่ากัน (นั่นคือทั้งสองอ้างว่ากระแสเงินสดเท่ากันทั้งหมด) หากตลาดมีประสิทธิภาพทั้งคู่ควรมีราคาเท่ากัน (ยกเว้นค่าใช้จ่ายการทำธุรกรรมที่แตกต่างกัน ฯลฯ ) หรือผลต่างราคาเป็นศูนย์ นี่คือสิ่งที่ฉันต้องการทดสอบ วิธีที่ดีที่สุดที่จะทำคืออะไร? ฉันอาจใช้การทดสอบ t-test แบบสองด้านกับอนุกรมเวลา "ความแตกต่าง" เช่นในอนุกรมเวลา AB และทดสอบสำหรับ = 0 อย่างไรก็ตามฉันมีข้อสงสัยว่าอาจมีการทดสอบที่มีประสิทธิภาพมากกว่าซึ่งคำนึงถึงสิ่งต่าง ๆ เช่นข้อผิดพลาด homoskedastic ที่อาจเกิดขึ้นหรือการปรากฏตัวของค่าผิดปกติ โดยทั่วไปมีสิ่งที่ต้องระวังเมื่อทำงานกับราคาหลักทรัพย์หรือไม่μ0μ0\mu_0

3
วิธีการขยาย data frame ใน R
ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ฉันมีปัญหาต่อไปนี้ขณะทำการวิเคราะห์กับ R ฉันมีชื่อไฟล์แบบนี้: Name | Group | Count Person 1 | A | 3 Person 2 | A | 1 Person 3 | A | 0 Person 1 | B | 5 Person 2 | B | 0 Person 3 | B | 1 Person 1 …
15 r 

1
วิธีรับ R-squared เพื่อความพอดี?
จะคำนวณสถิติR-squared ( R2R2r^2 ) ใน R for loessและ / หรือpredictฟังก์ชั่นเอาต์พุตได้อย่างไร? ตัวอย่างเช่นสำหรับข้อมูลนี้: cars.lo <- loess(dist ~ speed, cars) cars.lp <- predict(cars.lo, data.frame(speed = seq(5, 30, 1)), se = TRUE) cars.lpมีสองอาร์เรย์fitสำหรับรุ่นและse.fitข้อผิดพลาดมาตรฐาน
15 r  r-squared  loess 

2
วิธีการเลือกระหว่างสูตรAdjustedแตกต่างกันอย่างไร
ฉันมีในใจสูตร R - squared ปรับเสนอโดย: Ezekiel (1930) ซึ่งฉันเชื่อว่าเป็นสิ่งที่ใช้ใน SPSS R2adjusted=1−(N−1)(N−p−1)(1−R2)Radjusted2=1−(N−1)(N−p−1)(1−R2)R^2_{\rm adjusted} = 1 - \frac{(N-1)}{(N-p-1)} (1-R^2) Olkin และแพรตต์ (1958) R2unbiased=1−(N−3)(1−R2)(N−p−1)−2(N−3)(1−R2)2(N−p−1)(N−p+1)Runbiased2=1−(N−3)(1−R2)(N−p−1)−2(N−3)(1−R2)2(N−p−1)(N−p+1)R^2_{\rm unbiased} = 1 - \frac{(N-3)(1-R^2)}{(N-p-1)} - \frac{2(N-3)(1-R^2)^2}{(N-p-1)(N-p+1)} ภายใต้สถานการณ์ใด (ถ้ามี) ผมจะชอบ 'ปรับ' เป็น 'เป็นกลาง' ?R2R2R^2 อ้างอิง Ezekiel, M. (1930) วิธีการวิเคราะห์ความสัมพันธ์ John Wiley and Sons, นิวยอร์ก Olkin I. แพรตต์เจดับบลิว (1958) การประมาณค่าสัมประสิทธิ์สหสัมพันธ์แบบไม่เอนเอียง พงศาวดารของสถิติคณิตศาสตร์ …

1
สัญลักษณ์ของตัวประมาณ (ตัวหนอนกับหมวก)
1. มีแบบแผนการตั้งชื่อใด ๆ เกี่ยวกับหมวกและสัญลักษณ์ตัวหนอนในสถิติหรือไม่? ฉันพบกำลังอธิบายตัวประมาณสำหรับ ( Wikipedia ) แต่ฉันก็พบกำลังอธิบายตัวประมาณสำหรับ\ beta ( Wolfram ) ความหมายต่างกันหรือไม่? บนเว็บที่ผมพบชนิดที่แตกต่าง แต่ผมไม่แน่ใจว่าเกี่ยวกับความหมายอ้างอิงสำหรับสัญลักษณ์สถิติ มีความแตกต่างระหว่าง "การประมาณค่าพารามิเตอร์" และ "การประมาณค่าตัวแปร" มีใครบางคนที่ใจดีสามารถอธิบายได้ในกรณีที่ใช้เครื่องหมายตัวหนอนและหมวก β^β^\hat{\beta}ββ\betaβ~β~\tilde{\beta}ββ\beta 2. เกี่ยวกับผู้ดำเนินการคาดหวังมีความแตกต่างในและและเกี่ยวกับวงเล็บหรือไม่ ฉันได้รับคำแนะนำให้ใช้วงเล็บปีกกา แต่ฉันไม่แน่ใจเกี่ยวกับความหมาย ฉันเคยใช้เครื่องหมายวงเล็บสำหรับการอ่าน / การสร้างภาพข้อมูลแทนที่จะชี้ไปที่ความหมายบางอย่าง มีคำแนะนำอะไรบ้าง?E( X)E(X)E(X)E[ X]E[X]E[X]E{ X}E{X}E\{X\}
15 notation 

3
มีวิธีการปิดการใช้งานคุณสมบัติการปรับพารามิเตอร์ (ตาราง) ใน CARET หรือไม่?
CARET จะใช้กริดการปรับแต่งที่กำหนดไว้ล่วงหน้าโดยอัตโนมัติเพื่อสร้างแบบจำลองต่างๆก่อนที่จะเลือกรุ่นสุดท้ายจากนั้นทำการฝึกอบรมรุ่นสุดท้ายในข้อมูลการฝึกอบรมเต็มรูปแบบ ฉันสามารถจัดหากริดการปรับจูนของตัวเองด้วยการรวมกันของพารามิเตอร์เดียวเท่านั้น อย่างไรก็ตามแม้ในกรณีนี้ CARET "เลือก" โมเดลที่ดีที่สุดในบรรดาพารามิเตอร์การปรับ (แม้ว่าจะมีเพียงหนึ่งในกรณีนี้) จากนั้นจึงปรับโมเดลให้เหมาะสมกับข้อมูลการฝึกอบรมทั้งหมด นี่เป็นขั้นตอนพิเศษที่ฉันต้องการหลีกเลี่ยง ฉันจะข้ามขั้นตอนการค้นหาแบบจำลองข้ามการเปลี่ยนแปลงในตารางการปรับแต่งและบังคับให้ CARET สร้างข้อมูลการฝึกอบรมทั้งหมดได้ (นอกเหนือจากการเรียกไลบรารี่ต้นแบบโดยตรง)
15 r  caret 

5
ฉันสามารถละเว้นค่าสัมประสิทธิ์สำหรับปัจจัยที่ไม่มีนัยสำคัญในแบบจำลองเชิงเส้นได้หรือไม่?
หลังจากหาความกระจ่างเกี่ยวกับสัมประสิทธิ์โมเดลเชิงเส้นตรงนี้ฉันมีคำถามติดตามเกี่ยวกับค่าที่ไม่ลงนาม (ค่า p สูง) สำหรับค่าสัมประสิทธิ์ระดับปัจจัย ตัวอย่าง: หากโมเดลเชิงเส้นของฉันมีปัจจัยที่มี 10 ระดับและมีเพียง 3 ของระดับเหล่านั้นที่มีค่า p สำคัญที่เกี่ยวข้องกับพวกเขาเมื่อใช้แบบจำลองในการทำนาย Y ฉันสามารถเลือกที่จะไม่รวมคำว่าสัมประสิทธิ์ได้ ระดับที่ไม่มีนัยสำคัญ? ยิ่งไปกว่านั้นมันจะผิดหรือไม่ที่จะปั้นก้อนหิน 7 ระดับที่ไม่สำคัญออกเป็นระดับเดียวและวิเคราะห์อีกครั้ง?

3
ฉันจะประเมินความเบี่ยงเบนมาตรฐานได้อย่างไร
ฉันได้รวบรวมคำตอบจาก 85 คนเกี่ยวกับความสามารถในการทำงานบางอย่าง การตอบสนองอยู่ในระดับห้าจุด Likert: 5 = ดีมาก 4 = ดี 3 = ปานกลาง 2 = แย่ 1 = แย่มาก คะแนนเฉลี่ยคือ 2.8 และส่วนเบี่ยงเบนมาตรฐานคือ 0.54 ฉันเข้าใจว่าค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานเป็นอย่างไร คำถามของฉันคือ: ส่วนเบี่ยงเบนมาตรฐานนี้ดีแค่ไหน (หรือไม่ดี) กล่าวอีกนัยหนึ่งมีแนวทางใดบ้างที่สามารถช่วยในการประเมินค่าเบี่ยงเบนมาตรฐาน

1
ผลลัพธ์ที่ขัดแย้งกันของผลรวมกำลังสองของ Type III ใน ANOVA ใน SAS และ R
ผมวิเคราะห์ข้อมูลจากการทดลองปัจจัยที่ไม่สมดุลทั้งที่มีและSAS Rทั้งสองSASและRให้ผลรวมของสี่เหลี่ยมจัตุรัสประเภท I ที่คล้ายกัน แต่ผลรวมสี่เหลี่ยมจัตุรัส Type III ของพวกเขานั้นแตกต่างกัน ด้านล่างนี้SASและRรหัสและผลลัพธ์ DATA ASD; INPUT Y T B; DATALINES; 20 1 1 25 1 2 26 1 2 22 1 3 25 1 3 25 1 3 26 2 1 27 2 1 22 2 2 31 2 3 ; PROC GLM DATA=ASD; …
15 r  anova  sas  sums-of-squares 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.