สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

1
อันดับใน R - ลำดับจากน้อยไปมาก [ปิด]
ฉันต้องการจัดอันดับข้อมูลที่ในบางกรณีค่าที่มากกว่านั้นมีอันดับที่ 1 ฉันค่อนข้างใหม่กับ R แต่ฉันไม่เห็นว่าฉันสามารถปรับการตั้งค่านี้ในฟังก์ชันอันดับได้อย่างไร x <- c(23,45,12,67,34,89) rank(x) สร้าง: [1] 2 4 1 5 3 6 เมื่อฉันต้องการที่จะเป็น: [1] 5 3 6 2 4 1 ฉันถือว่านี่เป็นพื้นฐานมาก แต่ความช่วยเหลือใด ๆ ที่คุณสามารถให้จะได้รับการชื่นชมอย่างมาก
39 r 

5
ค่าลบสำหรับ AICc (แก้ไขเกณฑ์ข้อมูล Akaike)
ฉันได้คำนวณ AIC และ AICc เพื่อเปรียบเทียบโมเดลเชิงเส้นผสมสองแบบทั่วไป AICs เป็นค่าบวกกับรุ่น 1 ที่มี AIC ต่ำกว่ารุ่น 2 อย่างไรก็ตามค่าสำหรับ AICc นั้นเป็นค่าลบทั้งคู่ (รุ่น 1 ยังคงเป็น <รุ่น 2) การใช้และเปรียบเทียบค่า AICc เชิงลบใช้ได้หรือไม่

5
ความแตกต่างระหว่างประชากรกับกลุ่มตัวอย่างคืออะไร?
ความแตกต่างระหว่างประชากรกับกลุ่มตัวอย่างคืออะไร? มีตัวแปรและสถิติทั่วไปใดบ้างที่ใช้สำหรับแต่ละตัวและเกี่ยวข้องกันอย่างไร

3
ทำไมต้นไม้การตัดสินใจจึงไม่ได้มีราคาแพง
ในการแนะนำการเรียนรู้เชิงสถิติด้วยแอปพลิเคชันใน Rผู้เขียนเขียนว่าการติดตั้งต้นไม้ตัดสินใจอย่างรวดเร็ว แต่สิ่งนี้ไม่สมเหตุสมผลสำหรับฉัน อัลกอริทึมต้องผ่านทุกคุณสมบัติและแบ่งพาร์ติชันในทุกวิถีทางเท่าที่จะเป็นไปได้ สำหรับฟีเจอร์ตัวเลขที่มีการสังเกตสิ่งนี้อาจส่งผลให้พาร์ติชันnสำหรับแต่ละคุณลักษณะnnnnnn ฉันเข้าใจผิดว่าการแยกแบบไบนารีนั้นทำงานอย่างไร หรือมีเหตุผลที่อัลกอริทึมนี้จะใช้เวลาไม่นาน?
38 cart 

6
เหตุใดฉันจึงได้รับแผนผังการตัดสินใจที่มีความแม่นยำ 100%
ฉันได้รับความแม่นยำ 100% สำหรับแผนภูมิการตัดสินใจของฉัน ผมทำอะไรผิดหรือเปล่า? นี่คือรหัสของฉัน: import pandas as pd import json import numpy as np import sklearn import matplotlib.pyplot as plt data = np.loadtxt("/Users/Nadjla/Downloads/allInteractionsnum.csv", delimiter=',') x = data[0:14] y = data[-1] from sklearn.cross_validation import train_test_split x_train = x[0:2635] x_test = x[0:658] y_train = y[0:2635] y_test = y[0:658] from sklearn.tree import …

5
การลดข้อผิดพลาดกำลังสองเท่ากับการย่อข้อผิดพลาดแบบสัมบูรณ์หรือไม่ ทำไมข้อผิดพลาดยกกำลังสองจึงเป็นที่นิยมมากกว่าข้อหลัง
เมื่อเราทำการถดถอยเชิงเส้นเพื่อให้พอดีกับจุดข้อมูลจำนวนมากวิธีแบบคลาสสิกช่วยลดข้อผิดพลาดกำลังสอง ฉันงงงวยกับคำถามที่จะลดข้อผิดพลาดกำลังสองให้ได้ผลลัพธ์เช่นเดียวกับการลดข้อผิดพลาดสัมบูรณ์ให้น้อยที่สุดหรือไม่ ถ้าไม่ทำไมข้อผิดพลาดกำลังสองลดลงจึงดีกว่า มีเหตุผลอื่นนอกเหนือจาก "ฟังก์ชั่นวัตถุประสงค์คือ differentiable"?y=ax+by=ax+by=ax+b(x1,y1),(x2,y2),...,(xn,yn)(x1,y1),(x2,y2),...,(xn,yn)(x_1,y_1),(x_2,y_2),...,(x_n,y_n) ข้อผิดพลาดกำลังสองยังใช้กันอย่างแพร่หลายในการประเมินประสิทธิภาพของแบบจำลอง แต่ข้อผิดพลาดแบบสัมบูรณ์เป็นที่นิยมน้อยกว่า ทำไมข้อผิดพลาดยกกำลังสองที่ใช้บ่อยกว่าข้อผิดพลาดที่แน่นอน? หากการซื้อขายสัญญาซื้อขายล่วงหน้าไม่เกี่ยวข้องกับการคำนวณผิดพลาดแน่นอนเป็นเรื่องง่ายเหมือนการคำนวณผิดพลาดยกกำลังสองแล้วทำไมข้อผิดพลาดยกกำลังสองเป็นที่แพร่หลายดังนั้น ? มีข้อได้เปรียบที่ไม่เหมือนใครที่สามารถอธิบายความชุกของมันได้หรือไม่? ขอขอบคุณ.

2
ตัวประเมินแบบเอนเอียงจะดีกว่าแบบเป็นกลางเมื่อใด
เห็นได้ชัดหลายครั้งว่าทำไมคนคนหนึ่งถึงชอบประมาณค่าที่เป็นกลาง แต่มีสถานการณ์ใดบ้างที่เราอาจชอบตัวประมาณค่าเอนเอียงมากกว่าตัวเอนเอียง?

4
สำหรับการวางแผนด้วย R ฉันควรเรียนรู้ ggplot2 หรือ ggvis หรือไม่
สำหรับการวางแผนด้วย R ฉันควรเรียนรู้ ggplot2 หรือ ggvis หรือไม่ ฉันไม่ต้องการเรียนรู้ทั้งสองอย่างถ้าหนึ่งในนั้นดีกว่าไม่ว่าในเรื่องใด เหตุใดชุมชน R จึงยังคงสร้างแพ็คเกจใหม่ด้วยฟังก์ชันที่ทับซ้อนกันอยู่ โพสต์แนะนำบล็อกไม่ได้พูดถึงคำว่าทำไม ggvis ถูกสร้างขึ้นให้ว่าพล็อตที่มีความซับซ้อนแพคเกจ ggplot2 มีอยู่แล้ว

4
การจำลองตัวเลือก“ แข็งแกร่ง” ของ Stata ใน R
ฉันพยายามทำซ้ำผลลัพธ์ของตัวเลือก Stata robustใน R ฉันได้ใช้rlmคำสั่งในรูปแบบแพ็คเกจ MASS และคำสั่งlmrobจากแพคเกจ "robustbase" ในทั้งสองกรณีผลลัพธ์จะค่อนข้างแตกต่างจากตัวเลือก "ที่มีประสิทธิภาพ" ใน Stata ใครช่วยกรุณาแนะนำบางสิ่งในบริบทนี้ได้บ้าง นี่คือผลลัพธ์ที่ฉันได้รับเมื่อฉันรันตัวเลือกที่แข็งแกร่งใน Stata: . reg yb7 buildsqb7 no_bed no_bath rain_harv swim_pl pr_terrace, robust Linear regression Number of obs = 4451 F( 6, 4444) = 101.12 Prob > F = 0.0000 R-squared = 0.3682 Root MSE = .5721 ------------------------------------------------------------------------------ …

3
อะไรคือความหมายของช่วงความมั่นใจที่นำมาจากตัวอย่างที่เก็บมาใหม่
ฉันได้ดูคำถามมากมายในเว็บไซต์นี้เกี่ยวกับช่วงการบูตและความมั่นใจ แต่ฉันก็ยังสับสนอยู่ สาเหตุส่วนหนึ่งของความสับสนของฉันอาจเป็นเพราะฉันไม่ได้มีความรู้ทางสถิติเพียงพอที่จะเข้าใจคำตอบมากมาย ฉันประมาณครึ่งทางผ่านหลักสูตรสถิติเบื้องต้นและระดับคณิตศาสตร์ของฉันเป็นเพียงกลางคันพีชคณิต II ดังนั้นทุกอย่างที่ผ่านมาในระดับนั้นจะทำให้ฉันสับสน หากหนึ่งในผู้ที่มีความรู้ในไซต์นี้สามารถอธิบายปัญหานี้ในระดับของฉันมันจะเป็นประโยชน์อย่างมาก เราได้เรียนรู้ในชั้นเรียนว่าจะนำชิ้นส่วนใหม่โดยใช้วิธี bootstrap และใช้เพื่อสร้างช่วงความมั่นใจสำหรับสถิติบางอย่างที่เราต้องการวัด ตัวอย่างเช่นสมมติว่าเรานำตัวอย่างจากประชากรจำนวนมากและพบว่า 40% บอกว่าพวกเขาจะลงคะแนนให้กับผู้สมัครก. เราคิดว่าตัวอย่างนี้เป็นภาพสะท้อนที่ถูกต้องแม่นยำของประชากรดั้งเดิมซึ่งในกรณีนี้เราสามารถ resamples จาก เพื่อค้นพบบางสิ่งเกี่ยวกับประชากร ดังนั้นเราจึงทำการทดสอบซ้ำและค้นหา (ใช้ระดับความเชื่อมั่น 95%) ว่าช่วงความเชื่อมั่นที่ได้นั้นอยู่ในช่วงตั้งแต่ 35% ถึง 45% คำถามของฉันคือช่วงความมั่นใจนี้จริงหมายถึงอะไร ฉันอ่านต่อไปเรื่อย ๆ ว่ามีความแตกต่างระหว่างช่วงความเชื่อมั่น (Frequentistist) และ (Bayesian) ถ้าผมเข้าใจอย่างถูกต้องในช่วงเวลาที่น่าเชื่อถือจะบอกว่ามีโอกาส 95% ที่ว่าในสถานการณ์ของเราพารามิเตอร์ที่แท้จริงคือภายในช่วงเวลาที่กำหนด (35% -45%) ในขณะที่ช่วงความเชื่อมั่นจะบอกว่ามี 95% ที่อยู่ในนี้ ประเภทของสถานการณ์ (แต่ไม่จำเป็นในสถานการณ์ของเราโดยเฉพาะ) วิธีการที่เราใช้จะต้องรายงานอย่างถูกต้องว่าพารามิเตอร์ที่แท้จริงนั้นอยู่ในช่วงเวลาที่กำหนด ถ้าคำจำกัดความนี้ถูกต้องคำถามของฉันคือ: "พารามิเตอร์ที่แท้จริง" ที่เรากำลังพูดถึงเมื่อใช้ช่วงความเชื่อมั่นที่สร้างขึ้นโดยใช้วิธีการ bootstrap คืออะไร? เราอ้างถึง (a) พารามิเตอร์จริงของประชากรดั้งเดิมหรือ …

3
เหตุใดการถดถอยพหุนามจึงถือว่าเป็นกรณีพิเศษของการถดถอยเชิงเส้นหลายเส้น
หากแบบจำลองพหุนามถดถอยความสัมพันธ์แบบไม่เชิงเส้นจะพิจารณาเป็นกรณีพิเศษของการถดถอยเชิงเส้นหลายแบบได้อย่างไร วิกิพีเดียตั้งข้อสังเกตว่า "แม้ว่าการถดถอยพหุนามจะเหมาะกับโมเดลที่ไม่เป็นเชิงเส้นกับข้อมูล แต่เป็นปัญหาการประมาณเชิงสถิติมันเป็นเชิงเส้นในแง่ที่ว่าฟังก์ชันการถดถอยเป็นเส้นตรงในพารามิเตอร์ที่ไม่รู้จักซึ่งประมาณจากข้อมูล "E(y|x)E(y|x)\mathbb{E}(y | x) การถดถอยเชิงเส้นพหุนามเป็นอย่างไรในพารามิเตอร์ที่ไม่รู้จักหากพารามิเตอร์เป็นค่าสัมประสิทธิ์สำหรับคำที่มีคำสั่ง 2≥≥\ge

3
เหตุผลเชิงประจักษ์สำหรับกฎข้อผิดพลาดมาตรฐานเดียวเมื่อใช้การตรวจสอบความถูกต้องข้าม
มีการศึกษาเชิงประจักษ์ที่แสดงให้เห็นถึงการใช้กฎข้อผิดพลาดมาตรฐานเดียวเพื่อสนับสนุนการประหยัดเงินหรือไม่? เห็นได้ชัดว่ามันขึ้นอยู่กับกระบวนการสร้างข้อมูล แต่สิ่งใดก็ตามที่วิเคราะห์คลังข้อมูลขนาดใหญ่จะเป็นการอ่านที่น่าสนใจมาก "กฎข้อผิดพลาดมาตรฐานหนึ่งข้อ" จะถูกนำไปใช้เมื่อเลือกรุ่นผ่านการตรวจสอบข้าม (หรือโดยทั่วไปผ่านขั้นตอนการสุ่มใด ๆ ) สมมติเราพิจารณารุ่นการจัดทำดัชนีความซับซ้อนพารามิเตอร์เช่นว่าคือ "ความซับซ้อนมากขึ้น" กว่าว่าเมื่อtau' สมมติว่าเราประเมินคุณภาพของโมเดลโดยกระบวนการสุ่มตัวอย่างเช่นการตรวจสอบข้าม ให้แสดงถึงคุณภาพ "เฉลี่ย" ของเช่นค่าความผิดพลาดการทำนายค่าเฉลี่ยของการข้ามการตรวจสอบความถูกต้องจำนวนมาก เราต้องการลดปริมาณนี้MτMτM_\tauτ∈Rτ∈R\tau\in\mathbb{R}MτMτM_\tauMτ′Mτ′M_{\tau'}τ>τ′τ>τ′\tau>\tau'MMMq(M)q(M)q(M)MMM อย่างไรก็ตามเนื่องจากการวัดคุณภาพของเรานั้นมาจากขั้นตอนการสุ่มตัวอย่างบางอย่างจึงมาพร้อมกับความแปรปรวน อนุญาตให้แสดงถึงข้อผิดพลาดมาตรฐานของคุณภาพของในการดำเนินการสุ่มเช่นค่าเบี่ยงเบนมาตรฐานของข้อผิดพลาดการคาดการณ์นอกถุงของในการดำเนินการตรวจสอบข้ามs(M)s(M)s(M)MMMMMM จากนั้นเราก็เลือกรูปแบบที่เป็นที่เล็กที่สุดดังกล่าวว่าMτMτM_\tauττ\tauττ\tau q(Mτ)≤q(Mτ′)+s(Mτ′),q(Mτ)≤q(Mτ′)+s(Mτ′),q(M_\tau)\leq q(M_{\tau'})+s(M_{\tau'}), ที่ดัชนี (โดยเฉลี่ย) แบบที่ดีที่สุด,tau)τ′τ′\tau'q(Mτ′)=minτq(Mτ)q(Mτ′)=minτq(Mτ)q(M_{\tau'})=\min_\tau q(M_\tau) นั่นคือเราเลือกแบบจำลองที่ง่ายที่สุด ( เล็กที่สุด ττ\tau ) ซึ่งไม่เกินหนึ่งข้อผิดพลาดมาตรฐานที่แย่กว่าแบบจำลองที่ดีที่สุดMτ′Mτ′M_{\tau'}ในขั้นตอนการสุ่ม ฉันพบ "กฎข้อผิดพลาดมาตรฐานหนึ่งข้อ" ที่อ้างถึงในที่ต่อไปนี้ แต่ไม่เคยมีเหตุผลที่ชัดเจน: หน้า 80 ในการจำแนกและต้นไม้ถดถอยโดย Breiman, Friedman, Stone & Olshen (1984) หน้า 415 ในการประมาณจำนวนกลุ่มในชุดข้อมูลผ่านสถิติ Gapโดย Tibshirani, Walther …

2
การถดถอยเชิงปริมาณแบบมีเงื่อนไขและไม่มีเงื่อนไขแตกต่างกันอย่างไร
ตัวประมาณการถดถอยเชิงควอนไทลตามเงื่อนไขโดย Koenker และ Basset (1978) สำหรับ quantile ถูกกำหนดเป็น โดยที่\ rho_ \ tau = u_i \ cdot (\ tau - 1 (u_i <0))เป็นฟังก์ชันการถ่วงน้ำหนักอีกครั้ง (เรียกว่า "ตรวจสอบ" - หน้าที่) ของเหลือu_iτt hτth\tau^{th} ρτ=Uฉัน⋅(τ-1(Uฉัน<0))Uฉันβˆคิวอาร์= นาทีขΣi = 1nρτ( yผม- X'ผมขτ)β^QR=minb∑i=1nρτ(yi−Xi′bτ) \widehat{\beta}_{QR} = \min_{b} \sum^{n}_{i=1} \rho_\tau (y_i - X'_i b_\tau) ρτ= uผม⋅ ( τ- 1 ( คุณผม< …

2
ปัวซองและการถดถอยทวินามลบเมื่อใดจะพอดีกับค่าสัมประสิทธิ์เดียวกัน
ฉันสังเกตเห็นว่าใน R, Poisson และการถดถอยแบบทวินามลบ (NB) ดูเหมือนจะเหมาะสมกับค่าสัมประสิทธิ์เดียวกันสำหรับการจัดหมวดหมู่ แต่ไม่ต่อเนื่องทำนาย ตัวอย่างเช่นนี่คือการถดถอยด้วยตัวพยากรณ์หมวดหมู่: data(warpbreaks) library(MASS) rs1 = glm(breaks ~ tension, data=warpbreaks, family="poisson") rs2 = glm.nb(breaks ~ tension, data=warpbreaks) #compare coefficients cbind("Poisson"=coef(rs1), "NB"=coef(rs2)) นี่คือตัวอย่างที่มีตัวทำนายอย่างต่อเนื่องโดยที่ปัวซองและ NB มีค่าสัมประสิทธิ์ต่างกัน: data(cars) rs1 = glm(dist ~ speed, data=cars, family="poisson") rs2 = glm.nb(dist ~ speed, data=cars) #compare coefficients cbind("Poisson"=coef(rs1), "NB"=coef(rs2)) (แน่นอนว่าสิ่งเหล่านี้จะไม่นับข้อมูลและตัวแบบนั้นไม่มีความหมาย ... …

3
เหตุใดตัวจําแนกเบส์แบบไร้เดียงสาจึงทําได้ดี?
ตัวแยกประเภท Naive Bayes เป็นตัวเลือกยอดนิยมสำหรับปัญหาการจำแนกประเภท มีสาเหตุหลายประการรวมถึง: "Zeitgeist" - การรับรู้อย่างกว้างขวางหลังจากความสำเร็จของตัวกรองสแปมเมื่อสิบปีที่แล้ว ง่ายต่อการเขียน รูปแบบลักษณนามนั้นรวดเร็วในการสร้าง โมเดลสามารถแก้ไขได้ด้วยข้อมูลการฝึกอบรมใหม่โดยไม่ต้องสร้างโมเดลใหม่ อย่างไรก็ตามพวกมันคือ 'ไร้เดียงสา' - นั่นคือถือว่าคุณสมบัติเหล่านี้เป็นอิสระ - ซึ่งตรงกันข้ามกับตัวแยกประเภทอื่น ๆ เช่นตัวแยกประเภทสูงสุดของเอนโทรปี (ซึ่งช้าในการคำนวณ) มักจะไม่สามารถสันนิษฐานได้ว่าสมมติฐานความเป็นอิสระและในกรณีส่วนใหญ่ (ส่วนใหญ่) รวมถึงตัวอย่างตัวกรองสแปม เหตุใดตัวจําแนก Naive Bayes จึงยังทํางานได้ดีมากในแอปพลิเคชันดังกล่าวแม้ว่าคุณสมบัติจะไม่แยกจากกันหรือไม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.