สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

1
ฟังก์ชั่นค่าใช้จ่ายสำหรับการโจรตามบริบท
ฉันใช้Wabbit vowpalในการแก้ปัญหาตามบริบทโจร ฉันแสดงโฆษณาต่อผู้ใช้และฉันมีข้อมูลพอสมควรเกี่ยวกับบริบทที่แสดงโฆษณา (เช่นผู้ใช้คือใครไซต์ใดที่พวกเขาเปิดอยู่เป็นต้น) นี้ดูเหมือนว่าจะเป็นปัญหาโจรคลาสสิกสวยตามบริบทตามที่อธิบายไว้โดยจอห์นแลง ในสถานการณ์ของฉันมีการตอบสนองหลัก 2 อย่างที่ผู้ใช้สามารถทำได้กับโฆษณา: การคลิก (อาจเป็นหลายครั้ง) หรือไม่คลิก ฉันมีโฆษณาประมาณ 1,000 รายการที่ฉันสามารถเลือกได้ Vowpal Wabbit ต้องการตัวแปรเป้าหมายในรูปแบบของaction:cost:probabilityแต่ละบริบท ในกรณีของฉันactionและprobabilityง่ายต่อการเข้าใจ: actionเป็นโฆษณาที่ฉันเลือกที่จะแสดงและprobabilityเป็นโอกาสในการเลือกโฆษณานั้นที่ได้รับนโยบายปัจจุบันของฉันสำหรับการแสดงโฆษณา อย่างไรก็ตามฉันมีปัญหาในการหาวิธีที่ดีในการจับคู่การจ่ายเงิน (คลิก) กับค่าใช้จ่าย เห็นได้ชัดว่าการคลิกนั้นดีและการคลิกหลายครั้งในโฆษณาเดียวกันก็ยังดีกว่าการคลิกครั้งเดียวในโฆษณาเดียวกัน อย่างไรก็ตามการไม่คลิกโฆษณานั้นเป็นกลางจริง ๆ แล้วมันไม่ได้ทำให้ฉันเสียอะไรเลยนอกจากโอกาสที่จะพลาดการคลิก (ฉันกำลังทำงานในบริบทการโฆษณาที่แปลก) ความคิดบางอย่างที่ฉันมีคือ: ราคา = -1 * เครื่องหมาย (คลิก) + 0 * (ไม่ได้คลิก) ราคา = -1 * คลิก + 0 * (ไม่ได้คลิก) ราคา = -1 …

3
ซอฟต์แวร์สร้างภาพข้อมูลโอเพ่นซอร์สที่ดีที่สุดที่จะใช้กับ PowerPoint
ซอฟต์แวร์สร้างภาพข้อมูลโอเพ่นซอร์สที่ดีที่สุดคืออะไร? ฉันต้องการสิ่งต่อไปนี้: สามารถนำเข้าข้อมูลจาก Microsoft Excel (การนำเข้าข้อมูลจากฐานข้อมูล Oracle ก็ดีเช่นกัน แต่ไม่จำเป็น) ชาร์ตที่สร้างโดยซอฟต์แวร์สามารถส่งออกไปยัง Microsoft PowerPoint (คัดลอกและวางได้ดีกับฉัน) โอเพ่นซอร์ส & ใช้งานง่าย

2
การกระจายตัวของความแปรปรวนของตัวแปรกำลังสองและไคสแควร์?
ปัญหาต่อไปนี้เกิดขึ้นเมื่อเร็ว ๆ นี้ขณะวิเคราะห์ข้อมูล หากตัวแปรสุ่ม X ตามการแจกแจงปกติและ Y ตามการแจกแจงχ2nχn2\chi^2_n (ด้วย n dof) Z=X2+Y2Z=X2+Y2Z = X^2 + Y^2กระจายอย่างไร ถึงตอนนี้ฉันมากับ pdf ของY2Y2Y^2 : ψ2n(x)====∂F(x−−√)∂x(∫x√0tn/2−1⋅e−t/22n/2Γ(n/2)dt)′x12n/2Γ(n/2)⋅(x−−√)n/2−1⋅e−x√/2⋅(x−−√)′x12n/2−1Γ(n/2)⋅xn/4−1⋅e−x√/2ψn2(x)=∂F(x)∂x=(∫0xtn/2−1⋅e−t/22n/2Γ(n/2)dt)x′=12n/2Γ(n/2)⋅(x)n/2−1⋅e−x/2⋅(x)x′=12n/2−1Γ(n/2)⋅xn/4−1⋅e−x/2\begin{eqnarray} \psi^2_n(x) &=& \frac{\partial F(\sqrt{x})}{\partial x} \\ &=& \left( \int_0^{\sqrt{x}} \frac{t^{n/2-1}\cdot e^{-t/2}}{2^{n/2}\Gamma(n/2)} \mathrm{d}t \right)^\prime_x \\ &=& \frac{1}{2^{n/2}\Gamma(n/2)} \cdot \left( \sqrt{x} \right)^{n/2-1} \cdot e^{-\sqrt{x}/2} \cdot \left( \sqrt{x} \right)^\prime_x \\ &=& \frac{1}{2^{n/2-1}\Gamma(n/2)} …

1
ทดสอบความแตกต่างระหว่างการแจกแจงแบบไม่ต่อเนื่องเชิงประจักษ์ 2 ครั้ง
ฉันมีข้อมูลทดสอบที่มีตัวอย่างจำนวนมากจากการกระจายแบบไม่ต่อเนื่องซึ่งฉันใช้เป็นการแจกแจงเชิงประจักษ์ ฉันต้องการทดสอบว่าการแจกแจงนั้นแตกต่างกันจริงหรือไม่และความแตกต่างในค่าเฉลี่ยนั้นสำหรับการแจกแจงที่ต่างกันจริงหรือไม่ เนื่องจากเป็นดิสทริบิวชันแบบไม่ต่อเนื่องความเข้าใจของฉันก็คือการทดสอบ Kolmogorov-Smirnov นั้นไม่ถูกต้องเนื่องจากสมมติฐานการกระจายอย่างต่อเนื่อง การทดสอบ Chi-Squared จะเป็นการทดสอบที่ถูกต้องหรือไม่ว่าการแจกแจงนั้นแตกต่างกันจริงหรือไม่? ฉันจะใช้การทดสอบใดสำหรับความแตกต่างของค่าเฉลี่ย วิธีที่ดีกว่าคือการสุ่มตัวอย่างจากการแจกแจงและรับความแตกต่างจากนั้นทำการวิเคราะห์การกระจายความแตกต่าง

1
สามารถแนะนำหนังสือ Burnham-Anderson เกี่ยวกับการอนุมานแบบหลายรุ่นได้หรือไม่?
จากการเปลี่ยนแปลงล่าสุดของสถิติการเลือกแบบจำลองเริ่มต้นในแพ็คเกจการพยากรณ์ของ R จาก AIC เป็น AICc ฉันสงสัยว่าอันหลังนั้นสามารถใช้งานได้ทุกที่ในอดีต ฉันมีคำถามหลายข้อเกี่ยวกับความเคารพและนี่คือคำถามแรก ฉันรู้ว่าการแทนที่ AIC ด้วย AICc ทุกที่เป็นสิ่งที่หนังสือที่มีชื่อเสียงใน (1)โดย Burnham และ Anderson (ไม่ใช่นักสถิติ) ตามที่สรุปไว้ที่นี่แนะนำ บางครั้งหนังสือเล่มนี้ถูกอ้างถึงโดยนักสถิติรุ่นเยาว์อย่างไร้ความปราณีดูความคิดเห็นต่อบล็อกโพสต์นี้โดย Rob Hyndmanแต่นักสถิติ Brian Brian Ripley ได้ให้คำแนะนำในลักษณะที่แตกต่างกันอย่างสิ้นเชิง: “Burnham and Anderson (2002) is a book I would recommend people NOT read until they have read the primary literature. I see no evidence …

3
การประมาณ n ในปัญหาของตัวสะสมคูปอง
ในรูปแบบของปัญหาเกี่ยวกับตัวสะสมคูปองคุณไม่ทราบจำนวนคูปองและต้องพิจารณาจากข้อมูล ฉันจะอ้างถึงสิ่งนี้ว่าเป็นปัญหาคุกกี้โชคลาภ: ป.ร. ให้ไว้ไม่ทราบจำนวนข้อความคุกกี้โชคลาภที่แตกต่างกันnnnประมาณการnnnโดยการสุ่มตัวอย่างคุกกี้หนึ่งที่เวลาและการนับจำนวนครั้งในแต่ละโชคลาภจะปรากฏขึ้น กำหนดจำนวนตัวอย่างที่จำเป็นในการรับช่วงความมั่นใจที่ต้องการในการประมาณนี้ โดยทั่วไปฉันต้องการอัลกอริทึมที่สุ่มตัวอย่างข้อมูลเพียงพอที่จะเข้าถึงช่วงความเชื่อมั่นที่กำหนดให้พูดn±5n±5n \pm 5ด้วยความมั่นใจ95%95%95\%สำหรับความเรียบง่ายเราสามารถสรุปได้ว่าโชคชะตาทั้งหมดปรากฏขึ้นพร้อมกับความน่าจะเป็น / ความถี่เท่ากัน แต่นี่ไม่เป็นความจริงสำหรับปัญหาทั่วไปที่มากขึ้น ดูเหมือนว่าจะคล้ายกับปัญหารถถังเยอรมันแต่ในกรณีนี้คุกกี้โชคลาภไม่ได้ติดป้ายกำกับตามลำดับและไม่มีการสั่งซื้อ

4
พิสูจน์ความเท่าเทียมกันของสองสูตรต่อไปนี้สำหรับ Spearman correlation
จากวิกิพีเดียความสัมพันธ์อันดับของ Spearman คำนวณโดยการแปลงตัวแปรXiXiX_iและYiYiY_iเป็นตัวแปรอันดับxixix_iและyiyiy_iแล้วคำนวณความสัมพันธ์ของ Pearson ระหว่างตัวแปรอันดับ: อย่างไรก็ตามบทความจะกล่าวต่อไปว่าหากไม่มีความสัมพันธ์ระหว่างตัวแปรXiXiX_iและYiYiY_iสูตรข้างต้นจะเทียบเท่ากับ โดยที่di=yi−xidi=yi−xid_i = y_i - x_i , ความแตกต่างของอันดับ ใครสามารถให้หลักฐานนี้ได้โปรด ฉันไม่สามารถเข้าถึงหนังสืออ้างอิงตามบทความวิกิพีเดีย

4
จากมุมมองความน่าจะเป็นแบบเบย์ทำไมช่วงเวลาความมั่นใจ 95% จึงไม่มีพารามิเตอร์จริงที่มีความน่าจะเป็น 95%
จากหน้า Wikipedia เกี่ยวกับช่วงความมั่นใจ : ... หากช่วงความมั่นใจถูกสร้างขึ้นในการวิเคราะห์ข้อมูลที่แยกกันหลายครั้งของการทดลองซ้ำ (และอาจแตกต่างกัน) การทดลองสัดส่วนของช่วงเวลาดังกล่าวที่มีค่าจริงของพารามิเตอร์จะตรงกับระดับความเชื่อมั่น ... และจากหน้าเดียวกัน: ช่วงความเชื่อมั่นไม่ได้คาดการณ์ว่ามูลค่าที่แท้จริงของพารามิเตอร์มีความน่าจะเป็นโดยเฉพาะอย่างยิ่งที่จะอยู่ในช่วงความเชื่อมั่นที่ได้รับข้อมูลจริง ถ้าฉันเข้าใจถูกต้องประโยคสุดท้ายนี้ทำขึ้นโดยการตีความความน่าจะเป็นบ่อยๆในใจ อย่างไรก็ตามจากมุมมองความน่าจะเป็นแบบเบย์ทำไมช่วงเวลาความมั่นใจ 95% จึงไม่มีพารามิเตอร์จริงที่มีความน่าจะเป็น 95% และถ้าไม่เช่นนั้นจะเกิดอะไรขึ้นกับการให้เหตุผลต่อไปนี้? หากฉันมีกระบวนการที่ฉันรู้ว่าสร้างคำตอบที่ถูกต้อง 95% ของเวลาความน่าจะเป็นของคำตอบถัดไปที่ถูกต้องคือ 0.95 (เนื่องจากฉันไม่มีข้อมูลเพิ่มเติมเกี่ยวกับกระบวนการ) ในทำนองเดียวกันถ้ามีคนแสดงช่วงความมั่นใจที่สร้างขึ้นโดยกระบวนการที่จะมีพารามิเตอร์จริง 95% ของเวลาฉันไม่ควรพูดว่ามันมีพารามิเตอร์จริงที่มีความน่าจะเป็น 0.95 ตามที่ฉันรู้ คำถามนี้คล้ายกับ แต่ไม่เหมือนกับทำไม 95% CI จึงไม่ได้หมายความถึงโอกาส 95% ที่มีค่าเฉลี่ย คำตอบสำหรับคำถามนั้นมุ่งเน้นไปที่สาเหตุที่ 95% CI ไม่ได้บอกถึงโอกาส 95% ในการเก็บค่าเฉลี่ยจากมุมมองของผู้ใช้บ่อย คำถามของฉันเหมือนกัน แต่จากมุมมองความน่าจะเป็นแบบเบย์

1
การทดสอบอัตราส่วนความน่าจะเป็น - lmer R - โมเดลที่ไม่ซ้อนกัน
ฉันกำลังตรวจสอบงานบางอย่างและได้พบกับสิ่งต่อไปนี้ซึ่งดูเหมือนว่าผิดสำหรับฉัน รุ่นสองแบบผสมถูกติดตั้ง (ใน R) โดยใช้ lmer แบบจำลองนั้นไม่ซ้อนกันและถูกเปรียบเทียบโดยการทดสอบอัตราส่วนความน่าจะเป็น ในระยะสั้นนี่คือตัวอย่างที่ทำซ้ำได้ของสิ่งที่ฉันมี: set.seed(105) Resp = rnorm(100) A = factor(rep(1:5,each=20)) B = factor(rep(1:2,times=50)) C = rep(1:4, times=25) m1 = lmer(Resp ~ A + (1|C), REML = TRUE) m2 = lmer(Resp ~ B + (1|C), REML = TRUE) anova(m1,m2) เท่าที่ฉันเห็นสามารถlmerใช้เพื่อคำนวณความน่าจะเป็นและบันทึกanovaการทดสอบความแตกต่างระหว่างแบบจำลองที่ใช้ไคสแควร์กับองศาอิสระทั่วไป ดูเหมือนจะไม่ถูกต้องสำหรับฉัน ถ้ามันถูกต้องไม่มีใครทราบถึงการอ้างอิงใด ๆ ที่แสดงความชอบธรรมนี้หรือไม่? ฉันตระหนักถึงวิธีการที่ใช้แบบจำลอง (Paper …

3
การถ่วงน้ำหนักข้อมูลล่าสุดในโมเดล Random Forest
ฉันกำลังฝึกรูปแบบการจัดหมวดหมู่กับ Random Forest เพื่อแยกแยะระหว่าง 6 หมวดหมู่ ข้อมูลธุรกรรมของฉันมีการสังเกตประมาณ 60k + และตัวแปร 35 ตัว นี่คือตัวอย่างของลักษณะโดยประมาณ _________________________________________________ |user_id|acquisition_date|x_var_1|x_var_2| y_vay | |-------|----------------|-------|-------|--------| |111 | 2013-04-01 | 12 | US | group1 | |222 | 2013-04-12 | 6 | PNG | group1 | |333 | 2013-05-05 | 30 | DE | group2 | |444 | …

1
วิธีการวาดตัวอย่างแบบสุ่มจากการกระจายโดยประมาณที่ไม่ใช่พารามิเตอร์
ฉันมีตัวอย่าง 100 คะแนนที่ต่อเนื่องและเป็นหนึ่งมิติ ฉันประเมินความหนาแน่นแบบไม่อิงพารามิเตอร์โดยใช้วิธีเคอร์เนล ฉันจะสุ่มตัวอย่างจากการแจกแจงโดยประมาณนี้ได้อย่างไร

3
ฉันสามารถสร้างการแจกแจงแบบปกติจากขนาดตัวอย่างและค่า min และ max ได้หรือไม่ ฉันสามารถใช้จุดกึ่งกลางเพื่อกำหนดค่าเฉลี่ยของพร็อกซี
ฉันรู้ว่านี่อาจจะเป็นค่าเช่าเล็กน้อยสถิติ แต่นี่เป็นปัญหาของฉัน ฉันมีข้อมูลช่วงจำนวนมากกล่าวคือขนาดต่ำสุดสูงสุดและตัวอย่างของตัวแปร สำหรับข้อมูลเหล่านี้บางส่วนฉันก็มีค่าเฉลี่ย แต่ไม่มากนัก ฉันต้องการที่จะเปรียบเทียบช่วงเหล่านี้กับแต่ละอื่น ๆ เพื่อหาปริมาณความแปรปรวนของแต่ละช่วงและเพื่อเปรียบเทียบค่าเฉลี่ย ฉันมีเหตุผลที่ดีที่จะสมมติว่าการกระจายนั้นสมมาตรรอบค่าเฉลี่ยและข้อมูลจะมีการแจกแจงแบบเกาส์ ด้วยเหตุนี้ฉันจึงคิดว่าฉันสามารถพิสูจน์ได้ว่าใช้จุดกึ่งกลางของการแจกแจงเป็นพร็อกซีสำหรับค่าเฉลี่ยเมื่อไม่อยู่ สิ่งที่ฉันต้องการทำคือสร้างการแจกแจงใหม่สำหรับแต่ละช่วงจากนั้นใช้สิ่งนั้นเพื่อให้ค่าเบี่ยงเบนมาตรฐานหรือข้อผิดพลาดมาตรฐานสำหรับการแจกแจงนั้น ข้อมูลเดียวที่ฉันมีคือค่าสูงสุดและต่ำสุดที่สังเกตได้จากตัวอย่างและจุดกลางเป็นพร็อกซีสำหรับค่าเฉลี่ย ด้วยวิธีนี้ฉันหวังว่าจะสามารถคำนวณค่าเฉลี่ยถ่วงน้ำหนักสำหรับแต่ละกลุ่มและคำนวณสัมประสิทธิ์การแปรผันสำหรับแต่ละกลุ่มได้เช่นกันตามข้อมูลช่วงที่ฉันมีและสมมติฐานของฉัน (ของการแจกแจงแบบสมมาตรและปกติ) ฉันวางแผนที่จะใช้ R เพื่อทำสิ่งนี้ดังนั้นความช่วยเหลือเกี่ยวกับโค้ดจะได้รับการชื่นชมเช่นกัน

2
ขนาดตัวอย่างที่ไม่เท่ากัน: เมื่อใดที่จะเรียกมันจะหยุดทำงาน
ฉันกำลังตรวจสอบบทความวารสารวิชาการและผู้เขียนได้เขียนสิ่งต่อไปนี้เป็นเหตุผลสำหรับการไม่รายงานสถิติเชิงอนุมาน (ฉันระบุลักษณะของทั้งสองกลุ่ม): รวม 25 แห่ง 2,349 (1.1%) ผู้ตอบแบบสอบถามรายงานX เรางดเว้นอย่างเหมาะสมจากการนำเสนอการวิเคราะห์ที่เปรียบเทียบกลุ่มXกับกลุ่มY (ผู้เข้าร่วมอื่น 2,324 คน) เนื่องจากผลลัพธ์เหล่านั้นอาจได้รับแรงผลักดันอย่างมากจากโอกาสด้วยผลลัพธ์ที่หายากนี้ คำถามของฉันคือผู้เขียนของการศึกษานี้เป็นธรรมในการขว้างปาในผ้าขนหนูที่เกี่ยวกับการเปรียบเทียบกลุ่ม? ถ้าไม่ฉันจะแนะนำอะไรให้พวกเขาบ้าง

4
ระเบียบวิธีการป่าแบบสุ่มสามารถนำไปใช้กับการถดถอยเชิงเส้นได้หรือไม่?
ป่าสุ่มทำงานโดยการสร้างกลุ่มของต้นไม้การตัดสินใจที่ต้นไม้แต่ละต้นถูกสร้างขึ้นโดยใช้ตัวอย่างบูตสแตรปของข้อมูลการฝึกอบรมดั้งเดิม (ตัวอย่างของตัวแปรอินพุตและการสังเกต) สามารถใช้กระบวนการที่คล้ายกันสำหรับการถดถอยเชิงเส้นได้หรือไม่? สร้างโมเดลการถดถอยเชิงเส้น k โดยใช้ตัวอย่างบูทสแตรปแบบสุ่มสำหรับแต่ละการถดถอย k อะไรคือเหตุผลที่ไม่สร้าง "การถดถอยแบบสุ่ม" เหมือนโมเดล ขอบคุณ หากมีบางสิ่งที่ฉันเข้าใจผิดไปจากเดิมโปรดแจ้งให้เราทราบ

3
การทำความเข้าใจกลุ่มความเชื่อมั่นจากการถดถอยพหุนาม
ฉันพยายามเข้าใจผลลัพธ์ที่เห็นในกราฟด้านล่าง โดยปกติแล้วฉันมักจะใช้ Excel และรับเส้นการถดถอยเชิงเส้น แต่ในกรณีด้านล่างฉันใช้ R และฉันได้รับการถดถอยพหุนามด้วยคำสั่ง: ggplot(visual1, aes(ISSUE_DATE,COUNTED)) + geom_point() + geom_smooth() ดังนั้นคำถามของฉันถึงกับ: พื้นที่สีเทา (ลูกศร # 1) รอบ ๆ เส้นการถดถอยสีน้ำเงินคืออะไร นี่คือค่าเบี่ยงเบนมาตรฐานของการถดถอยพหุนามหรือไม่? ฉันสามารถพูดได้ไหมว่าสิ่งที่อยู่นอกพื้นที่สีเทา (ลูกศร # 2) คือ 'ผิดเพี้ยน' และอะไรก็ตามที่อยู่ในพื้นที่สีเทา (ลูกศร # 3) อยู่ในส่วนเบี่ยงเบนมาตรฐาน?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.