สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
ตัวอย่างการแจกแจงที่จำเป็นต้องใช้ขนาดตัวอย่างขนาดใหญ่สำหรับทฤษฎีบทขีด จำกัด กลาง
หนังสือบางเล่มระบุขนาดของกลุ่มตัวอย่างที่มีขนาด 30 หรือสูงกว่าเป็นสิ่งที่จำเป็นสำหรับเซ็นทรัล จำกัด ทฤษฎีบทที่จะให้ประมาณการที่ดีสำหรับ{X} X¯X¯\bar{X} ฉันรู้ว่านี่ไม่เพียงพอสำหรับการแจกแจงทั้งหมด ฉันต้องการเห็นตัวอย่างของการแจกแจงที่ถึงแม้จะมีขนาดตัวอย่างขนาดใหญ่ (อาจเป็น 100 หรือ 1,000 หรือสูงกว่า) การกระจายตัวของค่าเฉลี่ยตัวอย่างก็ยังค่อนข้างเบ้ ฉันรู้ว่าฉันเคยเห็นตัวอย่างเหล่านี้มาก่อน แต่ฉันจำไม่ได้ว่าอยู่ที่ไหนและหาไม่พบ

2
ความสำคัญของตัวพยากรณ์เชิงหมวดหมู่ในการถดถอยโลจิสติกส์
ฉันมีปัญหาในการตีความค่า z สำหรับตัวแปรเด็ดขาดในการถดถอยโลจิสติก ในตัวอย่างด้านล่างฉันมีตัวแปรเด็ดขาดที่มี 3 คลาสและตามค่า z CLASS2 อาจมีความเกี่ยวข้องในขณะที่คนอื่นไม่ได้ แต่ตอนนี้สิ่งนี้หมายความว่าอย่างไร ฉันจะรวมคลาสอื่น ๆ เข้าด้วยกันได้หรือไม่ ตัวแปรทั้งหมดอาจไม่ใช่ตัวทำนายที่ดีใช่มั้ย นี่เป็นเพียงตัวอย่างและค่า z ที่แท้จริงที่นี่ไม่ได้มาจากปัญหาจริงฉันแค่มีปัญหาเกี่ยวกับการตีความของพวกเขา Estimate Std. Error z value Pr(>|z|) CLASS0 6.069e-02 1.564e-01 0.388 0.6979 CLASS1 1.734e-01 2.630e-01 0.659 0.5098 CLASS2 1.597e+00 6.354e-01 2.514 0.0119 *

5
เป็นวิธีที่ดีที่สุดในการเห็นภาพความสัมพันธ์ระหว่างตัวแปรที่ไม่ต่อเนื่องและตัวแปรต่อเนื่องคืออะไร?
วิธีที่ดีที่สุดในการแสดงความสัมพันธ์ระหว่าง: ตัวแปรต่อเนื่องและไม่ต่อเนื่อง ตัวแปรที่แยกกันสองตัว จนถึงตอนนี้ฉันได้ใช้แผนการกระจายเพื่อดูความสัมพันธ์ระหว่างตัวแปรต่อเนื่อง อย่างไรก็ตามในกรณีที่จุดข้อมูลตัวแปรไม่ต่อเนื่องถูกสะสมในช่วงเวลาที่แน่นอน ดังนั้นเส้นที่ดีที่สุดอาจจะลำเอียง

1
วิธีที่ค่า 'NA' ถูกใช้ใน glm ใน R
ฉันมีตารางข้อมูล T1 ที่มีเกือบหนึ่งพันตัวแปร (V1) และประมาณ 200 ล้านจุดข้อมูล ข้อมูลเบาบางและรายการส่วนใหญ่เป็น NA แต่ละดาต้าพ้อยท์มี id และคู่ที่ไม่ซ้ำกันเพื่อแยกความแตกต่าง ฉันมีอีกตาราง T2 ซึ่งมีชุดตัวแปร (V2) แยกกัน ตารางนี้ยังมีคู่ id และวันที่ที่ระบุรายการใน T2 โดยไม่ซ้ำกัน เราสงสัยว่าข้อมูลใน T1 สามารถใช้ในการทำนายค่าของตัวแปรใน T2 เพื่อพิสูจน์สิ่งนี้ฉันคิดว่าจะใช้โมเดล 'glm' ใน R และตรวจสอบว่าเราสามารถหาตัวแปรใน T2 ที่ขึ้นอยู่กับตัวแปรใน T1 หรือไม่ สำหรับแต่ละตัวแปรใน T2 ฉันเริ่มดึงข้อมูลทั้งหมดใน T1 ที่มี id และคู่วันเดียวกันซึ่งทำให้จุดข้อมูลเล็กกว่า ~ 50K สำหรับตัวแปรทดสอบบางตัว ปัญหาที่ฉันเผชิญในขณะนี้ด้วยการประยุกต์ใช้ glm มีดังนี้ ในบางกรณีมันแสดงให้ฉันเห็นข้อผิดพลาด 'พอดีไม่พบ' …

3
อะไรคือความแตกต่างระหว่างกฎการเชื่อมโยงและโครงสร้างการตัดสินใจในการขุดข้อมูล
มีคำอธิบายที่ง่ายมากเกี่ยวกับความแตกต่างระหว่างสองเทคนิคนี้หรือไม่? ดูเหมือนว่าทั้งสองจะใช้สำหรับการเรียนรู้แบบมีผู้สอน (แม้ว่ากฎการเชื่อมโยงสามารถจัดการได้โดยไม่ได้รับอนุญาต) ทั้งสองสามารถใช้สำหรับการทำนาย ที่ใกล้เคียงที่สุดที่ผมเคยพบว่าคำอธิบาย 'ดี' อยู่ห่างจากStatsoft ตำรา พวกเขากล่าวว่ากฎของสมาคมถูกใช้เพื่อ: ... ตรวจสอบความสัมพันธ์หรือการเชื่อมโยงระหว่างค่าเฉพาะของตัวแปรเด็ดขาดในชุดข้อมูลขนาดใหญ่ ขณะที่ตัวแยกประเภทของ Decision Treeนั้นถูกอธิบายว่าใช้เพื่อ: ... ทำนายการเป็นสมาชิกของเคสหรือวัตถุในคลาสของตัวแปรตามหมวดหมู่จากการวัดในตัวแปรตัวทำนายหนึ่งตัวหรือมากกว่า อย่างไรก็ตามในช่วงที่ R Data Mining พวกเขาให้ตัวอย่างของกฎของสมาคมถูกนำมาใช้กับข้อมูลเป้าหมาย ดังนั้นทั้งสองสามารถใช้เพื่อทำนายการเป็นสมาชิกกลุ่มความแตกต่างที่สำคัญคือต้นไม้ตัดสินใจสามารถจัดการกับข้อมูลที่ไม่จัดหมวดหมู่ในขณะที่กฎการเชื่อมโยงไม่สามารถทำได้หรือไม่? หรือมีบางสิ่งพื้นฐานมากขึ้น? หนึ่งเว็บไซต์ ( sqlserverdatamining.com ) กล่าวว่าความแตกต่างที่สำคัญคือ: กฎการตัดสินใจบนพื้นฐานของข้อมูลที่ได้รับในขณะที่กฎของสมาคมขึ้นอยู่กับความนิยมและ / หรือความเชื่อมั่น ดังนั้น (อาจตอบคำถามของฉันเอง) นั่นหมายความว่ากฎการเชื่อมโยงได้รับการประเมินอย่างละเอียดถี่ถ้วนเกี่ยวกับความถี่ที่ปรากฏในชุดข้อมูล (และความถี่ที่พวกเขาเป็น 'จริง') ในขณะที่ต้นไม้การตัดสินใจพยายามลดความแปรปรวน หากใครรู้คำอธิบายที่ดีพวกเขายินดีที่จะชี้ให้ฉันไปแล้วนั่นจะดี

2
การวินิจฉัยใดที่สามารถตรวจสอบการใช้งานตระกูล GLM หนึ่ง ๆ ได้
ดูเหมือนว่าจะเป็นประถม แต่ฉันมักจะติดอยู่ที่จุดนี้ ... ข้อมูลส่วนใหญ่ที่ฉันจัดการด้วยนั้นไม่ปกติและการวิเคราะห์ส่วนใหญ่อ้างอิงจากโครงสร้าง GLM สำหรับการวิเคราะห์ปัจจุบันของฉันฉันมีตัวแปรตอบสนองที่ "ความเร็วเดิน" (เมตร / นาที) เป็นเรื่องง่ายสำหรับฉันที่จะระบุว่าฉันไม่สามารถใช้ OLS ได้ แต่จากนั้นฉันมีความไม่แน่นอนอย่างมากในการตัดสินใจว่าครอบครัวใด (Gamma, Weibull และอื่น ๆ ) มีความเหมาะสม! ฉันใช้ Stata และดูการวินิจฉัยเช่นส่วนที่เหลือและความแตกต่างแบบเฮเทอโรซิสติซิตีค่าส่วนที่เหลือเทียบกับค่าติดตั้ง ฯลฯ ฉันทราบว่าการนับข้อมูลสามารถอยู่ในรูปแบบของอัตรา (เช่นอัตราอุบัติการณ์) และใช้แกมม่า (อะนาล็อกไปยังโมเดลลบลบทวินามแบบแยกขั้วแบบ overdispersed) แต่ต้องการ "ปืนสูบบุหรี่" เพื่อบอกว่าใช่คุณมีสิทธิ ครอบครัว. การดูค่าสารตกค้างมาตรฐานกับค่าติดตั้งเป็นวิธีเดียวและดีที่สุดในการทำเช่นนี้หรือไม่? ฉันต้องการใช้ตัวแบบผสมเพื่ออธิบายลำดับชั้นของข้อมูลด้วยเช่นกัน แต่ก่อนอื่นต้องแยกแยะว่าครอบครัวใดที่อธิบายตัวแปรตอบสนองของฉันได้ดีที่สุด ความช่วยเหลือใด ๆ ชื่นชม ภาษา Stata ชื่นชมโดยเฉพาะอย่างยิ่ง!


1
มีการทดสอบทางสถิติเพื่อเปรียบเทียบสองตัวอย่างขนาด 1 และ 3 หรือไม่
สำหรับโครงการด้านนิเวศวิทยากลุ่มห้องปฏิบัติการของฉันได้เพิ่มน้ำส้มสายชูลงในถังที่บรรจุน้ำปริมาณ 4 บ่อเท่ากัน 1 ชุดควบคุมโดยไม่มีอีโลเดีย (พืชน้ำ) และ 3 กรรมวิธีที่มีอีโลเดียในปริมาณเท่ากัน วัตถุประสงค์ของการเพิ่มน้ำส้มสายชูคือการลดค่าความเป็นกรดด่าง สมมติฐานคือถังที่มีอีลาเดียจะกลับไปเป็นค่า pH ปกติที่เร็วขึ้น กรณีนี้เป็นจริง เราวัดค่า pH ของแต่ละถังเป็นเวลาประมาณสองสัปดาห์ ในที่สุดรถถังทั้งหมดก็กลับสู่ค่า pH ตามธรรมชาติของพวกเขา แต่ระยะเวลาที่ใช้ในการนี้นั้นสั้นกว่ามากสำหรับรถถังที่มีอีโลเดีย เมื่อเราบอกอาจารย์เกี่ยวกับการออกแบบการทดลองของเราเขากล่าวว่าไม่มีการทดสอบทางสถิติที่สามารถดำเนินการกับข้อมูลเพื่อเปรียบเทียบการควบคุมกับการรักษา นั่นเป็นเพราะไม่มีการจำลองแบบสำหรับการควบคุม (เราใช้ถังควบคุมเพียงตัวเดียว) เราไม่สามารถคำนวณความแปรปรวนได้ดังนั้นเราจึงไม่สามารถเปรียบเทียบค่าเฉลี่ยตัวอย่างของการควบคุมและการรักษา ดังนั้นคำถามของฉันคือจริงหรือไม่ ฉันเข้าใจความหมายของเขา ตัวอย่างเช่นหากคุณเพิ่มความสูงของชายคนหนึ่งและผู้หญิงหนึ่งคนคุณจะไม่สามารถสรุปได้เกี่ยวกับประชากรของพวกเขา แต่เราทำการรักษา 3 ครั้งและความแปรปรวนมีน้อย ดูเหมือนว่ามีเหตุผลที่จะสมมติว่าความแปรปรวนจะคล้ายกันในการควบคุม? ปรับปรุง: ขอบคุณสำหรับคำตอบที่ยอดเยี่ยม เราได้รับน้ำมากขึ้นและอีโลเดียจากพื้นที่ชุ่มน้ำและตัดสินใจว่าเราจะทำการทดลองอีกครั้งด้วยรถถังขนาดเล็ก แต่คราวนี้มี 5 การควบคุมและ 5 การบำบัด เรากำลังจะรวมสิ่งนี้กับข้อมูลดั้งเดิมของเรา แต่ค่าเริ่มต้นของรถถังนั้นแตกต่างกันมากจนดูเหมือนจะไม่ถูกต้องที่จะพิจารณาการทดลองใหม่ที่จะสุ่มตัวอย่างจากประชากรเดียวกันกับการทดลองดั้งเดิม เราพิจารณาการเพิ่มอีโลเดียในปริมาณที่แตกต่างกันและพยายามเชื่อมโยงความเร็วของการฟื้นฟูพีเอช (วัดเมื่อเวลาผ่านไปจนกระทั่งพีเอชกลับสู่ค่าดั้งเดิม) ด้วยอีโลเดีย แต่เราตัดสินใจว่าไม่จำเป็น วัตถุประสงค์ของเราเพียงเพื่อแสดงให้เห็นว่าอีโลเดียสร้างความแตกต่างในเชิงบวกไม่ใช่เพื่อสร้างแบบจำลองการทำนายบางอย่างสำหรับค่าพีเอชตอบสนองต่ออีลาเดียในปริมาณที่แตกต่างกันอย่างแท้จริง มันน่าสนใจที่จะกำหนดปริมาณที่เหมาะสมของอีโลเดีย แต่นั่นอาจเป็นแค่จำนวนสูงสุดที่สามารถอยู่รอดได้ การพยายามปรับเส้นโค้งการถดถอยให้เหมาะสมกับข้อมูลจะไม่ได้รับความกระจ่างเป็นพิเศษเนื่องจากการเปลี่ยนแปลงที่ซับซ้อนต่าง …

1
lmer () สามารถใช้ splines เป็นเอฟเฟกต์แบบสุ่มได้หรือไม่?
สมมติว่าเรากำลังทำงานกับโมเดลเอฟเฟกต์สุ่มของข้อมูลนับจำนวนหนึ่งเมื่อเวลาผ่านไปและเราต้องการควบคุมแนวโน้มบางอย่าง โดยปกติคุณจะทำสิ่งที่ชอบ: lmer(counts ~ dependent_variable + (1+t+I(t^2)|ID), family="poisson") tรวมถึงรูปร่างกำลังสองสำหรับ เป็นไปได้ไหมที่จะใช้เทคนิคการทำให้เรียบที่ซับซ้อนยิ่งขึ้นเช่นความนุ่มนวลหรือเส้นโค้งเพื่อสร้างความสัมพันธ์แบบนั้น

5
วิธีการแสดงแถบข้อผิดพลาดสำหรับการทดลองข้ามคู่
สถานการณ์ต่อไปนี้ได้กลายเป็นคำถามที่พบบ่อยที่สุดในสามผู้ตรวจสอบ (I) ผู้ตรวจสอบ / บรรณาธิการ (R ไม่เกี่ยวข้องกับ CRAN) และฉัน (M) ในฐานะผู้สร้างพล็อต เราสามารถสรุปได้ว่า (R) เป็นผู้ตรวจทานบอสใหญ่ทางการแพทย์โดยทั่วไปที่รู้ว่าแต่ละพล็อตต้องมีแถบข้อผิดพลาดมิฉะนั้นจะผิด เมื่อผู้ตรวจทานเชิงสถิติเข้ามาเกี่ยวข้องปัญหาก็สำคัญน้อยกว่ามาก สถานการณ์ ในการศึกษาทางเภสัชวิทยาทั่วไปพบว่ามีการทดสอบยา A และ B สองตัวเพื่อดูผลของระดับน้ำตาลในเลือด ผู้ป่วยแต่ละรายจะถูกทดสอบสองครั้งตามลำดับแบบสุ่มและอยู่ภายใต้ข้อสมมติว่าไม่มีการพกพา จุดสิ้นสุดหลักคือความแตกต่างระหว่างกลูโคส (BA) และเราคิดว่าการทดสอบแบบจับคู่นั้นเพียงพอแล้ว (I) ต้องการพล็อตที่แสดงระดับน้ำตาลที่แน่นอนในทั้งสองกรณี เขากลัวความต้องการของแถบข้อผิดพลาดและขอข้อผิดพลาดมาตรฐานในกราฟแท่ง อย่าเริ่มสงครามกราฟแท่งที่นี่เลย) (I): นั่นไม่เป็นความจริง แท่งมีการทับซ้อนกันและเรามี p = 0.03? นั่นไม่ใช่สิ่งที่ฉันได้เรียนรู้ในโรงเรียนมัธยม (M): เรามีการออกแบบที่จับคู่ที่นี่ แถบข้อผิดพลาดที่ร้องขอนั้นไม่เกี่ยวข้องทั้งหมดสิ่งที่นับคือ SE / CI ของความแตกต่างที่จับคู่ซึ่งไม่ได้แสดงในพล็อต ถ้าฉันมีตัวเลือกและมีข้อมูลไม่มากเกินไปฉันจะชอบพล็อตต่อไปนี้ เพิ่ม 1:นี่คือพล็อตพิกัดขนานที่กล่าวถึงในหลายคำตอบ (M): เส้นแสดงการจับคู่และเส้นส่วนใหญ่ขึ้นไปและนั่นคือความประทับใจที่ถูกต้องเพราะความลาดชันคือสิ่งที่นับได้ (ตกลงนี่คือการจัดหมวดหมู่ แต่อย่างไรก็ตาม) …

2
การใช้สีที่มีประสิทธิภาพที่สุดในแผนที่ความร้อน / เส้นชั้นความสูง
เป็นเรื่องปกติที่จะใช้แผนที่ความร้อน / เส้นชั้นความสูงเมื่อนำเสนอการค้นพบคลื่นไฟฟ้าสมองเวลา โทนสีที่เลือกมักจะ (และอันที่ฉันชอบและใช้) คือชุดรูปแบบสี "jet" (ดูเช่นEEG ความถี่เวลาค้นหารูปภาพของ Google ) ฉันสงสัยว่ามีโครงร่างสีที่ดีกว่านี้สำหรับการนำเสนอแปลงเหล่านี้และ / หรือแนวทางในการนำเสนอแผนที่ดังกล่าวหรือไม่ เช่นจากไลบรารีฐาน R #Volcano x <- 10*(1:nrow(volcano)) y <- 10*(1:ncol(volcano)) image(x, y, volcano, col = terrain.colors(100), axes = FALSE) # With Jet colours jet.colors <- colorRampPalette(c("midnightblue","blue", "cyan","green1", "yellow","orange","red", "darkred"), space="Lab") image(x, y, volcano, col = jet.colors(100), axes …

5
วิธีลดข้อมูลมิติสูงเพื่อการสร้างภาพข้อมูล
ฉันกำลังทำงานกับการจำลองทางกายภาพแบบ 2D และฉันกำลังรวบรวมข้อมูลในเวลาหลายจุด จุดที่ไม่ต่อเนื่องเหล่านี้มีลักษณะเป็นเส้นแนวตั้งโดยมีหลายเส้นในทิศทางตามแนวแกน ทำให้ชุดข้อมูลมีประสิทธิภาพ 4D ตัวอย่างเช่นสมมติว่าฉันมีคะแนนสะสมที่ (X, Y) พิกัดของ: (0,0), (1,0), (2,0) (0,1), (1,1), (2,1) (0,2), (1,2), (2,2) และในแต่ละจุดฉันกำลังรวบรวมโดยที่คือความดัน,คืออุณหภูมิ,เป็นองค์ประกอบ X และ Y ของความเร็ว ในการวนซ้ำของการจำลองแต่ละครั้งตัวแปรเหล่านี้จะถูกเก็บไว้สำหรับจุดรวบรวมทั้งหมด 9 จุด ดังนั้นข้อมูลของฉันทั้งหมดจะต่อเนื่องในเวลาที่แต่ละจุดแยกในอวกาศP T U , V{ P, T, U, โวลต์}{P,T,U,V}\{P,T,U,V\}PPPTTTยู, โวลต์U,VU,V ตัวอย่างเช่นข้อมูลสำหรับจุดเดียวจะมีลักษณะดังนี้: ฉันสนใจที่จะแสดง, พูด, กดดันทุกจุดตลอดเวลาเพื่อแสดงคลื่นแนวตั้งและแนวแกน ถ้าฉันทำสิ่งนี้ตามบรรทัดเดียว (ทั้งแนวตั้งหรือแนวแกน) ฉันสามารถใช้พล็อตน้ำตกกับแกน (Y, เวลา, ความกดดัน) แต่ถ้าฉันมีเส้นแนวตั้ง 3 เส้นและแนวแกน …

3
การตีความ“ รูปแบบผสม” สามรูปแบบ
มีความแตกต่างที่สะดุดฉันกับโมเดลผสมและฉันสงสัยว่าฉันจะได้รับความชัดเจนในนั้น สมมติว่าคุณมีรูปแบบข้อมูลนับรวมกัน มีตัวแปรที่คุณรู้ว่าคุณต้องการเป็นเอฟเฟกต์คงที่ (A) และตัวแปรอีกตัวสำหรับเวลา (T) จัดกลุ่มโดยพูดว่าตัวแปร "ไซต์" ตามที่ฉันเข้าใจ glmer(counts ~ A + T, data=data, family="Poisson") เป็นโมเดลเอฟเฟกต์คงที่ glmer(counts ~ (A + T | Site), data=data, family="Poisson") เป็นโมเดลเอฟเฟกต์แบบสุ่ม คำถามของฉันคือเมื่อคุณมีสิ่งที่ชอบ: glmer(counts ~ A + T + (T | Site), data=data, family="Poisson")T คืออะไร มันเป็นผลแบบสุ่มหรือไม่? ผลคงที่? การทำให้สำเร็จด้วยการใส่ T ในทั้งสองแห่งคืออะไร เมื่อสิ่งที่ควรเท่านั้นที่ปรากฏในส่วนผลกระทบแบบสุ่มของสูตรรูปแบบ?

2
หากหลักการความน่าจะเป็นขัดแย้งกับความน่าจะเป็นที่เกิดขึ้นบ่อยครั้งเราจะยกเลิกหนึ่งในนั้นหรือไม่?
ในความคิดเห็นเพิ่งโพสต์ที่นี่ผู้วิจารณ์คนหนึ่งชี้ไปที่บล็อกของLarry Wassermanผู้ชี้ให้เห็น (โดยไม่มีแหล่งที่มา) ที่การอนุมานบ่อย ๆ ปะทะกับหลักการความน่าจะเป็น หลักการความน่าจะเป็นเพียงกล่าวว่าการทดลองที่ให้ฟังก์ชันความน่าจะเป็นที่คล้ายกันควรให้ข้อสรุปที่คล้ายคลึงกัน คำถามสองส่วนนี้: ส่วนใดกลิ่นรสหรือโรงเรียนที่มีการอนุมานเป็นประจำละเมิดหลักการความน่าจะเป็นโดยเฉพาะ? หากมีการปะทะกันเราต้องยกเลิกอย่างใดอย่างหนึ่งหรือไม่? ถ้าใช่แล้วอันไหนล่ะ? ฉันจะขอแนะนำว่าถ้าเราต้องทิ้งอะไรเราควรทิ้งส่วนของการอนุมานที่พบบ่อยซึ่งการปะทะกันเนื่องจากการแฮ็กและRoyallทำให้ฉันเชื่อว่าหลักการความน่าจะเป็นจริงเป็นจริง

3
ฉันจะคำนวณช่วงความมั่นใจสำหรับค่าเฉลี่ยของชุดข้อมูลบันทึกปกติได้อย่างไร
ฉันเคยได้ยิน / เห็นในหลาย ๆ สถานที่ที่คุณสามารถแปลงข้อมูลที่ตั้งเป็นสิ่งที่กระจายปกติโดยการลอการิทึมของแต่ละตัวอย่างคำนวณช่วงความมั่นใจสำหรับข้อมูลที่ถูกแปลงและแปลงช่วงความเชื่อมั่นกลับมาโดยใช้การดำเนินการแบบผกผัน (เช่นเพิ่ม 10 ถึงพลังของขอบเขตล่างและบนตามลำดับสำหรับ )log10log10\log_{10} อย่างไรก็ตามฉันสงสัยวิธีนี้เล็กน้อยเนื่องจากวิธีนี้ใช้ไม่ได้กับค่าเฉลี่ย:10mean(log10(X))≠mean(X)10mean⁡(log10⁡(X))≠mean⁡(X)10^{\operatorname{mean}(\log_{10}(X))} \ne \operatorname{mean}(X) วิธีที่ถูกต้องในการทำเช่นนี้คืออะไร? ถ้ามันไม่ทำงานสำหรับค่าเฉลี่ยตัวเองมันจะทำงานได้อย่างไรในช่วงความมั่นใจสำหรับค่าเฉลี่ย

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.