ประเมินมวลผลไม้ในถุงจากผลรวมที่เกี่ยวข้องเท่านั้นหรือไม่


9

อาจารย์ที่มหาวิทยาลัยของฉันตั้งคำถามเช่นนี้ (ไม่ใช่เพื่อทำการบ้านเนื่องจากชั้นเรียนจบแล้วและฉันไม่ได้อยู่ในนั้น) ฉันไม่สามารถหาวิธีเข้าหามันได้

คำถามเกี่ยวกับถุง 2 ใบที่บรรจุผลไม้หลากหลายประเภท:

ถุงใบแรกมีผลไม้ที่เลือกแบบสุ่มดังต่อไปนี้:

+ ------------- + -------- + + ---------
| เส้นผ่าศูนย์กลางซม มวล g | เน่าเสีย? |
+ ------------- + -------- + + ---------
| 17.28 | 139.08 | 0 |
| 6.57 | 91.48 | 1 |
| 7.12 | 74.23 | 1 |
| 16.52 | 129.8 | 0 |
| 14.58 | 169.22 | 0 |
| 6.99 | 123.43 | 0 |
| 6.63 | 104.93 | 1 |
| 6.75 | 103.27 | 1 |
| 15.38 | 169.01 | 1 |
| 7.45 | 83.29 | 1 |
| 13.06 | 157.57 | 0 |
| 6.61 | 117.72 | 0 |
| 7.19 | 128.63 | 0 |
+ ------------- + -------- + + ---------

ถุงที่สองบรรจุผลไม้ 6 แบบสุ่มจากร้านเดียวกันกับกระเป๋าใบที่หนึ่ง ผลรวมของเส้นผ่านศูนย์กลางคือ 64.2 ซม. และ 4 จะเน่าเสีย

ให้ประมาณค่ามวลของถุงที่สอง

ฉันเห็นได้ว่ามีผลไม้สองชนิดที่แตกต่างกันซึ่งมีขนาดเส้นผ่าศูนย์กลางและมวลกระจายตามปกติ แต่ฉันหลงทางในการดำเนินการต่อ


6
คำถามที่น่าสนใจ - แต่มีข้อมูลแปลก ๆ : ความโน้มถ่วงที่เฉพาะเจาะจงอยู่ในช่วงตั้งแต่ 0.78 ถึง 0.05 อาจมีใครเข้าใจการตกแต่งโฟมสำหรับผลไม้จริงบ้างไหม? :-)
whuber

คำถามไม่ได้บอกว่าผลไม้ทำมาจากอะไร ฉันเดาว่าคุณสามารถสันนิษฐานได้ว่ากระเป๋าของจริงนั้นไม่มีน้ำหนักเช่นกัน ฉันจะแก้ปัญหาได้อย่างไร
rutilusk

3
ความเห็นของฉันคือเมื่อวิเคราะห์ข้อมูลที่ยุ่งเหยิงจำนวนเล็กน้อยเราพึ่งพาความรู้ในความหมายของข้อมูล เนื่องจากตัวเลขเหล่านี้ไม่ได้อธิบายถึง "ผลไม้" ชนิดใดที่รู้จักกันเราจึงไม่สามารถดึงดูดความรู้เกี่ยวกับโดเมนดังกล่าวได้ (ตัวอย่างเช่นเราไม่มีพื้นฐานใด ๆ ที่จะสมมติว่าส่วนใดส่วนหนึ่งของข้อมูลเหล่านี้ควรจะ "กระจายตามปกติ") ซึ่งทำให้เป็นการยากหรือเป็นไปไม่ได้ที่จะพัฒนาคำตอบที่สมเหตุสมผลและสามารถนำไปสู่การทะเลาะวิวาท สามารถประเมินประสิทธิภาพการทำงานของวิธีการใด ๆ
whuber

แต่ผลไม้โฟมไม่สามารถเน่า บางทีผลไม้อาจเป็น sphero ที่มีขนาดเส้นผ่าศูนย์กลาง "วัด" ตามแนวแกนยาว ดูเหมือนว่าจะมีผลไม้อย่างน้อยสองชนิด: ดังนั้นถ้าความโน้มถ่วงที่เฉพาะเจาะจงใกล้กับผลไม้ขนาดเล็กจะมีขนาดและรูปร่างของมะนาวน้อย ใหญ่กว่าประมาณครึ่งฟุตและต่ำกว่า 2 นิ้ว ความยากลำบากในความคิดนี้ดูเหมือนจะเป็นธรรมชาติมากกว่าที่จะอธิบายว่าแกนที่สั้นกว่านั้นคือ "เส้นผ่านศูนย์กลาง"
Scortchi - Reinstate Monica

คำตอบ:


1

เรามาเริ่มต้นด้วยการพล็อตข้อมูลและดูมัน นี้เป็นจำนวนที่ จำกัด มากของข้อมูลนี้จึงเป็นไปได้ค่อนข้างเฉพาะกิจที่มีมากมายของสมมติฐาน

rotten <- c(0,1,1,0,0,0,1,1,1,1,0,0,0)
rotten <- as.factor(rotten)
mass <- c(139.08, 
        91.48,
        74.23,
        129.8,
        169.22,
        123.43,
        104.93,
        103.27,
        169.01,
        83.29,
        157.57,
        117.72,
        128.63)
diam <- c(17.28,
        6.57,
        7.12,
        16.52,
        14.58,
        6.99,
        6.63,
        6.75,
        15.38,
        7.45,
        13.06,
        6.61,
        7.19)

plot(mass,diam,col=rotten,lwd=2)
title("Fruits")

ดังนั้นนี่คือข้อมูลจุดสีแดงแสดงถึงผลไม้เน่า:

ผลไม้

คุณถูกต้องโดยสมมติว่ามีผลไม้สองชนิด สมมติฐานที่ฉันทำมีดังต่อไปนี้:

  • เส้นผ่าศูนย์กลางแบ่งผลไม้ออกเป็นสองกลุ่ม
  • ผลไม้ที่มีเส้นผ่านศูนย์กลางมากกว่า 10 อยู่ในกลุ่มเดียวและกลุ่มอื่น ๆ ในกลุ่มที่เล็กกว่า
  • มีผลไม้เน่าเพียงชิ้นเดียวในกลุ่มผลไม้ขนาดใหญ่ สมมติว่าถ้าผลไม้อยู่ในกลุ่มใหญ่การเน่าเสียจะไม่มีผลกับน้ำหนัก นี่เป็นสิ่งสำคัญเนื่องจากเรามีจุดข้อมูลเพียงจุดเดียวในกลุ่มนั้น
  • หากผลไม้เป็นผลไม้ขนาดเล็กแสดงว่าการเน่าเสียมีผลต่อมวล
  • สมมติว่าตัวแปรไดอะแฟรมและมวลมีการกระจายตัวตามปกติ

เนื่องจากมีการระบุว่าผลรวมของเส้นผ่านศูนย์กลางคือ 64.2 ซม. ดังนั้นจึงเป็นไปได้มากว่าผลไม้ทั้งสองมีขนาดใหญ่และสี่มีขนาดเล็ก ตอนนี้มี 3 กรณีสำหรับน้ำหนัก มีผลไม้เน่าขนาดเล็ก 2, 3 หรือ 4 ตัว ( ผลไม้ขนาดใหญ่ที่เน่าเสียไม่ส่งผลกระทบต่อมวลโดยการสันนิษฐาน ) ดังนั้นตอนนี้คุณสามารถรับน้ำหนักได้โดยการคำนวณค่าเหล่านี้

เราสามารถประมาณความน่าจะเป็นที่จะเกิดขึ้นสำหรับจำนวนของผลไม้เล็ก ๆ ที่เน่าเสีย เราใช้ความน่าจะเป็นในการประเมินน้ำหนักมวลของเราโดยขึ้นอยู่กับจำนวนผลไม้ที่เน่าเสีย:

samps <- 100000
stored_vals <- matrix(0,samps,2)
for(i in 1:samps){
  numF <- 0 # Number of small rotten
  numR <- 0 # Total number of rotten
  # Pick 4 small fruits
  for(j in 1:4){
    if(runif(1) < (5/8)){ # Empirical proportion of small rotten
      numF <- numF + 1
      numR <- numR + 1
    } 
  }
  # Pick 2 large fruits
  for(j in 1:2){
    if(runif(1) < 1/5){# Empirical proportion of large rotten
      numR <- numR + 1
    }
  }
  stored_vals[i,] <- c(numF,numR)
}

# Pick out samples that had 4 rotten
fourRotten <- stored_vals[stored_vals[,2] == 4,1]
hist(fourRotten)

table(fourRotten)

# Proportions 
props <- table(fourRotten)/length(fourRotten)

massBig <- mean(mass[diam>10])
massSmRot <- mean(mass[diam<10 & rotten == 1])
massSmOk <- mean(mass[diam<10 & rotten == 0])

weights <- 2*massBig + c(2*massSmOk+2*massSmRot,1*massSmOk+3*massSmRot,4*massSmRot)

Est_Mass <- sum(props*weights) 

ให้เราประมาณการสุดท้ายของ691.5183g ฉันคิดว่าคุณต้องใช้สมมติฐานส่วนใหญ่ที่ได้ทำเพื่อให้ได้ข้อสรุป แต่ฉันคิดว่ามันเป็นไปได้ที่จะทำสิ่งนี้อย่างชาญฉลาด นอกจากนี้ฉันยังทดลองตัวอย่างเชิงประจักษ์เพื่อรับความน่าจะเป็นของจำนวนผลไม้เล็ก ๆ ที่เน่านั่นเป็นเพียงความเกียจคร้านและสามารถทำได้ "วิเคราะห์"


ขอขอบคุณสำหรับการสนับสนุนของคุณ. สำหรับผมแล้วการยืนยันส่วนใหญ่ที่คุณเรียกว่า "สมมติฐาน" นั้นเป็นข้อสรุปจริง ๆจากการวิเคราะห์เชิงสำรวจของคุณ มันจะมีประโยชน์ในการวิเคราะห์ว่าผลลัพธ์ของคุณขึ้นอยู่กับความถูกต้องของข้อสรุปเหล่านั้น ไม่ว่าจะเป็นที่ชัดเจนว่าชุดข้อมูลขนาดเล็กเช่นนี้อาจไม่สามารถรองรับผลลัพธ์ที่มีตัวเลขเจ็ดตัวที่สำคัญได้! มันจะมีประโยชน์โดยเฉพาะอย่างยิ่งที่จะให้การประเมินข้อผิดพลาดบางอย่าง มันจะค่อนข้างใหญ่ซึ่งเป็นเรื่องสำคัญที่ต้องรู้
whuber

@whuber ขอบคุณสำหรับความคิดเห็นฉันอาจเพิ่มสิ่งเพิ่มเติมสำหรับการประเมินการเปลี่ยนแปลงในภายหลังในตอนเย็น สิ่งที่ง่ายที่สุดที่จะทำคือรับค่าประมาณข้อผิดพลาดสำหรับมวลของทั้งสามกลุ่มที่ฉันใช้สำหรับการคำนวณขั้นสุดท้ายและคำนวณช่วงการทำนายตามนั้น แต่ฉันเห็นว่า OP ไม่ได้ใช้งานเป็นเวลาหนึ่งปีดังนั้นฉันจึงไม่คาดหวังคำตอบนี้ ฉันยังคงคิดว่าตัวอย่างนี้เป็นปัญหา "ของเล่น" ที่ดีเพื่อดูว่าคุณจะได้รับข้อมูลน้อยเพียงใด
Gumeo

ฉันพยายามที่จะแนะนำว่าคุณได้รับข้อมูลน้อยกว่าคำตอบของคุณเพราะมันขึ้นอยู่กับข้อสรุปที่ได้มาจากข้อมูลมากมายว่าตัวเองมีความไม่แน่นอนสูง
whuber

@whuber ใช่ถูกต้องทั้งหมด แต่การพยายามที่จะประเมินข้อผิดพลาดที่แพร่กระจายโดยสมมติฐาน / ข้อสรุปทั้งหมดที่ฉันทำนั้นไม่ง่ายมาก ฉันยังได้รับอิทธิพลอย่างมากจากความจริงที่ว่าผลรวมของเส้นผ่านศูนย์กลางของผลไม้ในถุงที่สองคือ 64.2 ซม. และ OP กล่าวว่าอาจมีผลไม้สองกลุ่ม
Gumeo

1
@ สิ่งที่ฉันจะคิดเกี่ยวกับสิ่งนี้และใช้มันเป็นความท้าทาย ฉันจะทบทวนคำถามนี้อีกครั้งในภายหลัง!
Gumeo

0

ฉันจะเสนอวิธีการดังต่อไปนี้:

  1. สร้าง 6-tuples ทั้งหมดที่ตรงตามเงื่อนไขในวันที่ 4 เน่า พวกเขาคือ(64)(72).
  2. เลือกจากสิ่งอันดับที่สร้างขึ้นเฉพาะสิ่งที่เป็นไปตามเงื่อนไขของเส้นผ่านศูนย์กลาง
  3. คำนวณน้ำหนักเฉลี่ยของสิ่งอันดับที่เลือก (ค่าเฉลี่ยเลขคณิตปกติ)

ทั้งหมดนี้สามารถจัดการได้ด้วยสคริปต์ง่ายๆ


5
ทำไมวิธีนี้จึงใช้งานได้? มันทำให้สมมติฐานอะไร คุณเคยลองดูไหมว่ามันจะสามารถสร้างคำตอบได้หรือไม่?
whuber

0

มีหลายวิธีตั้งแต่ง่ายที่สุดไปจนถึงซับซ้อน

  1. 6 (ค่าเฉลี่ยมวล)
  2. 6 (ปริมาณเฉลี่ย) (ความหนาแน่นเฉลี่ย)
  3. 4 (หมายถึงมวลเน่า) + 2 (หมายถึงมวลที่ไม่เน่า)
  4. 4 ((หมายถึงปริมาณที่เน่าเสีย) + 2 (หมายถึงปริมาณที่ไม่เน่า)) (ความหนาแน่นเฉลี่ย)
  5. 4 (หมายถึงปริมาณที่เน่าเสีย) (หมายถึงความหนาแน่นของเน่า) + 2 (หมายถึงปริมาณที่ไม่เน่าเสีย) (หมายถึงความหนาแน่นที่ไม่เน่าเสีย)

. . .

วิธี combinatoric

วิธีการจัดเรียงตามลำดับของความเรียบง่ายของการคำนวณไม่ใช่ในลำดับของวิธีการใด ๆ ที่จะดีกว่าหรือดีใด ๆ การเลือกวิธีการใช้ขึ้นอยู่กับลักษณะของประชากรที่เป็นที่รู้จักหรือสันนิษฐาน ตัวอย่างเช่นหากมวลผลไม้ในประชากรร้านค้ากระจายตามปกติและเป็นอิสระจากขนาดเส้นผ่าศูนย์กลางและสถานะเน่าใคร ๆ ก็สามารถใช้วิธีแรกที่ง่ายที่สุดโดยไม่มีข้อได้เปรียบใด ๆ (หรือแม้แต่ข้อเสียของการสุ่มตัวอย่างข้อผิดพลาดของตัวแปรหลายตัว) . หากตัวแปรสุ่มแบบอิสระไม่กระจายแบบอิสระตัวเลือกที่ซับซ้อนกว่านั้นขึ้นอยู่กับข้อมูลที่รู้หรือสันนิษฐานเกี่ยวกับประชากรอาจดีกว่า


3
ทำไมสิ่งเหล่านี้ถึงได้ดี? พวกเขาทำอะไรสมมติฐาน? หนึ่งจะเลือกหนึ่งมากกว่าอีกอย่างไร (พวกเขายังอยู่ในลำดับที่ดีขึ้นในบางแง่มุม?)
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.