มีชื่อที่ดีกว่า "ค่าเฉลี่ยของอินทิกรัล" หรือไม่?


12

ฉันกำลังทดสอบเซ็นเซอร์ตำแหน่งคันเร่ง (TPS) ธุรกิจของฉันขายและฉันพิมพ์พล็อตของการตอบสนองต่อแรงดันไฟฟ้ากับการหมุนของเพลาปีกผีเสื้อ TPS เป็นเซ็นเซอร์แบบหมุนด้วยช่วง 90 °และเอาต์พุตเป็นเหมือนโพเทนชิออมิเตอร์ที่เปิดเต็มเป็น 5V (หรือค่าอินพุตของเซ็นเซอร์) และการเปิดครั้งแรกมีค่าระหว่าง 0 ถึง 0.5V ฉันสร้างม้านั่งทดสอบพร้อมคอนโทรลเลอร์ PIC32เพื่อทำการวัดแรงดันไฟฟ้าทุก ๆ 0.75 °และเส้นสีดำเชื่อมต่อการวัดเหล่านี้

หนึ่งในผลิตภัณฑ์ของฉันมีแนวโน้มที่จะทำให้การผันแปรของแอมพลิจูดที่มีการแปลในระดับท้องถิ่นต่ำและห่างจาก (และต่ำกว่า) เป็นสายที่เหมาะสมที่สุด คำถามนี้เกี่ยวกับอัลกอริทึมของฉันในการหาจำนวน "dips" ที่แปลเป็นภาษาท้องถิ่นเหล่านี้ ชื่อหรือคำอธิบายที่ดีสำหรับกระบวนการวัด dips คืออะไร (ตามคำอธิบายทั้งหมด) ในภาพด้านล่างการจุ่มเกิดขึ้นที่ด้านซ้ายของพล็อตและเป็นกรณีส่วนเพิ่มไม่ว่าฉันจะผ่านหรือล้มเหลวในส่วนนี้:

พิมพ์จากส่วนที่ต้องสงสัย

ดังนั้นฉันจึงสร้างเครื่องตรวจจับแบบจุ่ม ( stackoverflow qa เกี่ยวกับอัลกอริทึม ) เพื่อวัดความรู้สึกของลำไส้ของฉัน ตอนแรกฉันคิดว่าฉันวัด "พื้นที่" กราฟนี้อ้างอิงจากงานพิมพ์ด้านบนและความพยายามอธิบายอัลกอริทึมแบบกราฟิก มีการจุ่มสำหรับตัวอย่าง 13 ระหว่าง 17 และ 31:

ข้อมูลตัวอย่างที่แสดงพร้อมกับ "dip" ขยาย

deltasdeltas

deltasdydx

การวิเคราะห์อนุพันธ์ ...

deltasdeltas

0.7+1.2+1.3+1.4+1.8+2.5+2.9+3.0+2.5+2.0+1.5+1.0+1.2

23

เส้นสีเขียวคือค่าเฉลี่ยของ "ต่ำกว่าค่าเฉลี่ย" ที่พบผ่านการแบ่งพื้นที่ด้วยความยาวของการจุ่ม:

23÷13=1.77

2.63.0

|deltasavg|>avg+stddev

เป็นเวลาเกือบ 20 ปีแล้วตั้งแต่ Calc 1 ดังนั้นโปรดช่วยฉันง่ายๆ แต่มันรู้สึกเหมือนกับว่าเมื่อศาสตราจารย์ใช้แคลคูลัสและสมการกระจัดเพื่ออธิบายว่าในการแข่งรถคู่แข่งที่มีความเร่งน้อยกว่าที่รักษาความเร็วมุมที่สูงกว่า ผู้แข่งขันที่เร่งความเร็วมากขึ้นในเทิร์นถัดไป: เมื่อผ่านเทิร์นก่อนหน้าเร็วขึ้นความเร็วเริ่มต้นที่สูงขึ้นหมายถึงพื้นที่ที่อยู่ภายใต้ความเร็วของเขา (การกระจัด) มีมากขึ้น

ในการแปลคำถามของฉันฉันรู้สึกว่าเส้นสีเขียวของฉันจะเหมือนกับการเร่งความเร็วอนุพันธ์อันดับ 2 ของข้อมูลดั้งเดิม

ผมเข้าเยี่ยมชมวิกิพีเดียที่จะ re-read พื้นฐานของแคลคูลัสและคำจำกัดความของอนุพันธ์และที่สำคัญได้เรียนรู้ในระยะที่เหมาะสมสำหรับการเพิ่มขึ้นในพื้นที่ใต้เส้นโค้งทางวัดรอบคอบเป็นตัวเลขบูรณาการ googling มากขึ้นโดยเฉลี่ยของอินทิกรัลและฉันนำไปสู่หัวข้อของการไม่เชิงเส้นและการประมวลผลสัญญาณดิจิตอล เฉลี่ยหนึ่งน่าจะเป็นตัวชี้วัดที่เป็นที่นิยมสำหรับปริมาณข้อมูล

1.77


ฉันคิดว่า "การจุ่มเฉลี่ย" ดีพอ มันไม่มีมิติของการเร่งความเร็วดังนั้นจึงไม่มีอะไรเกี่ยวข้องกับมัน
ShreevatsaR

และฉันขอขอบคุณข้อสังเกตหรือความเห็นเกี่ยวกับหัวข้อนี้โดยรวม ฉันค่อนข้างกระวนกระวายใจว่าการวัด "ความรู้สึก" นี้ไม่ได้แสดงออกทางคณิตศาสตร์ได้ดีกว่า
Chris K

คุณสามารถเพิ่มจุดข้อมูลทั้งหมดที่คุณใช้ในการสร้างเส้นในอุดมคติหรือเพิ่มข้อมูลเพิ่มเติมเล็กน้อยเกี่ยวกับวิธีคำนวณเส้นประสีแดงเพื่อแสดงให้เห็นถึงแถบสีฟ้าที่เป็น "deltas ที่ต่ำกว่าค่าเฉลี่ยของทั้งหมด จุดข้อมูล "? ถ้ามันอยู่ในศีลธรรมระยะทางเฉลี่ยจากค่าเฉลี่ยก็ควรจะมีชื่อสไตล์การเร่งความเร็วสำหรับมันแทนที่ความแตกต่างของหลักสูตรด้วยการเฉลี่ย

1
ย้ายจาก Math.SE ตามคำขอ OP: meta.stats.stackexchange.com/questions/1845/…
Willie Wong

1
ฉันอาจเพิ่มคำว่า "local" เพื่อให้ชัดเจนว่าขั้นตอนที่ 1 มีอยู่ - ฉันเห็นด้วยกับ @Glen_b (อีกเกลน - สวัสดี!) ว่านี่เป็นสิ่งสำคัญ ดังนั้นฉันจะขอแนะนำ "ข้อบกพร่องในท้องถิ่นหมายถึง" ที่ฉันเพิ่งตัด "เบี่ยงเบนจากอุดมคติ" เป็น "ข้อบกพร่อง" ดูเหมือนว่าเหมาะสม
เกลนวีลเลอร์

คำตอบ:


3

ก่อนอื่นนี่เป็นคำอธิบายที่ยอดเยี่ยมเกี่ยวกับโครงการของคุณและปัญหา และฉันเป็นแฟนตัวยงของกรอบการวัดที่ทำที่บ้านของคุณซึ่งยอดเยี่ยมมาก ... แล้วทำไมบนโลกถึงมีความสำคัญต่อสิ่งที่คุณเรียกว่า

x[n]>αSD(x[1:n1])=>x[n] is outlier
x[n]nthSD(x[1:n1])1st(n1)thαh
x[n]>αSD(x[nh1:n1])=>x[n] is outlier

x[n]

นอกจากนี้ยังมีกฎอื่น ๆ ที่คุณอาจต้องพิจารณาเพื่อวัตถุประสงค์ในการจัดประเภทอุปกรณ์ว่าผิดพลาด:

  • ถ้าการเบี่ยงเบนใด ๆ (เดลต้า) มากกว่า SD หลาย ๆ อันของเดลตาทั้งหมด
  • ถ้าผลรวมกำลังสองของส่วนเบี่ยงเบนใหญ่กว่าขีด จำกัด ที่แน่นอน
  • หากอัตราส่วนของผลรวมของ delta ที่เป็นบวกและลบนั้นไม่เท่ากันโดยประมาณ (ซึ่งอาจมีประโยชน์หากคุณต้องการข้อผิดพลาดเล็ก ๆ ในทั้งสองทิศทางมากกว่าที่จะมีอคติที่แข็งแกร่งในทิศทางเดียว)

แน่นอนคุณสามารถหากฎเพิ่มเติมและเชื่อมโยงพวกเขาโดยใช้ตรรกะบูลีน แต่ฉันคิดว่าคุณสามารถทำได้ไกลกว่าสามข้อข้างต้น

สุดท้าย แต่ไม่ท้ายสุดเมื่อคุณตั้งค่าแล้วคุณจะต้องทดสอบตัวจําแนก (ตัวจําแนกเป็นระบบ / โมเดลการแมปอินพุตกับคลาสในกรณีของคุณข้อมูลของอุปกรณ์แต่ละตัวเป็น "ดี" หรือ " ความผิดพลาด ") สร้างชุดการทดสอบโดยการติดฉลากประสิทธิภาพของอุปกรณ์แต่ละรายการด้วยตนเอง จากนั้นดูที่ROCซึ่งโดยทั่วไปจะบอกคุณถึงการชดเชยระหว่างจำนวนอุปกรณ์ที่ระบบของคุณหยิบขึ้นมาจากการคืนค่าอย่างถูกต้องซึ่งสัมพันธ์กับจำนวนอุปกรณ์ที่ผิดพลาดที่หยิบขึ้นมา


ฉันเชื่อว่า "ทำไมบนโลกนี้จึงสำคัญ" เป็นหน้าที่ของชื่อผู้ใช้ของคุณเอง :) ทำไม เหตุผลเดียวกันคือมีอุ้งเชิงกราน: เราต้องการคำพูดเพื่อบอกปริมาณทุกอย่างที่ไม่ซ้ำกันในชีวิต อิมโฮ QA นี้เป็นตัวอย่างของการ จำกัด คำศัพท์ภายในสถิติ เราจำเป็นต้องรวมคำอธิบายที่สับสนหรือขัดแย้งกับสิ่งที่ "เข้าตา" ง่ายมาก
คริส K

เห็นสิท่านไง! :) ถ้าฉันละเว้นการลงทุนใด ๆ ในดินแดนแห่งการสร้างสรรค์แบรนด์มันเป็นเพราะฉันรู้สึกว่าถูกบังคับให้สนับสนุนความมั่งคั่งและการอุทิศตนของความพยายามและความคิดของคุณมากกว่าที่จะสร้างฉลากไร้สาระ เนื่องจากคุณยืนยันที่จะตั้งชื่อค่าเฉลี่ยของอินทิกรัลระวังว่าสิ่งที่คุณพิจารณาว่า "ค่าเฉลี่ยของอินทิกรัล" นั้นเป็นค่าเฉลี่ยง่ายๆของเดลตาของคุณ และเช่นนั้นค่าผิดของคุณก็คือ "เบี่ยงเบนจากค่าเฉลี่ย" หรืออาจเบี่ยงเบนจากค่าเฉลี่ยของท้องถิ่น ฉันไม่เห็นความได้เปรียบในการคิดเชิงอินทิกรัลยกเว้นว่าคุณมีจุดสุ่มตัวอย่างไม่เพียงพอ
หมายถึงความหมาย
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.