การตรวจวัดปริมาณการใช้ก๊าซ - โครงการโครงข่ายประสาทเทียม ผลลัพธ์ไม่ดี


10

ฉันพยายามตรวจหาคนนอกในการใช้ก๊าซพลังงานของอาคารดัตช์บางแห่งสร้างแบบจำลองโครงข่ายประสาทเทียม ฉันมีผลลัพธ์ที่แย่มาก แต่ฉันไม่สามารถหาสาเหตุได้

ฉันไม่ใช่ผู้เชี่ยวชาญดังนั้นฉันอยากจะถามคุณว่าฉันสามารถปรับปรุงอะไรได้บ้างและฉันทำอะไรผิด นี่คือคำอธิบายที่สมบูรณ์: https://github.com/denadai2/Gas-consumption-outliers

เครือข่ายนิวรัลคือเครือข่าย FeedFoward พร้อม Back Propagation ตามที่อธิบายไว้ที่นี่ฉันแยกชุดข้อมูลในชุดข้อมูล "เล็ก" ของแถว 41'000, 9 คุณสมบัติและฉันพยายามเพิ่มคุณสมบัติเพิ่มเติม

ฉันฝึกเครือข่าย แต่ผลลัพธ์มี 14.14 RMSE ดังนั้นจึงไม่สามารถคาดการณ์ปริมาณการใช้ก๊าซได้อย่างดีฉันไม่สามารถใช้กลไกการตรวจจับค่าผิดปกติได้ดีอย่างต่อเนื่อง ฉันเห็นว่าในเอกสารบางฉบับที่แม้ว่าพวกเขาทำนายการใช้พลังงานไฟฟ้ารายวันหรือรายชั่วโมงพวกเขามีข้อผิดพลาดเช่น MSE = 0.01

ฉันจะปรับปรุงอะไรดี ผมทำอะไรผิดหรือเปล่า? คุณสามารถดูคำอธิบายของฉันได้ไหม?


2
คุณหมายถึงอะไรผลลัพธ์ที่ไม่ดี? อธิบายกระบวนการของคุณผลลัพธ์ของคุณและความแตกต่างจากสิ่งที่คุณคาดหวังแทนที่จะเชื่อมโยงกับที่เก็บ git เท่านั้น มิฉะนั้นการสนทนานี้จะไม่เป็นประโยชน์กับใคร
อากาศ

เป็นจริงเช่นนี้: D ฉันเพิ่มคำอธิบายในหน้า "ผลลัพธ์มี 14.14 RMSE ดังนั้นจึงไม่สามารถทำนายปริมาณการใช้ก๊าซได้อย่างดีอย่างต่อเนื่องฉันไม่สามารถใช้กลไกการตรวจจับค่าผิดปกติได้ดีฉันเห็นว่าในเอกสารบางฉบับที่แม้ว่าพวกเขาจะทำนาย การใช้พลังงานไฟฟ้ารายวันหรือรายชั่วโมงมีข้อผิดพลาดเช่น MSE = 0.01 "
marcodena

1
@marcodena นี่คือไซต์ QA และคนอื่น ๆ ต้องรู้ว่าคุณกำลังพยายามแก้ไขอะไรเพื่อที่พวกเขาจะได้เข้าใจคำตอบและหวังว่าจะสามารถใช้พวกเขาในปัญหาของพวกเขาเองได้ นั่นคือความหมายของ AirThomas และเป็นสาเหตุที่ดีถ้าคุณสามารถอธิบายสิ่งที่คุณทำและสิ่งที่คุณคิดว่าผิด หากลิงก์ไปยังหน้า git-hub ของคุณเปลี่ยนลิงค์ที่นี่จะไม่ถูกต้องและอื่น ๆ จะไม่สามารถเข้าใจได้ว่าปัญหาคืออะไร โปรดสละเวลาสักครู่เพื่อทำให้คำถามของคุณสมบูรณ์ ขอบคุณ
รูเบนส์

1
เมื่อคุณพบว่าปัญหาของคุณใช้เวลานานในการอธิบายนั่นคือเมื่อสิ่งที่สำคัญที่สุดคือการใช้เวลาอธิบายคำถามของคุณให้ผู้อื่นอย่างชัดเจนและมีรายละเอียดมากมายและอภิปรายการวิจัย / ความพยายามของคุณ บ่อยครั้งในระหว่างกระบวนการนั้นคุณจะพบคำตอบบางส่วนหรือทั้งหมดด้วยตัวคุณเอง ไม่เพียง แต่เป็นความรู้สึกที่ยอดเยี่ยมหากสิ่งที่คุณพบว่ามีประโยชน์ต่อผู้อื่นคุณยังสามารถโพสต์คำถามที่คุณใช้เวลามากและคำตอบที่คุณได้รับ
อากาศ

1
เพียงชี้แจงเมื่อคุณพูดถึงว่า "ในเอกสารบางอย่างพวกเขามีข้อผิดพลาดเช่น MSE = 0.01" คุณอ้างถึงชุดข้อมูลเดียวกันกับที่คุณใช้อยู่หรือไม่? หรือมันเป็นชุดข้อมูลอื่นโดยสิ้นเชิง?
insys

คำตอบ:


8

เพียงความคิด - ข้อมูลของคุณเป็นไปตามฤดูกาล: รอบการทำงานรายวันและรายสัปดาห์ค่อนข้างสังเกตได้ ก่อนอื่นให้พยายามแยกตัวแปรของคุณ (ปริมาณการใช้ก๊าซและไฟฟ้าอุณหภูมิและการแผ่รังสีแสงอาทิตย์) นี่คือการสอนที่ดีเกี่ยวกับการสลายตัวของอนุกรมเวลาสำหรับ R

หลังจากได้รับแนวโน้มและส่วนประกอบตามฤดูกาลแล้วส่วนที่น่าสนใจที่สุดจะเริ่มขึ้น เป็นเพียงข้อสมมติ แต่ฉันคิดว่าตัวแปรการใช้ก๊าซและไฟฟ้าจะสามารถคาดการณ์ได้ค่อนข้างมากโดยใช้การวิเคราะห์อนุกรมเวลา (เช่นแบบจำลอง ARIMA ) จากมุมมองของฉันส่วนที่น่าสนใจที่สุดในที่นี้คือพยายามคาดคะเนสิ่งตกค้างหลังจากการสลายตัวโดยใช้ข้อมูลที่มีอยู่ (ความผิดปกติด้านอุณหภูมิรังสีดวงอาทิตย์ความเร็วลม) ฉันคิดว่าส่วนที่เหลือจะเป็นค่าผิดปกติคุณกำลังมองหา หวังว่าคุณจะพบว่ามีประโยชน์นี้


3

ในสมุดบันทึกการฝึกอบรมของคุณคุณนำเสนอผลลัพธ์สำหรับการฝึกอบรมด้วย 20 ยุค คุณลองเปลี่ยนแปลงพารามิเตอร์นั้นเพื่อดูว่ามันมีผลกับประสิทธิภาพของคุณหรือไม่ นี่เป็นพารามิเตอร์ที่สำคัญสำหรับการเผยแพร่กลับ

สำหรับการประเมินพารามิเตอร์โมเดลของคุณดังที่ผู้ใช้ระบุว่า tomaskazemekas การวางกราฟการเรียนรู้เป็นวิธีการที่ดีมาก นอกจากนั้นคุณยังสามารถสร้างพล็อตโดยใช้พารามิเตอร์โมเดล (เช่น epochs การฝึกอบรมหรือขนาดเลเยอร์ที่ซ่อนอยู่) กับข้อผิดพลาดของการฝึกอบรมและการตรวจสอบ สิ่งนี้จะช่วยให้คุณเข้าใจอคติ / ความแปรปรวนของการแลกเปลี่ยนและช่วยคุณเลือกค่าที่ดีสำหรับพารามิเตอร์ของคุณ ข้อมูลบางอย่างสามารถพบได้ที่นี่ เป็นความคิดที่ดีที่จะเก็บรักษาข้อมูลของคุณไว้เล็กน้อยสำหรับชุดทดสอบ (ที่สาม)

จากการสังเกตด้านข้างดูเหมือนว่าการเพิ่มจำนวนของเซลล์ประสาทในแบบจำลองของคุณไม่แสดงการปรับปรุงที่สำคัญสำหรับ RMSE ของคุณ สิ่งนี้ชี้ให้เห็นว่าคุณสามารถลองใช้แบบจำลองที่ง่ายกว่าเช่นที่มีเซลล์ประสาทน้อยลงและดูว่าแบบจำลองของคุณทำงานอย่างไร

ในความเป็นจริงฉันขอแนะนำ (ถ้าคุณยังไม่ได้ทำ) ลองใช้แบบจำลองง่ายๆที่มีพารามิเตอร์น้อยหรือไม่มีเลยก่อนเช่นการถดถอยเชิงเส้นและเปรียบเทียบผลลัพธ์ของคุณกับวรรณกรรมเช่นเดียวกับการตรวจสุขภาพ


ฉันเพิ่มกราฟหลังจากได้ปรับปรุงโมเดล A LOT แล้ว ใน GitHub มีขั้นตอนใหม่ ฉันขอถามคุณได้อย่างไรว่าฉันจะใช้การถดถอยเชิงเส้นในปัญหาอนุกรมเวลาได้อย่างไร :(
marcodena

2

ปัญหาหลักของที่นี่คือก่อนที่จะพยายามใช้อัลกอริธึมการตรวจจับความผิดปกติคุณจะไม่ได้รับการคาดการณ์ปริมาณการใช้ก๊าซที่เพียงพอโดยใช้เครือข่ายประสาท

หากเป้าหมายหลักที่นี่คือการไปถึงขั้นตอนที่สามารถใช้อัลกอริทึมการตรวจจับความผิดปกติและคุณระบุว่าคุณสามารถเข้าถึงตัวอย่างของการประยุกต์ใช้การถดถอยเชิงเส้นที่ประสบความสำเร็จสำหรับปัญหานี้วิธีการนี้อาจมีประสิทธิผลมากขึ้น หนึ่งในหลักการของแอปพลิเคชั่นการเรียนรู้ด้วยเครื่องที่ประสบความสำเร็จคือสามารถลองใช้อัลกอริทึมที่แตกต่างกันก่อนที่จะเลือกขั้นสุดท้ายตามผลลัพธ์

คุณเลือกที่จะปรับแต่งประสิทธิภาพเครือข่ายประสาทของคุณการเรียนรู้การวางแผนผลของการเปลี่ยนแปลงในพารามิเตอร์ที่แตกต่างกันในอัตราข้อผิดพลาดสามารถใช้ พารามิเตอร์หลายมิติที่สามารถแก้ไขได้คือ:

  • จำนวนคุณสมบัติ
  • คำสั่งของพหุนาม
  • พารามิเตอร์การทำให้เป็นมาตรฐาน
  • จำนวนเลเยอร์ในเครือข่าย

การตั้งค่าที่ดีที่สุดสามารถเลือกได้จากประสิทธิภาพของชุดการตรวจสอบความถูกต้องแบบไขว้


ฉันเพิ่มกราฟและคุณยังสามารถตรวจสอบเกี่ยวกับพารามิเตอร์ในขณะนี้ :)
marcodena

2

ในสมุดบันทึกของคุณฉันไม่เห็นรูปแบบเครือข่ายประสาทของคุณคุณสามารถชี้ให้เห็นว่าไลบรารีใดที่ใช้อยู่คุณมีเลเยอร์กี่ชั้นและคุณใช้โครงข่ายประสาทประเภทใด

ในสมุดบันทึกของคุณดูเหมือนว่าคุณกำลังใช้ชุดข้อมูลที่มีเสียงดังและผิดเพี้ยนในการฝึกอบรมโครงข่ายประสาทเทียมฉันคิดว่าคุณควรฝึกอบรมโครงข่ายประสาทเทียมในชุดข้อมูลที่คุณไม่มีค่าผิดปกติเพื่อให้คุณสามารถดูระยะห่างจากการทำนาย โครงข่ายใยประสาทเทียมเพื่อติดฉลากการสังเกตไม่ว่าจะเป็นค่าผิดปกติหรือไม่ก็ตาม

ผมเขียนคู่ของสิ่งที่เกี่ยวกับการตรวจสอบค่าผิดปกติในการส่งสัญญาณอนุกรมเวลาข้อมูลของคุณเป็นอย่างมากตามฤดูกาลเป็น sobach กล่าวถึงและคุณสามารถใช้ FFT (ลิงค์แรกด้านบน) ที่จะได้รับแนวโน้มโดยรวมของสัญญาณ หลังจากที่คุณได้รับองค์ประกอบความถี่ในการใช้ก๊าซคุณสามารถดูส่วนประกอบความถี่สูงเพื่อรับค่าผิดปกติ

นอกจากนี้หากคุณต้องการยืนยันการใช้เครือข่ายประสาทสำหรับข้อมูลตามฤดูกาลคุณอาจต้องการตรวจสอบเครือข่ายประสาทที่เกิดขึ้นซ้ำเนื่องจากพวกเขาสามารถรวมการสังเกตที่ผ่านมาดีกว่าเครือข่ายวานิลลาและควรให้ผลลัพธ์ที่ดีกว่าสำหรับข้อมูลที่คุณมี .


ฉันลองใช้วิธี FFT ของคุณ แต่ฉันไม่เข้าใจวิธีตั้งค่าขีด จำกัด ความถี่และแอมพลิจูดด้วยข้อมูลของฉัน ฉันจะดูต่อไป แต่ถ้าหากคุณสามารถช่วยฉันได้ ...
marcodena

ฉันเพิ่มแหล่งข้อมูลด้วย
marcodena
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.