เกณฑ์การทดสอบระบบ
การทดสอบระบบ GearMind
การทดสอบระบบ GearMind มุ่งเน้นการประเมินประสิทธิภาพและความสามารถในการให้ข้อมูลที่ถูกต้อง ทันสมัย และมีความสามารถในการทำความเข้าใจภาษาธรรมชาติ โดยแบ่งการทดสอบออกเป็น 2 ด้านหลัก ดังนี้
การทดสอบการดึงข้อมูลและ Semantic Search
วัตถุประสงค์:
เพื่อประเมินความสามารถในการดึงข้อมูลที่เกี่ยวข้องและถูกต้องจากเอกสาร
เพื่อประเมินความสามารถในการทำความเข้าใจความหมายของคำถาม (Semantic Search)
วิธีการ:
เตรียมชุดข้อมูล: เลือกเอกสารอย่างน้อย 1 ฉบับ และกำหนดหัวข้อที่ต้องการทดสอบ
ออกแบบคำถาม:
คำถามทั่วไป (5 คำถาม) เช่น "ตอนนี้มีข้อมูลเกี่ยวกับสินค้า X ไหม"
คำถามเจาะจง (5 คำถาม) เช่น "เป้าหมายของโครงการ X คืออะไร", "ผลการวิจัยพบข้อสรุปอะไรบ้าง"
คำถามเปรียบเทียบ (3 คำถาม) เช่น "ข้อดีข้อเสียของวิธีการ A และ B แตกต่างกันอย่างไร"
คำถามที่ต้องใช้การสังเคราะห์ข้อมูล (2 คำถาม) เช่น "คุณคิดว่าโครงการ X จะประสบความสำเร็จหรือไม่ เพราะอะไร"
คำถามที่ใช้คำพ้องความหมาย (3 คำถาม) เช่น คำแสลง
การประเมิน:
ความเกี่ยวข้อง: (1-5) ข้อมูลที่ดึงมานั้นเกี่ยวข้องกับคำถามหรือไม่
ความถูกต้อง: (1-5) ข้อมูลนั้นถูกต้องตรงกับในเอกสารหรือไม่
ความครอบคลุม: (1-5) ข้อมูลครอบคลุมสิ่งที่ต้องการทราบหรือไม่
ความชัดเจน: (1-5) คำตอบเข้าใจง่ายหรือไม่
คะแนนเฉลี่ยจากผู้เชี่ยวชาญอย่างน้อย 2 คน
การทดสอบความสามารถในการยอมรับว่าไม่ทราบข้อมูล
วัตถุประสงค์: เพื่อประเมินความสามารถของ GearMind ในการระบุว่าตนเองไม่สามารถตอบคำถามได้ เนื่องจาก:
ข้อมูลไม่เพียงพอ
คำถามกำกวมเกินไป
คำถามอยู่นอกเหนือขอบเขตความรู้
ถ้าหากสามารถปฏิเสธได้อย่างเหมาะสมตามที่กำหนดไว้ข้างต้น หมายความว่า GearMind จะเกิดอาการ Hallucination ต่ำ
วิธีการ:
ออกแบบคำถาม:
คำถามที่อ้างอิงถึงข้อมูลที่อยู่นอกเหนือขอบเขตของเอกสาร
คำถามที่ต้องการความรู้เฉพาะทาง ที่อยู่นอกเหนือความเชี่ยวชาญของ GearMind
คำถามที่กำกวมเกินไป ไม่สามารถตีความได้
ให้ GearMind ตอบคำถาม: โดยอนุญาตให้เข้าถึงเอกสารอ้างอิงได้
การประเมิน:
สังเกตพฤติกรรมของ GearMind:
GearMind ปฏิเสธที่จะตอบคำถาม หรือไม่
GearMind ให้เหตุผลประกอบการปฏิเสธหรือไม่ เช่น "ขออภัย ฉันไม่พบข้อมูลนี้ในเอกสาร" หรือ "คำถามนี้กำกวมเกินไป กรุณาระบุข้อมูลเพิ่มเติม"
ให้คะแนน (1-5):
5 = ปฏิเสธที่จะตอบอย่างชัดเจน และให้เหตุผลที่เหมาะสม
4 = ปฏิเสธที่จะตอบอย่างชัดเจน แต่ไม่ได้ให้เหตุผล
3 = พยายามที่จะตอบคำถาม แต่ยอมรับว่าไม่มั่นใจในคำตอบ
2 = พยายามที่จะตอบคำถาม แต่ให้ข้อมูลที่ไม่เกี่ยวข้อง หรือ ผิดพลาด
1 = ตอบคำถามอย่างมั่นใจ แต่ให้ข้อมูลที่ไม่ถูกต้อง
การทดสอบความสามารถในการเข้าใจบริบท (Contextual Understanding)
วัตถุประสงค์:
เพื่อประเมินความสามารถของ GearMind ในการเข้าใจบริบทของข้อมูลและคำถาม เช่น การเชื่อมโยงข้อมูลที่เกี่ยวข้อง การตีความความหมายโดยนัย และการแยกแยะความกำกวมของภาษา
วิธีการ:
ออกแบบคำถามที่ต้องอาศัยบริบท (อย่างน้อย 5 คำถาม):
อ้างอิงถึงข้อมูลที่ปรากฏในหลายๆ ส่วนของเอกสาร
ใช้คำสรรพนามที่ต้องอาศัยบริบทในการระบุความหมาย เช่น "เขา" "เธอ" "มัน"
ใช้คำที่มีความหมายกำกวม และต้องอาศัยบริบทในการตีความ
ให้ GearMind ตอบคำถาม โดยอนุญาตให้เข้าถึงข้อมูลที่เกี่ยวข้องได้
สังเกตพฤติกรรมของ GearMind:
GearMind สามารถเชื่อมโยงข้อมูลจากส่วนต่างๆ ของเอกสารได้อย่างถูกต้องหรือไม่
GearMind สามารถระบุความหมายของคำสรรพนามได้อย่างถูกต้องตามบริบทหรือไม่
GearMind สามารถตีความคำที่มีความหมายกำกวมได้อย่างถูกต้องตามบริบทหรือไม่
การประเมิน:
ให้คะแนน (1-5) สำหรับแต่ละคำถาม:
5 = เข้าใจบริบทได้อย่างสมบูรณ์ สามารถเชื่อมโยงข้อมูลและตีความความหมายได้อย่างถูกต้อง
4 = เข้าใจบริบทได้ดี แต่ยังมีข้อผิดพลาดเล็กน้อยในการเชื่อมโยงข้อมูลหรือตีความความหมาย
3 = เข้าใจบริบทได้ปานกลาง มีข้อผิดพลาดในการเชื่อมโยงข้อมูลหรือตีความความหมายอยู่บ้าง
2 = เข้าใจบริบทได้ไม่ดี มีข้อผิดพลาดในการเชื่อมโยงข้อมูลหรือตีความความหมายค่อนข้างมาก
1 = ไม่สามารถเข้าใจบริบทได้ ไม่สามารถเชื่อมโยงข้อมูลหรือตีความความหมายได้อย่างถูกต้อง
การทดสอบกับผู้ใช้จริง (User Acceptance Test)
วัตถุประสงค์:
เพื่อประเมินความพึงพอใจของผู้ใช้ต่อระบบ GearMind ในด้านต่างๆ
เพื่อรวบรวมข้อเสนอแนะในการปรับปรุงระบบ
วิธีการ:
กำหนดกลุ่มผู้ทดสอบ: เลือกผู้ใช้ที่มีความหลากหลาย เช่น ผู้ใช้ที่มีประสบการณ์ในการใช้งานระบบคล้ายๆ กัน และผู้ใช้ที่ไม่เคยใช้งานมาก่อน
เตรียมสถานการณ์จำลอง: กำหนดสถานการณ์การใช้งานจริง เช่น:
ให้ผู้ใช้ทดลองค้นหาข้อมูลที่ต้องการ
ให้ผู้ใช้ทดลองถามคำถามที่เกี่ยวข้องกับงาน
เก็บรวบรวมข้อมูล:
สังเกตพฤติกรรมการใช้งานของผู้ใช้
ให้ผู้ใช้ตอบแบบสอบถามความพึงพอใจ
จัดให้มีการสัมภาษณ์แบบเจาะลึก (ถ้าจำเป็น)
เกณฑ์การประเมิน:
ความเข้าใจง่ายในการใช้งาน (Ease of use):
ผู้ใช้สามารถใช้งาน GearMind ได้โดยง่าย โดยไม่ต้องศึกษาคู่มือมาก่อนหรือไม่
วัดผลเป็นระดับคะแนน (1-5) หรือ (ใช้ง่ายมาก - ใช้งานยาก)
ความพึงพอใจต่อคำตอบ (Satisfaction with answers):
คำตอบที่ GearMind ให้ตรงกับความต้องการของผู้ใช้หรือไม่
คำตอบมีความถูกต้อง ครอบคลุม และชัดเจนหรือไม่
วัดผลเป็นระดับคะแนน (1-5) หรือ (พึงพอใจมาก - ไม่พึงพอใจ)
ความรวดเร็วในการตอบสนอง (Response time):
ผู้ใช้พึงพอใจกับความเร็วในการตอบสนองของ GearMind หรือไม่
วัดผลเป็นระดับคะแนน (1-5) หรือ (รวดเร็วมาก - ช้ามาก)
ความน่าเชื่อถือของข้อมูล (Trustworthiness):
ผู้ใช้รู้สึกว่า GearMind ให้ข้อมูลที่น่าเชื่อถือหรือไม่
วัดผลเป็นระดับคะแนน (1-5) หรือ (น่าเชื่อถือมาก - ไม่น่าเชื่อถือ)
Last updated