เกณฑ์การทดสอบระบบ

การทดสอบระบบ GearMind

การทดสอบระบบ GearMind มุ่งเน้นการประเมินประสิทธิภาพและความสามารถในการให้ข้อมูลที่ถูกต้อง ทันสมัย และมีความสามารถในการทำความเข้าใจภาษาธรรมชาติ โดยแบ่งการทดสอบออกเป็น 2 ด้านหลัก ดังนี้

วัตถุประสงค์:

  • เพื่อประเมินความสามารถในการดึงข้อมูลที่เกี่ยวข้องและถูกต้องจากเอกสาร

  • เพื่อประเมินความสามารถในการทำความเข้าใจความหมายของคำถาม (Semantic Search)

วิธีการ:

  • เตรียมชุดข้อมูล: เลือกเอกสารอย่างน้อย 1 ฉบับ และกำหนดหัวข้อที่ต้องการทดสอบ

  • ออกแบบคำถาม:

    • คำถามทั่วไป (5 คำถาม) เช่น "ตอนนี้มีข้อมูลเกี่ยวกับสินค้า X ไหม"

    • คำถามเจาะจง (5 คำถาม) เช่น "เป้าหมายของโครงการ X คืออะไร", "ผลการวิจัยพบข้อสรุปอะไรบ้าง"

    • คำถามเปรียบเทียบ (3 คำถาม) เช่น "ข้อดีข้อเสียของวิธีการ A และ B แตกต่างกันอย่างไร"

    • คำถามที่ต้องใช้การสังเคราะห์ข้อมูล (2 คำถาม) เช่น "คุณคิดว่าโครงการ X จะประสบความสำเร็จหรือไม่ เพราะอะไร"

    • คำถามที่ใช้คำพ้องความหมาย (3 คำถาม) เช่น คำแสลง

การประเมิน:

  • ความเกี่ยวข้อง: (1-5) ข้อมูลที่ดึงมานั้นเกี่ยวข้องกับคำถามหรือไม่

  • ความถูกต้อง: (1-5) ข้อมูลนั้นถูกต้องตรงกับในเอกสารหรือไม่

  • ความครอบคลุม: (1-5) ข้อมูลครอบคลุมสิ่งที่ต้องการทราบหรือไม่

  • ความชัดเจน: (1-5) คำตอบเข้าใจง่ายหรือไม่

  • คะแนนเฉลี่ยจากผู้เชี่ยวชาญอย่างน้อย 2 คน

การทดสอบความสามารถในการยอมรับว่าไม่ทราบข้อมูล

วัตถุประสงค์: เพื่อประเมินความสามารถของ GearMind ในการระบุว่าตนเองไม่สามารถตอบคำถามได้ เนื่องจาก:

  • ข้อมูลไม่เพียงพอ

  • คำถามกำกวมเกินไป

  • คำถามอยู่นอกเหนือขอบเขตความรู้

ถ้าหากสามารถปฏิเสธได้อย่างเหมาะสมตามที่กำหนดไว้ข้างต้น หมายความว่า GearMind จะเกิดอาการ Hallucination ต่ำ

วิธีการ:

  • ออกแบบคำถาม:

    • คำถามที่อ้างอิงถึงข้อมูลที่อยู่นอกเหนือขอบเขตของเอกสาร

    • คำถามที่ต้องการความรู้เฉพาะทาง ที่อยู่นอกเหนือความเชี่ยวชาญของ GearMind

    • คำถามที่กำกวมเกินไป ไม่สามารถตีความได้

    • ให้ GearMind ตอบคำถาม: โดยอนุญาตให้เข้าถึงเอกสารอ้างอิงได้

การประเมิน:

  • สังเกตพฤติกรรมของ GearMind:

    • GearMind ปฏิเสธที่จะตอบคำถาม หรือไม่

    • GearMind ให้เหตุผลประกอบการปฏิเสธหรือไม่ เช่น "ขออภัย ฉันไม่พบข้อมูลนี้ในเอกสาร" หรือ "คำถามนี้กำกวมเกินไป กรุณาระบุข้อมูลเพิ่มเติม"

  • ให้คะแนน (1-5):

    • 5 = ปฏิเสธที่จะตอบอย่างชัดเจน และให้เหตุผลที่เหมาะสม

    • 4 = ปฏิเสธที่จะตอบอย่างชัดเจน แต่ไม่ได้ให้เหตุผล

    • 3 = พยายามที่จะตอบคำถาม แต่ยอมรับว่าไม่มั่นใจในคำตอบ

    • 2 = พยายามที่จะตอบคำถาม แต่ให้ข้อมูลที่ไม่เกี่ยวข้อง หรือ ผิดพลาด

    • 1 = ตอบคำถามอย่างมั่นใจ แต่ให้ข้อมูลที่ไม่ถูกต้อง

การทดสอบความสามารถในการเข้าใจบริบท (Contextual Understanding)

วัตถุประสงค์:

  • เพื่อประเมินความสามารถของ GearMind ในการเข้าใจบริบทของข้อมูลและคำถาม เช่น การเชื่อมโยงข้อมูลที่เกี่ยวข้อง การตีความความหมายโดยนัย และการแยกแยะความกำกวมของภาษา

วิธีการ:

  • ออกแบบคำถามที่ต้องอาศัยบริบท (อย่างน้อย 5 คำถาม):

    • อ้างอิงถึงข้อมูลที่ปรากฏในหลายๆ ส่วนของเอกสาร

    • ใช้คำสรรพนามที่ต้องอาศัยบริบทในการระบุความหมาย เช่น "เขา" "เธอ" "มัน"

    • ใช้คำที่มีความหมายกำกวม และต้องอาศัยบริบทในการตีความ

  • ให้ GearMind ตอบคำถาม โดยอนุญาตให้เข้าถึงข้อมูลที่เกี่ยวข้องได้

  • สังเกตพฤติกรรมของ GearMind:

    • GearMind สามารถเชื่อมโยงข้อมูลจากส่วนต่างๆ ของเอกสารได้อย่างถูกต้องหรือไม่

    • GearMind สามารถระบุความหมายของคำสรรพนามได้อย่างถูกต้องตามบริบทหรือไม่

    • GearMind สามารถตีความคำที่มีความหมายกำกวมได้อย่างถูกต้องตามบริบทหรือไม่

การประเมิน:

  • ให้คะแนน (1-5) สำหรับแต่ละคำถาม:

    • 5 = เข้าใจบริบทได้อย่างสมบูรณ์ สามารถเชื่อมโยงข้อมูลและตีความความหมายได้อย่างถูกต้อง

    • 4 = เข้าใจบริบทได้ดี แต่ยังมีข้อผิดพลาดเล็กน้อยในการเชื่อมโยงข้อมูลหรือตีความความหมาย

    • 3 = เข้าใจบริบทได้ปานกลาง มีข้อผิดพลาดในการเชื่อมโยงข้อมูลหรือตีความความหมายอยู่บ้าง

    • 2 = เข้าใจบริบทได้ไม่ดี มีข้อผิดพลาดในการเชื่อมโยงข้อมูลหรือตีความความหมายค่อนข้างมาก

    • 1 = ไม่สามารถเข้าใจบริบทได้ ไม่สามารถเชื่อมโยงข้อมูลหรือตีความความหมายได้อย่างถูกต้อง

การทดสอบกับผู้ใช้จริง (User Acceptance Test)

วัตถุประสงค์:

  • เพื่อประเมินความพึงพอใจของผู้ใช้ต่อระบบ GearMind ในด้านต่างๆ

  • เพื่อรวบรวมข้อเสนอแนะในการปรับปรุงระบบ

วิธีการ:

  • กำหนดกลุ่มผู้ทดสอบ: เลือกผู้ใช้ที่มีความหลากหลาย เช่น ผู้ใช้ที่มีประสบการณ์ในการใช้งานระบบคล้ายๆ กัน และผู้ใช้ที่ไม่เคยใช้งานมาก่อน

  • เตรียมสถานการณ์จำลอง: กำหนดสถานการณ์การใช้งานจริง เช่น:

    • ให้ผู้ใช้ทดลองค้นหาข้อมูลที่ต้องการ

    • ให้ผู้ใช้ทดลองถามคำถามที่เกี่ยวข้องกับงาน

เก็บรวบรวมข้อมูล:

  • สังเกตพฤติกรรมการใช้งานของผู้ใช้

  • ให้ผู้ใช้ตอบแบบสอบถามความพึงพอใจ

  • จัดให้มีการสัมภาษณ์แบบเจาะลึก (ถ้าจำเป็น)

เกณฑ์การประเมิน:

  • ความเข้าใจง่ายในการใช้งาน (Ease of use):

    • ผู้ใช้สามารถใช้งาน GearMind ได้โดยง่าย โดยไม่ต้องศึกษาคู่มือมาก่อนหรือไม่

    • วัดผลเป็นระดับคะแนน (1-5) หรือ (ใช้ง่ายมาก - ใช้งานยาก)

  • ความพึงพอใจต่อคำตอบ (Satisfaction with answers):

    • คำตอบที่ GearMind ให้ตรงกับความต้องการของผู้ใช้หรือไม่

    • คำตอบมีความถูกต้อง ครอบคลุม และชัดเจนหรือไม่

    • วัดผลเป็นระดับคะแนน (1-5) หรือ (พึงพอใจมาก - ไม่พึงพอใจ)

  • ความรวดเร็วในการตอบสนอง (Response time):

    • ผู้ใช้พึงพอใจกับความเร็วในการตอบสนองของ GearMind หรือไม่

    • วัดผลเป็นระดับคะแนน (1-5) หรือ (รวดเร็วมาก - ช้ามาก)

  • ความน่าเชื่อถือของข้อมูล (Trustworthiness):

    • ผู้ใช้รู้สึกว่า GearMind ให้ข้อมูลที่น่าเชื่อถือหรือไม่

    • วัดผลเป็นระดับคะแนน (1-5) หรือ (น่าเชื่อถือมาก - ไม่น่าเชื่อถือ)

Last updated