Search
Close this search box.
Computer-Using Agent

“Computer-Using Agent” (CUA) คืออะไร

CUA (Computer-Using Agent) ได้รับการพัฒนาต่อยอดจากการวิจัยพื้นฐานหลายปีที่มุ่งเน้นการทำความเข้าใจแบบมัลติโหมด (Multimodal Understanding) และการให้เหตุผล (Reasoning) โดยการผสมผสานความสามารถในการรับรู้ GUI (Graphical User Interface) ขั้นสูงเข้ากับการแก้ปัญหาเชิงโครงสร้าง (Structured Problem-Solving) ทำให้ CUA สามารถแบ่งงานออกเป็นขั้นตอนย่อย ๆ พร้อมทั้งปรับตัวและแก้ไขตัวเองได้เมื่อเจออุปสรรค ความสามารถนี้ถือเป็นก้าวสำคัญของการพัฒนา AI ที่ช่วยให้โมเดลสามารถใช้เครื่องมือเดียวกับที่มนุษย์ใช้งานในชีวิตประจำวัน และเปิดโอกาสให้ AI ถูกนำไปใช้ในรูปแบบใหม่ ๆ อย่างกว้างขวาง

แม้ว่า CUA จะยังอยู่ในระยะเริ่มต้นและมีข้อจำกัด แต่ก็สามารถสร้างมาตรฐานใหม่ให้กับวงการ โดยสามารถทำคะแนนสำเร็จในงานที่เกี่ยวข้องกับการใช้คอมพิวเตอร์ในระบบ OSWorld ได้ 38.1% และทำคะแนนได้ 58.1% ใน WebArena รวมถึง 87% ใน WebVoyager สำหรับงานที่เกี่ยวข้องกับการใช้งานบนเว็บ ตัวเลขเหล่านี้ชี้ให้เห็นถึงความสามารถของ CUA ในการใช้งานและปรับตัวกับสภาพแวดล้อมที่หลากหลายผ่านพื้นที่การทำงานทั่วไป (General Action Space)

CUA ถูกพัฒนาด้วยการคำนึงถึง ความปลอดภัย เป็นสิ่งสำคัญอันดับแรก เพื่อจัดการกับความท้าทายที่เกิดจากการที่เอเจนต์สามารถเข้าถึงโลกดิจิทัล รายละเอียดเกี่ยวกับความปลอดภัยของระบบนี้มีอยู่ใน Operator System Card ซึ่งสอดคล้องกับกลยุทธ์การเปิดตัวแบบค่อยเป็นค่อยไป (Iterative Deployment Strategy) โดย CUA ถูกเปิดตัวในรูปแบบ การแสดงตัวอย่างเพื่อการวิจัย ผ่าน Operator ที่ operator.chatgpt.com สำหรับผู้ใช้งานในสหรัฐฯ ที่อยู่ใน Pro Tier เพื่อรวบรวมข้อมูลและข้อเสนอแนะจากการใช้งานในโลกจริง การดำเนินการนี้ช่วยปรับปรุงมาตรการความปลอดภัยและพัฒนาความสามารถของระบบให้ดีขึ้นอย่างต่อเนื่อง เพื่อเตรียมความพร้อมสำหรับอนาคตที่เอเจนต์ดิจิทัลจะถูกนำมาใช้งานมากยิ่งขึ้น

A flowchart showing the process of a CUA system interpreting input as text or screenshots, generating actions, and applying commands to a virtual machine.

Computer-Using Agent | OpenAI

OpenAI ได้เปิดตัว “Operator” ซึ่งเป็นเอเจนต์ AI ที่สามารถทำงานบนเว็บแทนผู้ใช้ เช่น การซื้อของชำและยื่นรายงานค่าใช้จ่าย Operator ใช้โมเดล AI ใหม่ที่เรียกว่า “Computer-Using Agent” (CUA) ซึ่งผสานความสามารถด้านการมองเห็นและการให้เหตุผลขั้นสูง ปัจจุบัน Operator เปิดให้ใช้งานสำหรับผู้ใช้ ChatGPT Pro ในสหรัฐอเมริกา โดยสามารถโต้ตอบกับเว็บได้เหมือนมนุษย์ เช่น การคลิก เลื่อน และพิมพ์ นอกจากนี้ OpenAI ยังร่วมมือกับบริษัทต่างๆ เช่น Instacart, Uber และ eBay เพื่อเพิ่มความสะดวกในการเข้าถึงบริการผ่าน Operator

อย่างไรก็ตาม ยังมีความท้าทายด้านการใช้งานและความเสี่ยงที่อาจเกิดขึ้น Operator มีฟีเจอร์ความปลอดภัยในตัวและขออนุมัติก่อนดำเนินการที่มีความเสี่ยงสูง แต่ยังไม่รองรับการทำธุรกรรมทางการเงินหรือการตัดสินใจเกี่ยวกับการสมัครงาน การเปิดตัวนี้ถือเป็นก้าวแรกของ OpenAI ในการแข่งขันด้านเอเจนต์ AI กับบริษัทเทคโนโลยีอื่นๆ

Operator มีความสามารถในการโต้ตอบกับเว็บผ่านการใช้เบราว์เซอร์ของตัวเอง สามารถคลิก เลื่อน และพิมพ์ได้เหมือนมนุษย์ การใช้งานรวมถึงการจองร้านอาหารและการย้ายข้อมูลบริษัท OpenAI ยังร่วมมือกับบริษัทต่างๆ เช่น Instacart, Uber และ eBay เพื่อเพิ่มความสะดวกในการเข้าถึงบริการผ่าน Operator

Operator ใช้โมเดล AI ใหม่ที่เรียกว่า “Computer-Using Agent” (CUA) ซึ่งผสานความสามารถด้านการมองเห็นและการให้เหตุผลขั้นสูง อย่างไรก็ตาม ยังมีความท้าทายด้านการใช้งานและความเสี่ยงที่อาจเกิดขึ้น Operator มีฟีเจอร์ความปลอดภัยในตัวและขออนุมัติก่อนดำเนินการที่มีความเสี่ยงสูง แต่ยังไม่รองรับการทำธุรกรรมทางการเงินหรือการตัดสินใจเกี่ยวกับการสมัครงาน

การเปิดตัว Operator ถือเป็นก้าวแรกของ OpenAI ในการแข่งขันด้านเอเจนต์ AI กับบริษัทเทคโนโลยีอื่นๆ โดย Operator เปิดให้ใช้งานสำหรับผู้ใช้ ChatGPT Pro ในสหรัฐอเมริกา และมีฟีเจอร์ความปลอดภัยในตัวเพื่อป้องกันการใช้งานที่ไม่เหมาะสม

Operator ยังอยู่ในช่วง “การแสดงตัวอย่างการวิจัย” ซึ่งหมายความว่าผลิตภัณฑ์ยังมีข้อจำกัดและอาจเกิดข้อผิดพลาดในขณะที่พัฒนา OpenAI มุ่งเน้นการทำงานร่วมกับผู้ใช้ที่มีความกระตือรือร้นมากที่สุดในระยะแรก เพื่อรับรู้ถึงข้อจำกัดของผลิตภัณฑ์

OpenAI ยังร่วมมือกับบริษัทต่างๆ เช่น Instacart, Uber และ eBay เพื่อเพิ่มความสะดวกในการเข้าถึงบริการผ่าน Operator อย่างไรก็ตาม ยังมีความท้าทายด้านการใช้งานและความเสี่ยงที่อาจเกิดขึ้น Operator มีฟีเจอร์ความปลอดภัยในตัวและขออนุมัติก่อนดำเนินการที่มีความเสี่ยงสูง แต่ยังไม่รองรับการทำธุรกรรมทางการเงินหรือการตัดสินใจเกี่ยวกับการสมัครงาน

การเปิดตัว Operator ถือเป็นก้าวแรกของ OpenAI ในการแข่งขันด้านเอเจนต์ AI กับบริษัทเทคโนโลยีอื่นๆ โดย Operator เปิดให้ใช้งานสำหรับผู้ใช้ ChatGPT Pro ในสหรัฐอเมริกา และมีฟีเจอร์ความปลอดภัยในตัวเพื่อป้องกันการใช้งานที่ไม่เหมาะสม

Operator ยังอยู่ในช่วง “การแสดงตัวอย่างการวิจัย” ซึ่งหมายความว่าผลิตภัณฑ์ยังมีข้อจำกัดและอาจเกิดข้อผิดพลาดในขณะที่พัฒนา OpenAI มุ่งเน้นการทำงานร่วมกับผู้ใช้ที่มีความกระตือรือร้นมากที่สุดในระยะแรก เพื่อรับรู้ถึงข้อจำกัดของผลิตภัณฑ์

OpenAI ยังร่วมมือกับบริษัทต่างๆ เช่น Instacart, Uber และ eBay เพื่อเพิ่มความสะดวกในการเข้าถึงบริการผ่าน Operator อย่างไรก็ตาม ยังมีความท้าทายด้านการใช้งานและความเสี่ยงที่อาจเกิดขึ้น Operator มีฟีเจอร์ความปลอดภัยในตัวและขออนุมัติก่อนดำเนินการที่มีความเสี่ยงสูง แต่ยังไม่รองรับการทำธุรกรรมทางการเงินหรือการตัดสินใจเกี่ยวกับการสมัครงาน

การเปิดตัว Operator ถือเป็นก้าวแรกของ OpenAI ในการแข่งขันด้านเอเจนต์ AI กับบริษัทเทคโนโลยีอื่นๆ โดย Operator เปิดให้ใช้งานสำหรับผู้ใช้ ChatGPT Pro ในสหรัฐอเมริกา และมีฟีเจอร์ความปลอดภัยในตัวเพื่อป้องกันการใช้งานที่ไม่เหมาะสม

 

สรุป

CUA (Computer-Using Agent) พัฒนาขึ้นจากความก้าวหน้าทางการวิจัยในด้านมัลติโหมด (Multimodality) การให้เหตุผล (Reasoning) และความปลอดภัย (Safety) โดยเราบรรลุความก้าวหน้าอย่างมีนัยสำคัญในด้านการให้เหตุผลเชิงลึกผ่านซีรีส์โมเดล o-model ความสามารถด้านการมองเห็นผ่าน GPT-4o และเทคนิคใหม่ ๆ ที่ช่วยเพิ่มความเสถียรของระบบผ่านการเรียนรู้เสริมกำลัง (Reinforcement Learning) และการจัดลำดับคำสั่ง (Instruction Hierarchy)

ความท้าทายถัดไปที่เรามุ่งสำรวจคือการขยายพื้นที่การกระทำ (Action Space) ของเอเจนต์ ความยืดหยุ่นที่ได้รับจากอินเทอร์เฟซแบบสากลช่วยให้สามารถตอบโจทย์ความท้าทายนี้ โดยทำให้เอเจนต์สามารถใช้งานเครื่องมือซอฟต์แวร์ใด ๆ ที่ออกแบบมาสำหรับมนุษย์ได้ โดยไม่ต้องจำกัดอยู่เพียง API ที่ออกแบบมาเฉพาะสำหรับเอเจนต์ AI ซึ่งช่วยให้ CUA สามารถปรับตัวเข้ากับทุกสภาพแวดล้อมของคอมพิวเตอร์ที่มีอยู่จริง และรองรับกรณีการใช้งานในโลกดิจิทัลที่ยังคงเกินความสามารถของโมเดล AI ส่วนใหญ่

นอกจากนี้ เรายังทำงานเพื่อเปิดให้ใช้งาน CUA ผ่าน API เพื่อให้นักพัฒนาสามารถใช้ในการสร้างเอเจนต์ที่ใช้งานคอมพิวเตอร์ได้เอง ขณะเดียวกัน เราจะใช้ข้อมูลป้อนกลับจากการใช้งานในโลกจริงที่รวบรวมจากการเปิดตัวตัวอย่างแรกนี้ เพื่อปรับปรุงความสามารถของ CUA และมาตรการด้านความปลอดภัยอย่างต่อเนื่อง เพื่อสนับสนุนภารกิจของเราที่ต้องการกระจายประโยชน์ของ AI ให้กับทุกคนอย่างปลอดภัย

บทความที่เกี่ยวข้อง

เราใช้คุกกี้เพื่อพัฒนาประสิทธิภาพ และประสบการณ์ที่ดีในการใช้เว็บไซต์ของคุณ คุณสามารถศึกษารายละเอียดได้ที่ นโยบายความเป็นส่วนตัว และสามารถจัดการความเป็นส่วนตัวเองได้ของคุณได้เองโดยคลิกที่ ตั้งค่า

ตั้งค่าความเป็นส่วนตัว

คุณสามารถเลือกการตั้งค่าคุกกี้โดยเปิด/ปิด คุกกี้ในแต่ละประเภทได้ตามความต้องการ ยกเว้น คุกกี้ที่จำเป็น

ยอมรับทั้งหมด
จัดการความเป็นส่วนตัว
  • คุกกี้ที่จำเป็น
    เปิดใช้งานตลอด

    ประเภทของคุกกี้มีความจำเป็นสำหรับการทำงานของเว็บไซต์ เพื่อให้คุณสามารถใช้ได้อย่างเป็นปกติ และเข้าชมเว็บไซต์ คุณไม่สามารถปิดการทำงานของคุกกี้นี้ในระบบเว็บไซต์ของเราได้

  • คุกกี้เพื่อการวิเคราะห์

    คุกกี้ประเภทนี้จะทำการเก็บข้อมูลการใช้งานเว็บไซต์ของคุณ เพื่อเป็นประโยชน์ในการวัดผล ปรับปรุง และพัฒนาประสบการณ์ที่ดีในการใช้งานเว็บไซต์ ถ้าหากท่านไม่ยินยอมให้เราใช้คุกกี้นี้ เราจะไม่สามารถวัดผล ปรับปรุงและพัฒนาเว็บไซต์ได้
    รายละเอียดคุกกี้

  • คุกกี้เพื่อปรับเนื้อหาให้เข้ากับกลุ่มเป้าหมาย

    คุกกี้ประเภทนี้จะเก็บข้อมูลต่าง ๆ รวมทั้งข้อมูลส่วนบุคคลเกี่ยวกับตัวคุณเพื่อเราสามารถนำมาวิเคราะห์ และนำเสนอเนื้อหา ให้ตรงกับความเหมาะสมกับความสนใจของคุณ ถ้าหากคุณไม่ยินยอมเราจะไม่สามารถนำเสนอเนื้อหาและโฆษณาได้ไม่ตรงกับความสนใจของคุณ
    รายละเอียดคุกกี้

บันทึกการตั้งค่า