CUA (Computer-Using Agent) ได้รับการพัฒนาต่อยอดจากการวิจัยพื้นฐานหลายปีที่มุ่งเน้นการทำความเข้าใจแบบมัลติโหมด (Multimodal Understanding) และการให้เหตุผล (Reasoning) โดยการผสมผสานความสามารถในการรับรู้ GUI (Graphical User Interface) ขั้นสูงเข้ากับการแก้ปัญหาเชิงโครงสร้าง (Structured Problem-Solving) ทำให้ CUA สามารถแบ่งงานออกเป็นขั้นตอนย่อย ๆ พร้อมทั้งปรับตัวและแก้ไขตัวเองได้เมื่อเจออุปสรรค ความสามารถนี้ถือเป็นก้าวสำคัญของการพัฒนา AI ที่ช่วยให้โมเดลสามารถใช้เครื่องมือเดียวกับที่มนุษย์ใช้งานในชีวิตประจำวัน และเปิดโอกาสให้ AI ถูกนำไปใช้ในรูปแบบใหม่ ๆ อย่างกว้างขวาง
แม้ว่า CUA จะยังอยู่ในระยะเริ่มต้นและมีข้อจำกัด แต่ก็สามารถสร้างมาตรฐานใหม่ให้กับวงการ โดยสามารถทำคะแนนสำเร็จในงานที่เกี่ยวข้องกับการใช้คอมพิวเตอร์ในระบบ OSWorld ได้ 38.1% และทำคะแนนได้ 58.1% ใน WebArena รวมถึง 87% ใน WebVoyager สำหรับงานที่เกี่ยวข้องกับการใช้งานบนเว็บ ตัวเลขเหล่านี้ชี้ให้เห็นถึงความสามารถของ CUA ในการใช้งานและปรับตัวกับสภาพแวดล้อมที่หลากหลายผ่านพื้นที่การทำงานทั่วไป (General Action Space)
CUA ถูกพัฒนาด้วยการคำนึงถึง ความปลอดภัย เป็นสิ่งสำคัญอันดับแรก เพื่อจัดการกับความท้าทายที่เกิดจากการที่เอเจนต์สามารถเข้าถึงโลกดิจิทัล รายละเอียดเกี่ยวกับความปลอดภัยของระบบนี้มีอยู่ใน Operator System Card ซึ่งสอดคล้องกับกลยุทธ์การเปิดตัวแบบค่อยเป็นค่อยไป (Iterative Deployment Strategy) โดย CUA ถูกเปิดตัวในรูปแบบ การแสดงตัวอย่างเพื่อการวิจัย ผ่าน Operator ที่ operator.chatgpt.com สำหรับผู้ใช้งานในสหรัฐฯ ที่อยู่ใน Pro Tier เพื่อรวบรวมข้อมูลและข้อเสนอแนะจากการใช้งานในโลกจริง การดำเนินการนี้ช่วยปรับปรุงมาตรการความปลอดภัยและพัฒนาความสามารถของระบบให้ดีขึ้นอย่างต่อเนื่อง เพื่อเตรียมความพร้อมสำหรับอนาคตที่เอเจนต์ดิจิทัลจะถูกนำมาใช้งานมากยิ่งขึ้น
OpenAI ได้เปิดตัว “Operator” ซึ่งเป็นเอเจนต์ AI ที่สามารถทำงานบนเว็บแทนผู้ใช้ เช่น การซื้อของชำและยื่นรายงานค่าใช้จ่าย Operator ใช้โมเดล AI ใหม่ที่เรียกว่า “Computer-Using Agent” (CUA) ซึ่งผสานความสามารถด้านการมองเห็นและการให้เหตุผลขั้นสูง ปัจจุบัน Operator เปิดให้ใช้งานสำหรับผู้ใช้ ChatGPT Pro ในสหรัฐอเมริกา โดยสามารถโต้ตอบกับเว็บได้เหมือนมนุษย์ เช่น การคลิก เลื่อน และพิมพ์ นอกจากนี้ OpenAI ยังร่วมมือกับบริษัทต่างๆ เช่น Instacart, Uber และ eBay เพื่อเพิ่มความสะดวกในการเข้าถึงบริการผ่าน Operator
อย่างไรก็ตาม ยังมีความท้าทายด้านการใช้งานและความเสี่ยงที่อาจเกิดขึ้น Operator มีฟีเจอร์ความปลอดภัยในตัวและขออนุมัติก่อนดำเนินการที่มีความเสี่ยงสูง แต่ยังไม่รองรับการทำธุรกรรมทางการเงินหรือการตัดสินใจเกี่ยวกับการสมัครงาน การเปิดตัวนี้ถือเป็นก้าวแรกของ OpenAI ในการแข่งขันด้านเอเจนต์ AI กับบริษัทเทคโนโลยีอื่นๆ
Operator มีความสามารถในการโต้ตอบกับเว็บผ่านการใช้เบราว์เซอร์ของตัวเอง สามารถคลิก เลื่อน และพิมพ์ได้เหมือนมนุษย์ การใช้งานรวมถึงการจองร้านอาหารและการย้ายข้อมูลบริษัท OpenAI ยังร่วมมือกับบริษัทต่างๆ เช่น Instacart, Uber และ eBay เพื่อเพิ่มความสะดวกในการเข้าถึงบริการผ่าน Operator
Operator ใช้โมเดล AI ใหม่ที่เรียกว่า “Computer-Using Agent” (CUA) ซึ่งผสานความสามารถด้านการมองเห็นและการให้เหตุผลขั้นสูง อย่างไรก็ตาม ยังมีความท้าทายด้านการใช้งานและความเสี่ยงที่อาจเกิดขึ้น Operator มีฟีเจอร์ความปลอดภัยในตัวและขออนุมัติก่อนดำเนินการที่มีความเสี่ยงสูง แต่ยังไม่รองรับการทำธุรกรรมทางการเงินหรือการตัดสินใจเกี่ยวกับการสมัครงาน
การเปิดตัว Operator ถือเป็นก้าวแรกของ OpenAI ในการแข่งขันด้านเอเจนต์ AI กับบริษัทเทคโนโลยีอื่นๆ โดย Operator เปิดให้ใช้งานสำหรับผู้ใช้ ChatGPT Pro ในสหรัฐอเมริกา และมีฟีเจอร์ความปลอดภัยในตัวเพื่อป้องกันการใช้งานที่ไม่เหมาะสม
Operator ยังอยู่ในช่วง “การแสดงตัวอย่างการวิจัย” ซึ่งหมายความว่าผลิตภัณฑ์ยังมีข้อจำกัดและอาจเกิดข้อผิดพลาดในขณะที่พัฒนา OpenAI มุ่งเน้นการทำงานร่วมกับผู้ใช้ที่มีความกระตือรือร้นมากที่สุดในระยะแรก เพื่อรับรู้ถึงข้อจำกัดของผลิตภัณฑ์
OpenAI ยังร่วมมือกับบริษัทต่างๆ เช่น Instacart, Uber และ eBay เพื่อเพิ่มความสะดวกในการเข้าถึงบริการผ่าน Operator อย่างไรก็ตาม ยังมีความท้าทายด้านการใช้งานและความเสี่ยงที่อาจเกิดขึ้น Operator มีฟีเจอร์ความปลอดภัยในตัวและขออนุมัติก่อนดำเนินการที่มีความเสี่ยงสูง แต่ยังไม่รองรับการทำธุรกรรมทางการเงินหรือการตัดสินใจเกี่ยวกับการสมัครงาน
การเปิดตัว Operator ถือเป็นก้าวแรกของ OpenAI ในการแข่งขันด้านเอเจนต์ AI กับบริษัทเทคโนโลยีอื่นๆ โดย Operator เปิดให้ใช้งานสำหรับผู้ใช้ ChatGPT Pro ในสหรัฐอเมริกา และมีฟีเจอร์ความปลอดภัยในตัวเพื่อป้องกันการใช้งานที่ไม่เหมาะสม
Operator ยังอยู่ในช่วง “การแสดงตัวอย่างการวิจัย” ซึ่งหมายความว่าผลิตภัณฑ์ยังมีข้อจำกัดและอาจเกิดข้อผิดพลาดในขณะที่พัฒนา OpenAI มุ่งเน้นการทำงานร่วมกับผู้ใช้ที่มีความกระตือรือร้นมากที่สุดในระยะแรก เพื่อรับรู้ถึงข้อจำกัดของผลิตภัณฑ์
OpenAI ยังร่วมมือกับบริษัทต่างๆ เช่น Instacart, Uber และ eBay เพื่อเพิ่มความสะดวกในการเข้าถึงบริการผ่าน Operator อย่างไรก็ตาม ยังมีความท้าทายด้านการใช้งานและความเสี่ยงที่อาจเกิดขึ้น Operator มีฟีเจอร์ความปลอดภัยในตัวและขออนุมัติก่อนดำเนินการที่มีความเสี่ยงสูง แต่ยังไม่รองรับการทำธุรกรรมทางการเงินหรือการตัดสินใจเกี่ยวกับการสมัครงาน
การเปิดตัว Operator ถือเป็นก้าวแรกของ OpenAI ในการแข่งขันด้านเอเจนต์ AI กับบริษัทเทคโนโลยีอื่นๆ โดย Operator เปิดให้ใช้งานสำหรับผู้ใช้ ChatGPT Pro ในสหรัฐอเมริกา และมีฟีเจอร์ความปลอดภัยในตัวเพื่อป้องกันการใช้งานที่ไม่เหมาะสม
สรุป
CUA (Computer-Using Agent) พัฒนาขึ้นจากความก้าวหน้าทางการวิจัยในด้านมัลติโหมด (Multimodality) การให้เหตุผล (Reasoning) และความปลอดภัย (Safety) โดยเราบรรลุความก้าวหน้าอย่างมีนัยสำคัญในด้านการให้เหตุผลเชิงลึกผ่านซีรีส์โมเดล o-model ความสามารถด้านการมองเห็นผ่าน GPT-4o และเทคนิคใหม่ ๆ ที่ช่วยเพิ่มความเสถียรของระบบผ่านการเรียนรู้เสริมกำลัง (Reinforcement Learning) และการจัดลำดับคำสั่ง (Instruction Hierarchy)
ความท้าทายถัดไปที่เรามุ่งสำรวจคือการขยายพื้นที่การกระทำ (Action Space) ของเอเจนต์ ความยืดหยุ่นที่ได้รับจากอินเทอร์เฟซแบบสากลช่วยให้สามารถตอบโจทย์ความท้าทายนี้ โดยทำให้เอเจนต์สามารถใช้งานเครื่องมือซอฟต์แวร์ใด ๆ ที่ออกแบบมาสำหรับมนุษย์ได้ โดยไม่ต้องจำกัดอยู่เพียง API ที่ออกแบบมาเฉพาะสำหรับเอเจนต์ AI ซึ่งช่วยให้ CUA สามารถปรับตัวเข้ากับทุกสภาพแวดล้อมของคอมพิวเตอร์ที่มีอยู่จริง และรองรับกรณีการใช้งานในโลกดิจิทัลที่ยังคงเกินความสามารถของโมเดล AI ส่วนใหญ่
นอกจากนี้ เรายังทำงานเพื่อเปิดให้ใช้งาน CUA ผ่าน API เพื่อให้นักพัฒนาสามารถใช้ในการสร้างเอเจนต์ที่ใช้งานคอมพิวเตอร์ได้เอง ขณะเดียวกัน เราจะใช้ข้อมูลป้อนกลับจากการใช้งานในโลกจริงที่รวบรวมจากการเปิดตัวตัวอย่างแรกนี้ เพื่อปรับปรุงความสามารถของ CUA และมาตรการด้านความปลอดภัยอย่างต่อเนื่อง เพื่อสนับสนุนภารกิจของเราที่ต้องการกระจายประโยชน์ของ AI ให้กับทุกคนอย่างปลอดภัย