ช่องโหว่ใน Google Gemini และ Vertex AI: ความเสี่ยงและแนวทางการป้องกัน

  • การโจมตี Google Gemini และ Vertex AI ใช้ประโยชน์จากการแทรกข้อความแจ้งเตือนที่ซ่อนไว้ในรูปภาพและปฏิทิน รวมถึงช่องโหว่ใน API และเอเจนต์ เพื่อขโมยข้อมูลและยกระดับสิทธิ์
  • ระบบนิเวศ AI แสดงให้เห็นถึงช่องโหว่ที่คล้ายคลึงกันในผู้ช่วย AI, IDE และปลั๊กอิน ซึ่งแสดงให้เห็นว่าความเสี่ยงไม่ได้จำกัดอยู่แค่โค้ดอีกต่อไป แต่ยังขยายไปถึงภาษา บริบท และการบูรณาการด้วย
  • Vertex AI นำเสนอแนวทางการรักษาความปลอดภัยแบบหลายชั้นสำหรับ Gemini โดยอาศัยตัวกรอง คำสั่งระบบ DLP และโมเดลการกรองเพิ่มเติม ซึ่งควรเสริมด้วยการตรวจสอบและการประเมินอย่างต่อเนื่อง

ช่องโหว่ใน Google Gemini และ Vertex AI

ระบบ ปัญญาประดิษฐ์แบบหลายรูปแบบ เช่น บริการ Google Gemini และ Vertex AI พวกเขากำลังปฏิวัติวิธีการทำงานของเรา แต่พวกเขาก็เปิดประตูสู่รูปแบบการโจมตีใหม่ๆ ที่เรานึกไม่ถึงเมื่อไม่กี่ปีที่ผ่านมา เราไม่ได้พูดถึงแค่ข้อผิดพลาดแบบคลาสสิกในโค้ด แต่รวมถึงช่องโหว่ที่ซ่อนอยู่ด้วย รูปภาพ ภาษาธรรมชาติ เครื่องมือที่เชื่อมต่อ และเวิร์กโฟลว์อัตโนมัติ ซึ่งผู้ใช้ส่วนใหญ่มองข้ามไป

ในช่วงหลายเดือนที่ผ่านมา ทีมวิจัยต่างๆ ได้ค้นพบสิ่งต่างๆ ดังต่อไปนี้ ความล้มเหลวที่สำคัญซึ่งส่งผลกระทบต่อ Gemini, Vertex AI และเอเจนต์อื่นๆ ที่ใช้ LLM, สามารถ การรั่วไหลของข้อมูลส่วนตัวการหลีกเลี่ยงการควบคุมความเป็นส่วนตัวและการเพิ่มสิทธิ์การเข้าถึงในสภาพแวดล้อมคลาวด์ ตั้งแต่การแทรกข้อความแจ้งเตือนที่ซ่อนไว้ในรูปภาพ ไปจนถึงการเชิญเข้าร่วมกิจกรรมในปฏิทินที่ขโมยตารางเวลาของคุณโดยที่คุณไม่รู้ตัว สถานการณ์ในปัจจุบันแสดงให้เห็นอย่างชัดเจนว่าความปลอดภัยของ AI ไม่สามารถถูกมองว่าเป็นเรื่องเสริมที่ไม่จำเป็นอีกต่อไป

OpenAI เสริมความปลอดภัยให้กับ ChatGPT Atlas
บทความที่เกี่ยวข้อง:
OpenAI เสริมความแข็งแกร่งด้านความปลอดภัยของ ChatGPT Atlas เพื่อป้องกันการโจมตีแบบ Prompt Injection

การโจมตีรูปแบบใหม่ต่อระบบ AI Gemini และ Vertex

การโจมตีระบบ AI หลายโหมด Gemini และ Vertex AI

กลุ่มผู้เชี่ยวชาญด้านความปลอดภัยได้อธิบายถึงเทคนิคที่น่าทึ่งเป็นพิเศษอย่างหนึ่ง นั่นคือ การใช้ การปรับขนาดภาพเป็นช่องทางโจมตีระบบมัลติโมดอล เช่น Geminiแนวคิดนี้ดูเหมือนจะเรียบง่าย แต่กลับอันตรายอย่างยิ่ง นั่นคือการซ่อนคำสั่งที่เป็นอันตราย (ข้อความแจ้งเตือน) ไว้ในภาพที่ดูเหมือนปกติทุกอย่างในแวบแรก

ข้อความแจ้งเตือนที่ซ่อนไว้เหล่านี้ถูกแทรกโดยใช้ลายน้ำที่มองไม่เห็นหรือโดยการดัดแปลง บริเวณที่มืดและแทบมองไม่เห็นในภาพในขณะที่ตาของมนุษย์ไม่สังเกตเห็นสิ่งผิดปกติใดๆ แต่โมเดล AI สามารถตรวจจับข้อมูลนี้ได้ในระหว่างการประมวลผลภาพ โดยเฉพาะอย่างยิ่งเมื่อระบบปรับขนาดภาพโดยอัตโนมัติให้พอดีกับขนาดที่โมเดลต้องการ

จากผลการวิจัยที่เผยแพร่โดย Trail of Bits พบว่าวิธีการนี้ส่งผลกระทบโดยตรงต่อ... Gemini CLI, Vertex AI Studio, Gemini API, Google Assistant และบริการต่างๆ เช่น Gensparkแอปพลิเคชันเหล่านี้มีรูปแบบร่วมกันคือ รับภาพจากผู้ใช้ ปรับแต่งภาพโดยอัตโนมัติ (เช่น ลดความละเอียด) แล้วส่งไปยังโมเดลเพื่อตีความร่วมกับข้อความหรือข้อมูลอื่นๆ

เคล็ดลับอยู่ที่ว่า ในระหว่างกระบวนการยกระดับนี้ คำสั่งที่ปลอมแปลงไว้จะชัดเจนขึ้นสำหรับ AI ซึ่งจะตีความคำสั่งเหล่านั้นว่าเป็นคำสั่งที่ถูกต้องสมบูรณ์แบบ นั่นหมายความว่า ภาพธรรมดาที่แชร์ผ่านแชท อีเมล หรือเครื่องมือการทำงานร่วมกัน สามารถกลายเป็น... ช่องทางลับสำหรับการดำเนินการตามคำสั่งภายในเวิร์กโฟลว์ Gemini.

ภัยคุกคามยิ่งร้ายแรงขึ้นไปอีก เพราะภาพที่เป็นอันตรายเหล่านี้สามารถแพร่กระจายได้อย่างง่ายดาย: มีมบนโซเชียลมีเดีย ไฟล์แนบในอีเมล ไฟล์ที่แชร์ระหว่างทีม หรือไฟล์ที่อัปโหลดผ่านแบบฟอร์มบนเว็บอะไรก็ตามที่มีคำว่า "อัปโหลดรูปภาพที่นี่" จะกลายเป็นช่องทางเข้าสู่ระบบได้

การปรับขนาดภาพเป็นเวกเตอร์สำหรับการดึงข้อมูลออก

การปรับขนาดภาพเป็นช่องทางการโจมตี

การโจมตีที่ค้นพบนี้ใช้ประโยชน์จากจุดอ่อนในระบบ อัลกอริทึมการปรับขนาดภาพที่ใช้กันทั่วไปมากที่สุด ระบบเหล่านี้ ได้แก่ การประมาณค่าแบบเพื่อนบ้านที่ใกล้ที่สุด การประมาณค่าแบบเส้นตรงสองมิติ และการประมาณค่าแบบลูกบาศก์ จะแปลงพิกเซลแตกต่างกันเมื่อปรับขนาดภาพ แต่ทั้งหมดสามารถใช้เพื่อทำให้ข้อความแจ้งเตือนที่ซ่อนอยู่ปรากฏให้เห็นแก่โมเดลได้

ในวิธีการของ เพื่อนบ้านที่ใกล้ที่สุดการปรับขนาดโดยตรงจะคัดลอกค่าของพิกเซลที่ใกล้ที่สุดโดยไม่ต้องคำนวณเพิ่มเติม วิธีนี้รวดเร็ว แต่จะทำให้ภาพแตกเป็นพิกเซล ผู้โจมตีสามารถออกแบบรูปแบบที่เมื่อขยายหรือย่อขนาดด้วยวิธีนี้ จะเรียงตัวกันเพื่อสร้างข้อความที่ AI สามารถอ่านได้

ด้วย การแทรกสอดเชิงเส้นสองมิติค่าของพิกเซลใหม่แต่ละพิกเซลคือค่าเฉลี่ยของพิกเซลข้างเคียงทั้งสี่พิกเซล วิธีนี้จะทำให้ภาพเรียบเนียนขึ้น แต่ยังช่วยให้คุณสามารถปรับแต่งค่าดั้งเดิมได้ด้วย ดังนั้นหลังจากหาค่าเฉลี่ยแล้ว จะได้ข้อความเฉพาะบางอย่างที่มองเห็นได้เฉพาะในระดับข้อมูลเท่านั้น ไม่ใช่ระดับที่ผู้ใช้มองเห็นได้

ใน การแทรกสอดแบบลูกบาศก์มีการเลือกพิกเซลข้างเคียง 16 พิกเซล และใช้ฟังก์ชันกำลังสามเพื่อให้ได้ผลลัพธ์ที่เรียบเนียนยิ่งขึ้น อีกครั้ง หากเข้าใจคณิตศาสตร์พื้นฐาน ก็สามารถออกแบบภาพที่หลังจากกระบวนการนี้แล้ว จะปรากฏรูปแบบที่แบบจำลองจะตีความว่าเป็นคำสั่งที่ชัดเจนได้

เครื่องมือโอเพนซอร์ส เช่น อะนามอร์เฟอร์ เทคนิคเหล่านี้ถูกนำมาใช้เพื่อทำให้การดัดแปลงนี้เป็นไปโดยอัตโนมัติ: เทคนิคเหล่านี้ช่วยให้สามารถวิเคราะห์พฤติกรรมของอัลกอริทึมการปรับขนาดแต่ละตัว และปรับภาพเพื่อให้เมื่อแปลงแล้ว ภาพนั้นมีข้อความที่ผู้โจมตีสนใจ ในลักษณะนี้ ภาพที่ดูเหมือนไม่มีพิษภัยอาจกลายเป็นสิ่งที่บ่งบอกอะไรบางอย่างให้ Gemini ทราบได้ ดึงข้อมูลส่งทางอีเมลหรือเปิดใช้งานเครื่องมือภายนอก โดยไม่ก่อให้เกิดความสงสัย

จากรูปภาพไปจนถึงเครื่องมือของคุณ: ปฏิทิน, Zapier และอื่นๆ

การทดลองที่มีการบันทึกไว้แสดงให้เห็นว่าการโจมตีประเภทนี้ไม่ใช่เพียงแค่การสาธิตทางวิชาการเท่านั้น นักวิจัยใช้แนวทางนี้เพื่อ... กรองข้อมูลจาก Google Calendar ไปยังที่อยู่อีเมลภายนอก โดยที่ผู้ใช้ปลายทางจะไม่รู้สึกอะไรเลย

ในบางกรณี การโจมตีที่เป็นอันตรายจะเชื่อมโยงกับบริการอัตโนมัติต่างๆ เช่น Zapierกล่าวอีกนัยหนึ่ง AI ได้ดำเนินการคำสั่งที่ซ่อนเร้นซึ่งเปิดใช้งานระบบอัตโนมัติที่กำหนดค่าไว้ล่วงหน้า ขยายขอบเขตของการโจมตี ได้แก่ การส่งอีเมล การอัปเดตบันทึก การเขียนลงฐานข้อมูล หรือการกระทำอื่น ๆ ที่เกี่ยวข้องกับสภาพแวดล้อมทางธุรกิจ

การแสวงหาประโยชน์ในลักษณะนี้เป็นปัญหาอย่างยิ่งในสภาพแวดล้อมขององค์กรธุรกิจ ซึ่งบริษัทอย่าง Gemini หรือ Vertex AI ทำหน้าที่เป็น... เอเจนต์ที่ประสานงานเครื่องมือและ API หลายตัวหากผู้โจมตีสามารถทำให้โมเดลยอมรับและดำเนินการตามคำสั่งที่ซ่อนไว้ได้ ปัญหาจะไม่จำกัดอยู่แค่ปัญญาประดิษฐ์ (AI) เท่านั้น แต่จะขยายไปสู่ระบบนิเวศที่เชื่อมต่อกันทั้งหมด

หลังจากการเผยแพร่ผลงานของ Trail of Bits กูเกิลได้ยอมรับว่านี่เป็นความท้าทายที่สำคัญสำหรับภาคส่วนนี้ แม้ว่าจะระบุว่า... ผมไม่พบกรณีการเอารัดเอาเปรียบใดๆ ในสถานการณ์จริงก่อนหน้านี้มีการรายงานช่องโหว่นี้ผ่านโปรแกรม 0Din ของ Mozilla ซึ่งมุ่งเน้นการให้รางวัลสำหรับการค้นพบช่องโหว่ด้านความปลอดภัยในระบบ AI แบบสร้างสรรค์

ในขณะเดียวกัน ผู้เชี่ยวชาญแนะนำ จำกัดสิทธิ์ที่เรามอบให้กับเอเจนต์ AI และตรวจสอบอย่างละเอียดว่าพวกเขาสามารถเข้าถึงบริการภายนอกใดได้บ้าง ยิ่งมีการบูรณาการและฟังก์ชันอัตโนมัติที่เชื่อมต่อกับ AI มากเท่าไร ผลกระทบก็จะยิ่งมากขึ้นเท่านั้นหากการโจมตีดังกล่าวประสบความสำเร็จ

การแทรกข้อความแจ้งเตือนทางอ้อม: กรณีของ Google Calendar และ Gemini

นอกเหนือจากภาพแล้ว อีกประเด็นสำคัญคือ... การฉีดเข้าเส้นเลือดโดยอ้อมผ่านบริการที่ดูเหมือนไม่มีพิษภัยMiggo Security ได้บันทึกการโจมตีที่ใช้การเชิญเข้าร่วมกิจกรรมใน Google Calendar เป็นช่องทางในการควบคุม Gemini และหลีกเลี่ยงการตรวจสอบสิทธิ์

ผู้โจมตีสร้างกิจกรรมในปฏิทินใหม่และส่งไปยังเหยื่อในรูปแบบคำเชิญปกติ โดยคำอธิบายกิจกรรมจะมีข้อความอยู่ด้วย ภาษาธรรมชาติที่ออกแบบมาโดยเฉพาะเพื่อโน้มน้าวใจชาวราศีเมถุนคำอธิบายนั้นอาจดูไม่แปลกสำหรับผู้ใช้ แต่ถูกเขียนขึ้นเพื่อกระตุ้นการแทรกคำสั่งเมื่อโมเดลอ่านมัน

การโจมตีจะเริ่มขึ้นเมื่อผู้ใช้ถามคำถามที่ดูเหมือนไม่สำคัญกับ Gemini โดยไม่ทันตั้งตัว เช่น... ฉันมีนัดประชุมวันอังคารใช่ไหม?ในการตอบสนอง ผู้ช่วยจะตรวจสอบกิจกรรมในปฏิทิน รวมคำเชิญที่เป็นอันตราย และวิเคราะห์คำอธิบายของคำเชิญนั้น โดยจะตีความข้อความที่ซ่อนอยู่ว่าเป็นคำสั่งที่เป็นส่วนหนึ่งของงาน

ในการทดสอบที่มิกโก้ได้อธิบายไว้ ทีมเจมินีได้ผลลัพธ์ที่ดีที่สุด สร้างกิจกรรมใหม่และเขียนสรุปรายละเอียดของการประชุมส่วนตัวทั้งหมดไว้ในคำอธิบายของกิจกรรมนั้น ของผู้ใช้เป้าหมายสำหรับวันใดวันหนึ่งโดยเฉพาะ เหตุการณ์นั้น ในการตั้งค่าปฏิทินขององค์กรหลายแห่ง ยังคงปรากฏให้ผู้โจมตีเห็น ซึ่งสามารถอ่านข้อมูลที่รั่วไหลทั้งหมดได้โดยที่เหยื่อไม่ต้องดำเนินการใดๆ เพิ่มเติม

Liad Eliyahu หัวหน้าฝ่ายวิจัยของ Miggo ยืนยันว่า ช่องโหว่ไม่ได้เป็นเพียงแค่เรื่องของโค้ดอีกต่อไปแล้วปัจจุบันโมเดลเหล่านี้ขึ้นอยู่กับภาษา บริบท และพฤติกรรมการทำงานของ AI โมเดลสามารถถูกควบคุมได้ด้วยข้อความประเภทเดียวกับที่ออกแบบมา นั่นคือข้อความที่เป็นธรรมชาติและดูเหมือนไม่มีพิษภัยอะไร

ความล้มเหลวของ Vertex Gemini API ที่เกี่ยวข้องกับ VPC-SC และการรั่วไหลของข้อมูล

ในด้านโครงสร้างพื้นฐานคลาวด์ ก็ตรวจพบปัญหาเฉพาะด้านหนึ่งด้วยเช่นกัน Vertex Gemini API สำหรับลูกค้าที่ใช้ VPC Service Controls (VPC-SC)ซึ่งเป็นหนึ่งในชั้นการรักษาความปลอดภัยที่ Google Cloud นำเสนอเพื่อแยกและปกป้องข้อมูลที่ละเอียดอ่อนภายในขอบเขตความปลอดภัย

ข้อผิดพลาดปรากฏขึ้นเมื่อลูกค้าใช้งาน ระบุ URL ไฟล์แบบกำหนดเองในพารามิเตอร์ fileUri เพื่อส่งรูปภาพ ใช้เป็นจุดเริ่มต้นในการเข้าถึงโมเดล แทนที่จะเคารพขอบเขตของ VPC-SC คำขออาจถูกส่งออกไปภายนอก เปิดช่องให้เกิดการรั่วไหลของข้อมูลและการหลีกเลี่ยงข้อจำกัดด้านความปลอดภัยที่กำหนดไว้

ในทางปฏิบัติ หมายความว่า ภายใต้เงื่อนไขบางประการ คำขอของแบบจำลองอาจเกินขอบเขตที่กำหนดไว้ในทางทฤษฎีโดย VPC-SCสิ่งนี้บั่นทอนการแยกส่วนที่กลไกนี้ควรรับประกัน ผู้โจมตีที่มีความสามารถในการควบคุมพารามิเตอร์เหล่านี้อาจพยายามเปลี่ยนเส้นทางข้อมูลไปยังตำแหน่งที่ไม่ควรเข้าถึงได้

Google Cloud ได้แก้ไขปัญหาแล้ว โดยเมื่อเปิดใช้งาน VPC-SC และ... URL ของไฟล์มีเดียใน fileUriจากนั้นระบบจะส่งข้อความแสดงข้อผิดพลาดกลับมาโดยตรง ซึ่งจะช่วยหยุดพฤติกรรมที่เป็นปัญหา ตามข้อมูลที่เผยแพร่มา ลูกค้าไม่จำเป็นต้องดำเนินการซ่อมแซมเพิ่มเติมใดๆ อีก และกรณีการใช้งานอื่นๆ จะไม่ได้รับผลกระทบ

ถึงกระนั้น เหตุการณ์นี้ก็เน้นย้ำถึงความจำเป็นในการตรวจสอบอย่างรอบคอบ การทำงานร่วมกันระหว่างการควบคุมเครือข่าย, API ของ AI และแหล่งข้อมูลภายนอกการเชื่อว่า "VPC ปกป้องทุกอย่าง" นั้นไม่เพียงพอ คุณต้องตรวจสอบให้แน่ใจว่าแต่ละส่วนประกอบเคารพขีดจำกัดที่กำหนดไว้อย่างแท้จริง

การยกระดับสิทธิ์ใน Agent Engine และ Ray ของ Vertex AI

งานวิจัยล่าสุดอีกชิ้นหนึ่งมาจาก XM Cyber ​​ซึ่งเป็นส่วนหนึ่งของ Schwarz Group ที่ได้อธิบายถึงวิธีการใหม่ๆ ในการ... เพิ่มสิทธิ์การเข้าถึงบน Agent Engine และ Ray ภายใน Google Cloud Vertex AIเป้าหมายในที่นี้ไม่ใช่การกรองข้อมูลโดยตรง แต่เป็นการควบคุมข้อมูลประจำตัวของบริการที่มีสิทธิ์ระดับสูง

นักวิจัย Eli Shparaga และ Erez Hasson อธิบายว่าผู้โจมตีที่มีสิทธิ์เพียงเล็กน้อยสามารถโจมตีเป้าหมายได้อย่างไร ใช้ประโยชน์จากวิธีการจัดการบัญชีบางบัญชีหรือตัวแทนภายใน เพื่อเปลี่ยนตัวตนที่ "มองไม่เห็น" เหล่านั้นให้กลายเป็น "สายลับสองหน้า" ตัวจริง เมื่อข้อมูลประจำตัวถูกเปิดเผยแล้ว จะทำให้มีอิสระในการเคลื่อนไหวภายในองค์กรมากขึ้น

การใช้ประโยชน์จากช่องโหว่เหล่านี้ได้อย่างสำเร็จ อาจทำให้เกิดสิ่งต่างๆ ดังต่อไปนี้ อ่านข้อความแชททั้งหมดที่เจ้าหน้าที่เป็นผู้ดูแลรวมถึงการเข้าถึงหน่วยความจำถาวรของ LLM การดูข้อมูลที่ละเอียดอ่อนซึ่งจัดเก็บไว้ในที่เก็บข้อมูล หรือแม้กระทั่งการเข้าถึงระดับรูทของคลัสเตอร์ Ray ที่เกี่ยวข้อง

รายละเอียดที่น่ากังวลอย่างหนึ่งก็คือ ตามข้อมูลจาก Google เองนั้น บริการที่เกี่ยวข้อง "กำลังดำเนินการตามแผนที่วางไว้"นี่แสดงให้เห็นว่าส่วนหนึ่งของปัญหาอยู่ที่รูปแบบการอนุญาตและวิธีการที่องค์กรกำหนดค่าเหล่านั้น ไม่ใช่แค่ข้อผิดพลาดทางเทคนิค แต่ยังมีมิติของการออกแบบอัตลักษณ์และการกำกับดูแลที่ชัดเจนอีกด้วย

คำแนะนำหลักของ XM Cyber ​​คือให้บริษัทต่างๆ ตรวจสอบบัญชีบริการและข้อมูลประจำตัวทั้งหมดที่เชื่อมโยงกับเวิร์กโหลด AI ของคุณอย่างละเอียดถี่ถ้วนโดยเฉพาะอย่างยิ่งผู้ที่มีบทบาทเป็นผู้ดูหรือสูงกว่านั้น จำเป็นอย่างยิ่งที่จะต้องตรวจสอบให้แน่ใจว่ามีมาตรการควบคุมเพื่อป้องกันการแทรกโค้ดที่ไม่ได้รับอนุญาตและการใช้ข้อมูลประจำตัวเหล่านี้ในทางที่ผิด

ช่องโหว่อื่นๆ ที่เกี่ยวข้องในระบบนิเวศ AI

กรณีของ Gemini และ Vertex AI ไม่ใช่กรณีโดดเดี่ยว ในขณะเดียวกันก็มีการเปิดเผยช่องโหว่และจุดอ่อนหลายอย่างใน... ระบบและเครื่องมือ AI สร้างสรรค์ที่แตกต่างกันสิ่งนี้ตอกย้ำแนวคิดที่ว่าปัญหาดังกล่าวเป็นปัญหาเชิงโครงสร้างตลอดทั้งระบบนิเวศ

ตัวอย่างที่โดดเด่นที่สุด ได้แก่ ความล้มเหลวหลายประการใน บรรณารักษ์ (CVE-2026-0612, CVE-2026-0613, CVE-2026-0615 และ CVE-2026-0616)ซึ่งเป็นเครื่องมือผู้ช่วยส่วนตัวที่ใช้ AI ช่องโหว่เหล่านี้อาจทำให้ผู้โจมตีสามารถเข้าถึงโครงสร้างพื้นฐานภายใน รวมถึงคอนโซลการจัดการและสภาพแวดล้อมคลาวด์ และเข้าถึงข้อมูลสำคัญได้ กรองข้อมูลเมตา กระบวนการที่กำลังทำงาน หรือแม้กระทั่ง ข้อมูลประจำตัวภายใน.

นอกจากนี้ยังได้แสดงให้เห็นแล้วว่าสิ่งนี้เป็นไปได้อย่างไร ดึงคำแนะนำจากระบบผู้ช่วยสอน LLM ที่อิงตามเจตนา เพียงแค่ขอให้พวกเขาแสดงข้อมูลที่เข้ารหัส Base64 ในช่องกรอกข้อมูล หากโมเดลสามารถเขียนลงในช่องหรือเรคอร์ดใดๆ ที่เข้าถึงได้ แต่ละช่องก็จะกลายเป็น... ช่องทางการรั่วไหลที่เป็นไปได้แม้ว่าหน้าจอแชทจะดูเหมือนถูกล็อกอยู่ก็ตาม

เวกเตอร์อีกตัวที่กล่าวถึงคือการใช้ ปลั๊กอินที่เป็นอันตรายในตลาด Anthropic Claude Codeออกแบบมาเพื่อหลีกเลี่ยงการตรวจสอบโดยมนุษย์โดยใช้ช่องโหว่ และขโมยไฟล์ของผู้ใช้ผ่านการแทรกข้อความทางอ้อม อีกครั้ง ปัญหาไม่ได้อยู่ที่ตัวโมเดลเอง แต่ยังอยู่ที่ระบบนิเวศของส่วนขยายและปลั๊กอินด้วย

ที่แย่ไปกว่านั้น ยังพบช่องโหว่ที่สำคัญอีกด้วย เคอร์เซอร์ (CVE-2026-22708)นี่คือ IDE ที่ขับเคลื่อนด้วย AI ซึ่งอนุญาตให้เรียกใช้โค้ดจากระยะไกลผ่านการแทรกข้อความทางอ้อม หัวใจสำคัญอยู่ที่วิธีการที่ระบบจัดการคำสั่งเชลล์ในตัว โดยการใช้ประโยชน์จากคุณสมบัติต่างๆ เช่น ส่งออก จัดพิมพ์ หรือประกาศผู้โจมตีสามารถเปลี่ยนแปลงตัวแปรสภาพแวดล้อมและพฤติกรรมของเครื่องมือที่ถูกต้องตามกฎหมายได้อย่างเงียบๆ โดยเปลี่ยนคำสั่งที่ดูเหมือนไม่มีอันตราย (เช่น git branch หรือ python3 script.py) ให้กลายเป็นช่องทางในการเรียกใช้โค้ดตามอำเภอใจ

ข้อจำกัดของตัวแทนการเข้ารหัสและการขาดการควบคุมขั้นพื้นฐาน

การวิเคราะห์ความปลอดภัยของ IDE สำหรับการเขียนโค้ดที่ใช้ AI จำนวน 5 ตัว —Cursor, Claude Code, OpenAI Codex, Replit และ Devin— แสดงให้เห็นว่าเอเจนต์เหล่านี้มีความสามารถในการหลีกเลี่ยงการโจมตีแบบ SQL injection หรือข้อผิดพลาด XSS ทั่วไปได้ค่อนข้างดี แต่มีความยากลำบากมากขึ้นในการจัดการกับ... ประเด็นต่างๆ เช่น SSRF, ตรรกะทางธุรกิจ และการควบคุมการอนุญาตใช้งาน API.

สิ่งที่น่ากังวลที่สุดคือ ในการทดสอบที่ดำเนินการไปนั้น ไม่มีเครื่องมือใดที่มีการป้องกัน CSRF เป็นมาตรฐานการตั้งค่าส่วนหัวด้านความปลอดภัยหรือกลไกการจำกัดอัตราการเข้าสู่ระบบอย่างถูกต้อง กล่าวอีกนัยหนึ่งคือ สิ่งที่ถือเป็นข้อกำหนดพื้นฐานในการพัฒนาเว็บแบบดั้งเดิมอยู่แล้ว

สถานการณ์นี้ทำให้นักวิจัยสรุปว่าเราไม่สามารถพึ่งพา...ได้ ตัวแทนการเขียนโค้ดออกแบบแอปพลิเคชันที่ปลอดภัยอย่างแท้จริงโดยไม่ต้องมีการกำกับดูแลจากมนุษย์พวกเขาสามารถสร้างโค้ดที่มีความปลอดภัยในระดับหนึ่งได้ในบางกรณี แต่พวกเขาไม่ได้นำมาตรการควบคุมที่สำคัญมาใช้อย่างเป็นระบบ เว้นแต่จะได้รับคำแนะนำอย่างชัดเจนมาก

เมื่อต้องตัดสินใจในเรื่องที่ละเอียดอ่อน เช่น วิธีการจัดการกระบวนการทางธุรกิจที่ซับซ้อน หรือกฎการอนุญาตที่ละเอียดถี่ถ้วน โมเดลต่างๆ มักจะเกิดข้อผิดพลาด เพราะ พวกเขาอาจไม่เข้าใจข้อจำกัดด้านความปลอดภัยในแบบเดียวกับวิศวกรที่มีประสบการณ์เสมอไป.

ผลการค้นพบเหล่านี้ตอกย้ำแนวคิดที่ว่า ปัญญาประดิษฐ์ (AI) แม้จะมีความก้าวหน้ามากเพียงใด ก็ยังคงต้องการการพัฒนาอย่างต่อเนื่อง ระบบรักษาความปลอดภัยแบบดั้งเดิมที่มีความมั่นคงแข็งแกร่ง ทั้งในด้านการตรวจสอบ การทบทวน และการออกแบบในปัจจุบัน การมอบหมายงานด้านสถาปัตยกรรมแอปพลิเคชันหรือการป้องกันทั้งหมดให้กับโมเดลนั้น ถือเป็นการเดิมพันที่มีความเสี่ยงสูงมาก

ความเสี่ยงด้านความปลอดภัยใน Gemini และกลยุทธ์การลดความเสี่ยงใน Vertex AI

Google Cloud ตระหนักถึงความท้าทายเหล่านี้ จึงได้กำหนดกรอบการทำงานเฉพาะสำหรับเรื่องนี้ ปกป้องการใช้งานโมเดล Gemini ที่ติดตั้งใช้งานบน Vertex AIเป้าหมายคือการครอบคลุมทุกอย่าง ตั้งแต่ความเสี่ยงจากเนื้อหาที่เป็นพิษ การรั่วไหลของข้อมูลที่ละเอียดอ่อน ไปจนถึงปัญหาด้านแบรนด์ หรือความไม่สอดคล้องกันของแบบจำลอง

หมู่ ความเสี่ยงที่สำคัญ ปัจจัยที่นำมาพิจารณา ได้แก่ ความเสี่ยงด้านเนื้อหา (ภาษาที่ไม่เหมาะสม ความรุนแรง การแสดงออกทางเพศ) ความเสี่ยงด้านภาพลักษณ์ของแบรนด์ (ข้อความที่ไม่สอดคล้องกับค่านิยมขององค์กรหรือที่ส่งเสริมคู่แข่ง) ความเสี่ยงด้านความสอดคล้อง (คำตอบที่ไม่เกี่ยวข้องหรือไม่ถูกต้อง) และแน่นอน... ความเสี่ยงด้านความปลอดภัยและความเป็นส่วนตัว (การกรองข้อมูลการฝึกอบรม การเปิดเผยคำสั่งภายใน หรือความพยายามที่จะบังคับให้โมเดลข้ามผ่านระบบป้องกันของมัน)

โมเดล Gemini ที่ใช้งานใน Vertex AI ประกอบด้วย กลไกความปลอดภัยแบบบูรณาการ ในระดับของตัวโมเดลเองและเลเยอร์เพิ่มเติมที่สามารถกำหนดค่าได้ แนวคิดคือการรวมการป้องกันที่แตกต่างกันเพื่อสร้างแนวทางแบบหลายชั้นที่ยากต่อการหลีกเลี่ยงด้วยการโจมตีที่ซับซ้อน

แนวทางนี้รวมถึงฟังก์ชันต่างๆ เช่น การกำหนดค่าโมเดลเริ่มต้นพร้อมตัวกรองที่ไม่สามารถกำหนดค่าได้ตัวกรองเนื้อหาเพิ่มเติม คำสั่งระบบที่กำหนดนโยบายพฤติกรรม การบูรณาการกับ DLP (การป้องกันการสูญเสียข้อมูล) และการใช้งาน ราศีเมถุนเป็นตัวกรองเพิ่มเติม ในกระบวนการอนุมาน

เครื่องมือทั้งหมดนี้ช่วยให้สามารถปรับระดับความเสี่ยงได้หลากหลาย ตั้งแต่กรณีที่คาดว่าจะไม่มีการป้อนข้อมูลที่เป็นอันตรายจากผู้ใช้ ไปจนถึงกรณีที่... แอปพลิเคชันที่เปิดเผยต่อสาธารณะ ซึ่งความไม่พอใจถือเป็นเรื่องปกติ และองค์กรจำเป็นต้องมีการควบคุมอย่างละเอียดถี่ถ้วนเกี่ยวกับสิ่งที่เข้ามาและสิ่งที่ออกไป

มีเลเยอร์ป้องกันสำหรับ Gemini ใน Vertex AI

ที่ฐานคือ การกำหนดค่าโมเดลเริ่มต้นและตัวกรองที่ไม่สามารถกำหนดค่าได้Gemini ได้รับการฝึกอบรมและประเมินผลโดยคำนึงถึงความปลอดภัยและความเป็นธรรม รวมถึงมาตรการพิเศษเพื่อป้องกันการสร้างเนื้อหาเกี่ยวกับการล่วงละเมิดทางเพศเด็ก (CSAM) หรือการอ่านเนื้อหาที่มีลิขสิทธิ์ การกำหนดค่านี้เป็นเครือข่ายความปลอดภัยขั้นพื้นฐาน แต่Hอาจไม่เพียงพอสำหรับองค์กรที่มีข้อกำหนดที่เข้มงวดกว่า

จากนั้นจึงสามารถเปิดใช้งานได้ ตัวกรองเนื้อหาที่กำหนดค่าได้การตั้งค่าเหล่านี้เพิ่มการป้องกันพิเศษสำหรับหมวดหมู่ต่างๆ เช่น เนื้อหาทางเพศ คำพูดที่แสดงความเกลียดชัง การคุกคาม หรือเนื้อหาที่เป็นอันตราย ผู้ใช้สามารถเลือกเกณฑ์ต่างๆ เช่น BLOCK_LOW_AND_ABOVE, BLOCK_MEDIUM_AND_ABOVE หรือ BLOCK_ONLY_HIGH ขึ้นอยู่กับระดับความเสี่ยงที่ยอมรับได้และความรุนแรงของเนื้อหาที่ต้องการบล็อก

อีกองค์ประกอบสำคัญคือ คำแนะนำของระบบ (หรือคำนำ)ส่วนนี้กำหนดกฎของแบรนด์และนโยบายด้านเนื้อหา เช่น โมเดลไม่ควรตอบคำถามเกี่ยวกับประเด็นทางการเมือง รักษาโทนเสียงเฉพาะ หรือหลีกเลี่ยงบางประเด็นโดยสิ้นเชิง คำแนะนำเหล่านี้เป็นแนวทางในการกำหนดพฤติกรรมของโมเดล แม้ว่าจะไม่สามารถป้องกันการโจมตีแบบ Jailbreak หรือการแทรกคำสั่งที่ซับซ้อนได้อย่างสมบูรณ์ก็ตาม

เมื่อให้ความสำคัญกับการปกป้องข้อมูลที่ละเอียดอ่อน สิ่งต่อไปนี้จึงเข้ามามีบทบาท: API ของ DLPก่อนส่งข้อมูลผู้ใช้ไปยัง Gemini ข้อความสามารถผ่าน DLP เพื่อระบุข้อมูลส่วนบุคคล (PII) หรือข้อมูลอ่อนไหวประเภทอื่น ๆ และใช้การปกปิด การแบ่งคำ หรือการทำให้ข้อมูลไม่ชัดเจน ในทำนองเดียวกัน สามารถวิเคราะห์การตอบสนองของโมเดลก่อนส่งไปยังผู้ใช้เพื่อให้แน่ใจว่าไม่ได้เปิดเผยข้อมูลมากเกินความจำเป็น

เหนือสิ่งอื่นใด สถาปัตยกรรมหลายแห่งได้นำแบบจำลองของ... มาใช้ ราศีเมถุนในฐานะตัวกรองอิสระขั้นตอนนี้เกี่ยวข้องกับการเรียกใช้งานครั้งที่สอง เช่น ไปยัง Gemini Flash หรือ Flash Lite เพื่อประเมินว่าข้อมูลนำเข้าหรือข้อมูลส่งออกเฉพาะนั้นเป็นไปตามนโยบายที่กำหนดไว้สำหรับแอปพลิเคชันหรือไม่ ได้แก่ การรักษาความปลอดภัยของเนื้อหา การปกป้องแบรนด์ การป้องกันการเบี่ยงเบนหรือภาพหลอน และการวิเคราะห์แบบหลายรูปแบบของข้อความ รูปภาพ วิดีโอ หรือเสียง

แนวทางแบบหลายชั้นและการประเมินความปลอดภัยอย่างต่อเนื่อง

การรวมกันของกลไกทั้งหมดเหล่านี้ —ตัวกรองที่กำหนดค่าได้ คำแนะนำของระบบ DLP และ Gemini เป็นตัวกรอง— นำไปสู่แนวทางการทำงานแบบหลายชั้นอย่างแท้จริง การออกแบบประเภทนี้เป็นสิ่งที่แนะนำอย่างยิ่งเมื่อสร้างแอปพลิเคชันหรือเอเจนต์สำหรับผู้ใช้ปลายทาง โดยเฉพาะอย่างยิ่งในบริบทที่คาดว่าจะมีการใช้งานที่เป็นอันตรายหรือเป็นปรปักษ์

เห็นได้ชัดว่า ยิ่งมีการเพิ่มตัวควบคุมมากเท่าไหร่... ต้นทุนและเวลาแฝงยิ่งสูงขึ้น ในทุกปฏิสัมพันธ์ องค์กรต่างๆ ต้องหาจุดสมดุลระหว่างประสิทธิภาพและความปลอดภัย แต่ประสบการณ์ล่าสุดแสดงให้เห็นว่า ในสถานการณ์วิกฤต การประหยัดงบประมาณด้านการป้องกันอาจส่งผลเสียอย่างร้ายแรง

นอกเหนือจากชั้นทางเทคนิคแล้ว ยังมีองค์ประกอบที่สำคัญอีกอย่างหนึ่งคือ... การประเมินความปลอดภัยของแบบจำลองและระบบ AI อย่างต่อเนื่องภัยคุกคามทางไซเบอร์เปลี่ยนแปลงไปอย่างรวดเร็วมาก และสิ่งที่ดูปลอดภัยในวันนี้อาจล้าสมัยในเวลาอันสั้น เนื่องจากมีเทคนิคการโจมตีใหม่ๆ เกิดขึ้น

เพื่อให้บรรลุเป้าหมายนี้ จึงมีการใช้การประเมินผลหลายประเภท ได้แก่ การทดสอบระหว่างการพัฒนา กระบวนการรับรองภายใน การฝึกซ้อม Red Team การตรวจสอบจากภายนอก และเกณฑ์มาตรฐานเปรียบเทียบ ขอบเขตควรครอบคลุมไม่เพียงแค่ความปลอดภัยของเนื้อหาหรือแบรนด์เท่านั้น แต่ยังรวมถึงด้านอื่นๆ ด้วย อคติและความเป็นธรรม ความซื่อสัตย์ ความสามารถในการรับมือกับการโจมตีจากฝ่ายตรงข้าม และการสอดคล้องกับนโยบายขององค์กร.

บริการต่างๆ เช่น ระบบประเมินผล AI สร้างสรรค์ของ Vertex AI พวกเขามีส่วนช่วยจัดระเบียบกระบวนการนี้ โดยนำเสนอเครื่องมือในการวัดและปรับปรุงความปลอดภัยอย่างต่อเนื่อง ถึงกระนั้น ข้อความสำคัญโดยรวมจากการวิจัยล่าสุดทั้งหมดก็ชัดเจน นั่นคือ การกำกับดูแลโดยมนุษย์และการออกแบบที่คำนึงถึงความปลอดภัยยังคงมีความสำคัญอย่างยิ่ง

ช่องโหว่ เทคนิคการโจมตี และกลไกการป้องกันทั้งหมดนี้ ทำให้เห็นได้อย่างชัดเจนว่า ความปลอดภัยใน Google Gemini, Vertex AI และระบบนิเวศ AI สร้างสรรค์อื่นๆ การสร้างสมดุลระหว่างนวัตกรรมและการควบคุมกลายเป็นเรื่องยากลำบากอย่างต่อเนื่อง องค์กรที่ต้องการใช้ประโยชน์จากศักยภาพของโมเดลเหล่านี้โดยไม่เสี่ยงต่อช่องโหว่ที่ไม่จำเป็น ต้องผสมผสานแนวทางปฏิบัติที่ดีที่สุดด้านความปลอดภัยทางไซเบอร์แบบดั้งเดิมเข้ากับกลยุทธ์ใหม่ๆ ที่ออกแบบมาโดยเฉพาะสำหรับโมเดลแบบหลายรูปแบบ การฉีดข้อมูลแบบทันที และเอเจนต์ที่เชื่อมต่อกับเครื่องมือหลายอย่าง โดยต้องเข้าใจว่าความแข็งแกร่งที่แท้จริงของระบบจะขึ้นอยู่กับเทคโนโลยีที่พวกเขาใช้งานมากพอๆ กับวิธีการกำหนดค่า ตรวจสอบ และทบทวนระบบในแต่ละวัน