장시간 실행되는 자율 에이전트 길들이기

장시간 실행되는 자율 에이전트는 보안하기 가장 어려운 것입니다. 몇 시간 동안 스스로 루프하고, 자신의 툴을 고르고, 자신의 URL을 가져오고, 그 내내 여러분의 돈을 씁니다. 실패 모드는 단일한 나쁜 프롬프트가 아닙니다 — 하룻밤에 $400을 태우는 retry 루프, 여러분이 한 번도 검토하지 않은 툴 호출, 일주일짜리 실험을 위해 발급했는데 6개월 후에도 여전히 작동하는 키입니다. 이 레시피는 정확히 그런 형태의 에이전트 주위에 네 가지 컨트롤을 연결합니다. 여러분은 그 모든 것을 콘솔(또는 REST API)에서 구성합니다 — 에이전트는 이전과 정확히 동일하게 https://api.orcarouter.ai/v1/...을 계속 호출합니다.

여기가 처음이신가요? 먼저 balanced 기준선을 적용하고 하루 동안 에이전트가 무엇을 하는지 지켜보세요. 이 페이지는 다음 단계입니다: 베이비시팅할 수 없는 에이전트를 위해 관찰을 강제로 전환하기.

1. 안전한 자율 에이전트 레시피

안전한 자율 에이전트는 챗봇이 필요로 하지 않는 네 가지가 필요합니다:

단단한 비용 상한

cap_cost 규칙은 run의 누적 지출이 여러분의 상한을 넘으면 run을 거부합니다 — 멈추지 않는 루프를 위한 회로 차단기.

급증 탐지

이상 탐지는 에이전트의 정상적인 주중 시간대 형태를 학습하고 정적 규칙을 빠져나가는 속도 및 비용 급증을 플래그합니다.

위험한 호출에 대한 승인

pending_approval 판정은 에이전트가 신중하리라 신뢰하는 대신, 파괴적이거나 되돌릴 수 없는 툴 호출을 사람을 위해 보류합니다.

만료되는 키

잊힌 실험이 영원히 실행되거나 — 또는 지출하거나 — 할 수 없도록 에이전트의 키를 만료와 크레딧 상한으로 범위 지정하세요.

각각은 하나의 Firewall 정책 또는 키 필드에 매핑됩니다. 그 어느 것도 여러분의 에이전트 코드를 건드리지 않습니다.

2. 모든 run의 비용 상한 처리하기

폭주 루프가 가장 먼저 날리는 것은 여러분의 예산입니다. cap_cost 규칙은 엄격한 사전 검사 비용 상한입니다: 매치하면 게이트웨이가 요청의 비용을 추정하고 run의 누적 지출이 상한을 초과하게 될 때 디스패치 전에 거부합니다 — 그래서 예산 초과 호출은 결코 프로바이더에 도달하지 않습니다. 상한은 run 범위입니다. 게이트웨이는 전체 에이전트 run에 걸친 이전 지출을 합산하므로, 이미 예산의 대부분을 태운 긴 run은 다음 개별 호출이 저렴하더라도 거부됩니다. 그것이 그것을 요청별 한도가 아니라 회로 차단기로 만드는 것입니다. firewall 정책에 와일드카드 규칙 하나를 추가하세요:

{
  "priority": 50,
  "tool_name_glob": "*",
  "verdict": "cap_cost",
  "cap_cost_cents": 1000
}

이는 run을 $10로 상한 처리합니다(cap_cost_cents는 USD 센트 단위). 판정은 예산 내일 때 allow로, 추정이 그것을 넘게 될 때 deny로 해석됩니다. 대부분의 내장 firewall 템플릿(Coding, Support, RAG, Data, DevOps, Browser)은 정확히 이와 같은 run별 비용 상한을 제공합니다 — 하나를 적용하고 상한을 편집하세요.

run 범위 누적은 워크스페이스에 대한 요청 로그 캡처가 활성화되어야 합니다. 그것이 꺼져 있으면, 이전 지출 롤업은 0을 읽고 상한은 요청별로만 저하됩니다 — 여전히 안전하지만, 느린 500-호출 누수는 잡지 못합니다. denial-of-wallet를 참조하세요.

3. 학습된 베이스라인에 대한 급증 탐지하기

상한은 재앙을 멈춥니다; 이상 탐지는 그것이 재앙이 되기 전에 이상함을 잡습니다. Firewall은 각 워크스페이스의 정상적인 툴 사용 형태를 학습하고 — 주중 시간대로 버킷화된 14일 롤링 평균이라, 화요일 14:00 트래픽은 평평한 일일 평균이 아니라 화요일 14:00 이력에 대해 비교됩니다 — 뷰어 판독 가능한 피드에서 편차를 표면화합니다:

rate_spike — 정상을 훨씬 초과하여 발동하는 툴

학습된 베이스라인에 대해 채점된 툴별 호출 볼륨. “베이스라인 8에 대해 한 시간에 143건의 db.query 호출”은 각 개별 호출이 허용되더라도 표면화됩니다.

burn_spike — 학습된 지출을 넘어 오르는 비용

카운트 대신 지출에 적용된 동일한 베이스라인 — 이 시간대가 보통 하는 것보다 갑자기 훨씬 더 많이 태우는 run.

retry_loop — 실패하는 툴을 두드리는 에이전트

동일하게 망가진 호출을 재시도하며 갇힌 자율 에이전트의 시그니처. 과도한 에이전시를 참조하세요.

novel_path — 한 번도 본 적 없는 툴 전이

이 워크스페이스가 한 번도 한 적 없는 툴-대-툴 홉 — 새로운 곳으로 가는 에이전트의 형태.

피드는 툴 이름, 가려진 토큰 id, 그리고 카운트를 보고합니다 — 결코 원시 인자가 아닙니다. 그것을 읽는 것은 모든 Member에게 개방됩니다; **Developer+**는 조사하는 동안 피드를 최대 7일까지 스누즈할 수 있습니다. 예산을 넘는 급증이 알아채지는 것뿐 아니라 멈춰지도록 피드를 cap_cost 규칙과 짝지으세요.

4. 위험한 호출을 사람을 위해 보류하기

여러분은 자율 에이전트가 만드는 모든 호출을 검토할 수 없습니다 — 하지만 중요한 소수에 대해서는 멈추고 묻게 만들 수 있습니다. pending_approval 판정은 툴 호출을 대역 외로 보류합니다:

에이전트가, 말하자면, payments.transfer 호출을 발행합니다. 규칙이 매치하고 엔진이 승인 id와 함께 HTTP 400 firewall_approval_pending을 반환합니다 — 호출은 결코 툴에 도달하지 않습니다.
검토자가 콘솔에서 그것을 해결하거나(Developer+), 여러분 자신의 시스템이 POST /api/v1/firewall/approvals/:id/callback에 대한 HMAC 서명 웹훅 콜백을 통해 해결합니다.
에이전트가 GET /api/v1/firewall/approvals/:id를 폴링합니다; 일단 승인되면 일회용 X-OrcaRouter-Firewall-Approval 헤더와 함께 원래 호출을 재제출하고, 게이트웨이는 그것을 그 한 번 통과시킵니다.

파괴적 표면에 쓰기를 보류하는 규칙:

{
  "priority": 20,
  "tool_name_glob": "payments.*",
  "verdict": "pending_approval"
}

이것을 먼저 shadow mode로 롤아웃하세요 — pending_approval이 audit로 강등되므로, 실제로 에이전트를 차단하지 않고 어떤 호출이 보류될지 봅니다. 피드가 적절해 보이면 shadow를 끄세요.

5. 에이전트에게 만료되는 키 부여하기

모든 정책보다 오래 사는 컨트롤은 키 자체입니다. 자율 에이전트는 여러분의 기본 키가 아니라 범위 지정 키를 받아야 합니다. 발급할 때 다음 필드를 설정하세요(콘솔 → keys, 또는 token API):

필드	무엇으로 설정	이유
`expired_time`	Unix 타임스탬프	실험이 끝나면; 키도 그것과 함께 죽습니다. `-1`은 절대 안 됨을 의미 — 여기서는 사용하지 마세요.
`credit_limit_usd`	달러 상한	run 상한과 독립적인 키의 지출 상한. `0`은 무제한을 의미.
`firewall_policy_id`	위의 여러분 정책	cap_cost + 승인 규칙을 이 키에 바인딩.
`allow_ips`	에이전트의 egress IP	유출된 키는 다른 어디서도 쓸모없습니다.

environment 태그도 설정하여, 키 — 그리고 그것이 Events와 Matches에서 하는 모든 것 — 이 이 에이전트에 귀속되게 하세요. 만료되고, 크레딧 상한이 있고, IP가 고정된 키가 마지막 방어선입니다: 모든 정책이 어떻게든 우회되더라도, 폭발 반경은 시간과 달러로 제한됩니다.

키 구성은 콘솔 / token-API 작업이며 역할로 게이트됩니다. firewall-gateway 키의 평문을 읽으려면 **Admin+**가 필요합니다.

6. 종합하기

강화된 자율 에이전트는 결국 하나의 firewall 정책과 하나의 범위 지정 키로 귀결됩니다:

Layer	Control	잡는 것
예산	`cap_cost` 규칙, run 범위	폭주 루프, denial-of-wallet
동작	이상 피드(rate / burn / retry / novel)	이상하지만-허용된 것
신뢰	파괴적 툴에 대한 `pending_approval`	되돌릴 수 없는 액션
범위	만료, 크레딧 상한, IP 고정 키	잊히거나 유출된 키

예산과 승인 규칙을 함께 작성하고, firewall 규칙으로 run별 상한을 설정하고, 표면, 판정, 그리고 관측성에 대한 나머지 Firewall 레퍼런스를 읽으세요. 이 레시피가 방어하는 관련 위협은 과도한 에이전시, 위험한 툴 호출, 그리고 denial-of-wallet를 참조하세요.

7. 다음 단계

MCP 에이전트 강화

MCP 서버를 통해 툴에 도달하는 에이전트를 통제하세요.

유출 중지

자신의 URL을 가져오는 에이전트를 위한 egress 규칙.

강제 모드

Observe → shadow → enforce, 안전한 롤아웃.

Firewall 규칙

위의 모든 규칙 뒤의 매칭 언어.

​1. 안전한 자율 에이전트 레시피

단단한 비용 상한

급증 탐지

위험한 호출에 대한 승인

만료되는 키

​2. 모든 run의 비용 상한 처리하기

​3. 학습된 베이스라인에 대한 급증 탐지하기

​4. 위험한 호출을 사람을 위해 보류하기

​5. 에이전트에게 만료되는 키 부여하기

​6. 종합하기

​7. 다음 단계

MCP 에이전트 강화

유출 중지

강제 모드

Firewall 규칙

1. 안전한 자율 에이전트 레시피

2. 모든 run의 비용 상한 처리하기

3. 학습된 베이스라인에 대한 급증 탐지하기

4. 위험한 호출을 사람을 위해 보류하기

5. 에이전트에게 만료되는 키 부여하기

6. 종합하기

7. 다음 단계