AI2024년 9월 11일1분 읽기

GPT-4o 멀티모달 API 실전 활용

YS
YoungSam
조회 1042

GPT-4o의 멀티모달 능력

GPT-4o는 텍스트, 이미지, 오디오를 동시에 처리할 수 있는 옴니 모델입니다. 이전 모델 대비 2배 빠르고 50% 저렴합니다.

이미지 분석 예시

const response = await openai.chat.completions.create({
  model: "gpt-4o",
  messages: [{
    role: "user",
    content: [
      { type: "text", text: "이 UI 스크린샷을 분석해줘" },
      { type: "image_url", image_url: { url: imageUrl } }
    ]
  }]
});

UI 리뷰, 문서 OCR, 차트 해석 등 다양한 비전 태스크에 활용 가능합니다.

GPT-4oOpenAIMultimodal

댓글 0

아직 댓글이 없습니다.