BLOG

AI（人工知能）

【AI入門 #2】Google ColabでChatGPTを動かそう！(gpt-4o対応)

2024-05-12

Biz Freakの麦太郎です！

このブログでは、「APIなんて触ったことがない方でも、ChatGPTを、プログラム上で動かせる！」を目標に、Google colabを使用して、簡単なコードを書いていきます。

プログラムを書いたことがない方でも、実行可能な内容と思いますので、ぜひ、最初の一歩に、取り組んでみて下さい。

Google Colabとは

プログラミングやデータサイエンスに興味を持っているけれど、ハイスペックなコンピュータを持っていない？開発環境の作り方がめんどくさい？

大丈夫、心配はいりません。Google Colab（コラボラトリー）は、インターネット上で高性能な計算資源を無料で利用できる素晴らしいツールです。また、瞬時にコードを書き、実行できる環境が立ち上がるという良さもあります。

まずは、Google Colabとは何か、そしてどのように使うのかを初心者向けにわかりやすく解説します。

Google Colabとは？

Google Colab（Google Collaboratory）は、Googleが提供する無料のクラウドベースのサービスで、Pythonコードを実行できるオンラインノートブック環境です。

まあ、簡単にいうと、

「色々なライブラリがプレインストールされているので、"import ####"と入力するだけで様々なライブラリを即時に使用することができる、またPCのスペックを気にせずにガンガンAI回せちゃう、PoC環境」的な感じです。

もう少し細かく説明すると、以下のような利点があります。

高性能な計算資源：GPUやTPUといった高性能なハードウェアを無料で利用可能。
クラウドベース：インターネットに接続されたどこからでもアクセス可能。自分のパソコンにインストールや設定が不要。
共有可能：作成したノートブックを簡単に共有でき、他の人と共同作業が可能。
統合されたライブラリ：Pythonのデータサイエンスライブラリ（Pandas、NumPy、TensorFlowなど）がすぐに利用可能。

Google Colabの使い方

1. Google Colabにアクセス

まず、Google Colabにアクセスします。Googleアカウントでログインすると、すぐに使い始めることができます。

2. 新しいノートブックを作成

「ファイル」から、「ノートブックを新規作成」をクリックすると、新しいノートブックが作成されます。

ここでPythonコードを書いて実行することができます。

3. コードを実行

ノートブックのセルにPythonコードを入力し、Shift+Enterキーを押すとコードが実行されます。例えば、以下のような簡単なコードを試してみましょう。

print("Hello, Google Colab!")

上記のようになれば成功です！

4. ノートブックの保存と共有

作成したノートブックは自動的にGoogleドライブに保存されます。

また、共有リンクを生成することで、他の人と簡単にノートブックを共有することができます。

さて、ではいよいよ、このGoogle Colab上でChatGPTを動かしていきましょう！

Google ColabでChatGPTを動かす手順ガイド

Google ColabでChatGPTを動かすのは比較的簡単。

いくつかのステップを踏むだけで実現できてしまいます！

このガイドでは、Pythonコードを使ってChatGPTを動かす手順を説明します。

ステップ1: Google Colabのセットアップ

Google Colabにアクセス:
- Google Colabにアクセスします。
- 必要に応じてGoogleアカウントにログインします。
新しいノートブックの作成:
- 右下の「新しいノートブック」をクリックして、新しいノートブックを作成します。

ステップ2: 必要なライブラリのインストール

ChatGPTを動かすために、必要なライブラリをインストールします。以下のコードを最初のセルにコピーして実行します。

!pip install openai

さて、補足的な内容ですが、ここで一応、Google Colabでのライブラリのインストールの仕方を説明しておきましょう！

よく使う、スタンダードなライブラリは、先にも書いた通りすでにGoogle Colabにインストールされています。

そのため、以下のように、"import ####(ライブラリ名)"を書くだけで、すぐに実行可能になります。

import numpy as np

# 簡単な例: 配列の作成と基本操作
array = np.array([1, 2, 3, 4, 5])
print("配列:", array)

# 配列の要素を2倍にする
doubled_array = array * 2
print("2倍にした配列:", doubled_array)

スクショのようになれば成功です。

標準でプレインストールされていないライブラリについては、先ほどのopenaiのように一番最初に一行加えるだけです。

!pip install openai
from openai import OpenAI

この"!pip ~~~~~~"とは、簡単にいうと、Google colab のちょっと外に出て、外の環境からGoogle colabにインストールをさせている、という風に理解して下さい。

これで、事前にインストールされていないライブラリについても、使用可能になるわけです。簡単ですね！

"!pip install openai"がない場合とある場合を比較してみましょう。

＜"!pip install openai"がないと...＞以下のように、エラーが出る。

＜"!pip install openai"を足すと...＞インストールに成功！

さて、進んでいきましょう。

ステップ3: OpenAI APIキーの取得

ちょっと話はそれますが、"API"って何かご存知ですか？"Application Programming Interface"の略です。外部のアプリと接続するためのインターフェイスですね。IT言語でよくわからないものがあったら、全文を確認して和訳しましょう。早期にインターネットテクノロジー業界の言葉を理解するコツです。

さてさて、ChatGPTを動かすには、OpenAIのAPIキーが必要です。以下の手順でAPIキーを取得します。

①OpenAIのAPIページにアクセスし、「Get Started」をクリックします。
「Pricing」を確認ください。使用した分だけ課金されます。
ダッシュボードからAPIキーを取得します。
※OpenAI APIキーの取得について、詳細は別ブログなどを参考にしてみて下さい。ここでは詳細割愛します。

ステップ4: ChatGPTを動かすコードの作成

次に、ChatGPTを動かすためのコードを作成します。以下のコードを新しいセルにコピーして、<YOUR_API_KEY>をあなたのAPIキーに置き換えて実行します。

!pip install openai
from openai import OpenAI
import os

# APIキーとモデル名を設定
API_KEY = "your_openai_key" # openaiで取得したAPIキーを入れて下さい。
MODEL = "gpt-4o"

client = OpenAI(api_key=API_KEY)

completion = client.chat.completions.create(
  model=MODEL,
  messages=[
    {"role": "system", "content": "あなたは最高に優秀なアシスタントです。"},
    {"role": "user", "content": "こんにちは！2+2を解いてくれますか？"}
  ]
)

print("アシスタント: " + completion.choices[0].message.content)

上記のようになれば成功です！うごきましたね！

ステップ5: gpt-4oを使用して、画像を解析してもらおう。

以下はちょっとした発展版。

先日、米国時間の5月13日、gpt-4oがリリースされました。

上記のコードではしれっと、

MODEL = "gpt-4o"

を使用していたのですが、せっかくなので、もう少しgot-4oを触って、最先端を体験しましょう。

以下のように入力してみて下さい。画像はなんでも良いです。画像の指定方法は、この下に記載します。

from IPython.display import Image, display, Audio, Markdown
import base64

IMAGE_PATH = "/スクリーンショット 2024-04-08 11.51.48.png"

# プレビューで画像を表示してみましょう
display(Image(IMAGE_PATH))

Google colabで画像を指定するためには、以下の手順です。簡単ですね。

上記でアップロード完了したら、

これで、パスがコピーできるので、この部分にペーストして下さい！これでどんな画像も参照可能です。

IMAGE_PATH = "/スクリーンショット 2024-04-08 11.51.48.png"

さて、上記が完了したら、以下のコードを実行するだけ。

# 画像ファイルを開き、Base64文字列としてエンコード
def encode_image(image_path):
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode("utf-8")

base64_image = encode_image(IMAGE_PATH)

response = client.chat.completions.create(
    model=MODEL,
    messages=[
        {"role": "system", "content": "あなたは最高に優秀なアシスタントです。"},
        {"role": "user", "content": [
            {"type": "text", "text": "この画像にはなんて書いてありますか？文字起こしして下さい。"},
            {"type": "image_url", "image_url": {"url": f"data:image/png;base64,{base64_image}"}}
        ]}
    ],
    temperature=0.0,
)

print(response.choices[0].message.content)