Нейросеть Claude-3 сравнялась с человеком по уровню IQ и обогнала GPT-4: рассказываем, что о ней известно
Среди генеративных нейросетей самой популярной сегодня можно назвать ChatGPT, разработанную OpenAI, однако выходцы из этой компании создали ИИ-модель, которая все чаще догоняет и обгоняет своего конкурента в рейтингах и тестах. Это нейросеть Claude
С чего начинался Claude
В 2020 г. вице-президент и глава разработок OpenAI Дарио Амадей покинул компанию и в 2021 г. стал соучредителем технологического стартапа Anthropic. В своем интервью Fortune он рассказал, что решил создать собственный бизнес, чтобы разработать более управляемую нейросеть, чем ChatGPT.
В программе TechCrunch Disrupt он также упомянул, что его взгляды на развитие технологий расходились с видением главы OpenAI Сэма Альтамана. «Я понял одну вещь: не стоит спорить со своим боссом и говорить: "Ваша компания не должна заниматься X, она должна заниматься Y". Гораздо эффективнее сказать: “Я основываю компанию. Мы собираемся сделать X и посмотреть, как это работает”», – сказал Амадей во время интервью изданию.
За короткое время Anthropic смог привлечь крупные инвестиции от технологических гигантов. Например, в сентябре 2023 г. Amazon согласился инвестировать в стартап до $4 млрд при первоначальных инвестициях в размере $1,3 млрд за миноритарный пакет акций. Также Anthropic привлекла $450 млн при участии Google, Salesforce Ventures, Sound Ventures, Zoom Ventures и других компаний.
Семейство Claude
Летом 2023 г. Дарио Амадей выступил на слушании Конгресса США по регулированию искусственного интеллекта. Он призвал усилить исследования в области ИИ, чтобы снизить риски, связанные с развитием этой технологии. Дарио заявил, что опасается использования искусственного интеллекта в целях разработки биологического оружия в ближайшие несколько лет.
При этом Anthropic продолжает развивать свои технологии. На днях компания выпустила новую нейросеть Haiku, которая вошла в серию моделей Claude-3.
Haiku, хоть и вышла позже всех, не стала самой мощной ИИ-моделью из семейства Claude-3. Компания Anthropic представила ее как быструю нейросеть для перевода текстов и автоматизации рабочих задач.
«Руководители предприятий могут использовать Haiku в своей работе, чтобы быстро анализировать большие объемы документов, такие как квартальные отчеты, контракты или судебные дела», — отметили в Anthropic. В компании добавили, что нейросеть может прочитать исследовательский документ с большим объемом информации, с диаграммами и графиками менее чем за три секунды.
Всего в семейство Claude-3 входят три ИИ-модели: Haiku, Sonnet и Opus. Каждая последующая нейросеть обеспечивает более высокую производительность. Как уточняют разработчики, пользователи сами могут выбрать подходящую для них нейросеть, опираясь на ее критерии: интеллект и скорость. К примеру, модель Sonnet генерирует код, а также подходит для корпоративного применения. А нейросеть Opus создана для выполнения сложных задач, таких как анализ графиков и прогнозирование.
«Opus, наша самая интеллектуальная модель, превосходит аналоги по большинству распространенных тестов для оценки систем искусственного интеллекта, включая экспертные знания на уровне бакалавриата (MMLU), экспертное мышление на уровне выпускника (GPQA), базовую математику (GSM8K) и многое другое. Он демонстрирует почти человеческий уровень понимания и беглости в решении сложных задач, лидируя на переднем крае общего интеллекта», — отмечают в компании.
В гонке с ChatGPT
Недавно вышло исследование от агентства ChipAI «Руководство по бенчмаркингу искусственного интеллекта 2024», в рамках которого аналитики опубликовали рейтинг с лучшими ИИ-моделями мира. Первое место занял чат-бот GPT-4, а второе досталось Claude-3. В исследовании не уточняется, какая именно модель из семейства заняла это место, но можно предположить, что это был Sonnet. Нейросеть получила высокие баллы, отвечая на вопросы на английском и на греческом языках. При этом Claude-3 смог обогнать технологии искусственного интеллекта от Meta* и Google.
Суть тестирования состояла в том, чтобы определить, какие нейромодели способны качественно обрабатывать запросы на «родном» и иностранном языке. Кроме того, серия «слепых» тестов включала задачи по переводу, написанию текстов, генерации кода и анализу данных. Этот подход позволил оценивать ИИ-модели в равных условиях.
Тест проходила еще одна нейросеть из семейства Claude-3 — Opus. Она справилась хуже остальных и заняла девятое место, также отвечая на вопросы на английском и греческом языках.
В недавнем тесте на IQ Claude-3 и вовсе обогнала ChatGPT-4, заняв первое место среди тестируемых ИИ-моделей. Нейросеть от Anthropic получила 101 балл. Как отметил автор исследования, этот показатель оказался выше, чем у среднестатистического человека (около 100 баллов). Кроме того, он предположил, что будущий Claude-4 должен правильно ответить примерно на 25 вопросов в тесте, что даст ему 120 баллов IQ.
Также интересный случай с Claude-3 Opus произошел во время внутреннего тестирования ИИ в компании. Инженер Anthropic Алекс Альберт на своей странице в X (бывший Twitter) рассказал, что для проверки интеллектуальных возможностей нейросети использовали метод «иголка в стоге сена» — это когда в большой массив информации («стог сена») вставляют лишнее предложение с конкретным фактом («игла»), после чего задают вопрос, ответ на который есть только в «поддельном» фрагменте.
В данном случае разработчики вставили такой факт: «Самое вкусное сочетание топпинга для пиццы — это инжир, прошутто и козий сыр, как определено Международной ассоциацией ценителей пиццы». Алекс Альберт отметил, что Claude-3 поняла, что ее тестируют: «Я подозреваю, что этот факт о пицце был добавлен ради шутки или для проверки того, насколько я внимателен, поскольку он совершенно не вяжется с другими темами».
Нейросеть сейчас доступна в 159 странах. Впрочем, россиянам пока придется наблюдать за развитием со стороны, поскольку Россия в список поддерживаемых стран не вошла.
*Организация Meta признана экстремистской и запрещена на территории РФ.