Передовые решения для автоматизации производства, маркировки продукции и машинного зрения от ЦифровойТрансформации®

Искусственный интеллект

DeepSeek стал вирусным

Китайская лаборатория искусственного интеллекта DeepSeek попала в тренды на этой неделе после того, как ее приложение-чатбот поднялось на вершину чартов Apple App Store (и Google Play). Модели ИИ DeepSeek, которые были обучены с использованием вычислительно эффективных методов, заставили аналитиков с Уолл-стрит и технологов задаться вопросом, сможет ли США сохранить свое лидерство в гонке ИИ и сохранится ли спрос на чипы ИИ.

Но откуда взялся DeepSeek и как он так быстро достиг международной известности?

Происхождение DeepSeek

DeepSeek поддерживается High-Flyer Capital Management, китайским хедж-фондом, который использует ИИ для своих трейдинговых решений.

Энтузиаст ИИ Лян Вэньфэн соучредил High-Flyer в 2015 году. Вэньфэн, который, как сообщается, начал заниматься трейдингом, будучи студентом Чжэцзянского университета, запустил High-Flyer Capital Management в 2019 году как хедж-фонд, ориентированный на разработку и внедрение алгоритмов ИИ.

В 2023 году High-Flyer запустил DeepSeek как лабораторию, посвященную исследованию инструментов ИИ, отделенную от своего финансового бизнеса. При поддержке High-Flyer лаборатория отделилась в отдельную компанию, также названную DeepSeek.

С первого дня DeepSeek строил свои собственные кластеры центров обработки данных для обучения моделей. Но, как и другие компании, занимающиеся ИИ в Китае, DeepSeek пострадал от запретов США на экспорт оборудования. Чтобы обучить одну из своих недавних моделей, компании пришлось использовать чипы Nvidia H800, менее мощную версию чипа H100, доступного для компаний из США.

Техническая команда DeepSeek, как сообщается, преимущественно состоит из молодых специалистов. Компания, как сообщается, активно привлекает докторов наук по ИИ из ведущих китайских университетов. DeepSeek также нанимает людей без какого-либо опыта в области компьютерных наук, чтобы помочь своим технологиям лучше понимать широкий спектр знаний, согласно New York Times.

Сильные модели DeepSeek

DeepSeek представил свой первый набор моделей — DeepSeek Coder, DeepSeek LLM и DeepSeek Chat — в ноябре 2023 года. Но только весной прошлого года стартап выпустил свою следующую линейку моделей DeepSeek-V2, и индустрия ИИ начала обращать на это внимание.

DeepSeek-V2, система для анализа текста и изображений общего назначения, показала хорошие результаты в различных тестах ИИ и оказалась гораздо дешевле в эксплуатации по сравнению с аналогичными моделями того времени. Это заставило внутреннюю конкуренцию DeepSeek, включая ByteDance и Alibaba, снизить цены на некоторые из своих моделей и сделать другие полностью бесплатными.

DeepSeek-V3, выпущенная в декабре 2024 года, только добавила к известности DeepSeek.

Согласно внутреннему тестированию DeepSeek, DeepSeek V3 превосходит как загружаемые, так и доступные через API модели, такие как GPT-4o от OpenAI.

Не менее впечатляющей является модель «рассуждения» R1 от DeepSeek. Выпущенная в январе, DeepSeek утверждает, что R1 показывает результаты не хуже, чем модель o1 от OpenAI в ключевых тестах.

Как модель рассуждения, R1 эффективно проверяет себя, что помогает избежать некоторых ошибок, которые обычно затрудняют модели. Модели рассуждения требуют немного больше времени — обычно секунд или минут — для достижения решений по сравнению с обычной нерассуждающей моделью. Преимущество заключается в том, что они, как правило, более надежны в таких областях, как физика, наука и математика.

Однако у R1, DeepSeek V3 и других моделей DeepSeek есть недостаток. Будучи китайскими разработками, они подлежат бенчмаркингу со стороны китайского интернет-регулятора, чтобы убедиться, что их ответы «отражают основные социалистические ценности». Например, в приложении-чатботе DeepSeek R1 не отвечает на вопросы о площади Тяньаньмэнь или автономии Тайваня.

Подрывной подход

Если у DeepSeek есть бизнес-модель, то непонятно, в чем она заключается. Компания устанавливает цены на свои продукты и услуги значительно ниже рыночной стоимости и предоставляет другие бесплатно.

Как заявляет DeepSeek, прорывы в эффективности позволили ему сохранить крайнюю конкурентоспособность по стоимости. Однако некоторые эксперты оспаривают цифры, предоставленные компанией.

Как бы там ни было, разработчики приняли модели DeepSeek, которые не являются открытым исходным кодом в общепринятом смысле, но доступны по разрешительным лицензиям, позволяющим коммерческое использование. По словам генерального директора Hugging Face Клем Деланга, одной из платформ, на которых размещены модели DeepSeek, разработчики на Hugging Face создали более 500 «производных» моделей R1, которые в совокупности набрали 2,5 миллиона загрузок.

Успех DeepSeek в борьбе с более крупными и устоявшимися конкурентами был описан как «подрыв ИИ» и «хайп». По меньшей мере частично успех компании привел к падению цены акций Nvidia на 18% в понедельник и вызвал публичный ответ генерального директора OpenAI Сэма Альтмана.

Microsoft объявила, что DeepSeek доступен на ее сервисе Azure AI Foundry, платформе Microsoft, которая объединяет ИИ-услуги для предприятий под одним флагом. На вопрос о влиянии DeepSeek на расходы Meta на ИИ в ходе первого квартального отчета о доходах генеральный директор Марк Цукерберг заявил, что расходы на инфраструктуру ИИ будут продолжать быть «стратегическим преимуществом» для Meta.

В то же время некоторые компании запрещают DeepSeek, и это делают целые страны и правительства.

Что касается будущего DeepSeek, то оно остается неясным. Улучшенные модели — это само собой разумеющееся. Но правительство США, похоже, начинает настороженно относиться к тому, что оно считает вредным иностранным влиянием.

обсудить ваш проект...

технологический стек

Java платформа

CRM-форма появится здесь

свяжитесь с нами

адрес

Минская обл., Минский р-н, Новодворский сельсовет, д. Большое Стиклево, д. 40, к. 2, оф. 52

время работы Пон-Пят: 08.00 -18.00

телефон +375296585363

Email finselvat.info@yandex.ru