Гигант рыночных данных агентство Bloomberg (США) собирается извлечь выгоду из повального увлечения ИИ, создав большую языковую модель с 50 млрд параметров для финансов и уже получившую название BloombergGPT.
Агентство Bloomberg опубликовало исследовательский документ с подробным описанием разработки BloombergGPT, который был специально обучен широкому спектру финансовых данных. Чтобы создать BloombergGPT, инженеры компании извлекли из обширного архива финансовых данных за 40 лет, чтобы создать комплексный набор данных на 363 миллиарда токенов или фрагментов слов, состоящий из финансовых документов на английском языке. Эти внутренние данные были дополнены общедоступным набором данных на 345 миллиардов токенов, которые были взяты из таких источников, как YouTube и Википедия для создания большого обучающего блока с более чем 700 миллиардами токенов.
Для сравнения, версия чат-бота ChatGPT от американской компании OpenAI 2020 года была обучена на 500 миллионах токенов.
"Качество машинного обучения и моделей NPL зависит от данных, которые вы в них вкладываете", - пояснил Гидеон Манн, руководитель отдела продуктов и исследований Bloomberg по машинному обучению. "Благодаря коллекции финансовых документов, которую Bloomberg курировал в течение 4-х десятилетий, мы смогли создать большой и чистый набор данных для конкретной предметной области для обучения, который лучше всего подходит для финансов".
источник
уникальность