Этот текст — слабо формализованный поток сознания, надеюсь, что кто-нибудь прочитает это все, вникнет и ответит на вопросы, которые появляются посреди этого потока.
Я плохо разбираюсь в теме псевдоинвестиций, однако у меня возникает несколько идей, которые я бы хотел проверить, для начала, в обсуждении с людьми, разбирающимися в теме лучше меня. Если вы найдете в моих рассуждениях ошибки, то напишите, пожалуйста.
Подходил ли кто-нибудь серьезно к теме псевдоинвестиций с хорошими знаниями аналитики и программирования?
Если да, то где результат их работы? Аналитика проектов, статистические системы предсказания времени жизни проектов, стратегии инвестирования и т.д.
Если ни у кого не получилось, то почему? Рынок настолько динамичен, что не может быть проанализирован? Маловероятно, потому что анализу и предсказанию поддаются и более сложные стохастические системы.
--- Как проанализировать рынок псевдоинвестиций? ---
Для начала, ограничимся сегментом HYIP-проектов.
--- Сбор списка проектов ---
Пишем парсер MMGP и популярных мониторингов.
Парсер проходит по MMGP и мониторингам, например, раз в час. Перебирает все проекты, которые есть на этих сайтах.
Идентификацию проектов можно делать по URL. Скорее всего, на всех сайтах есть URL проекта.
Если в базе еще нет такого проекта - добавляет с текущим статусом (платит/не платит), если есть - обновляет статус.
На этом этапе получаем перечень многих активных проектов в сети, их относительно актуальный статус, время их старта и завершения работы. Что-то вроде мульти-мониторинга. Такие уже есть, но их функционал не кажется мне полным и удобным.
Эта система дает всего два сигнала:
Будет ли сама по себе такая информация кому-нибудь интересна?
А если изменять каналы подачи информации: сайт, telegram-канал, email-рассылки?
А если можно подписываться только на определенные проекты или группы проектов?
--- Определение характеристик проектов и сбор значений ---
Далее к проектам нужно добавить их характеристики.
Некоторые значения характеристик представлены в явном виде на мониторингах и собрать их можно в автоматическом режиме через парсеры, но для некоторых потребуется ручной сбор. Начать можно с характеристик, для которых возможен автоматический сбор.
Какие в принципе могут быть характеристики?
Это формальные характеристики. Скорее всего, профессиональные инвесторы не принимают решения только на их базе. Есть инсайды, знакомства с админами, мнение коллег, опыт и интуиция. Хорошо, что некоторые инвесторы ведут блоги и можно в ручном или даже автоматическом режиме собрать дополнительную информацию о проектах.
В нашу модель можно добавить менее формальные, но, возможно, более значимые характеристики:
Если получится собрать многие характеристики за прошедшие периоды, то это сильно упростит и ускорит построение модели. Иначе придется ждать накопления достаточного кол-ва информации, чтобы можно было делать статистически значимые выводы.
Как ускорить сбор информации?
Как долго нужно ждать, прежде чем информации окажется достаточно?
Высокопроцентные проекты появляются и заканчивают работу очень часто и данные по ним накопятся быстрее, чем по низкопроцентным, которые могут жить годами.
Какие из характеристик самые интересные и значимые?
Какие еще можно добавить характеристики?
Имеют ли смысл такие сложные в получении характеристики, как тональность комментариев на MMGP?
--- Статистическая модель ---
Статистическая модель - это формализованное в виде списка проектов и их характеристик представление рынка, плюс математические методы получения ответов на некоторые вопросы. Эти ответы, возможно, помогут в принятии решения об инвестиции в тот или иной проект, но прошлое поведение системы может отличаться от будущего.
Имея информацию, описанную выше, можно задавать, например, такие вопросы:
--- Прогностическая модель ---
Прогностическая модель специализируется на ответах к вопросам о будущем.
Первое, что приходит на ум - аппроксимация прошлых данных. Если в прошлом году первый круг прожило M% проектов с доходностью ~N%, то и в этом году будет так.
Но интереснее более хитрые алгоритмы. Например, применим ли градиентный бустинг или наивный байесовский классификатор?
Возьмем все проекты со всеми их карактеристиками, одну характеристику пометим как целевую - проект прожил 3 круга. И подадим в качестве обучающей выборки тому или иному классифицирующему алгоритму. Потом подадим на вход новый проект, еще не известный этому алгоритму, и он отнесет этот проект к одному из двух классов: прожившие 3 круга и не прожившие.
Применим ли в принципе такой подход?
Хватит ли данных для обучающей выборки?
Какая характеристика будет иметь наибольший вес, ну, исключая даты старта и завершения проекта?
Я плохо разбираюсь в теме псевдоинвестиций, однако у меня возникает несколько идей, которые я бы хотел проверить, для начала, в обсуждении с людьми, разбирающимися в теме лучше меня. Если вы найдете в моих рассуждениях ошибки, то напишите, пожалуйста.
Подходил ли кто-нибудь серьезно к теме псевдоинвестиций с хорошими знаниями аналитики и программирования?
Если да, то где результат их работы? Аналитика проектов, статистические системы предсказания времени жизни проектов, стратегии инвестирования и т.д.
Если ни у кого не получилось, то почему? Рынок настолько динамичен, что не может быть проанализирован? Маловероятно, потому что анализу и предсказанию поддаются и более сложные стохастические системы.
--- Как проанализировать рынок псевдоинвестиций? ---
Для начала, ограничимся сегментом HYIP-проектов.
- собрать максимально полный список всех проектов
- определить вероятно значимые характеристики проектов
- для каждого из проектов собрать значения этих характеристик
- на базе этих характеристик построить статистическую модель
- на базе статистической модели построить прогностическую модель, предсказания которой будут исполняться чаще, чем случайно
--- Сбор списка проектов ---
Пишем парсер MMGP и популярных мониторингов.
Парсер проходит по MMGP и мониторингам, например, раз в час. Перебирает все проекты, которые есть на этих сайтах.
Идентификацию проектов можно делать по URL. Скорее всего, на всех сайтах есть URL проекта.
Если в базе еще нет такого проекта - добавляет с текущим статусом (платит/не платит), если есть - обновляет статус.
На этом этапе получаем перечень многих активных проектов в сети, их относительно актуальный статус, время их старта и завершения работы. Что-то вроде мульти-мониторинга. Такие уже есть, но их функционал не кажется мне полным и удобным.
Эта система дает всего два сигнала:
- появление проекта
- изменение статуса проекта
Будет ли сама по себе такая информация кому-нибудь интересна?
А если изменять каналы подачи информации: сайт, telegram-канал, email-рассылки?
А если можно подписываться только на определенные проекты или группы проектов?
--- Определение характеристик проектов и сбор значений ---
Далее к проектам нужно добавить их характеристики.
Некоторые значения характеристик представлены в явном виде на мониторингах и собрать их можно в автоматическом режиме через парсеры, но для некоторых потребуется ручной сбор. Начать можно с характеристик, для которых возможен автоматический сбор.
Какие в принципе могут быть характеристики?
- статус проекта на каждом из мониторингов
- размер вклада каждого из мониторингов
- дата старта проекта
- доход по каждому плану
- время круга по каждому плану
- лицензионный скрипт
- самописный скрипт
- уникальных дизайн
- EV SSL сертификат
- наличие документов о регистрации компании
- верифицированы платежные системы
- выделенный сервер
- защита от DDoS
- кол-во комментариев на MMGP
- кол-во просмотров на MMGP
- представлен на N мониторингах
- сумма вкладов мониторингов
- среднее/перцентили дохода по представленным планам
- средний прирост кол-ва комментариев на MMGP в день
Это формальные характеристики. Скорее всего, профессиональные инвесторы не принимают решения только на их базе. Есть инсайды, знакомства с админами, мнение коллег, опыт и интуиция. Хорошо, что некоторые инвесторы ведут блоги и можно в ручном или даже автоматическом режиме собрать дополнительную информацию о проектах.
В нашу модель можно добавить менее формальные, но, возможно, более значимые характеристики:
- Инвестор N вложился в проект
- В блоге инвестора N проект имеет статус M
- Инвестор N предлагает рефбек по этому проекту
- Инвестор N предлагает страховку по этому проекту
Если получится собрать многие характеристики за прошедшие периоды, то это сильно упростит и ускорит построение модели. Иначе придется ждать накопления достаточного кол-ва информации, чтобы можно было делать статистически значимые выводы.
Как ускорить сбор информации?
Как долго нужно ждать, прежде чем информации окажется достаточно?
Высокопроцентные проекты появляются и заканчивают работу очень часто и данные по ним накопятся быстрее, чем по низкопроцентным, которые могут жить годами.
Какие из характеристик самые интересные и значимые?
Какие еще можно добавить характеристики?
Имеют ли смысл такие сложные в получении характеристики, как тональность комментариев на MMGP?
--- Статистическая модель ---
Статистическая модель - это формализованное в виде списка проектов и их характеристик представление рынка, плюс математические методы получения ответов на некоторые вопросы. Эти ответы, возможно, помогут в принятии решения об инвестиции в тот или иной проект, но прошлое поведение системы может отличаться от будущего.
Имея информацию, описанную выше, можно задавать, например, такие вопросы:
- среднее/перцентили времени жизни проектов с доходностью ~N% за прошлый год?
- какой процент проектов с доходностью примерно ~N% прожил два круга за прошлый год?
- если бы было вложено N$ в момент старта в каждый проект, появившийся за прошлые полгода, то это было бы доходно?
- сколько в среднем кругов проработали уже закрывшиеся проекты, в которые вложился инвестор M за прошлые 2 месяца?
--- Прогностическая модель ---
Прогностическая модель специализируется на ответах к вопросам о будущем.
Первое, что приходит на ум - аппроксимация прошлых данных. Если в прошлом году первый круг прожило M% проектов с доходностью ~N%, то и в этом году будет так.
Но интереснее более хитрые алгоритмы. Например, применим ли градиентный бустинг или наивный байесовский классификатор?
Возьмем все проекты со всеми их карактеристиками, одну характеристику пометим как целевую - проект прожил 3 круга. И подадим в качестве обучающей выборки тому или иному классифицирующему алгоритму. Потом подадим на вход новый проект, еще не известный этому алгоритму, и он отнесет этот проект к одному из двух классов: прожившие 3 круга и не прожившие.
Применим ли в принципе такой подход?
Хватит ли данных для обучающей выборки?
Какая характеристика будет иметь наибольший вес, ну, исключая даты старта и завершения проекта?