Социофорум как источник для машинного обучения

Типирование по рассказам, стихам, интервью. Использование семантики для определения типа

Социофорум как источник для машинного обучения

Сообщение sociobot » Ср ноя 30, 2016 3:43 am

Здесь на форуме, кажется, есть люди, знакомые с машинным обучением и применением оного для типированием по текстам. Мне интересно ваше мнение - стоит ли использовать сам форум как источник данных для обучения алгоритмов типирования?

Есть много текста, есть авторы постов с (с некой степенью достоверности) известными социотипами. Чего, при этом, стоит построить классификатор?

И "чебурашки" превращаются...


На 1.12.2016 статистика по социофоруму (для примерной оценки потенциала ресурса) такая:
20300 человек написали минимум один пост, из них 7213 указали свой тип.
1525 человек написали минимум 100 постов, из них 883 указали свой тип.
Последний раз редактировалось sociobot Чт дек 01, 2016 2:48 pm, всего редактировалось 1 раз.
Аватара пользователя
sociobot
Участник
Участник
 
Сообщения: 21
Зарегистрирован: Чт ноя 24, 2016 9:11 pm
Пол: Мужской

Социофорум как источник для машинного обучения

Сообщение vadimr » Ср ноя 30, 2016 4:37 am

Достоверность указанных типов настолько низкая, что это лишает мероприятие всякого смысла.
Аватара пользователя
vadimr
Модератор
Модератор
 
Сообщения: 39268
Зарегистрирован: Пт ноя 23, 2007 9:02 pm
Откуда: Санкт-Петербург
Медали: 8
Пол: Мужской
Соционический тип: Джек Лондон

Социофорум как источник для машинного обучения

Сообщение sociobot » Чт дек 01, 2016 12:49 am

vadimr писал(а):Достоверность указанных [на форуме] типов настолько низкая ...


Согласен, ведь пользователи форума сами указывают свой тип. Откуда они его берут - вопрос, конечно, интересный. Ответ на него можно получить, спросив. Это добавит ещё одно измерения для классификатора.

Стопроцентного соответствия типа реальному, насколько я знаю, не даст ни одна методика типирования. На этом же форуме, так как он специализированный, можно предположить, что те, кто темой интересуются (много сообщений, давно зарегистрированы), могут указать свой социотип верно с высокой вероятностью.

Как бы то ни было, проверка такого классификатора на практике должна показать, насколько задача ему по-силам. Если он будет покажет высокую точность, то или люди одинаково вероятно ошибаются, либо они одинаково правы. Второе более вероятно - вот это уже придётся принять на веру.
Аватара пользователя
sociobot
Участник
Участник
 
Сообщения: 21
Зарегистрирован: Чт ноя 24, 2016 9:11 pm
Пол: Мужской

Социофорум как источник для машинного обучения

Сообщение sociobot » Чт дек 01, 2016 3:55 pm

Немного фактов для любопытных.
Изображение
На графике учтены типы, которые указанны в профилях участников форума.
Последний раз редактировалось sociobot Пт дек 02, 2016 1:22 pm, всего редактировалось 1 раз.
Аватара пользователя
sociobot
Участник
Участник
 
Сообщения: 21
Зарегистрирован: Чт ноя 24, 2016 9:11 pm
Пол: Мужской

Социофорум как источник для машинного обучения

Сообщение Гена » Чт дек 01, 2016 4:55 pm

sociobot писал(а):Согласен, ведь пользователи форума сами указывают свой тип. Откуда они его берут - вопрос, конечно, интересный. Ответ на него можно получить, спросив. Это добавит ещё одно измерения для классификатора.

Посмотри тему "Типирование у 35 социоников", чтобы оценить меру бедствия. Товарищ протипировался за 100 тыр у 4 десятков гуру, набрал 25% голосов за СЛЭ, но пишет себя в ИЛИ, и большинство участников форума его в этом поддерживает. При этьом есть бренд московский "НИСС" - тот аж консилиум чел из 20 собирал и продолжает упрямо настаивать на версии ЭСЭ.

Стопроцентного соответствия типа реальному, насколько я знаю, не даст ни одна методика типирования.

Ну а сколько тебе надо? 95% - мало?

На этом же форуме, так как он специализированный, можно предположить, что те, кто темой интересуются (много сообщений, давно зарегистрированы), могут указать свой социотип верно с высокой вероятностью.

Специализированный на чем? ;) Судить по названию - наивно. Нужно оценивать квалификацию, а вовсе не рвение.

Как бы то ни было, проверка такого классификатора на практике должна показать, насколько задача ему по-силам. Если он будет покажет высокую точность, то или люди одинаково вероятно ошибаются, либо они одинаково правы. Второе более вероятно - вот это уже придётся принять на веру.

Да по силам, если обучить правильно.

Изображение
Доны тут водятся в первую очередь, бальзаки (администрация) и еще Рыцари разные, чаще - процессники. Драйзеров и максов по факту или вовсе нет. или поштучно, не встречал. Гюгов тоже поштучно.
В гистограмме максимумы на доне, бале и геке - отражают реальность хотя бы ранговово, максимум на есе - не отражает. Туда наверняка записалась масса донок и гечек.

Кстати, в 2010 г. здесь был конкурс типирования, в котором участвовали и программки распознавания типа по текстам от двух независимых разработчиков. Где уж они теперь, эти программки и разработчики, не знаю. Тогда результаты были комичные. Одна в гюгов послно народу затипала, другая - в драев.
Аватара пользователя
Гена
Гуру
Гуру
 
Сообщения: 10865
Зарегистрирован: Ср дек 13, 2006 12:18 am
Откуда: Из мультфильма
Медали: 5
Пол: Мужской
Соционический тип: Дон Кихот

Социофорум как источник для машинного обучения

Сообщение sociobot » Сб дек 03, 2016 2:51 am

Гена писал(а):Кстати, в 2010 г. здесь был конкурс типирования, в котором участвовали и программки распознавания типа по текстам ...

Здесь не нашёл. Есть подробнейшее описание этого конкурса там: http://www.socionic.ru/index.php/2010-10-25-23-36-45.

Один из авторов программы, судя по всему, за 5 лет дошёл даже до коммерческой версии: http://www.socioforum.su/viewtopic.php?t=61674.
Интересно было бы взглянуть на новое качество его продукта.

Других программ я не встречал.
Аватара пользователя
sociobot
Участник
Участник
 
Сообщения: 21
Зарегистрирован: Чт ноя 24, 2016 9:11 pm
Пол: Мужской


Вернуться в Текстовая

Кто сейчас на конференции

Зарегистрированные пользователи: cooler462, GoGo [Bot], Google [Bot], Java [Bad bot], Joker, vadimr, Yandex 3.0 [Bot], Yandex [Bot], Феликс, на лошади весёлой