Компьютерная революция в шахматах

Шахматные турниры на форуме, обсуждение теории и новостей

Компьютерная революция в шахматах

Сообщение Oleg » Пн фев 11, 2019 2:03 am

kurlemushe, почитал статью, и если правильно понял.
1. АльфаЗеро назначает наиболее сильный на данный момент алгоритм как основной.
2. Как только появляется новый алгоритм, который набирает 55% очков в матчах с предыдущим царем горы, он его заменяет.
3. Этот спаринг-партнер используется для перебора вариантов.
4. Каждый вариант рассчитывается до листьев (то есть видимо до мата, либо до известных позиций, если например, подключены 7-фигурные окончания Налимова).

В результате получается АльфаЗеро считает варианты до конца, но выбирает только те, по которым играл бы сам.
И тогда я не очень понимаю каким образом он угадывает варианты выбираемые Стокфишем.
Может быть они у него идут не только на первой, но и на второй-пятой линиях и он тогда на каждом ходе выбирает 5 наиболее сильных ответов, а не считает все сразу?
То есть отсечение более жесткое.
Аватара пользователя
Oleg
Администратор
Администратор
 
Сообщения: 75645
Зарегистрирован: Вс окт 09, 2005 9:08 pm
Откуда: Москва
Медали: 10
Пол: Мужской
Соционический тип: Бальзак
Тип по психе-йоге: Сократ (ВЛЭФ)
Темперамент: Флегматик
Профессия: Программист, оптимизатор

Компьютерная революция в шахматах

Сообщение Oleg » Пн фев 11, 2019 2:08 am

Короче, статья сложная для понимания, особенно с формулами непонятно откуда.

Основная идея как мне кажется в том, что раньше веса оценочных функций прописывали гроссмейстеры.
АльфаЗеро подбирает оптимальные веса, играя сам с собой.
Чем больше партий, тем они оптимальнее.
Это то, что умеют делать и другие нейросети.

Плюс возможно параметры для оценочной функции АльфаЗеро сам выбирает.
Вот этот момент мне совсем непонятен.
Откуда он вдруг может решить, что нужно захватывать пространство, и оценивать количество боев, играя с таким же ламером как он сам?
Аватара пользователя
Oleg
Администратор
Администратор
 
Сообщения: 75645
Зарегистрирован: Вс окт 09, 2005 9:08 pm
Откуда: Москва
Медали: 10
Пол: Мужской
Соционический тип: Бальзак
Тип по психе-йоге: Сократ (ВЛЭФ)
Темперамент: Флегматик
Профессия: Программист, оптимизатор

Компьютерная революция в шахматах

Сообщение MrsShadow! » Пн фев 11, 2019 2:30 am

Пожалуй немного выскажусь о шахматах. Без обид.
Играла когда то, но это было можно сказать давно в далеком детстве с тех пор особо интереса не испытываю.
Игра скорее всего для стратегов. Как я поняла главный принцип шахмат знать и помнить большее число выигрышных комбинаций, уметь ими пользоваться. Собственно игра скорее всего начинается ближе к концу, когда уже создается разряженная атмосфера на доске, тогда и появляется пространство для маневра. Возможно и в конце уже есть достаточное количество проигранных в базе вариаций. Кто знает больше вариаций, тот и выиграл. Логика.

ps. Либо есть вариация которой нет в базе.

Кто б меня в этики отправил с моей нелюбовью к математике и неумением играть в шахматы.
На мой взгляд шахматы очень неплохо обучают зашоренному мышлению. Есть доска, есть фигуры на доске, принцип: передвигать фигуры по определенным правилам до определенной позиции, насколько я помню до частичной или полной возможности съесть короля. Все четенько и по правилам. Ну и развивают усидчивость конечно же.
Никогда не носи с собой белый флаг, тогда ты будешь вынужден побеждать
Аватара пользователя
MrsShadow!
Старожил
Старожил
 
Сообщения: 4840
Зарегистрирован: Ср апр 10, 2013 12:46 am
Медали: 1
Профессия: lazy val, тфу, destroyer

Компьютерная революция в шахматах

Сообщение Fouras » Пн фев 11, 2019 3:42 am

я думаю, никто с нуля не обучал Альфазеро, это сказки для бедных.

Повод: Алекс007 продемонстрировал фрагмент игры Альфастар, где юниты вместо атаки, атакуют и уничтожают камни. Фишка в том, что эти камни лежат у входа на базу и во время войны они выделяются при промахах мышкой. То есть, людей так бесит, что при мискликах они кликают не по юнитам, а по камням и потому опытные игроки для начала их уничтожают. В остальном эти камни бесполезны.

Но Альфастару не надо уничтожать камни, у него нет никаких мискликов.

Следовательно, первичное обучение нейросети было по реплеям топовых игроков, сеть училась повторять их действия.

Но разработчики заявили, что машина сама с собой случайно научилась играть. Это ложь, ей не хватило бы и миллиарда лет, и ей не надо было уничтожать камни, когда ее юниты атакуют.

Почти наверняка первичное обучение АльфаЗеро было по партиям Стокфиша самим с собой. С одной стороны правда, что люди не участвовали в обучении, и неправда.
Аватара пользователя
Fouras
Старожил
Старожил
 
Сообщения: 7249
Зарегистрирован: Пн июн 12, 2017 1:23 am
Медали: 11
Пол: Мужской

Компьютерная революция в шахматах

Сообщение Oleg » Пн фев 11, 2019 3:51 am

Fouras, вроде про АльфаСтар как раз писали, что обучение было по играм юзеров, в отличии от последней версии АльфаЗеро.
Да и в шахматах они пробовали разные варианты, сначала гоняли по базе игр гроссов и компьютерных программ.
И только последняя версия обучалась с нуля сама.
Аватара пользователя
Oleg
Администратор
Администратор
 
Сообщения: 75645
Зарегистрирован: Вс окт 09, 2005 9:08 pm
Откуда: Москва
Медали: 10
Пол: Мужской
Соционический тип: Бальзак
Тип по психе-йоге: Сократ (ВЛЭФ)
Темперамент: Флегматик
Профессия: Программист, оптимизатор

Компьютерная революция в шахматах

Сообщение MrsShadow! » Пн фев 11, 2019 3:57 am

Fouras

Как раз намного проще не обучать машину по реплеям, а наоборот предоставить ей действовать без изначальной базы по собственно довольно ограниченным шахматным правилам. Если учесть, сколько машина сможет комбинаций обработать, то проиграны будут большинство вариантов из партий гросмейстеров очень быстро. Плюс такого обучения в том, что машина просто озадачена подбором наиболее короткого пути к поставленной задачи (шах и мат) и ей пофик, выиграет или проиграет она в данном случае. В отличие от шахматистов и выигрыш и проигрыш для нее будет положительный результат.
Никогда не носи с собой белый флаг, тогда ты будешь вынужден побеждать
Аватара пользователя
MrsShadow!
Старожил
Старожил
 
Сообщения: 4840
Зарегистрирован: Ср апр 10, 2013 12:46 am
Медали: 1
Профессия: lazy val, тфу, destroyer

Компьютерная революция в шахматах

Сообщение Fouras » Пн фев 11, 2019 4:24 am

Как я понял, они объявили, что вначале экспериментировали с играми людей, а потом взяли и с нуля обучили АльфаЗкро. Возможно это проблема перевода.

Про АльфаСтар я только короткие пересказы читал. По словам Алекс007, он тоже читал заявление, что АльфаСтар конечная версия только сама с собой играла. Точнее там 8 версий было, но вроде как все версии самообучились по словам разработчиков.

Если в шахматах не проблема фигурки тягать, то в Старкрафт вот есть движок, и он не потянет слишком большую нагрузку. Никаких миллиардов партий, максимум тысячи. За тысячу итераций они бы ничему не научились.
Аватара пользователя
Fouras
Старожил
Старожил
 
Сообщения: 7249
Зарегистрирован: Пн июн 12, 2017 1:23 am
Медали: 11
Пол: Мужской

Компьютерная революция в шахматах

Сообщение Oleg » Пн фев 11, 2019 4:33 am

Fouras, в Старкрафт же ускоряют время на обучении.
Аватара пользователя
Oleg
Администратор
Администратор
 
Сообщения: 75645
Зарегистрирован: Вс окт 09, 2005 9:08 pm
Откуда: Москва
Медали: 10
Пол: Мужской
Соционический тип: Бальзак
Тип по психе-йоге: Сократ (ВЛЭФ)
Темперамент: Флегматик
Профессия: Программист, оптимизатор

Компьютерная революция в шахматах

Сообщение Fouras » Пн фев 11, 2019 4:47 am

Сколько событий в секунду там?
Не менее 20 событий на юнита, расчет перемещения, ориентации. Плюс пули, строения.
Предположим, что у них сервер способен считать без партикл и анимации. Все равно невозможно ускорять всю эту халабуду бесконечно. Не сравнить с мгновенным ходом в шахматах.
Аватара пользователя
Fouras
Старожил
Старожил
 
Сообщения: 7249
Зарегистрирован: Пн июн 12, 2017 1:23 am
Медали: 11
Пол: Мужской

Компьютерная революция в шахматах

Сообщение Oleg » Пн фев 11, 2019 4:56 am

Я не помню конкретных цифр, но что-то было про среднюю партию в 10 минут сжимали в десятки раз вроде бы.
В принципе не нужно же рисовать все это, просто матрицы обсчитывать.
А со счетом у суперкомпов нет проблем.
Скорее всего распараллеливали игры на разные процессоры.
Аватара пользователя
Oleg
Администратор
Администратор
 
Сообщения: 75645
Зарегистрирован: Вс окт 09, 2005 9:08 pm
Откуда: Москва
Медали: 10
Пол: Мужской
Соционический тип: Бальзак
Тип по психе-йоге: Сократ (ВЛЭФ)
Темперамент: Флегматик
Профессия: Программист, оптимизатор

Компьютерная революция в шахматах

Сообщение kurlemushe » Пн фев 11, 2019 10:38 am

Fouras писал(а):Монте-Карало - это алгоритм обучения, а не оценки.

Его редко так называют, обучая нейросети говорят "стохастический метод". Хотя по-сути это оно и есть.

Если правильно понимаю, но это большое если, Альфа оценивает позиции не по
Материалу
Позиции
Пространства

А тупо по МонтеКарло симуляциями - в среднем прогнанные тысячи вариантов дают % выигрыша (1 очко), ничей (0), проигрыша (-1). В какой ситуации ожидаемый результат набранных очков за матч выше, та и ситуация лучше.

Правка:
Плюс за миллиарды тренировочных игр, если эта ситуация там участвовала то по ней УЖЕ есть собранная статистика с предиыдущих раз. И на основе статистики уже есть какой то expected outcome (оценка).
kurlemushe
Бывалый
Бывалый
 
Сообщения: 3946
Зарегистрирован: Сб янв 14, 2017 2:48 am
Откуда: Лондон на Дону
Медали: 4
Пол: Мужской
Соционический тип: Джек Лондон
Тип по психе-йоге: Лао-цзы (ЛВФЭ)
Темперамент: Сангвиник

Компьютерная революция в шахматах

Сообщение kurlemushe » Пн фев 11, 2019 11:02 am

По с нуля или не с нуля.

Скорее соглашусь что с нуля. То что они сделали если правильно понимаю можно в пару словах перефразировать:
По сколько мы не можем все варианты шахматной игры прогнать, мы прогнали миллиарды вариантов и на основе выхода по каждому варианту проделали статистический анализ ситуации и по закону больших цифр чтоб выигрывать надо играть вот так то.

Тут и знать ничего больше правил игры не надо :) ну только вот алгоритм хороший сделать по какому этот анализ/эксперимент делать :)

А если Альфа с нуля тренировалась бы в играх с исключительно Стокфишем, то обыграла бы бедного Стока с разгромным результатом. Но проиграла бы Альфе тренированной на играх сама с собой.
kurlemushe
Бывалый
Бывалый
 
Сообщения: 3946
Зарегистрирован: Сб янв 14, 2017 2:48 am
Откуда: Лондон на Дону
Медали: 4
Пол: Мужской
Соционический тип: Джек Лондон
Тип по психе-йоге: Лао-цзы (ЛВФЭ)
Темперамент: Сангвиник

Компьютерная революция в шахматах

Сообщение Oleg » Пн фев 11, 2019 12:15 pm

kurlemushe, каким образом нейросеть сама формирует правила для оценки позиции?
Это по сути и есть генерация нового знания. Одна из основных задач искусственного интеллекта.
Аватара пользователя
Oleg
Администратор
Администратор
 
Сообщения: 75645
Зарегистрирован: Вс окт 09, 2005 9:08 pm
Откуда: Москва
Медали: 10
Пол: Мужской
Соционический тип: Бальзак
Тип по психе-йоге: Сократ (ВЛЭФ)
Темперамент: Флегматик
Профессия: Программист, оптимизатор

Компьютерная революция в шахматах

Сообщение kurlemushe » Пн фев 11, 2019 1:35 pm

Oleg писал(а):kurlemushe, каким образом нейросеть сама формирует правила для оценки позиции?
Это по сути и есть генерация нового знания. Одна из основных задач искусственного интеллекта.

Если грубо:
«Я сыграла с позиции S134643 20,000 раз, из них я выиграла 3,000 раза, проиграла 200 раз. Позиция S134643 клевая, к ней надо стремиться.»
«Я в этой позиции некогда не попадала но моя Монтекарло симуляция говорит что я с большой вероятности выйду к мне приятными ситуациями с хорошим expected return”
«А ещё лучше мне стало, если в позиции S124643 я делала ход из легально доступных ходов A - A34. Моя вероятность выиграть подросла»



В ней ещё есть два концепта
Алчность (greed) - [ЧС] хе хе
И
Экспериментальность - [ЧИ]

Алчность - это выбирать те хода по которым ‘expected’ результат наилучший
Экспериментальность - те хода которые меньше всех ‘visited’

Если правильно помню они экспериментальность два раза в ходе эксперимента снизили - с 0.2 на 0.02, на 0.002. Чем выше алчность тем лучше программа играет но меньше учится. Чем выше экспериментальность тем наоборот.
По идеи алчная Альфа выигрывала бы у экспериментирующей Альфы с начала, но через какое то время экспериментальная Альфа докопила опыт по нестандартными (less visited) ходами и обогнала бы алчную.

Но она реально не понимает и не знает что там территория нужна, или материал. Просто у S345 expected выигрыш по предидущим партиями/новыми доп симуляциями - 0.4. Значит оно хорошее.
kurlemushe
Бывалый
Бывалый
 
Сообщения: 3946
Зарегистрирован: Сб янв 14, 2017 2:48 am
Откуда: Лондон на Дону
Медали: 4
Пол: Мужской
Соционический тип: Джек Лондон
Тип по психе-йоге: Лао-цзы (ЛВФЭ)
Темперамент: Сангвиник

Компьютерная революция в шахматах

Сообщение mr.Midas » Пн фев 11, 2019 2:59 pm

Oleg писал(а):Это по сути и есть генерация нового знания.


Новым знанием является не новый алгоритм поведения, а форма алгоритма пригодная для передачи и применения другими субъектами. То что родилось и умерло вместе со своим носителем - знанием не является.
Аватара пользователя
mr.Midas
КБ 'Грядущее'
КБ 'Грядущее'
 
Сообщения: 19840
Зарегистрирован: Ср июл 27, 2011 4:52 pm
Медали: 5
Пол: Мужской
Соционический тип: Дон Кихот
Тип по психе-йоге: Эпикур (ФЛЭВ)
Темперамент: Сангвиник
Профессия: Гэльвин в поиске

Пред.След.

  • { SIMILAR_TOPICS }
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в Шахматы

Кто сейчас на конференции

Зарегистрированные пользователи: GoGo [Bot], Google [Bot], Google Search Appliance, Jabennafate, Li Lu, morkel, Start_error, vadimr, Yandex 3.0 [Bot], Yandex [Bot]