Oleg писал(а):kurlemushe, каким образом нейросеть сама формирует правила для оценки позиции?
Это по сути и есть генерация нового знания. Одна из основных задач искусственного интеллекта.
Если грубо:
«Я сыграла с позиции S134643 20,000 раз, из них я выиграла 3,000 раза, проиграла 200 раз. Позиция S134643 клевая, к ней надо стремиться.»
«Я в этой позиции некогда не попадала но моя Монтекарло симуляция говорит что я с большой вероятности выйду к мне приятными ситуациями с хорошим expected return”
«А ещё лучше мне стало, если в позиции S124643 я делала ход из легально доступных ходов A - A34. Моя вероятность выиграть подросла»
В ней ещё есть два концепта
Алчность (greed) -
хе хе
И
Экспериментальность -
Алчность - это выбирать те хода по которым ‘expected’ результат наилучший
Экспериментальность - те хода которые меньше всех ‘visited’
Если правильно помню они экспериментальность два раза в ходе эксперимента снизили - с 0.2 на 0.02, на 0.002. Чем выше алчность тем лучше программа играет но меньше учится. Чем выше экспериментальность тем наоборот.
По идеи алчная Альфа выигрывала бы у экспериментирующей Альфы с начала, но через какое то время экспериментальная Альфа докопила опыт по нестандартными (less visited) ходами и обогнала бы алчную.
Но она реально не понимает и не знает что там территория нужна, или материал. Просто у S345 expected выигрыш по предидущим партиями/новыми доп симуляциями - 0.4. Значит оно хорошее.