将棋や囲碁ソフトで、棋譜を記憶して、対局する度に強くなっていくものがありますが、もしそのソフトがプロ棋士と対局し続けたらいずれプロに勝つほどの最強にはならないの
でしょうか?
|||
どのような学習を、どのように反映させるかということが問題ではないでしょうか。
どのように反映させるかということなら、定跡手順の登録・修正という方法と、評価関数の調整という方法があると思います。
定跡手順の登録・修正なら、普通に、この手で負けたから、次はあの手を試そう、ということだけなら簡単そうに見えますが、負けにいたる手順の何手目が悪かったかが不明です。
漫然と指させていては効率が悪すぎます。
指定局面で、無数の局数を指さなければなりません。
相手するプロ棋士も大変な重労働ではないでしょうか。
現実には、プロ同士で指した過去の棋譜を解析したほうが効率が良いような気がします。
評価関数の調整という反映のさせ方なら、
評価関数の違うソフト同士を戦わせ勝ったほうを採用するという方法がよく行われていると思います。
最近、囲碁ソフトでは、モンテカルロ法という手法がいま盛んで、ある局面から勝負が付くまでランダムに打たせて、その勝率で、その局面で打つ手を決めています。冗談みたいな手法ですが、これが案外うまく機能するようです。
0 件のコメント:
コメントを投稿