【人工知能】「今度はポーカー」人間を下した囲碁AIの開発者
1: 海江田三郎 ★ 投稿日:2016/04/02(土) 09:37:37.89 ID:CAP
http://wired.jp/2016/04/02/poker-playing-artificial-intelligence/
囲碁の勝負では人工知能(AI)が勝ったが、ポーカー用のAI開発には、囲碁にはないさまざまな課題が存在する。人間の動きが予測不可能だという点がそのひとつだ。
しかし、ポーカーを巧みにプレイできるAIの研究は各地で行われている。そしてこのほど、プロの人間のパフォーマンスにかなり「近づいた」というシステムに関する研究論文が発表された。
囲碁で世界チャンピオンに勝利したDeepMind(ディープマインド)の開発にも参加しているデイヴィッド・シルヴァーを含む、ユニヴァーシティ・カレッジ・ロンドンの研究チームは 、「不完全情報ゲームにおけるセルフプレイからの深層強化学習(Deep Reinforcement Learning from Self-Play in Imperfect-Information Games)」という論文(PDF)を公開した。
この研究では、「テキサス・ホールデム」(ポーカーの一種で、米国のカジノでは一般的)と、 単純化したポーカー「ルダック(Leduc)」をプレイできる一連の強化アルゴリズムが作成された。 研究チームによると、このAIは戦略に関する事前知識がなくてもゲームを学習することができ、ひとりで架空の試合を行うことで独学していくという。 論文によると、作成された「ニューラル・フィクティシャス・セルフプレイ(Neural Fictitious Self-Play)」法は、深層強化学習を使用して、「ゲームでの対戦経験から直接学ぶ」と説明している。ニューラルネットワークを活用しつつ、間違いから学習してゲームに勝つ方法を編み出すのだ。
研究者たちによると、作成したモデルは、ルダックではナッシュ均衡(ほかのプレイヤーの戦略を所与とした場合、どのプレイヤーも自分の戦略を変更することによってより高い利得を得ることができない戦略)をシミュレートできた。テキサス・ホールデムでも、それに近い状態を実現できたという。論文筆者である研究生のハインリッヒ氏は『ガーディアン』紙の記事で、「この手法は、戦略が求められる実世界の問題にも適用できると考えています」と語っている。 なお、2015年4月には、カーネギーメロン大学が開発したAIが、初めてテキサス・ホールデムの試合で人間と対戦している(日本語版記事)。
14日間をかけて行われたこの試合では、人間が73万2,713ドル勝って終わった 。ちなみに人間側とAI側が掛けた金額は合計で理論上1億7,000万ドルに上っている。AIが苦戦したのは、掛け金を上げていく人間への対応方法だった。人間による賭けを予測できないということは、AIがゲームを把握できていないということと同じだからだ。またAIが、手のなかにあるカードがなぜゲームに影響を与えるかを理解できないという点も、人間にとってのアドヴァンテージとなった。つまり人間にとって、コンピュータープログラムが弱い手で
ブラフをかけているかどうかを見分けるのは簡単だったのだ。
囲碁の勝負では人工知能(AI)が勝ったが、ポーカー用のAI開発には、囲碁にはないさまざまな課題が存在する。人間の動きが予測不可能だという点がそのひとつだ。
しかし、ポーカーを巧みにプレイできるAIの研究は各地で行われている。そしてこのほど、プロの人間のパフォーマンスにかなり「近づいた」というシステムに関する研究論文が発表された。
囲碁で世界チャンピオンに勝利したDeepMind(ディープマインド)の開発にも参加しているデイヴィッド・シルヴァーを含む、ユニヴァーシティ・カレッジ・ロンドンの研究チームは 、「不完全情報ゲームにおけるセルフプレイからの深層強化学習(Deep Reinforcement Learning from Self-Play in Imperfect-Information Games)」という論文(PDF)を公開した。
この研究では、「テキサス・ホールデム」(ポーカーの一種で、米国のカジノでは一般的)と、 単純化したポーカー「ルダック(Leduc)」をプレイできる一連の強化アルゴリズムが作成された。 研究チームによると、このAIは戦略に関する事前知識がなくてもゲームを学習することができ、ひとりで架空の試合を行うことで独学していくという。 論文によると、作成された「ニューラル・フィクティシャス・セルフプレイ(Neural Fictitious Self-Play)」法は、深層強化学習を使用して、「ゲームでの対戦経験から直接学ぶ」と説明している。ニューラルネットワークを活用しつつ、間違いから学習してゲームに勝つ方法を編み出すのだ。
研究者たちによると、作成したモデルは、ルダックではナッシュ均衡(ほかのプレイヤーの戦略を所与とした場合、どのプレイヤーも自分の戦略を変更することによってより高い利得を得ることができない戦略)をシミュレートできた。テキサス・ホールデムでも、それに近い状態を実現できたという。論文筆者である研究生のハインリッヒ氏は『ガーディアン』紙の記事で、「この手法は、戦略が求められる実世界の問題にも適用できると考えています」と語っている。 なお、2015年4月には、カーネギーメロン大学が開発したAIが、初めてテキサス・ホールデムの試合で人間と対戦している(日本語版記事)。
14日間をかけて行われたこの試合では、人間が73万2,713ドル勝って終わった 。ちなみに人間側とAI側が掛けた金額は合計で理論上1億7,000万ドルに上っている。AIが苦戦したのは、掛け金を上げていく人間への対応方法だった。人間による賭けを予測できないということは、AIがゲームを把握できていないということと同じだからだ。またAIが、手のなかにあるカードがなぜゲームに影響を与えるかを理解できないという点も、人間にとってのアドヴァンテージとなった。つまり人間にとって、コンピュータープログラムが弱い手で
ブラフをかけているかどうかを見分けるのは簡単だったのだ。
7: 名刺は切らしておりまして 投稿日:2016/04/02(土) 09:51:12.20 ID:NG7GDnP8.ne
>>1
記事だけよむと相手のハンドレンジを読むところまではAIは学習できていないようですな
それが出来るようになるともう手がつけられなくなりそうだがw
記事だけよむと相手のハンドレンジを読むところまではAIは学習できていないようですな
それが出来るようになるともう手がつけられなくなりそうだがw
3: 名刺は切らしておりまして 投稿日:2016/04/02(土) 09:42:33.61 ID:jzW/SQ7q.ne
競馬予想はよ
4: 名刺は切らしておりまして 投稿日:2016/04/02(土) 09:44:52.93 ID:VRTbNE4h.ne
強弱以前に配布が悪ければ絶対に勝てないものだろ
5: 名刺は切らしておりまして 投稿日:2016/04/02(土) 09:46:01.11 ID:jWqKjCTE.ne
>>4
勝負は1回じゃないんだよ
勝負は1回じゃないんだよ
8: 名刺は切らしておりまして 投稿日:2016/04/02(土) 09:54:23.34 ID:udx1RbtG.ne
カイジのE-カードは機械的に無作為に出すのが最善策
利根川はそれを知っててカイジに必ずカードを見てから選ばせ、さらに心拍数と脈拍数をモニタリングしてた
利根川はそれを知っててカイジに必ずカードを見てから選ばせ、さらに心拍数と脈拍数をモニタリングしてた
9: 名刺は切らしておりまして 投稿日:2016/04/02(土) 09:55:24.68 ID:KESfvqn5.ne
確率的な最善手を打つだけになりそう
多数回施行すれば勝率は勝ち越しになりそうだが、その場その場、少ない対戦回数なら勝ち越す人間も多いだろうね
多数回施行すれば勝率は勝ち越しになりそうだが、その場その場、少ない対戦回数なら勝ち越す人間も多いだろうね
26: 名刺は切らしておりまして 投稿日:2016/04/02(土) 13:14:11.81 ID:sbCkPcif.ne
>>9
そんなゴミそこらへんの専門学生でも作れるし、ポーカーの体をなしてないただのカモだろ
深層学習で駆け引きを学ぶんだろ
そんなゴミそこらへんの専門学生でも作れるし、ポーカーの体をなしてないただのカモだろ
深層学習で駆け引きを学ぶんだろ
10: 名刺は切らしておりまして 投稿日:2016/04/02(土) 09:58:18.20 ID:bdstKOxP.ne
囲碁や将棋は奥深いけど、盤面がすべて公開されているからな
これが強くても応用の幅は狭い
これが強くても応用の幅は狭い
11: 名刺は切らしておりまして 投稿日:2016/04/02(土) 09:59:35.41 ID:76EwFvBd.ne
ポーカーフェイスな分有利だろ
12: 名刺は切らしておりまして 投稿日:2016/04/02(土) 10:04:05.37 ID:qVfoTsBl.ne
カメラを使って相手の表情を読む研究などもするのかな?
36: 名刺は切らしておりまして 投稿日:2016/04/02(土) 15:18:09.20 ID:L132Oqx8.ne
>>12
これをやれば強くなるな
いいカードのときの表情とわるいカードのときの表情、ブラフをするときの表情とか
表情の細かい所の区別も出来るようになれば最強
これをやれば強くなるな
いいカードのときの表情とわるいカードのときの表情、ブラフをするときの表情とか
表情の細かい所の区別も出来るようになれば最強
41: 名刺は切らしておりまして 投稿日:2016/04/02(土) 15:59:39.83 ID:qVfoTsBl.ne
>>36
応用で犯罪容疑者の取り調べ等に表情を読んでウソをついているかどうか
を判断できるようになるかな~とも思ったが、ちょっと嫌だな。
応用で犯罪容疑者の取り調べ等に表情を読んでウソをついているかどうか
を判断できるようになるかな~とも思ったが、ちょっと嫌だな。
43: 名刺は切らしておりまして 投稿日:2016/04/02(土) 16:15:50.80 ID:5jGEfUa7.ne
>>41
ウソ発見器は警察に都合の悪い証言を嘘認定するための道具だという説もあるし実用化は無理でしょ
しかしポーカーって勝率計算だけでは意外と勝てないものなんだな
ウソ発見器は警察に都合の悪い証言を嘘認定するための道具だという説もあるし実用化は無理でしょ
しかしポーカーって勝率計算だけでは意外と勝てないものなんだな
13: 名刺は切らしておりまして 投稿日:2016/04/02(土) 10:05:13.43 ID:EsuIr27d.ne
AIもブラフするのかな
17: 名刺は切らしておりまして 投稿日:2016/04/02(土) 10:51:13.34 ID:KF2dHVKX.ne
インチキを覚えたら最強だな
18: 名刺は切らしておりまして 投稿日:2016/04/02(土) 11:00:52.86 ID:yCNqWnGm.ne
単にゲームで勝つなら楽勝だろう。
人工知能が感情と理性を獲得し、感情を理性で押さえ込む迄を実現した上で勝たねば真のポーカー勝利者とは言えない。
人工知能が感情と理性を獲得し、感情を理性で押さえ込む迄を実現した上で勝たねば真のポーカー勝利者とは言えない。
19: 名刺は切らしておりまして 投稿日:2016/04/02(土) 11:08:58.02 ID:LFcne+oM.ne
承太郎みたいに「カードはこのままでいい」ってやったら、
コンピュータはどんな反応するんだろう?
コンピュータはどんな反応するんだろう?
20: 名刺は切らしておりまして 投稿日:2016/04/02(土) 11:09:17.49 ID:wUMGW40X.ne
当然表情を示す顔のインターフェースが付いてんだろうな?
それないとフェアとは言えないぞ
それないとフェアとは言えないぞ
22: 名刺は切らしておりまして 投稿日:2016/04/02(土) 11:43:56.21 ID:EPNp5VSO.ne
今度は麻雀だな。
配牌とかツモができる、指を開発しろ
配牌とかツモができる、指を開発しろ
23: 名刺は切らしておりまして 投稿日:2016/04/02(土) 12:24:56.65 ID:rf4kHlLl.ne
それやられると、盲牌も完璧にこなせそうだ…
24: 名刺は切らしておりまして 投稿日:2016/04/02(土) 12:42:37.49 ID:q/SE2thW.ne
AIはポカしないのが強みだからな。
25: 名刺は切らしておりまして 投稿日:2016/04/02(土) 13:00:24.19 ID:lHWFjklH.ne
AI 相手にブラフは効かないから
人間側は苦しくないか?
しかも AI のカウンティングは
正確無比だし…
人間側は苦しくないか?
しかも AI のカウンティングは
正確無比だし…
28: 名刺は切らしておりまして 投稿日:2016/04/02(土) 14:18:20.31 ID:42FehaaZ.ne
5のワンペアでフルハウスのような顔をする。
それがポーカーだろwww
それがポーカーだろwww
30: 名刺は切らしておりまして 投稿日:2016/04/02(土) 14:26:43.60 ID:p45waCqk.ne
AIはより勝率の高い手を打ち続ける事ができるのがメリット。
囲碁では一発勝負で人間トップを下した。
囲碁では一発勝負で人間トップを下した。
31: 名刺は切らしておりまして 投稿日:2016/04/02(土) 14:31:23.97 ID:20MlH7sN.ne
囲碁、もっとやってくれよ。
あれでおしまいだと、消化不良になる。
あれでおしまいだと、消化不良になる。
32: 名刺は切らしておりまして 投稿日:2016/04/02(土) 14:50:06.20 ID:evepegp+.ne
AIに嘘のつき方を教えるって相当難しいんでないかな
33: 名刺は切らしておりまして 投稿日:2016/04/02(土) 14:53:29.44 ID:20MlH7sN.ne
>>32
嘘のつき方を学習させるわけじゃなくて、勝ち方を学習させるわけで。
つまり、「勝てばなんでも良いの」だよ
嘘のつき方を学習させるわけじゃなくて、勝ち方を学習させるわけで。
つまり、「勝てばなんでも良いの」だよ
34: 名刺は切らしておりまして 投稿日:2016/04/02(土) 15:08:58.62 ID:72Y1ZPeG.ne
次の課題は駆け引きの世界か
まだまだ人工知能でも
相場の世界では0.1秒先しか読めないらしい
一ヶ月先の予想はまるで使い物にならないとのこと
人類とターミネーターとの戦争の舞台はマネーゲームになりそうだな
まだまだ人工知能でも
相場の世界では0.1秒先しか読めないらしい
一ヶ月先の予想はまるで使い物にならないとのこと
人類とターミネーターとの戦争の舞台はマネーゲームになりそうだな
38: 名刺は切らしておりまして 投稿日:2016/04/02(土) 15:22:38.23 ID:H0jVYjxE.ne
>>34
高速取引なら、0.1秒先が読めれば必ず勝つよ。
たしか、ヘッジファンドの高速取引の運用利回りは14%とからしい。
高速取引なら、0.1秒先が読めれば必ず勝つよ。
たしか、ヘッジファンドの高速取引の運用利回りは14%とからしい。
35: 名刺は切らしておりまして 投稿日:2016/04/02(土) 15:11:52.19 ID:cZJUXIbt.ne
コール・ドロップも学習できるのか?
37: 名刺は切らしておりまして 投稿日:2016/04/02(土) 15:20:51.23 ID:06zwk/ds.ne
不完全情報にも手を出すのか、
これは勝率を上げるという目的なのかな
これは勝率を上げるという目的なのかな
40: 名刺は切らしておりまして 投稿日:2016/04/02(土) 15:51:46.17 ID:KESfvqn5.ne
問題は掛け金の設定が変わっていくところだな
低レートで勝率稼いでも高レートで偶然負けたら負けだし
低レートで勝率稼いでも高レートで偶然負けたら負けだし
42: 名刺は切らしておりまして 投稿日:2016/04/02(土) 16:14:55.36 ID:Y86Fvj1J.ne
競馬だけは人口知能でも儲けられないだろう。