如果說人工智能技術(shù)已經(jīng)在自動駕駛和其他學(xué)習(xí)人類日常行為的領(lǐng)域擁有出色的表現(xiàn),那么現(xiàn)在人工智能已經(jīng)開始進一步學(xué)習(xí)如何應(yīng)對未知的環(huán)境了。而這就是機器學(xué)習(xí)技術(shù)的意義,需要對現(xiàn)實世界的例子進行學(xué)習(xí),從而提升人工智能技術(shù)的能力。
不過,目前為止大多數(shù)用來訓(xùn)練機器學(xué)習(xí)技術(shù)的環(huán)境都是虛擬的,而現(xiàn)在來自于英國微軟研究院的一組科學(xué)家開始使用游戲回放數(shù)據(jù)訓(xùn)練人工智能技術(shù)解決復(fù)雜問題的能力,而這對于這一現(xiàn)狀的改變起到了很大的作用。
研究人員利用《Atari 2600》這款經(jīng)典的游戲來為深度機器學(xué)習(xí)系統(tǒng)提供真實世界的數(shù)據(jù),額這個系統(tǒng)通過實驗和反復(fù)的錯誤糾正,來強化學(xué)習(xí)技術(shù)適應(yīng)未知環(huán)境。在研究中這些數(shù)據(jù)正是研究人員口中“最大、最多樣化的數(shù)據(jù)庫”,同時現(xiàn)在這些數(shù)據(jù)已經(jīng)被公開。
這些數(shù)據(jù)都是基于Web版Arari 2600模擬器得出,而這個游戲正是使用了Javascript語言和Javatari工具編寫。研究人員使用了一種游戲化的眾包模式,并且利用人們的意愿來玩游戲,并且獲得游戲中的獎勵,并且對所有玩家的表現(xiàn)進行排名。
研究人員收集和分析了大約970萬幀,約合45小時的游戲時間,通過五個不同的游戲嘲和不同的難度來創(chuàng)造不同的復(fù)雜程度,包括視頻彈球、Qbert太空入侵者、吃豆人和Montezuma復(fù)仇等。
從目前的測試結(jié)果來看非常順利,通過將信息輸入到系統(tǒng)中,人工智能能夠像普通游戲玩家一樣活得游戲中的獎勵和分數(shù),研究人員通過這種數(shù)據(jù)訓(xùn)練來證明機器學(xué)習(xí)系統(tǒng)的價值。
展望未來,研究人員希望利用更專業(yè)的數(shù)據(jù)來提高機器學(xué)習(xí)的訓(xùn)練能力,讓人工智能在應(yīng)對未知狀況時采取更有效的措施。
投稿郵箱:chuanbeiol@163.com 詳情請訪問川北在線:http://m.fishbao.com.cn/