7 月 21 日消息,據(jù)外媒 Apple Insider 今晚報(bào)道,蘋果公司在一篇新的研究論文中再次強(qiáng)調(diào),蘋果智能模型的訓(xùn)練并未使用任何非法從網(wǎng)絡(luò)抓取的數(shù)據(jù)。
蘋果在新發(fā)布的研究論文中表示,如果出版商不同意其數(shù)據(jù)被抓取用于訓(xùn)練,蘋果公司將不會(huì)抓取這些數(shù)據(jù)。“我們相信,使用多樣且高質(zhì)量的數(shù)據(jù)來訓(xùn)練我們的模型是必要的。這些數(shù)據(jù)包括我們從出版商那里獲得授權(quán)的數(shù)據(jù)、公開可用或開源數(shù)據(jù)集中的數(shù)據(jù),以及通過我們的網(wǎng)絡(luò)爬蟲 Applebot 抓取的公開信息。”
蘋果公司補(bǔ)充道:“我們不會(huì)在訓(xùn)練基礎(chǔ)模型時(shí)使用用戶的私人數(shù)據(jù)或用戶交互信息。我們還采取措施應(yīng)用過濾器,去除個(gè)人身份信息,排除粗俗和不安全的內(nèi)容。”
論文的重點(diǎn)在于蘋果如何執(zhí)行這一抓取過程,特別是 Applebot 系統(tǒng)如何在“網(wǎng)絡(luò)雜亂無章的環(huán)境”中確保能夠獲取有效信息。然而,蘋果也回應(yīng)了有關(guān)版權(quán)的問題,每次都重申蘋果始終尊重版權(quán)持有者的權(quán)益。
IT之家從論文中獲悉,蘋果公司表示:“我們將繼續(xù)遵循最佳的倫理抓取實(shí)踐,包括遵守廣泛采用的 robots.txt 協(xié)議,允許網(wǎng)頁出版商選擇是否讓他們的內(nèi)容被用于訓(xùn)練蘋果的生成式基礎(chǔ)模型。網(wǎng)頁出版商對(duì) Applebot 可以訪問哪些頁面以及如何使用這些頁面擁有細(xì)致的控制,同時(shí)這些頁面仍然能出現(xiàn)在 Siri 和 Spotlight 的搜索結(jié)果中。”
這些“精細(xì)控制”顯然是基于長期使用的 robots.txt 系統(tǒng)。其并非標(biāo)準(zhǔn)的隱私保護(hù)機(jī)制,不過仍被廣泛采用,網(wǎng)頁出版商通常會(huì)在網(wǎng)站上放置一個(gè)名為 robots.txt 的文本文件。
如果 AI 系統(tǒng)看到該文件,它就應(yīng)該避免抓取該站點(diǎn)或文件中列出的特定頁面。“遵守 robots.txt 協(xié)議很容易,而 OpenAI 也曾表示它會(huì)遵守這一協(xié)議。”