【TLDR 科技動態 2024年2月23日】Midjourney 6、Apple開發自家AI、Google Gemini Pro 1.5
本週要聞:Midjourney 6增強風格一致性,Apple預告AI功能整合,Google推出多模態AI模型,OpenAI推出影片生成模型Sora
每週科技焦點
Midjourney 6引進Consistent Style、增強理解能力:這項功能讓使用者能在不同圖像間維持一致的美學,提升整體藝術作品的連貫性。不過Midjourney 6需要的運算能力較高,需要更多時間和成本去創作。1234
Apple將推出自家AI:蘋果公司CEO Tim Cook於季度財報電話會議中確認,公司正積極開發自家AI功能,預計今年晚些時候推出。這些功能將整合於iOS、iPadOS和macOS平台。預期的功能包括照片編輯、文字處理增強,以及更智能的Siri等。Apple計劃在其Xcode開發環境中引入一款AI編碼助手,以提高軟體開發者的效率和生產力。這項新工具將能自動完成編碼任務,如預測和填充代碼塊,並可能將代碼從一種編程語言轉換成另一種。這是Apple在AI輔助編碼領域的首次嘗試,將與Microsoft的GitHub Copilot競爭。567
Google 推出Gemini Pro 1.5及開放AI模型Gemma:Google最新發布的Gemini 1.5 Pro是一款多模態、專家混合模型,能處理文本、圖像、音頻和視頻等多種數據類型,其上下文窗口達到100萬token (100萬token等於1.22本《戰爭與和平》),遠超過前代及競爭對手如OpenAI的GPT-4 Turbo和Anthropic的Claude 2。Gemini 1.5 Pro採用專家混合架構,提升了訓練和運行效率,並在多數基準測試中表現優異,能夠一次處理大量信息,如1小時Youtube影片或Lecture錄音。同時,Gemma是一系列輕量級的開放模型,提供不同大小的預訓練和指令調整變體,並支持跨設備運行及優化於Google Cloud和NVIDIA GPUs。891011
OpenAI推出影片生成模型Sora:OpenAI最新發表Sora,這是一款能透過文字指令創造影片的生成式AI模型。Sora採用與GPT類似的Transformer架構,能生成真實與富想像力的場景,包括多角色與特定動作的複雜情境。此模型還能動態化靜態圖像、延伸現有影片,並填補缺失的畫面,產生長達一分鐘的各種風格影片,如照片寫實、動畫或黑白等。儘管Sora功能強大,但在模擬複雜物理現象、理解因果關係及準確維持空間細節上仍有限制。121314
OpenAI CEO Sam Altman正籌集7兆美金 望轉型半導體產業:OpenAI的CEO Sam Altman正與包括阿拉伯聯合酋長國(UAE)政府在內的投資者進行談判,計畫籌集5至7兆美元,希望能大幅擴展全球半導體產業的產能,特別是AI晶片的生產。這項創舉旨在解決目前AI晶片短缺及成本高昂的問題。1516
Stability AI推出Stable Diffusion 3:Stability AI推出了全新Stable Diffusion 3。這是一個重大升級的文字轉圖像生成AI模型,採用了新的架構,旨在從文字提示中生成更高質量的圖像。此版本不僅是迭代,更是基於和OpenAI Sora一樣的Diffusion Transformer架構,提供了更好的圖像質量、性能以及顯著增強的排版能力。1718
Nvidia創紀錄營收 靠AI晶片業務大增:Nvidia公布2024財年第四季營收達221億美元,較前季增加22%,年增驚人的265%。淨利潤為122.9億美元,每股收益4.93美元,較去年同期的14.1億美元、每股57美分,增長769%。這一成績主要得益於伺服器用AI晶片,尤其是Hopper系列的H100晶片銷售強勁。數據中心業務營收達184億美元,占總營收的大部分,年增409%。CFO Colette Kress表示,雖然AI GPU供應改善,但下一代晶片B100預計將供不應求。192021
有時間就讀
Self-Discover: Large Language Models Self-Compose Reasoning Structures
TravelPlanner: A Benchmark for Real-World Planning with Language Agents
