【TLDR 科技動態 2024年2月23日】Midjourney 6、Apple開發自家AI、Google Gemini Pro 1.5

本週要聞：Midjourney 6增強風格一致性，Apple預告AI功能整合，Google推出多模態AI模型，OpenAI推出影片生成模型Sora

Feb 23, 2024

每週科技焦點

Midjourney 6引進Consistent Style、增強理解能力：這項功能讓使用者能在不同圖像間維持一致的美學，提升整體藝術作品的連貫性。不過Midjourney 6需要的運算能力較高，需要更多時間和成本去創作。1234

Apple將推出自家AI：蘋果公司CEO Tim Cook於季度財報電話會議中確認，公司正積極開發自家AI功能，預計今年晚些時候推出。這些功能將整合於iOS、iPadOS和macOS平台。預期的功能包括照片編輯、文字處理增強，以及更智能的Siri等。Apple計劃在其Xcode開發環境中引入一款AI編碼助手，以提高軟體開發者的效率和生產力。這項新工具將能自動完成編碼任務，如預測和填充代碼塊，並可能將代碼從一種編程語言轉換成另一種。這是Apple在AI輔助編碼領域的首次嘗試，將與Microsoft的GitHub Copilot競爭。567

Google 推出Gemini Pro 1.5及開放AI模型Gemma：Google最新發布的Gemini 1.5 Pro是一款多模態、專家混合模型，能處理文本、圖像、音頻和視頻等多種數據類型，其上下文窗口達到100萬token （100萬token等於1.22本《戰爭與和平》），遠超過前代及競爭對手如OpenAI的GPT-4 Turbo和Anthropic的Claude 2。Gemini 1.5 Pro採用專家混合架構，提升了訓練和運行效率，並在多數基準測試中表現優異，能夠一次處理大量信息，如1小時Youtube影片或Lecture錄音。同時，Gemma是一系列輕量級的開放模型，提供不同大小的預訓練和指令調整變體，並支持跨設備運行及優化於Google Cloud和NVIDIA GPUs。891011

OpenAI推出影片生成模型Sora：OpenAI最新發表Sora，這是一款能透過文字指令創造影片的生成式AI模型。Sora採用與GPT類似的Transformer架構，能生成真實與富想像力的場景，包括多角色與特定動作的複雜情境。此模型還能動態化靜態圖像、延伸現有影片，並填補缺失的畫面，產生長達一分鐘的各種風格影片，如照片寫實、動畫或黑白等。儘管Sora功能強大，但在模擬複雜物理現象、理解因果關係及準確維持空間細節上仍有限制。121314

OpenAI CEO Sam Altman正籌集7兆美金望轉型半導體產業：OpenAI的CEO Sam Altman正與包括阿拉伯聯合酋長國(UAE)政府在內的投資者進行談判，計畫籌集5至7兆美元，希望能大幅擴展全球半導體產業的產能，特別是AI晶片的生產。這項創舉旨在解決目前AI晶片短缺及成本高昂的問題。1516

Stability AI推出Stable Diffusion 3：Stability AI推出了全新Stable Diffusion 3。這是一個重大升級的文字轉圖像生成AI模型，採用了新的架構，旨在從文字提示中生成更高質量的圖像。此版本不僅是迭代，更是基於和OpenAI Sora一樣的Diffusion Transformer架構，提供了更好的圖像質量、性能以及顯著增強的排版能力。1718

Nvidia創紀錄營收靠AI晶片業務大增：Nvidia公布2024財年第四季營收達221億美元，較前季增加22%，年增驚人的265%。淨利潤為122.9億美元，每股收益4.93美元，較去年同期的14.1億美元、每股57美分，增長769%。這一成績主要得益於伺服器用AI晶片，尤其是Hopper系列的H100晶片銷售強勁。數據中心業務營收達184億美元，占總營收的大部分，年增409%。CFO Colette Kress表示，雖然AI GPU供應改善，但下一代晶片B100預計將供不應求。192021