【人工智能】Mistral.AI CEO Arthur Mensch 访谈 | 强化学习不再重要 | 大模型的效率与规模 | 开源与商业化的平衡 | 全球化

2024 ж. 25 Нау.
16 837 Рет қаралды

上周,在Figma举办的一场活动中,硅谷知名个人创业者埃拉德·吉尔Elad Gil与Mistral创始人亚瑟·门施Arthur Mensch进行了一场访谈,从讲述Mistral的成立及产品的快速研发谈起,重点涉及大模型自我学习能力、大模型推理能力、大模型效率及规模、对AI监管的看法以及开源模型与商业模型的平衡等。今天大飞就来跟大家分享一下这次访谈的精彩内容。
原视频链接: • Fireside Chat w/ Mistr...
#mistral #人工智能 #gpt4

Пікірлер
  • 我认为亚瑟说的强化学习,不再重要,主要说的是基于人类反馈的强化学习 RLHF,因为模型能力越来越强,下个阶段应该是以自监督学习为主的 RLAIF,并不是否定整个强化学习。

    @bestpartners@bestpartnersАй бұрын
    • 一个正在研究强化学习方向的研一学生,看了视频标题心头一惊

      @user-yw7io4mr4e@user-yw7io4mr4eАй бұрын
  • 宝藏频道

    @yunhanjia6690@yunhanjia669014 күн бұрын
  • Part 1): 任何一條神經網路也是一個多變數廻歸分析,也是統計學迴歸分析的一環。我在40年前攻讀數理統計就涉及這些人工智能及多變量(含時間變量)的廻歸分析(向量/ 矩陣/ 線性代數/ 機率/ 取様….), 以便對一些事件做出精准智能的預測。 所謂自我學習或機器學習也只是用後面收集或模擬出的更新的資料去修正原先迥歸分析的杈重或係數參數而已。 而深度學習也只是處理巨量變數時,為了避免僅用單層機器學習進行巨量變數而需要解大矩陣導致對巨量平行計算的需求,進而變換設計成每層適量變數,建立多層次的機器學習修正。 40 年前人工智慧就是數理統計的一大課題。馬斯克說得一點都沒錯-目前的人工智慧全部建立在數理統計的基礎上。從那時開始就不斷有各行各業的數據分析專業人士來我們數理統計這參與並學習迥歸分析。他們回去後就不斷建立了屬於他們行業內的多條神經網絡(行業內的迥歸模型)。 在那時從事這類研究工作的數理統計的博士生全部被限制在晚上12 時過後才能使用國家級的超級計算機,否則我們兩三𠆤人一上線全部就大當機。我們那時也發展出一套類似挖礦機的方式,利用所有大量閒置的𠆤人電腦來提供其微小的算力,進而整合這些龐大的所謂分散型算力,但受限那時網路的不發達,很難把規模擴大。 近幾十年隨計算機能力不斷提升,目前市面AI 所謂大模型,主要是著力於面對”服務大衆需要”的所謂生成式/ 語言等等的智能協作服務。就是把百行百業各個領域等等數以千萬千億計資料進行迥歸模型的建立及修正(所謂自我深度學習)而形成龐大的神經網絡。 因此也不用太誇大眼下的AI , 這些早在40 年以前都已建構了理論基礎,而智能恊作早在各專業領域都已發展的非常完善,只是因過去算力不足只能在各自專業領域進行中小規模(變量數較少)的神經網絡建構。例如氣象預報就是早期最明顯的利用氣象專用超高速大電腦發展為成熟預測能力(AI)的例子,股票買賣決策也是智能恊作(AI/CIC)的典型。 ”把簡單數學上使用即存的規模資料或電腦模擬資料進行所謂的㢠歸分析/模型建構並藉此模型做可行的智能預判或恊作,包裝成醫學上複雜尚未完全掌握的神經網路的機制及作用原理”,不但瓢竊了數理統計在AI 發展的絕對地位,實在也是在誤導整𠆤AI 的發展。也會造成眼下一般人的過度期待和焦慮。應將AI 改稱作” CIC:Computer Intelligent Collaboration , 電腦智能恊作, 更為恰當。 何謂知識? 由經驗總結後( 抽象具體化) ,就形成知識(用數字分析的表達方式就是去建構知識模型)。 形成知識後就可複製/ 傳承/ 預測/ 擴展。因此目前的AI 發展,就是在循人類文明發展至為重要的其中的一𠆤過程-只是採用了數位化的方式,將經驗知識化了。 目前的AI 只是以數理統計為手段及方法論,以資訊及計算機工程為工具,進行數位型的經驗知識化的過程。 人類有許多其他不同型態非常複雜的智慧,這種僅止於知識數位化的智慧, 其實離人類多型態的智慧還有非常巨大的距離。 另外, 眼下AI 服務於大衆的大模型的各種數學理論及所謂的機器學習(參數修正)及深度學習(參數及變數的多層次增加及修正)。 早在40 年前相應的數學理論都已完備(但落實到實際應用上,如何解1 億 by 1 億的聯立方程組( 行列式計算), 這需要極其龐大的平行計算能力,在那時期是完全不可能的) 。 其實AI 最重要最關鍵的是各行各業各領域的專家組,而不是這些AI 編程的公司( 他們只是依需求用已完善的數學統計理論加以電腦編程後,利用巨大算力去幫忙找出合適的模型並不斷予以完善)。 只有各行各業各領域的專家組才知道在茫茫大海中的資料及訊息中,那些因素才是其所涉領域的関鍵變數,那些變數資料才是可做為他們收集分析建立模型的。例如氣象學/經濟學/股票買賣智能決策/ 醫學/ 藥學/ 農業生產/ 基因工程/ 化學工程/自動駕駛/飛彈防空系統/圖像識別及處理/ 建築結構力學/小樣品模擬模型(核爆/飛機失事)………..等等。 此外服務大衆的語言學也是極度複雜的一門學課,其可能的變量變因會高達幾千萬𠆤, 再加上多層級過濾學習修正的模式,因此其涉及的變數算力就以億計, 所以才稱做大模型。 要取那些因素進行那一層分析,主要都是語言學家在主導。 而這些眼下的AI 應用的公司, 只是利用已發展完備的數學統計理論在不同領域專家組的指導下,去有效的進行數拈收集整理分析並進而建立一個特定領域的模型,作為該特定領域的電腦智能恊作工具。

    @janchangchou777@janchangchou777Ай бұрын
    • lol well said. It’s all about the math and quality of data sets.

      @yli8888@yli8888Ай бұрын
    • 數理統計在AI時代只能算基礎,但不是整個AI發展最"核心"的部分了。 主要是數理統計的發展應用場景是"推論"而非"運算",如今AI發展更偏向運算的部分,神經網路架構, 最佳化演算法, 晶片設計架構配合深度學習運算,等等,這些已經超出"數理統計"的範疇了。 這樣想好了,在設計Transformer架構的時候,難道是參照"UMVUE"原則去設計的? You would know what I'm saying if you're truly from a Statistical Background.

      @l501l501l@l501l501lАй бұрын
  • 典型的听的风就是雨,Q*你不会不知道吧,well guess what,深度学习是其重要的一环,搞技术的请起码有自己的深度思考,不能光看表面牵着鼻子走。强化学习未来地位一定会更加重要。

    @dayone1992@dayone1992Ай бұрын
  • 《自主或非自主智能学习型器人,不可修改【理性作为判断筛选芯片指令】制程与控管》 自主或非自主智能学习型机器人,所有不可预知自主学习意识或念头作为前,都必须经过不可修改,【理性作为芯片判断指令筛选】,才能做工! 【机器人理性作为判断筛选芯片指令】 除非机器人受到攻击,自保趋避;或被动反击发出触身电击阻却作为外: 1、不可主动做出伤害人类人身作为! 2、可阻却任何暴力人类或生物或物品,攻击伤害人类作为阻挡保护! 3、为保护人类生命,可破坏任何最少代价与自身能力可行阻挡物,带领带领或背负... 无法行动人类,趋避危险标的或地区! 4、自卫攻击型机器人,【只能限定在固定防守范围,要塞或... 区域活动做工】;【且需求单位必先申请核准防卫范围】,配置不可修改,另外专业制成,【高阶理性作为判断筛选指令芯片!】 5、机器人做工控管芯片组合的黑盒子功能控管: 机器人不同做工,【理性作为判断筛选芯片指令,所制成黑盒子】;军事或保全用途,由国家设置专门工厂生产;民间用途由国家核可专门民间工厂生产,都须严格测试作工控管,管理单位随机抽查测试,黑盒子自主控管功能! 制约机器人理性作工芯片黑盒子,出场贩售组装连接机器人工智能后,【任何人尝试开启黑盒子,更换或破坏芯片...; 或妄图避开黑盒子控管,更改人工智能意识、念头做工指令控管回路】! 【黑盒子会自主爆炸,摧毁自主或非自主智能学习型机器人,人工智能运作重要功能】,瘫痪机器人做工载体成【植物人!】 【地球生态不可逆极端恶化袭杀,未来残存人类后代 进入高阶虚拟现实地球世界学校】 后来总成学习与觉醒说法者 尧舜敬启! PS、 加油祖国,【先发展简单民生家用需求,人型机器人为实践,取得丰厚市场利润后】! 再不断投资精进,更多功能与精准专业用途机器人,厚积勃发!

    @user-cp3oi9tq5q@user-cp3oi9tq5qАй бұрын
  • 巧了,第一个

    @IDhaBD@IDhaBDАй бұрын
  • RLHF是主流大语言模型的训练框架,譬如chatgpt,就是基于增强学习😊

    @haolang2134@haolang2134Ай бұрын
  • 看题目来的 结果一笔带过

    @bwnjnoei6245@bwnjnoei6245Ай бұрын
  • 我倒不这样以为。强化学习在复杂任务建模上比起其他方式要“简洁容易”的多,或者更符合“第一性原理”,只是训练起来更复杂更难以收敛。从探索和经验的独特能力而言,在未来还是会有更深入的应用,当然也许是某一种变体。 从我的角度看,OpenAI之所以在大语言模型上有如此成就,和他之前在强化学习上的积累有直接的关系,几年前放出来的开源框架就有baselines、spinningup和各种算法,在Google那边就不大一样了,搞了几个虎头蛇尾。

    @k19820721@k19820721Ай бұрын
    • 強化學習有個很大的問題,就是反饋信號太小,所以很難訓練,所以通常都在模擬環境下訓練,如此一來,強化學習的優勢也就更少了

      @YorkJong@YorkJongАй бұрын
    • 新的model可以基于以前model上开发,不需要在搜集人工数据和SFT了。 Alignment可以做, 不过做的方法会不同

      @qingsongyao4974@qingsongyao4974Ай бұрын
    • 他们不搞多模态,当然就不关注强化学习了。RL的优势是构建“世界模型”,而mistral这个团队还是搞传统机器学习的思路,这一点倒是跟马斯克搞FSD一样。

      @zhchbob@zhchbobАй бұрын
    • @@qingsongyao4974 是这样的。 我认为强化学习对于AGI之所以重要有很多的因素,举几点: 1. 大语言模型的能力已经强大到人们很难设计对应的评估方法,尤其是一种可以和人类“对齐”的评估方法,所以需要将问题映射成目标驱动的。 2. 当下的大语言模型还是无状态的,虽然现在都在卷更大的上下文窗口,但这无法解决根本性问题。如果将上下文转换成观察环境的转化,观察环境的转化再转化成智能体的记忆就可以了,AGI总是需要记忆和长链思维的。 3. 不通过“体验”,智能体是无法有更内聚的智能的,或者说没有办法理解“价值”和“自我”这样的概念。通过强化学习,智能体能“深思-验证”或者“深思-实操-验证”,多个步骤的思考,去通过搜索或调用API来执行验证,或者还可以通过执行自己编写的代码做一些中间步骤等等。 4. 未来的大模型肯定还是一个“在线”的“活”智能代理,而不是一个冻结状态的“强大函数”。 5. ... 上面的这些基本是基于现有大模型的能力就可以通过强化学习来实现的,比如说OpenAI的Q*,很可能上面说的现在已经有一些都实现了。

      @k19820721@k19820721Ай бұрын
    • @@k19820721 kzhead.info/sun/lpebXa55iqGGnGg/bejne.html Andrej也是这么说的 RLHF在长期上是错误的, 因为人类的反馈不是好的reward function

      @qingsongyao4974@qingsongyao4974Ай бұрын
  • 用7b模型去理解中文實在太難, 還有一個問題就是最多人使用的是簡體字不是繁體, 簡體字的字體被嚴重簡化, 折碼之後的意思已經失去了, 繁體區在訓練模型方面的好像沒有什麼作為, 不太期望會有理解中文能力好的模型出現.

    @looseman@loosemanАй бұрын
  • 我也比较看好 小模型

    @mengmeng4312@mengmeng4312Ай бұрын
  • 相比CV NLP,强化学习确实没那么耀眼,特别是商业领域。期待有好的商业应用能让RL也迎来大发展。

    @ZelinWan@ZelinWanАй бұрын
  • 👍👍👍

    @jianguowu2042@jianguowu2042Ай бұрын
  • 背景好多啦

    @wonmanintp@wonmanintpАй бұрын
  • Can you please add English subtitle 😊

    @dl0_0@dl0_0Ай бұрын
    • KZhead has automatic subtitle translation function

      @bestpartners@bestpartnersАй бұрын
  • 不要掉入西方 “强化学习不重要” 的大陷阱! 他们目前教育水平越来越差,一些工程精神有问题等等。一星期工作又想越来越少而这些西方一些人又抱怨进步很慢。。 世界 尤其是中华需要根据自己的科学分析,客观自信加强学习才是正确。另外如果迷糊跟着他不努力学习,不不努力培养人,人家需要时断供 那就危险世界了。

    @limlim4251@limlim4251Ай бұрын
  • 目前还是fine-tune

    @wubinmatthew@wubinmatthewАй бұрын
  • 我觉得强化学习很有意思。

    @meow-mi333@meow-mi333Ай бұрын
    • 但是你对强化学习一无所知一窍不通

      @octoberdht@octoberdhtАй бұрын
    • @@octoberdht基于nn 实现代理的主流方法有哪几种 离散分布除了基于Gumbel trick 还有哪些方法

      @bwnjnoei6245@bwnjnoei6245Ай бұрын
    • @@bwnjnoei6245 什么傻屌玩意...

      @octoberdht@octoberdhtАй бұрын
  • kzhead.info/sun/lpebXa55iqGGnGg/bejne.html Andrej也是这么说的 RLHF是错误的方法, 因为人类的反馈不是好的reward function

    @qingsongyao4974@qingsongyao4974Ай бұрын
  • 没带字幕有点不好做笔记

    @zhilongsong8978@zhilongsong8978Ай бұрын
    • 有外挂字幕的

      @bestpartners@bestpartnersАй бұрын
  • 正在用这公司的8*7B

    @sonygodx@sonygodxАй бұрын
  • 他说的对, M的法语能力超过Claude3

    @simonpeter9617@simonpeter9617Ай бұрын
  • 那就请你用LLM打败alphago再说吧😂

    @user-mb3mf2og9k@user-mb3mf2og9kАй бұрын
  • 眼角是老婆打的吗?

    @user-kx9df2ii9t@user-kx9df2ii9tАй бұрын
    • 感觉是眼镜坏了

      @haolang2134@haolang2134Ай бұрын
  • 法国人很有趣,和昂撒玩不到一块去

    @corgirun7892@corgirun7892Ай бұрын
KZhead