大模型必读｜A16z精心整理的最全AI学习资料（全文中译+链接）-品玩

硅谷以善于研究和喜爱分享著称的投资机构A16z（Andreessen Horowitz）最近发布了一份经过详细筛选并配有简介及链接的《AI Canon》，在这个所有人为AI而焦虑和惊异的时节，这份指南可以成为真正想要通过学习来缓解焦虑的人们的良药。

我们全文翻译了这份指南，并且，请ChatGPT对这份指南做了一下必读推荐。

这篇名为"AI Canon"的文章在几个方面超越了类似的其他资源总结文章：

全面性：文章不仅提供了一份详尽的学习资源清单，还包括了对这些资源的深入解读和分析。这使得读者不仅能了解到哪些资源存在，还能理解这些资源的重要性和应用场景。
实用性：文章提供了一系列实用的指南，如如何使用大型语言模型（LLMs）进行构建，这对于希望在实践中应用AI的读者来说非常有价值。
前瞻性：文章关注的是推动当前AI浪潮的关键技术，如变压器和潜在扩散模型，这使得读者能够了解到最新的技术趋势。

为什么我们有必要去阅读由A16z发布的这篇文章？

A16z，全称Andreessen Horowitz，是一家知名的风险投资公司，他们在科技创新领域有着深厚的背景和丰富的经验。他们的文章通常都是基于深入的研究和对行业的深刻理解，因此具有很高的权威性和参考价值。此外，A16z也以其对新兴技术趋势的敏锐洞察力而闻名，他们的文章往往能够帮助读者把握最新的技术动态，提前做好准备。因此，阅读A16z发布的这篇文章，无疑是获取AI领域最新知识和洞见的重要途径。

—— ChatGPT

以下为全文中译及链接：

人工智能领域的研究正以指数级速度增长。对于AI专家来说，跟上所有新发表的内容已经变得很困难，对于初学者来说更是难以知道从何开始。

因此，在本篇文章中，我们将分享一份我们依赖的经过精选的资源清单，以便更深入了解现代人工智能。我们将其称为“AI经典文献”，因为这些论文、博客文章、课程和指南在过去几年对该领域产生了巨大影响。

我们首先从对Transformer和潜在扩散模型的简明介绍开始，它们是当前人工智能浪潮的推动力。接下来，我们深入介绍技术学习资源；使用大型语言模型（LLM）构建的实践指南；以及对人工智能市场的分析。最后，我们还包括了一份里程碑式研究成果的参考列表，其中包括Google于2017年发布的论文《Attention is All You Need》——该论文介绍了Transformer模型，并引领了生成式人工智能时代的到来。

基础介绍：

这篇文章不需要专业背景，就可以帮助你快速了解现代人工智能浪潮中最重要的组成部分。

软件2.0：Andrej Karpathy是最早清楚地解释为什么新的人工智能浪潮真正重要的人之一，他在2017年就给出了自己的观点。他的论点是-人工智能是一种全新而强大的编程计算机的方式。随着大型语言模型的迅速改进，这个论点被证明是有预见性的，并且为人工智能市场的发展提供了一个良好的思维模型。

GPT现状：同样来自Karpathy，这是一个非常易于理解的解释，介绍了ChatGPT / GPT模型的工作原理、如何使用它们以及研发可能采取的方向。

ChatGPT在做什么，以及为什么它有效？：计算机科学家和企业家Stephen Wolfram从基本原理出发，提供了一份长而易读的解释，介绍了现代AI模型的工作原理。他回顾了早期神经网络发展到今天的大型语言模型和ChatGPT的时间线。

模型演变解释：Dale Markowitz撰写的这篇文章是对问题“什么是大型语言模型(LLM)，它是如何工作的？”的更简短、更直接的回答。虽然文章是关于GPT-3的，但仍然适用于更新的模型。

Stable Diffusion的工作原理：这是对上一篇文章的计算机视觉类比。Chris McCormick用通俗易懂的语言解释了Stable diffusion是如何工作的，并且普遍培养了人们对文本到图像模型技术理解的直觉。如果您需要更温和的介绍，可以查看r/StableDiffusion中的这个漫画。

基础学习：神经网络、反向传播和嵌入

这些资源提供了对机器学习和人工智能中基本概念的基本理解，从深度学习的基础知识到来自AI专家的深度课程。

深度学习简介：核心概念：这是Nvidia的一个由四部分组成的系列文章，介绍了2015年实践中的深度学习基础知识，对于刚开始学习人工智能的任何人来说，这是一个很好的资源。

实用的深度学习教程：这是一门全面而免费的课程，通过实际例子和代码讲解了人工智能的基础知识。

Word2vec解释：这是一个简单介绍嵌入和标记的入门教程，它们是大型语言模型（以及所有语言模型）的构建模块。

是的，您应该了解反向传播：如果您想要了解更多细节，可以阅读更深入的关于反向传播的文章。如果您还想进一步了解，可以尝试在YouTube上观看斯坦福大学的CS231n课程讲座。

斯坦福大学CS229：由Andrew Ng主讲的机器学习入门课程，涵盖机器学习的基础知识。

斯坦福大学CS224N：由Chris Manning主讲的深度学习自然语言处理（NLP）课程，涵盖了从NLP基础知识到第一代大型语言模型（LLMs）的内容。

技术深入探究：理解Transformer和大型模型

网上有大量的资源试图解释大型语言模型（LLMs）的工作原理。以下是我们推荐的一些资源，面向不同的读者和观众群体：

《The Illustrated Transformer》：由Jay Alammar提供的对Transformer架构更为技术性的概述。

The Annotated Transformer"：这是一篇深入的文章，如果您想基于会编写源代码的水平理解Transformer，这篇文章会帮助您。需要一些PyTorch的知识基础。

让我们构建GPT：从头开始，在代码中一步步实现：针对工程师们，Karpathy进行了视频演示，展示了如何构建GPT模型。

The Illustrated Stable Diffusion：对潜在扩散模型（Stable Diffusion）的介绍，这是最常见的用于图像生成的生成式人工智能模型类型。

RLHF：从人类反馈中进行强化学习：Chip Huyen解释了RLHF，它可以使LLMs以更可预测和人性化的方式运行。这是ChatGPT等系统中最重要但理解最少的方面之一。

从人类反馈中进行强化学习：计算机科学家和OpenAI联合创始人John Shulman在这个出色的演讲中深入探讨了LLMs与RLHF的当前状态、进展和局限性。

Stanford CS25: Transformers United：这是关于Transformer的在线研讨会，由斯坦福大学主办。

Stanford CS324: Large Language Models：由Percy Liang、Tatsu Hashimoto和Chris Re主讲，涵盖大型语言模型的广泛技术和非技术方面的课程。

预测性学习, NIPS 2016: 在这个早期的演讲中，Yann LeCun为无监督学习作为大规模AI模型架构中的关键要素提出了有力的论点。在19:20处跳到著名的蛋糕类比部分，这仍然是对现代AI最好的模型之一。

人工智能技术应用于特斯拉自动驾驶: 另一个经典的Karpathy演讲，这次涵盖了特斯拉数据收集引擎。从8:35开始是一个有关为什么长尾问题（在本例中是停止标志检测）如此困难的人工智能讲述。

标度假设: 大语言模型最令人惊讶的一个方面是，扩大规模——增加更多的数据和计算资源——会不断提高准确性。GPT-3是第一个清楚证明这一点的模型，Gwern的文章很好地解释了其背后的直觉。

Chinchilla’s wild implications: 这篇文章被称为对重要的Chinchilla论文的解释（请参见下文），它深入探讨了LLM扩展中的一个重要问题：我们是否正在耗尽数据资源？这篇文章在上面的文章基础上进行了扩展，并对扩展规律提供了新的观点。

关于大语言模型的总体研究：全面介绍了当前大型语言模型，包括发展时间线、模型规模、训练策略、训练数据、硬件等等。

Sparks of artificial general intelligence: GPT-4的早期实验：微软研究团队对GPT-4的能力进行了早期分析，GPT-4是目前最先进的LLM，相对于人类智能进行了对比。

人工智能的革命: How Auto-GPT unleashes a new era of automation and creativity: 介绍Auto-GPT和AI代理的一篇文章。这项技术还处于早期阶段，但理解它非常重要，它利用互联网访问和自我生成的子任务来解决特定复杂问题或目标。

Waluigi 效应: 名义上是对“Waluigi效应”（即为什么LLM行为中出现“替代自我”）的解释，但它主要作用是对LLM提示理论的深入剖析。

这些资源提供了对各种方面的深入理解，涵盖了GPT模型、LLMs、扩展性、数据资源和AI应用等领域的相关内容。它们适用于对这些领域的技术细节和进展感兴趣的读者。

使用大型语言模型（LLMs）进行构建的实用指南

一个以LLMs为核心的全新应用程序堆栈正在崭露头角。虽然目前关于这个主题的正式教育资源还不是很多，但我们整理了一些我们找到的最有用的资源。

使用GPT3、LangChain和Python构建GitHub支持机器人：这是关于现代LLM应用程序堆栈的最早公开解释之一。其中的一些建议可能有些过时，但在许多方面它推动了广泛采用和实验新的AI应用程序。

构建用于生产的LLM应用程序：Chip Huyen讨论了构建大语言模型应用程序的许多关键挑战，如何解决这些挑战以及哪些用例是最合适的。

Prompt工程指南：对于任何编写大语言模型提示的人（包括应用程序开发人员），这是最全面的指南，提供了一些热门模型的具体示例。如果您希望轻松、更具对话性的处理方式，请尝试Brex的Prompt工程指南。

Prompt注入：最糟糕的情况是什么？Prompt注入是一种潜在的严重安全漏洞，潜藏在大语言模型应用程序中，目前还没有完美的解决方案。Simon Willison在这篇文章中对这个问题进行了权威的描述。Simon在AI方面的所有文章几乎都是出色的。

OpenAI Cookbook：对于开发人员来说，这是使用OpenAI API进行工作的指南和代码示例的权威集合。它会不断更新以提供新的代码示例。

Pinecone学习中心：许多大语言模型应用程序基于向量搜索范式。尽管被品牌厂商包装，Pinecone的学习中心提供了一些关于如何构建这种模式的最有用的指导。

LangChain文档：作为大语言模型应用程序的默认编排层，LangChain连接了堆栈中的几乎所有其他部分。因此，他们的文档是整个堆栈以及各个部分如何配合的真正参考。

课程：

LLM Bootcamp：由Charles Frye、Sergey Karayev和Josh Tobin主讲的一个实践课程，用于构建基于大语言模型的应用程序。

Hugging Face Transformers：使用Hugging Face Transformers库中的开源大语言模型的指南。

Chatbot Arena：由加州大学伯克利分校的团队领导的一种类似Elo积分制的热门LLM排名系统。用户也可以通过比较模型进行头对头比赛来参与其中。

Open LLM Leaderboard：由Hugging Face提供的排名，比较开源LLM在一系列标准基准和任务上的表现。

市场分析：

我们都为生成式人工智能所创造的成果感到惊叹，但仍然有许多关于这一切意义的问题。哪些产品和公司将生存和繁荣？艺术家们将会面临什么情况？公司应该如何利用它？它将如何影响就业和整个社会？以下文章可以回答部分问题。

A16z关于这些问题的思考：

谁拥有生成式人工智能平台？：这是我们对生成式人工智能基础设施、模型和应用层的价值积累以及可能积累的核心评估。

应对高昂的AI计算成本：详细分析为什么生成式人工智能模型需要如此多的计算资源，以及如何在需求旺盛的市场中获取这些资源（即以正确的成本获得正确数量的图形处理器）。

艺术并未消亡，而是由机器生成：探讨人工智能模型如何比软件开发等领域更快地改变被认为是自动化的最后阵地的创意领域。

生成式人工智能在游戏中的革命：我们游戏团队对如何轻松创建高度详细图形将如何改变游戏设计师、工作室和整个市场的分析。我们游戏团队的这篇后续文章专门讨论了AI生成内容与用户生成内容的出现。

对于B2B生成式人工智能应用：对大语言模型在B2B企业应用领域如何演变的预测，重点在于总结信息最终比产生文本更有价值。

金融服务业将比你想象中更快地接受生成式人工智能：论述金融服务行业准备利用生成式人工智能提供个性化消费体验、成本效益高的运营、更好的合规性、改进的风险管理以及动态预测和报告。

生成式人工智能：下一代消费者平台：探讨生成式人工智能在从治疗到电子商务等各个领域对消费者市场产生影响的机会。

要在医疗保健领域取得真正的差异，人工智能需要像我们一样学习：人工智能有望彻底改变我们对预防和治疗疾病的看法。然而，要真正改变从药物研发到护理交付的过程，我们应该投资于创建一个像我们最优秀的医生和药物研发人员今天所做的那样学习的“专家”人工智能的生态系统。

新的工业革命：生物与人工智能：人类历史上的下一次工业革命将是由人工智能驱动的生物学革命。

其他研究机构的观点：

关于基础模型的机遇和风险：斯坦福基础模型概述论文。这篇长篇且有主观观点的论文对基础模型的概念产生了重要影响。

人工智能现状报告：每年一次的AI综述报告，涵盖了人工智能领域的技术突破、行业发展、政治/监管、经济影响、安全性以及未来预测等方面的内容。

GPTs即GPTs：对大型语言模型对劳动力市场影响潜力的早期研究。这篇来自OpenAI、OpenResearch和宾夕法尼亚大学的研究人员的论文预测：“大约80%的美国劳动力可能会有至少10%的工作任务受到LLM引入的影响，而大约19%的工人可能会看到至少50%的工作任务受到影响。”

深度医学：人工智能如何使医疗恢复人性：埃里克·托普尔博士揭示了人工智能如何潜在地使医生摆脱耗时的任务，从而有助于恢复医患关系的人性化。这个医生与患者之间的联系得到了恢复。

具有里程碑意义的研究成果

现在我们看到的许多令人惊叹的人工智能产品，大多是来自大公司和顶尖大学的专家的研究成果。最近，我们还看到了个人和开源社区开展的一些令人印象深刻的工作，他们通过创建自动化代理或将模型移植到更小的硬件上，使流行项目朝着新的方向发展。

这里是许多这些论文和项目的集合，供那些真正想深入了解生成式人工智能的人使用。（对于研究论文和项目，我们还包括了相关博客文章或网站的链接，以便在可能的情况下更高层次地解释事物。我们还包括了原始出版年份，这样您就可以追踪基础研究的发展。）

新的大语言模型：

请注意（2017年）-Attention is all you need(2017)：来自Google Brain的原始Transformer工作和研究论文，开启了一切。（博客文章）

BERT：深度双向Transformer的预训练语言理解（2018年）：首批公开可用的大语言模型之一，至今仍有许多变体在使用中。（博客文章）

通过生成式预训练改进语言理解（2018年）：OpenAI的第一篇论文，涵盖了GPT架构，成为大语言模型领域中主导的发展路径。（博客文章）

语言模型是几乎零样本学习者（2020年）：OpenAI的论文，描述了GPT-3和现代大语言模型的仅解码器架构。

训练语言模型通过人类反馈遵循指令（2022年）：OpenAI的论文解释了InstructGPT，该模型利用人类反馈来训练模型，从而更好地遵循提示中的指令。这是使大语言模型对消费者可用的关键因素之一（例如通过ChatGPT）。（博客文章）

LaMDA：用于对话应用的语言模型（2022年）：谷歌专门为人类和聊天机器人之间在各种话题上进行自由流畅对话而设计的模型。（博客文章）

PaLM：通过路径扩展语言建模（2022年）：谷歌的PaLM利用了一种新的系统，在数千个芯片上训练大语言模型，并展示了随着模型规模的扩大而超出预期的改进。（博客文章）此外，请参阅PaLM-2技术报告。

OPT：开放预训练Transformer语言模型（2022年）：OPT是表现出色的全面开源LLM之一。这款拥有1750亿参数的模型发布附带了代码，并且是使用公开可用的数据集进行训练的。（博客文章）

训练计算最优的大型语言模型（2022年）：Chinchilla论文。它提出了大多数模型是数据受限而不是计算受限的观点，并改变了关于LLM扩展的共识。（博客文章）

GPT-4技术报告（2023年）：来自OpenAI的最新、最伟大的论文，以保密程度而闻名！（博客文章）。GPT-4系统卡片为我们了解OpenAI如何处理幻觉、隐私、安全和其他问题提供了一些线索。

LLaMA：开放且高效的基础语言模型（2023年）：来自Meta的模型，（几乎）引发了开源LLM革命。与许多最佳闭源模型相媲美，但只对研究人员开放，使用受限的许可证。（博客文章）

Alpaca：一种强大且可复制的指令跟随模型（2023年）：这款来自斯坦福的模型展示了指令调优的威力，尤其是与纯粹的规模相比，对于较小的开源模型而言。

模型优化（比如fine-tuning, retrieval, attention)

深度强化学习来自人类偏好（2017年）：研究强化学习在游戏和机器人领域的应用，后来证明是LLM的一种出色工具。

为知识密集型NLP任务增强的检索生成（2020年）：由Facebook开发，RAG是通过信息检索提高LLM准确性的两个主要研究方向之一。（博客文章）

通过从数万亿标记中检索来改进语言模型（2021年）：RETRO，即“Retrieval Enhanced TRansfOrmers”，是DeepMind提出的另一种方法，通过访问其训练数据中未包含的信息来提高LLM的准确性。（博客文章）

LoRA：大型语言模型的低秩调整（2021年）：这项来自微软的研究引入了一种在新数据上训练LLM的更高效替代方法，现已成为社区微调的标准，特别适用于图像模型。

宪法AI（2022年）：Anthropic团队介绍了通过AI反馈进行强化学习（RLAIF）的概念。主要思想是我们可以在其他AI的监督下开发一个无害的AI助手。

FlashAttention：具有IO感知的快速和内存高效的精确注意力（2022年）：这项斯坦福的研究为最先进的模型在理解更长的文本序列（和更高分辨率的图像）方面打开了大门，而无需昂贵的训练时间和成本。（博客文章）

饥饿的河马：走向具有状态空间模型的语言建模（2022年）：再次来自斯坦福，这篇论文描述了语言建模中替代注意力的主要方法之一。这是更好的扩展和训练效率的有希望的途径。（博客文章）

图像生成模型：

学习可迁移的视觉模型：来自自然语言监督的（2021年）：介绍了一个基础模型CLIP，将文本描述与图像相连。这是计算机视觉中首次有效的大规模使用基础模型的案例之一。（博客文章）

零样本文本到图像生成（2021年）：这篇论文介绍了DALL-E，一种结合了前面提到的CLIP和GPT-3的模型，可以根据文本提示自动生成图像。其后继者DALL-E 2在2022年引爆了基于图像的生成型人工智能热潮。（博客文章）

使用潜在扩散模型进行高分辨率图像合成（2021年）：这篇论文描述了稳定扩散（在推出和爆炸式开源增长后）。

具有深度语言理解的照片般逼真的文本到图像扩散模型（2022年）：Imagen是谷歌进军AI图像生成领域的尝试。截至本文发布日期，该模型仍未公开发布。（网站）

DreamBooth：用于主题驱动生成的文本到图像扩散模型微调（2022年）：DreamBooth是谷歌开发的一个系统，用于训练模型识别用户提交的主题并将其应用于提示的上下文中（例如，[用户]在埃菲尔铁塔微笑）。（网站）

将条件控制添加到文本到图像扩散模型（2023年）：这篇来自斯坦福的论文介绍了ControlNet，这是一个非常受欢迎的工具，可对潜在扩散模型的图像生成进行细粒度控制。

代理人Agents：

通往自主机器智能的路径（2022年）：Meta AI负责人、纽约大学教授Yann LeCun提出了如何构建真正理解周围世界的自主智能代理的建议。

ReAct：在语言模型中协同推理和行动（2022年）：普林斯顿大学和谷歌的一个项目，旨在测试和改进大语言模型的推理和规划能力。（博客文章）

生成型代理：人类行为的交互模拟（2023年）：斯坦福大学和谷歌的研究人员利用大语言模型来驱动代理程序，在类似于《模拟人生》的环境中，它们的互动是新型的而不是预设的。

Reflexion：具有动态记忆和自反思能力的自主代理（2023年）：东北大学和麻省理工学院的研究人员的工作，通过从错误和过去经验中学习，教导大语言模型更可靠地解决问题。

Toolformer：语言模型可以自学使用工具（2023年）：Meta的这个项目训练大语言模型使用外部工具（在这种情况下是指搜索引擎和计算器等API）来提高准确性，而无需增加模型大小。

Auto-GPT：自主GPT-4实验：一个开源实验，通过给予GPT-4一系列工具（如互联网访问、文件存储等），并选择在解决特定任务时使用哪些工具来扩展GPT-4的能力。

BabyAGI：这个Python脚本利用GPT-4和向量数据库（用于存储上下文）来规划和执行一系列解决更广泛目标的任务。

其他数据模式：

编码生成：

针对代码进行大型语言模型的评估（2021年）：这是OpenAI针对GitHub Copilot产品背后的代码生成模型Codex的研究论文。（博客文章）

使用AlphaCode进行竞技级代码生成（2021年）：DeepMind的这项研究展示了一个能够比人类程序员编写更好代码的模型。（博客文章）

CodeGen：用于代码的开放大型语言模型，具备多轮程序综合能力（2022年）：CodeGen来自Salesforce的AI研究部门，目前支持Replit Ghostwriter产品进行代码生成。（博客文章）

视频生成：

Make-A-Video：无需文本-视频数据的文本到视频生成（2022年）：Meta的这个模型可以根据文本提示创建短视频，还可以为静态照片输入添加动态效果或创建现有视频的变体。（博客文章）

Imagen Video：使用扩散模型生成高清视频（2022年）：正如其名称所示，这是Google的基于图像的Imagen模型的一个版本，专门用于根据文本提示生成短视频。（网站）

生物和医学数据：

预训练图神经网络的策略（2020年）：这篇文章为有效的预训练方法奠定了基础，适用于药物发现等领域的应用，如分子属性预测和蛋白质功能预测。（博客文章）

利用深度学习的潜力改进蛋白质结构预测（2020年）：DeepMind的以蛋白质为中心的Transformer模型AlphaFold使得从序列预测蛋白质结构成为可能，这是一个真正的突破，对于理解生物过程和开发新的疾病治疗方法已经产生了深远的影响。（博客文章）（解释性文章）

大型语言模型编码临床知识（2022年）：Med-PaLM是一个能够正确回答美国医学执照考试风格问题的大语言模型。该团队随后发布了关于Med-PaLM2性能的结果，其得分与“专家”考生相当。其他团队也使用ChatGPT和GPT-4进行了类似的实验。（视频）

音频生成：

Jukebox：音乐生成的生成模型（2020年）：OpenAI进入音乐生成领域，使用Transformer技术，能够在最小的训练下生成音乐、歌声和歌词。（博客文章）

AudioLM：一种基于语言建模的音频生成方法（2022年）：AudioLM是Google的一个项目，用于生成多种类型的音频，包括语音和乐器音。（博客文章）

MusicLM：从文本生成音乐（2023年）：基于人工智能的音乐生成的当前最先进技术，展示了比以前的尝试更高的质量和连贯性。（博客文章）

多维度图片生成：

NeRF: 将场景表示为用于视图合成的神经辐射场（2020年）：由加州大学伯克利分校领导的团队进行的研究，使用5D坐标来“合成复杂场景的新视图”。（网站）

DreamFusion：使用2D扩散进行文本到3D转换（2022年）：来自Google和加州大学伯克利分校的研究人员的工作，在NeRF的基础上，从2D输入生成3D图像。（网站）