2024-07-26
Ada Hu
🤔
你有没有想过,类似ChatGPT这样的AI系统
是如何学习生成文本、翻译语言或创建新图像的?
答案在于一种并不那么秘密的武器:
网络抓取(Web Scraping)
想象一下,从网站中获取信息就像一把数字汤匙。网页抓取可自动执行此过程,提取特定数据(电子商务网站的产品详细信息、新闻文章或社交媒体帖子)并将其组织成可用的格式。
互联网是信息的宝库,但信息并不是有序的。
网页抓取使我们能够:
1️⃣收集大型数据集
生成式AI模型依靠海量数据蓬勃发展,
抓取数据为人工智能学习和发展其能力提供了原始材料
比如需要来自不同零售商的产品价格时,
网页抓取可以有效定位这些数据。
生成式AI像一位才华横溢艺术家,需要灵感。
正是网页抓取提供了大量的信息来激发其创造力:
基于文本的生成式 AI 模型通过从文章、书籍和代码中抓取的大量文本进行训练。这些数据让模型了解语言的细微差别,并使其能够生成人类水平的文本;生成式AI可用于分析抓取的数据并了解网站的构建方式,然后可以利用这些知识创建新的、逼真的网站;还可以分析抓取的数据以生成更有效的搜索查询,帮助找到训练生成模型所需的具体信息。
▪️网络抓取和生成式AI的未来
随着这两项技术的发展,我们可以期待更强大的应用:
🤔再想象一下,AI可以根据想要的数据自动编写抓取脚本凭借更丰富、更多样化的数据集,生成式AI将能够创造出更令人印象深刻、更逼真的输出......
⬇️⬇️⬇️
以上就是今天的澳洲IT圈资讯分享
想了解更多关于澳洲IT圈的最新消息欢迎扫码进群~
澳洲IT圈求职,扫描上方二维码
即可加入匠人学院求职群!
AI一日Workshop:学会GPT-4o Canvas、Perplexity AI、NotebookLM三大工具
2025/03/15 05:00 (Sydney)
商业数据分析实战班第17期(Self-Paced + Tutor)
2025/03/15 06:13 (Sydney)
数据工程全栈班第16期
2025/03/23 07:02 (Sydney)
地址
Level 10b, 144 Edward Street, Brisbane CBD(Headquarter)Level 2, 171 La Trobe St, Melbourne VIC 3000四川省成都市武侯区桂溪街道天府大道中段500号D5东方希望天祥广场B座45A13号Business Hub, 155 Waymouth St, Adelaide SA 5000Disclaimer
JR Academy acknowledges Traditional Owners of Country throughout Australia and recognises the continuing connection to lands, waters and communities. We pay our respect to Aboriginal and Torres Strait Islander cultures; and to Elders past and present. Aboriginal and Torres Strait Islander peoples should be aware that this website may contain images or names of people who have since passed away.
匠人学院网站上的所有内容,包括课程材料、徽标和匠人学院网站上提供的信息,均受澳大利亚政府知识产权法的保护。严禁未经授权使用、销售、分发、复制或修改。违规行为可能会导致法律诉讼。通过访问我们的网站,您同意尊重我们的知识产权。 JR Academy Pty Ltd 保留所有权利,包括专利、商标和版权。任何侵权行为都将受到法律追究。查看用户协议
© 2017-2024 JR Academy Pty Ltd. All rights reserved.
ABN 26621887572