曝苹果暂停研发VisionPro2：更便宜的头显已在路上

时间:2024-06-20 来源：原创/投稿/转载作者：管理员点击:

　　当然，标准版头显将会延续Vision Pro的手势眼动追踪交互方式，允许用户在不同的应用场景之间快速、高效地切换，同时具备无限空间、虚实结合的特性，基础体验跟Vision Pro不会有太多差别。

　　11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

　　苹果VisionPro国行版已经开启预售，起售价是29999元。尽管VisionPro在国内还没有竞品出现，但大厂们不会放任AppleVisionPro吞掉大半个中国XR市场，任由其一家独大。业内人士指出，不管未来XR是做智能手机的替代品是手机产品线的互补产品，手机厂商都是打造XR设备最合适的角色。

　　6月18日下午，正值京东的年度购物狂欢节“618”媒体开放日，京东集团宣布了一项重要举措。随着AppleVisionPro在国内市场的正式登陆，京东迅速响应，推出了名为“京东.Vision”的国内首批VisionPro应用。且无论哪种装修风格或是哪件具体商品，用户都能在增强现实环境中进行搭配的轻松切换和生动预览，享受所见即所得的消费体验。

　　京东在618媒体开放日宣布，将作为国内首批发布AppleVisionPro应用的平台，推出京东.Vision。AppleVisionPro是苹果推出的首款空间计算设备，能够将数字内容无缝融入线D交互体验。京东也完成了鸿蒙原生应用核心版本的开发，即将在华为应用市场上架，实现多端编译和全场景无缝流转，为消费者提供更流畅、智能、安全的购物体验。

　　分析师郭明錤在社交平台上表示，苹果供应链将从6月中旬开始向美国以外的市场运送VisionPro，7月份在全球上市开卖。VisionPro将在中国、日本、新加坡、英国、法国、德国等国家销售，其中国行版已经获得入网许可。值得注意的是，在本月举行的WWDC上，苹果还将推出visionOS2系统。

　　苹果CEO库克对国行VisionPro持信心。上海的苹果开发实验室接待了许多中国开发者，他们已经适配了腾讯视频、微博等多款中国App。R1芯片负责处理来自12个摄像头、5个传感器和6个麦克风的输入，以确保内容能够实时呈现在用户眼前。

　　全球非营利组织设计与艺术指导协会授予了苹果公司一项极具分量的奖项——黑铅笔奖。此次殊荣是对苹果VisionOS操作系统在数字设计领域卓越成就的认可。其在美国市场的售价高达3499美元，但其高昂的价格并未阻挡消费者的热情。

　　中关村在线最先亮相的系统为visionOS2，新系统能带来更沉浸式的使用体验。在照片APP中，空间照片的效果获得升级，任何一张照片都能生成纵深效果，无需额外拍摄。苹果WWDC开发者大会还在进行中，请持续关注。

　　中关村在线消息：近日，分析师郭明錤在社交平台上发布了对于苹果头显VisionPro的出货调查，表示其已于6月中旬前陆续出货至非美国市场，主要包括英国、法国、德国、中国、日本与新加坡；目前对全球2024年出货量预估不变，仍维持40-45万部。苹果公司正在努力更新iOS和iPadOS18的设计。这些系统据称将从VisionPro头显的visionOS中获得一系列设计元素，但并非完全基于visionOS的设计元素重新设计。

　　苹果计划于7月召开AppleVisionPro全球发布会。按照此前曝光的信息，苹果这次将面向澳大利亚、加拿大、法国、德国、日本、韩国、新加坡等地区推出AppleVisionPro。售价也是被大家吐槽最多的问题，其在美国定价3499美元，约合人民币2.5万元。

　　苹果VisionPro今天开启预购，起售价29999元，官网支持24期免息分期。苹果开启在线预约VisionPro演示试用，预约用户可于6月28日起凭预约前往你附近的AppleStore零售店体验。佩戴苹果VisionPro时是不能戴框架眼镜的，如果你平时佩戴框架眼镜，只需到时带上眼镜，专家会为你提供个性化演示，应该是准备了各种度数的镜片。

　　DeepSeek-Coder-V2是一个开源的Mixture-of-Experts代码语言模型，性能可与GPT4-Turbo相媲美，在代码特定任务上表现突出。它通过额外的6万亿个token进一步预训练，增强了编码和数学推理能力，同时保持了在一般语言任务上的相似性能。与DeepSeek-Coder-33B相比，在代码相关任务、推理和一般能力方面都有显着进步。此外，它支持的编程语言从86种扩展到338种，上下文长度从16K扩展到128K。

　　MechanicBotAI是一款利用人工智能技术，帮助车主自行诊断汽车故障的应用程序。它通过简单的三个步骤，让车主输入车辆详细信息、描述问题，然后快速给出精确诊断结果。该产品以其用户友好的界面和针对特定车辆的个性化服务，简化了汽车故障诊断过程，减少了车主在汽车维修上的猜测和成本。

　　MathBlackBox是一个深度学习模型，旨在探索数学问题解决的黑箱方法。它使用VLLM或其他OpenAI兼容的方法，通过Huggingface工具包和OpenAI进行推理，支持在Slurm环境下运行，并能够处理多种数据集。该项目目前处于早期阶段，需要充分测试后才能部署到实际产品中。

　　Huly是一个开源的一站式团队协作平台，旨在替代Linear、Jira、Slack和Notion。它集成了项目管理、团队计划、虚拟办公室、聊天和文档管理等功能，为开发者和产品团队提供了强大的协作机会。Huly支持键盘快捷键、团队日历、即时通知、时间块管理、高质量音视频会议等特性，并且可以与GitHub双向同步，帮助团队高效管理任务和知识。

　　DeepSeek-Coder-V2是一个开源的专家混合模型(Mixture-of-Experts, MoE)，专为代码语言设计，其性能与GPT4-Turbo相当。它在代码特定任务上表现优异，同时在通用语言任务上保持了相当的性能。与DeepSeek-Coder-33B相比，V2版本在代码相关任务和推理能力上都有显着提升。此外，它支持的编程语言从86种扩展到了338种，上下文长度也从16K扩展到了128K。

　　Glyph-ByT5-v2 是微软亚洲研究院推出的一个用于准确多语言视觉文本渲染的模型。它不仅支持10种不同语言的准确视觉文本渲染，而且在美学质量上也有显着提升。该模型通过创建高质量的多语言字形文本和平面设计数据集，构建多语言视觉段落基准，并利用最新的步态感知偏好学习方法来提高视觉美学质量。

　　VideoLLaMA2-7B是由DAMO-NLP-SG团队开发的多模态大型语言模型，专注于视频内容的理解和生成。该模型在视觉问答和视频字幕生成方面具有显着的性能，能够处理复杂的视频内容，并生成准确、自然的语言描述。它在空间-时间建模和音频理解方面进行了优化，为视频内容的智能分析和处理提供了强大的支持。

　　EVE是一个编码器自由的视觉-语言模型，由大连理工大学、北京人工智能研究院和北京大学的研究人员共同开发。它在不同图像宽高比下展现出卓越的能力，性能超越了Fuyu-8B，并且接近模块化编码器基础的LVLMs。EVE在数据效率、训练效率方面表现突出，使用33M公开数据进行预训练，并利用665K LLaVA SFT数据为EVE-7B模型训练，以及额外的1.2M SFT数据为EVE-7B (HD)模型训练。EVE的开发采用了高效、透明、实用的策略，为跨模态的纯解码器架构开辟了新途径。

　　Inbox Zero是一个致力于提高电子邮件管理效率的在线工具，通过AI技术帮助用户快速整理和清理邮箱，实现收件箱的零邮件状态。它通过智能识别和分类邮件，让用户能够快速删除垃圾邮件，保留重要邮件，从而提高工作效率。产品背景信息显示，用户已通过该工具删除超过800万封邮件，显示出其在电子邮件管理领域的广泛应用和高效性。

　　ElevenLabs Texts to Sounds Effects API是一个编程接口，允许开发者将文本转换为相应的声音效果，适用于视频编辑、游戏开发等多种场景。该API是开源的，可在GitHub上找到代码，便于开发者进行个性化定制和二次开发。

　　PlantIdentify是一款利用人工智能技术，通过用户上传的照片或使用手机相机拍摄来快速识别植物种类的应用程序。它适合园艺爱好者、自然爱好者以及对周围植物感兴趣的任何人。该应用主要优点包括即时植物识别、免费使用、多语言支持以及保存识别历史等功能。

　　VideoLLaMA2-7B-Base 是由 DAMO-NLP-SG 开发的大型视频语言模型，专注于视频内容的理解与生成。该模型在视觉问答和视频字幕生成方面展现出卓越的性能，通过先进的空间时间建模和音频理解能力，为用户提供了一种新的视频内容分析工具。它基于 Transformer 架构，能够处理多模态数据，结合文本和视觉信息，生成准确且富有洞察力的输出。

　　Drip是一款AI驱动的日记应用，致力于通过深度的自我反思和真实的交流来帮助用户找到清晰度，逐步支持他们的心理健康之旅。Drip提供个性化的提示和深入的内省，以支持用户的心理健康之旅，使心理健康对每个人都是可达和可实现的。

　　inncivio是一个利用人工智能技术，为企业提供个性化教育内容的平台，旨在增强团队成员的技能。平台通过AI创建基于公司知识库的个性化课程，同时融入游戏化元素，提高学习的乐趣和参与度，帮助企业解决团队培训难题，提升团队技能和业务绩效。

　　VideoLLaMA2-7B-16F-Base是由DAMO-NLP-SG团队开发的大型视频语言模型，专注于视频问答（Visual Question Answering）和视频字幕生成。该模型结合了先进的空间-时间建模和音频理解能力，为多模态视频内容分析提供了强大的支持。它在视觉问答和视频字幕生成任务上展现出卓越的性能，能够处理复杂的视频内容并生成准确的描述和答案。

　　HelpSteer2是由NVIDIA发布的一个开源数据集，旨在支持训练能够对齐模型以使其更加有帮助、事实正确和连贯，同时在响应的复杂性和冗余度方面具有可调节性。该数据集与Scale AI合作创建，当与Llama 3 70B基础模型一起使用时，在RewardBench上达到了88.8%的表现，是截至2024年6月12日最佳的奖励模型之一。

　　视频到音频(V2A)技术是DeepMind公司的一项创新，它结合了视频像素与自然语言文本提示，生成与屏幕上动作同步的丰富音景。这项技术可以与视频生成模型如Veo相结合，为视频生成戏剧性配乐、逼真的音效或与视频角色和基调相匹配的对话。它还能为传统素材生成音轨，包括档案材料、无声电影等，开拓了更广泛的创作机会。

　　Reddo 是一款 AI 搜索引擎，旨在帮助用户搜索全球团队，发现新机会，提供了快速连接和合作的平台。其主要优点包括智能搜索算法、全面的团队信息、便捷的合作方式等。

　　ElevenLabs的文本转音效API允许用户根据简短的文本描述生成高质量的音效，这些音效可以应用于游戏开发、音乐制作应用等多种场景。该API利用先进的音频合成技术，能够根据文本提示动态生成音效，为用户提供了一种创新的声音设计工具。

　　Nemotron-4-340B-Base是由NVIDIA开发的大型语言模型，拥有3400亿参数，支持4096个token的上下文长度，适用于生成合成数据，帮助研究人员和开发者构建自己的大型语言模型。模型经过9万亿token的预训练，涵盖50多种自然语言和40多种编程语言。NVIDIA开放模型许可允许商业使用和派生模型的创建与分发，不声明对使用模型或派生模型生成的任何输出拥有所有权。

【责任编辑：管理员】

上一篇：中部乡村振兴微观察｜一间民宿的故事——看得见风景承得起乡愁下一篇：锡林郭勒盟边境地区10年新建农村牧区公路382994公里

随机推荐更多>>