Tech

Google Gemini: Mọi thứ bạn cần biết về các mô hình AI sinh học

Tin Tức Siêu Tốc Saturday, October 19 2024

Google đang cố gắng tạo ra cú sốc với Gemini, bộ công cụ mô hình AI sinh học, ứng dụng và dịch vụ của họ. Nhưng Gemini là gì? Bạn có thể sử dụng nó như thế nào? Và nó so sánh ra sao với các công cụ AI sinh học khác như ChatGPT của OpenAI, Llama của Meta và Copilot của Microsoft?

Để dễ dàng cập nhật với những phát triển mới nhất của Gemini, chúng tôi đã tổng hợp hướng dẫn hữu ích này, mà chúng tôi sẽ tiếp tục cập nhật khi có mô hình Gemini, tính năng và tin tức mới về kế hoạch của Google cho Gemini.

Gemini là gì?

Gemini là bộ mô hình AI sinh học tiếp theo hàng đầu của Google. Được phát triển bởi DeepMind và Google Research, nó gồm bốn phiên bản: Gemini Ultra, Gemini Pro, Gemini Flash và Gemini Nano.

Tất cả các mô hình Gemini được đào tạo để hỗ trợ và phân tích nhiều hơn chỉ là văn bản. Google cho biết họ đã được đào tạo trước và điều chỉnh trên một loạt các âm thanh, hình ảnh và video công cộng, độc quyền và được cấp phép; một tập hợp các mã nguồn; và văn bản trong các ngôn ngữ khác nhau.

Điều này phân biệt Gemini với các mô hình khác như LaMDA của Google, được đào tạo độc quyền trên dữ liệu văn bản. LaMDA không thể hiểu hoặc tạo ra bất cứ thứ gì ngoài văn bản (ví dụ: bài luận, email, v.v.), nhưng có thể không phải trường hợp với các mô hình Gemini.

Chúng tôi muốn lưu ý rằng, đạo đức và hợp pháp của việc đào tạo mô hình trên dữ liệu công cộng, trong một số trường hợp mà không cần sự hiểu biết hoặc sự chấp thuận của chủ sở hữu dữ liệu, là mơ hồ. Google có chính sách miễn trừ trách nhiệm AI để bảo vệ một số khách hàng Google Cloud khỏi các vụ kiện nếu họ phải đối mặt với chúng, nhưng chính sách này chứa các ngoại lệ. Hãy thận trọng - đặc biệt nếu bạn có ý định sử dụng Gemini cho mục đích thương mại.

Sự khác biệt giữa các ứng dụng Gemini và các mô hình Gemini

Gemini là riêng biệt và khác biệt so với các ứng dụng Gemini trên web và di động (trước đây là Bard).

Các ứng dụng Gemini là các ứng dụng kết nối với các mô hình Gemini và xếp lớp giao diện giống như chatbot lên trên. Hãy coi chúng như các phần trước cho AI sinh học của Google, tương tự như ChatGPT và họ ứng dụng Claude của Anthropic.

Gemini trên web ở đây. Trên Android, ứng dụng Gemini thay thế ứng dụng Google Assistant hiện tại. Và trên iOS, ứng dụng Google và Google Search phục vụ làm các ứng dụng khách hàng của Gemini trên nền tảng này.

Trên Android, cũng dễ dàng để hiển thị lớp phủ Gemini lên trên bất kỳ ứng dụng nào để đặt câu hỏi về những gì đang hiển thị trên màn hình (ví dụ: video YouTube). Chỉ cần nhấn và giữ nút nguồn của điện thoại thông minh được hỗ trợ hoặc nói 'Hey Google'; bạn sẽ thấy lớp phủ hiển thị lên.

Các ứng dụng Gemini có thể chấp nhận cả hình ảnh cũng như lệnh giọng nói và văn bản - bao gồm cả các tập tin như PDF và sớm hơn là video, dù là tải lên hoặc nhập từ Google Drive - và tạo ra hình ảnh. Như bạn mong đợi, các cuộc trò chuyện với các ứng dụng Gemini trên điện thoại di động sẽ tiếp tục ở trên web và ngược lại nếu bạn đăng nhập vào cùng Một tài khoản Google ở cả hai nơi.

Gemini Advanced

Các ứng dụng Gemini không phải là phương tiện duy nhất để sử dụng hỗ trợ từ các mô hình Gemini với các nhiệm vụ. Dần dần, các tính năng được imbued Gemini đang được tích hợp vào các ứng dụng và dịch vụ Google cần thiết như Gmail và Google Docs.

Để tận hưởng hầu hết các tính năng này, bạn sẽ cần Google One AI Premium Plan. Kỹ thuật là một phần của Google One, kế hoạch AI Premium có giá 20 đô la và cung cấp truy cập vào Gemini trong các ứng dụng Google Workspace như Docs, Slides, Sheets và Meet. Nó cũng cho phép điều gì Google gọi là Gemini Advanced, đưa các mô hình Gemini phức tạp hơn của công ty vào các ứng dụng Gemini.

Người dùng Gemini Advanced nhận được điểm gì đó nơi đâu, như quyền truy cập ưu tiên vào các tính năng mới, khả năng chạy và chỉnh sửa mã Python trực tiếp trong Gemini và một cửa sổ “bối cảnh” lớn hơn. Gemini Advanced có thể ghi nhớ nội dung của - và lý do qua - khoảng 750.000 từ trong một cuộc trò chuyện (hoặc 1.500 trang tài liệu). Đó là so với 24.000 từ (hoặc 48 trang) ứng dụng Gemini thông thường có thể xử lý.

Một điều duy nhất thuộc về Gemini Advanced khác là lên kế hoạch du lịch trên Google Search, tạo ra các lịch trình du lịch tùy chỉnh từ các gợi ý. Cân nhắc những điều như thời gian bay (từ email trong hộp thư đến gmail của người dùng), sở thích ẩm thực và thông tin về các điểm tham quan địa phương (từ dữ liệu Tìm kiếm Google và Maps), cũng như khoảng cách giữa những điểm tham quan đó, Gemini sẽ tạo ra một lịch trình cập nhật tự động để phản ánh bất kỳ thay đổi nào.

Gemini trên các dịch vụ Google cũng có sẵn cho khách hàng doanh nghiệp thông qua hai kế hoạch, Gemini Business (một tiện ích cho Google Workspace) và Gemini Enterprise. Gemini Business có giá chỉ từ 20 đô la cho mỗi người dùng mỗi tháng và Gemini Enterprise - bổ sung ghi chú cuộc họp và chú thích dịch vụ cũng như phân loại và gán nhãn tài liệu - có giá từ 30 đô la trở lên cho mỗi người dùng mỗi tháng. (Cả hai kế hoạch đều yêu cầu cam kết hàng năm.)

Gemini trong Gmail, Docs, Chrome, các công cụ phát triển và nhiều hơn nữa

Trong Gmail, Gemini sống trong một bảng điều khiển phụ có thể viết email và tóm tắt các chủ đề tin nhắn. Bạn sẽ tìm thấy cùng một bảng điều khiển trong Docs, nơi nó giúp bạn viết và đào sâu vào nội dung của mình và nghĩ ý tưởng mới. Gemini trong Slides tạo ra các slide và hình ảnh tùy chỉnh. Và Gemini trong Google Sheets theo dõi và tổ chức dữ liệu, tạo bảng và công thức.

Phạm vi của Gemini mở rộng sang Drive, nơi có thể tóm tắt các tập tin và cung cấp thông tin nhanh về một dự án. Trong Meet, trong khi đó, Gemini dịch chú thích sang các ngôn ngữ bổ sung.

Gần đây, Gemini đã đến trình duyệt Chrome của Google dưới dạng công cụ viết AI. Bạn có thể sử dụng nó để viết một cái gì hoàn toàn mới hoặc viết lại văn bản hiện có; Google cho biết nó sẽ xem xét trang web bạn đang sử dụng để đưa ra các đề xuất.

Ở nơi khác, bạn sẽ thấy những gợi ý về Gemini trong các sản phẩm cơ sở dữ liệu, công cụ bảo mật đám mây và nền tảng phát triển ứng dụng (bao gồm Firebase và Project IDX), cũng như trong các ứng dụng như Google Photos (nơi Gemini xử lý các truy vấn tìm kiếm ngôn ngữ tự nhiên), YouTube (nơi nó giúp tạo ý tưởng video) và trợ lý ghi chú NotebookLM.

Code Assist (trước đây là Duet AI for Developers), bộ công cụ trợ giúp dựa trên AI của Google cho việc hoàn thiện và tạo mã, đang chuyển gánh nặng tính toán nặng ký sang Gemini. Nhưng cũng có những sản phẩm bảo mật của Google dựa trên Gemini, như Gemini trong Threat Intelligence, có thể phân tích một lượng lớn mã có hại có thể và cho phép người dùng thực hiện tìm kiếm ngôn ngữ tự nhiên cho các mối đe dọa hoặc chỉ số của sự buồn chán.

Các tiện ích và Châu báu của Gemini

Được công bố tại Google I/O 2024, người dùng Gemini Advanced có thể tạo ra các Chatbot tùy chỉnh được cung cấp bởi các mô hình Gemini. Các Chatbot có thể được tạo ra từ các mô tả ngôn ngữ tự nhiên - ví dụ: “Bạn là huấn luyện viên chạy của tôi. Duyệt một kế hoạch chạy hàng ngày cho tôi” - và chia sẻ với người khác hoặc giữ riêng tư.

Các Chatbot có sẵn trên máy tính để bàn và di động ở 150 quốc gia và hầu hết các ngôn ngữ. Cuối cùng, chúng sẽ có thể kết nối một tập hơn các tích hợp với các dịch vụ của Google, bao gồm Google Calendar, Tasks, Keep và YouTube Music, để hoàn thành các nhiệm vụ tùy chỉnh.

Nói về tích hợp, các ứng dụng Gemini trên web và di động có thể kết nối với các dịch vụ của Google thông qua những gì Google gọi là “các tiện ích mở rộng Gemini”. Gemini hiện nay tích hợp với Google Drive, Gmail và YouTube để trả lời các câu hỏi như “Bạn có thể tóm tắt ba email cuối cùng của tôi không?” Vào cuối năm nay, Gemini sẽ có thể thực hiện các hành động bổ sung với Google Calendar, Keep, Tasks, YouTube Music và Utilities, các ứng dụng chỉ dành cho Android kiểm soát tính năng trên thiết bị như bộ hẹn giờ và đồng hồ báo thức, điều khiển phương tiện, đèn flash, âm lượng, Wi-Fi, Bluetooth, và như vậy.

Trò chuyện âm thanh chi tiết với Live Gemini

Một trải nghiệm mới gọi là Gemini Live, chỉ dành cho người dùng Gemini Advanced, cho phép người dùng trò chuyện giọng nói “chi tiết” với Gemini. Nó có sẵn trong các ứng dụng Gemini trên di động và Pixel Buds Pro 2, nơi bạn có thể truy cập thậm chí khi điện thoại của bạn bị khóa.

Với Gemini Live được kích hoạt, bạn có thể gián đoạn Gemini trong khi chatbot đang nói (bằng một trong vài giọng nói mới) để hỏi một câu hỏi làm sáng tỏ, và nó sẽ thích ứng với các biến thể trong tiếng nói của bạn trong thời gian thực. Và trong một thời gian sau đó, Gemini sẽ có khả năng nhìn thấy và phản hồi các điểm xung quanh của bạn, hoặc thông qua hình ảnh hoặc video được chụp bởi camera điện thoại thông minh của bạn.