Site icon Huy Dạy Vi Tính

OpenAI Sora là gì ? Làm phim sẽ dễ dàng hơn

OpenAI Sora là gì ? Làm phim sẽ dễ dàng hơn

OpenAI Sora là gì ? Việc làm phim sẽ dễ dàng hơn. Nói đến AI, không một ai lại có thể quên được cái tên “làm mưa làm gió” trong thời gian vừa qua chính là ChatGPT, một sản phẩm đến từ OpenAI. Tuy nhiên, thay vì sử dụng câu lệnh để tạo ra hình ảnh thì giờ đây OpenAI đã đem đến Sora có thể làm nên những thước phim chuyên nghiệp hơn. Vậy OpenAI Sora là gì ? Hãy cùng tìm hiểu ở bài viết bên dưới nhé !

OpenAI Sora là gì ?

Theo OpenAI, các video do Sora tạo ra có “cảnh quay với độ chi tiết cao, sống động và sự chuyển động máy ảnh phức tạp cùng với nhiều nhân vật với cảm xúc sống động”. OpenAI đã đăng tải một loạt video do Sora tạo ra trên Twitter, bao gồm một người phụ nữ sành điệu đi bộ trên đường phố Tokyo và đoạn giới thiệu phim được làm từ AI.

Sora là mô hình AI chuyển văn bản thành video của OpenAI. Điều đó có nghĩa là bạn có thể sáng tạo video bằng văn bản và Sora sẽ tạo ra một video giống với những gì bạn đã viết. 

OpenAI vừa công bố Sora, có khả năng tạo các video dài đến một phút từ những mô tả văn bản

OpenAI Sora hoạt động ra sao?

Một lĩnh vực đổi mới của Sora là có thể xem xét nhiều khung hình video cùng một lúc, giải quyết vấn đề giữ các đối tượng nhất quán khi chúng di chuyển vào và ra khỏi tầm nhìn.

Giống như các mô hình AI tạo văn bản thành hình ảnh như StableDiffusion, DALL·E 3 và Midjourney. Sora là một mô hình khuếch đại. Điều đó có nghĩa là Sora bắt đầu với mỗi khung hình của video bao gồm nhiễu tĩnh và sử dụng công nghệ học máy để chuyển đổi dần dần hình ảnh thành nội dung giống với mô tả trong văn bản. Video Sora có thể dài tới 60 giây.

Sora có thể tạo ra video với độ dài lên đến 60 giây

Trong một bài viết kỹ thuật về việc triển khai Sora, OpenAI cung cấp mô tả cấp cao về cách hoạt động của sự kết hợp này. Trong các mô hình khuếch đại, hình ảnh được chia thành các “mảng” hình chữ nhật nhỏ hơn. Đối với video, các bản vá này có dạng ba chiều vì chúng tồn tại theo thời gian.

Khi kết hợp hai loại mô hình này, Jack Qiao lưu ý rằng “các mô hình khuếch đại rất tốt trong việc tạo ra kết cấu ở mức độ thấp nhưng lại kém ở thành phần tổng thể, trong khi sự biến  lại có vấn đề ngược lại.” Nghĩa là, bạn muốn một mô hình biến đổi giống GPT xác định bố cục cấp cao của các khung hình video và mô hình khuếch đại để tạo ra các chi tiết.

Sora có phần phức tạp hơn trong việc xử lý văn bản thành video

Một điểm khác biệt của kiến ​​trúc kết hợp này là để làm cho việc tạo video trở nên khả thi về mặt tính toán, quá trình tạo các bản vá sử dụng bước giảm kích thước để việc tính toán không cần phải diễn ra trên từng pixel cho mỗi khung hình.

Các bản vá có thể được coi là tương đương với “mã kí tự” trong các mô hình ngôn ngữ lớn: thay vì là một thành phần của câu, chúng là thành phần của một tập hợp hình ảnh. Phần biến áp của mô hình tổ chức các bản vá và phần khuếch tán của mô hình tạo ra nội dung cho từng bản vá.

Để nắm bắt một cách trung thực nội dung văn bản của người dùng, Sora sử dụng kỹ thuật ghi chú lại cũng có sẵn trong DALL·E 3. Điều này có nghĩa là trước khi tạo bất kỳ video nào, GPT được sử dụng để viết lại văn bản của người dùng để lấy được nhiều chi tiết hơn. Đó là một hình thức kỹ thuật tự động và nhanh chóng.

Sora có thể biến những câu lệnh phức tạp từ người dùng thành video hoàn chỉnh

OpenAI Sora làm được những gì?

Tương tự như cách mà các công cụ AI tạo văn bản thành hình ảnh đã giúp việc tạo hình ảnh mà không cần chuyên môn về chỉnh sửa hình ảnh trở nên dễ dàng hơn đáng kể, Sora hứa hẹn sẽ giúp việc tạo video mà không cần kinh nghiệm chỉnh sửa để mọi thứ trở nên dễ dàng hơn.

Sora có thể được sử dụng để tạo video từ đầu hoặc mở rộng các video hiện có để làm chúng dài hơn. Công cụ này cũng có thể thêm vào các khung hình còn thiếu từ video.

OpenAI, công ty đang vướng phải nhiều vụ kiện bản quyền từ các nhà văn và tờ New York Times, cho biết họ sẽ phối hợp với các nhà hoạch định chính sách, nhà giáo dục và nghệ sĩ để nắm bắt những mối quan tâm chung.

Sora cũng có thể gặp vấn đề với những chi tiết không gian từ một số câu lệnh nhất định. Họ đưa ra ví dụ về việc mô hình nhầm lẫn giữa trái và phải hoặc gặp khó khăn với quỹ đạo camera chính xác.

Bạn thấy Sora của OpenAI có pro không ?

Địa chỉ: 54/15B Đường Số 1, Tân Tạo A, Bình Tân
(Gần cầu Tân Tạo và chùa Long Thạnh)
ĐT: 0933413530 – Zalo: 0369906518
Website: https://huydayvitinh.top/
Kênh Youtube: https://www.youtube.com/@huydayvitinh
Zalo:
 https://zalo.me/0369906518