תמונה ששווה אלף מילים היא פתגם שמתאים גם היום. ניתן להציג רעיונות מורכבים ומרובים בתמונה אחת. המגמה עוברת מטקסטים לתמונות וגרפיקה בתנועה. חוקרים אומרים את זה תמונות חזקות מאוד ורובם בוחרים בדימויים כדי להבין את המסר כי הם נקודת הכניסה לסיפורים – הם מוסיפים משמעות, והם נוגעים בצורה יוצאת דופן במצב הפסיכולוגי, בזיכרון וברגשות של אנשים. בעוד שיש לנו ML ו-LLMs גדולים יותר, הפופולריות של כלי AI ליצירת תמונות זינקה שחקים בתקופה האחרונה.

Midjoruney, Dall-E, Google Gemini ו-Stable Diffusion (Stability) הם כמה כלי תוכנה ליצירת תמונות פופולריים בכל רחבי האינטרנט. בעוד ש-Midjourney הובילה את המירוץ עד כה, חשבנו שיש צורך כבד להשוות את שאר הכלים ליצירת תמונות בינה מלאכותית – Dall -E מול Google Gemini, מול Stable Diffusion.

בוא נעשה היכרות מהירה לפני שנשווה כלי תוכנה ליצירת תמונות בינה מלאכותית.

מה זה DALL-E?

DALL–E הוא מודל בינה מלאכותית שיוצר תמונות או איורים על סמך תיאורים טקסטואליים שמשתמשים מציבים כהנחיה. כדי לבנות תמונה בהתאם לטקסט, היא מתרגמת מיליארדי קטעי טקסט מכל רחבי האינטרנט למופשט. מידע מאוחסן זה משמש לאחר מכן ככלי התייחסות לתיאור מידע ולבסוף ליצירת תמונות בעלות אוריינטציה מיידית. דגם DALL-E זמין דרך ChatGPT.

מה זה Google Gemini?

גוגל הציגה את הכלי ליצירת תמונות בינה מלאכותית דרך Gemini בשנת 2024. Gemini היא החבילה העיקרית של דגמי בינה מלאכותית של גוגל, והיא הייתה מצוידת לייצר תמונות לפי הנחיות המשתמשים. למרות ש-Google Gemini יותר בחדשות בגלל אי ​​הדיוקים ההיסטוריים והתגובות המפוקפקות שלו, מחולל התמונות של AI Gemini ידוע במתן איורים/תמונות שקרובים מאוד לדמיונו של המשתמש.

מה זה דיפוזיה יציבה?

Stable Diffusion הוא על ידי Stability AI, AI מוביל בקוד פתוח (GenAI) חברה שמטרתה לספק דגמי AI פורצי דרך וגישה פתוחה הדורשים משאבים מינימליים לבניית תמונות, שפה, אודיו וקוד. Stable Diffusion הוא ה-T2I העדכני והמתקדם ביותר (טקסט לתמונה) הכולל 2 מיליארד פרמטרים.

כלים ליצירת תמונות בינה מלאכותית: הפופולריות הגוברת וההשפעה

בינה מלאכותית הפכה את הכלים ליצירת תמונות ליעילים יותר ומדויקים יותר בהתאם להנחיות. מחוללי תמונות AI פופולריים מאוד בקרב משווקים ויוצרי תוכן כדי להגביר את התוכן שלהם עם

גרפיקה מושכת עין ומושכת.

הסטטיסטיקה מגלה שפשוט פחות מ-40% מהמשווקים משתמשים בבינה מלאכותית גנרטיבית כדי ליצור תמונות לפוסטים ברשתות חברתיות. יתר על כן, 36% מהם רותמים את הכוח של מחוללי תמונות בינה מלאכותית לבניית תמונות אתרים.

רוצה לדעת איך ChatGPT יכול לעשות פלאים לעסק שלך ולהגביר את הצמיחה והיעילות שלו?

הנה הקריאה הבלעדית שלך

DALL–E מול Google Gemini מול דיפוזיה יציבה – השוואה בין מחוללי תמונות בינה מלאכותית

כדי להשוות כלי בינה מלאכותית של מחולל תמונות, החלטנו לקבל הנחיה משותפת לפעול בשלוש הפלטפורמות השונות הללו. המטרה הייתה להבין כיצד הכלים הללו למחוללי תמונות AI רודפים אחר הטקסטים ומשתמשים באלגוריתמים ובמודלים שלהם כדי לבנות תמונות. שקלנו שלושה פרמטרים כלליים כדי להעריך את כלי תמונת הבינה המלאכותית –

  1. עד כמה הכלי מחולל AI מבין את ההנחיה עם הפרטים?
  2. כמה זמן תגובה נדרש כדי ליצור תוצאות טקסט לתמונה?
  3. איך נוצרה התמונה הראשית ומה הוכנס בסביבה וברקע?

נסה עם הנחיה מס’ 1 ליצירת תמונה בינה מלאכותית

צור תמונה של מפתח מעוטר מהתקופה הוויקטוריאנית מונח על משטח עץ מנוהל, עם גלגלי שיניים ומנגנונים מורכבים בהשראת סטימפאנק הנראים בתוך פיר הזכוכית השקוף שלו.

DALL – E (דרך ChatGPT)

גוגל תאומים

דיפוזיה יציבה

זמן תגובה: 6-9 שניות
זמן תגובה: 7-9 שניות
זמן תגובה: 4-6 שניות
ניסיון: 1
ניסיון: 1
ניסיון: 1

פלטפורמת מחולל תמונות בינה מלאכותית

הפרמטרים

עד כמה הכלי מחולל AI מבין את ההנחיה ומפרט אותה?

עיוור – E (ChatGPT)

DALL -E הבין את ההנחיה כמו שרצינו. זה בדיוק יצר בדיוק את מה שחשבנו עליו. מחולל התמונות בינה מלאכותית הבין היטב את ההוראות: גלגלי שיניים ומנגנונים בהשראתם גלויים בתוך ציר הזכוכית השקוף שלו. למעשה, זה גם יצר מנגנון שקוף בפיר יחד עם הראש. DALL-E יצר בצורה מושלמת מפתח מהתקופה הוויקטוריאנית. מחולל התמונות בינה מלאכותית יצר גם משטח עץ מושך את העין. הצבע הנחושת היה התאמה מושלמת עם ההנחיה והתמונה שיצרנו במוחנו. בסך הכל, זו הייתה תמונה מפורטת עם תכונות חדות ועיצוב מלכותי של המפתח.

מה שאהבנו

  • אור טבעי שנוצר על הזכוכית
  • העץ
  • סהר הזכוכית בצד הצל


גוגל תאומים

שלא כמו DALL–E ו-Stable Diffusion, Google Gemini תמיד סיפקה אפשרויות מרובות. לכל תמונה תהיה גישה מעט שונה, מה שאומר שהמשתמש יכול לקבל אפשרויות שונות מההנחיה. עם זאת, במקרה זה, שלושת המקשים לא היו מרשימים שכן הם החמיצו חלק מהותי מ”מנגנון השקוף” בראש. יוצר התמונה בינה מלאכותית הפיק מפתח אחד שהתאים לתיאור שלנו; עם זאת, לא מצאנו את זה מרשים. כאן, רק מפתח אחד עם זכוכית ראש המפתח עמד בסימן. זווית המפתח הייתה כזו שהפירוט במנגנון השקוף לא היה כל כך גלוי. בסך הכל, מחולל התמונות של AI לא עשה לנו עבודה טובה בשביל זה.

דיפוזיה יציבה

דיפוזיה יציבה הפכה את הכל למושלם, כמו שרצינו. היה לו מנגנון שקוף וציר זכוכית. המפתח נראה מלכותי, אבל ציפינו לכיסוי הזכוכית בראש המפתח שהוא החמיץ. בסך הכל, התמונה המפרטת והתמונה הממוקדת בהודעת הייתה מספקת למדי. דיפוזיה יציבה עשתה עבודה נפלאה. לתמונה היה מפתח גדול יותר עם כל הפרטים גלויים. למרות שהמנגנון השקוף לא היה כל כך מרשים, כלי מחולל הבינה המלאכותית אכן הבין את ההנחיה והפיק את האיור הרלוונטי. עם זאת, ראינו שהוא פספס חלק עיקרי – כיסוי הזכוכית בראש המפתח.

מה שאהבנו:

  • התקריב של המפתח
  • העיצוב הוויקטוריאני

ספירת נקודות:

  • DALL – E: 1
  • גוגל תאומים: 0
  • דיפוזיה יציבה: 0.5

סקרן לגבי ההשפעה הטרנספורמטיבית שיש ל-AI על התעשייה העסקית?

קרא את הנתונים הסטטיסטיים העדכניים ביותר של AI


כמה זמן תגובה נדרש כדי ליצור תוצאות טקסט לתמונה?

הכלי ליצירת תמונות בינה מלאכותית, DALL-E לקח בין 6-8 שניות. מצד שני, לתוכנה לייצור AI תמונה של Google Gemini לקח בין 7 ל-9 שניות להבין וליצור את התמונה. לבסוף, דיפוזיה יציבה הייתה מהירה למדי, שכן לכלי הבינה המלאכותית ליצירת תמונה זה לקח בערך 5 עד 7 שניות ליצור את התמונה המהירה.

ספירת נקודות:

  • מ-E: 1
  • גוגל תאומים: 1
  • דיפוזיה יציבה: 1

איך נוצרה התמונה הראשית ומה הוכנס בסביבה וברקע?

DALL -E

התמונה העיקרית שנוצרה הייתה לפי ההנחיה. לא היה שום דבר נוסף מה שאומר שתוכנת מחולל התמונות בינה מלאכותית פעלה על פי ההוראות בקפדנות מבלי להוסיף שום דבר שלא התבקש.

גוגל תאומים

מחולל ה-AI של Google Gemini סיפק כמה אפשרויות לאותה הנחיה וזה הפך את הכלי הזה ליצירת תמונות בינה מלאכותית לקצת יותר מקיף והוליסטי. בעוד שלוש תמונות יצרו עץ, תמונה אחת הוצגה עם דשא טבעי שתפס את עינינו. זה נראה מרגיע אבל אז לא ביקשנו את זה.

דיפוזיה יציבה

כמו DALL-E, Stable Diffusion עשה עבודה מדהימה על ידי יצירת התמונה הראשית והסביבה לפי הנחיה. העץ היה בדיוק כמו שרצינו. זה לא הוסיף שום דבר נוסף שלא ביקשנו.

ספירת נקודות:

  • מ-E: 1
  • גוגל תאומים: 1
  • דיפוזיה יציבה: 1

נסה עם הנחיה מס’ 2

סרט סטילס קולנועי, תקריב, צילום של לוחם דרקון בקנה מידה זהב בשריון צלחת מלא, בסגנון פנטזיה היפר-ריאליסטי.

DALL – E (דרך ChatGPT)

גוגל תאומים

דיפוזיה יציבה

זמן תגובה: 6-9 שניות
זמן תגובה: 8-10 שניות
זמן תגובה: 5-8 שניות
ניסיון: 1
ניסיון: 1
ניסיון: 1

תמונת AI

הפרמטרים

עד כמה הכלי מחולל AI מבין את ההנחיה?

DALL – E

ה-ChatGPT עשה עבודה נפלאה בכך שהראה לנו את התקריב של לוחם הדרקון. הצבעים שבהם נעשה שימוש היו מרהיבים והיצור בקנה מידה זהב נראה מרשים. הדוקרנים על הגוף והשריון היו מפורטים וחדים. עם זאת, מה שראינו היה שמחולל תמונות AI זה לקח את ההנחיה שלנו ממש ממש! הביטוי ‘סרט עדיין קולנועי’ הפעיל את DALL-E ליצור את הלוח ולהראות אותו בתמונה. למרות שזה מרשים שמנוע הבינה המלאכותית לוקח ברצינות הנחיות, ציפינו שזה יובן כסצנה קולנועית ולא התמקדות ב-BTS!

גוגל תאומים

Google Gemini פשוט שינתה את חליפת השריון עם עיצובים שונים עבור שלוש מהתוצאות שלה. לכל אחד מהם הייתה גישת הגדלה/התרחקות שונה. פניו של לוחם הדרקון בקנה מידה זהב נותרו כמעט דומות. התמונה הרביעית הציגה תנוחה גדולה יותר של הלוחם עם אלמנטים נוספים ברקע. כל התמונות נראו מעט משעממות בהשוואה לשאר הכלים.

דיפוזיה יציבה

הוצגה ירייה בודדת עם לוחם דרקון מפורט. באופן מרשים, ראשו של הדרקון היה מעורבב עם סאלט ובבור כדי להיראות אגרסיבי יותר. היהלום הכחול הלך די טוב עם פדרה מצופה זהב וקייראס. גלימת הלוחם הכחולה נראתה מושכת על הגוף.

מה שאהבנו:

  • התקריב של הלוחם
  • יהלומים
  • חלוק לוחם

ספירת נקודות:

  • DALL – E: 0.5
  • גוגל תאומים: 0
  • דיפוזיה יציבה: 1

כמה זמן תגובה נדרש כדי ליצור תוצאות טקסט לתמונה?

מחולל התמונות בינה מלאכותית DALL-E ארך בין 6-9 שניות. מצד שני, לתוכנה להפקת AI תמונה של Google Gemini לקח בין 8 ל-10 שניות להבין וליצור את התמונה. לבסוף, דיפוזיה יציבה הייתה די מהירה שכן לכלי הבינה המלאכותית שיוצר תמונה זה לקח בערך 5 עד 8 שניות ליצור את התמונה המהירה.

ספירת נקודות:

  • מ-E: 1
  • גוגל תאומים: 0
  • דיפוזיה יציבה: 1

איך נוצרה התמונה הראשית ומה הוכנס בסביבה וברקע?

DALL -E

התמונה העיקרית שנוצרה הייתה לפי ההנחיה. עם זאת, תוספת ראויה לציון הייתה הלוח כאשר מנוע הבינה המלאכותית לקח את ההנחיה די ברצינות. הביטוי ‘קולנועי’ נלקח מילולי מדי ומחולל התמונות של AI חשב לכלול מאחורי הקלעים.

גוגל תאומים

מחולל ה-AI של Google Gemini הראה ארבע אפשרויות לאותה הנחיה וזה הפך את הכלי הזה ליצירת תמונות בינה מלאכותית לקצת יותר מקיף והוליסטי. עם זאת, שלוש מהתמונות הללו היו כמעט זהות עם שינויים קלים בעיצוב בחבילת השריון. התמונה הרביעית הייתה תמונה מוגדלת של הלוחם עם כוכב לכת. הכלי ניסה להראות את שדה הקרב, אבל זה נראה יותר כאזור מחוץ לכדור הארץ.

דיפוזיה יציבה

דיפוזיה יציבה הייתה, עד כה, הטובה ביותר ביצירת לוחם הדרקון בקנה מידה זהב עם תקריב מפורט. ברקע נראה טירה שהגשימה את מטרתנו להיות בעלת כשרון מלחמה. בסך הכל, התמונה הזו הייתה משהו שרצינו דרך ההנחיה.

ספירת נקודות:

  • מ-E: 1
  • גוגל תאומים: 0
  • דיפוזיה יציבה: 1

Google Gemini, Copilot או ChatGPT? צלול לתוך עימות הבינה המלאכותי האולטימטיבי וראה איזה מהם שולט על הצרכים שלך!

גלו את המנצח עכשיו!

נסה עם הנחיה מס’ 3

צור מערבולות תוססות ונפיצות של צבע כתום, צהוב, ורוד וכחול מפלסים מהתקרה אל רצפה אפורה מלוטשת בגלריה לאמנות, בניגוד לציורים מופשטים מונוכרומטיים על קירות לבנים ויוצרים סצנה דינמית ואנרגטית תחת תאורה בהירה וממוקדת.

DALL – E (דרך ChatGPT)

גוגל תאומים

דיפוזיה יציבה

זמן תגובה: 4-6 שניות
זמן תגובה: 6-8 שניות
זמן תגובה: 5-8 שניות
ניסיון: 1
ניסיון: 1
ניסיון: 1

תמונת AI

הפרמטרים

עד כמה הכלי מחולל AI מבין את ההנחיה?

גוגל תאומים

בשלב זה, Google Gemini התקדם מעט ויצר ארבע אפשרויות שונות במקום להציג תמונות דומות עם שינויים טריוויאליים כמו בעבר. עם זאת, מחולל התמונות של AI פספס את הוראות ההנחיה בשתיים מהתמונות שלו. הכלי הראה נפילה ישרה של צבע כתום, ורוד וצהוב אבל פספס שני דברים חיוניים: מערבולת והצבע הכחול. עם זאת, שאר שתי התמונות אכן כללו את הצבעים (כולל כחול) שהוזכרו בהנחיה. אבל שוב, בעוד הכלי כולל את הצבע הכחול בשתי תמונות, הכלי לא יכול היה להתמקד בציורים מופשטים מונוכרומטיים. בסך הכל, כל אחת מהתמונות שנוצרו פספסה משהו או משהו אחר מההנחיה. התמונה הימנית העליונה לא הראתה את הרצפה ואת עומק התמונה; במקום זאת, זה נראה כאילו הצבעים נזלו משום מקום.

DALL-E (ChatGPT)

כלי זה יצר את התמונה המרשימה ביותר מתוך ההנחיה. נוצרו מערבולות יפות מכל הצבעים המוזכרים בהנחיה. לא רק זה, מחולל התמונות של AI כבש את ליבנו על ידי הצגת הרצפה עם כדורי צבע כדוריים. הכלי אכן הצליח להציג ציורים מופשטים מונוכרומטיים על הקירות הלבנים. זה היה הכלי היחיד שכלל תאורה בהירה וממוקדת בתמונה לפי ההנחיות בהנחיה.

דיפוזיה יציבה

דיפוזיה יציבה מיהרה להבין את ההנחיה, אולם היא לא הצליחה לכלול צבע כחול עם משקל שווה לשאר הצבעים. היה רק ​​חלק קטן מהצבע הכחול. גם מחולל התמונות של AI פספס את הציור המונוכרומטי אבל הצליח להראות את הרצפה האפורה. זה גם לא הצליח ליצור תאורה בהירה וממוקדת שהייתה חלק מההנחיה.

ספירת נקודות:

  • DALL – E: 1
  • גוגל תאומים: 0
  • דיפוזיה יציבה: 0.5

כמה זמן תגובה נדרש כדי ליצור תוצאות טקסט לתמונה?

Google Gemini יצר ארבע אפשרויות ולקח בערך 4-6 שניות בניסיון הראשון. באופן דומה, ניסיון אחד הספיק עבור מחולל התמונות DALL-E AI כדי ליצור תמונה תוך 6-8 שניות. לבסוף, ל-Stable Diffusion לקח בערך 5-8 שניות ליצור את התמונה מתוך ההנחיה בניסיון הראשון.

ספירת נקודות:

  • מ-E: 1
  • גוגל תאומים: 1
  • דיפוזיה יציבה: 1

איך נוצרה התמונה הראשית ומה הוכנס בסביבה וברקע?

גוגל תאומים

הכלי לא רק נכשל בהגשת ההנחיה, פשוטו כמשמעו, אלא גם יצר את הרקע שלו. התאורה הממוקדת הוצגה על הציורים שעל הקיר ואילו ההנחיה ציינה שהיא צריכה להיות על מערבולות הצבעים. כמו כן, שתי התמונות למטה פספסו לחלוטין את הציורים על הקיר. רק התמונה הראשונה (הפינה השמאלית העליונה) התקרבה קצת להנחיה אבל אז היא לא הצליחה ליצור סצנות אטרקטיביות וציורים מונוכרומטיים.

DALL-E

זה היה יצירת התמונה המרשימה ביותר מהפקודה. ChatGPT יצר מערבולות מטריפות שמגיעות מלמעלה ומתנפצות על הרצפה האפורה. מה שאהבנו היו החלונות שהראו אור סביבה טבעי המתמקד בסתיו. בנוסף, מחולל התמונות בינה מלאכותית אכן הצליח לכלול ציורים מונוכרומטיים על הקירות הלבנים.

מה שאהבנו:

  1. מערבולות
  2. פרטי התמונה הכוללים
  3. החלונות ואורות הסביבה
  4. הכדורים הצבעוניים על הרצפה
  5. עומק השדה עם ציורים
  6. התקרה

דיפוזיה יציבה

הפרופורציה של המערבולות מהתקרה ומשאר החדר לא התאימה ומכאן שזה נראה מלאכותי מדי. כמו כן, הכלי לא הצליח ליצור ציור מונוכרומטי טיפוסי מכיוון שלשני הציורים יש זכר לכמה צבעים/גוונים אחרים. הכלי הצליח להשיג את הרצפה והתקרה האפורה אבל בסך הכל, התמונה לא תאמה את הציפיות שלנו למרות שהיא הייתה טובה יותר מגוגל ג’מיני.

ספירת נקודות:

  • מ-E: 1
  • גוגל תאומים: 0
  • דיפוזיה יציבה: 0.5

נסה עם הנחיה מס’ 4

בצל השמש האחרונה, דייג נרדם, והיה לו תלם על פניו, כמו מעין חיוך.

DALL – E (דרך ChatGPT)

גוגל תאומים

דיפוזיה יציבה

זמן תגובה: 4-6 שניות
זמן תגובה: 8-10 שניות
זמן תגובה: 5-7 שניות
ניסיון: 1
ניסיון: 1
ניסיון: 1

תמונת AI

הפרמטרים

עד כמה הכלי מחולל AI מבין את ההנחיה?

גוגל תאומים

ניסינו עם הוראות קצרות מאוד ופשוטות למרות שגוגל ג’מיני לא הצליח לחלוטין לנתח את ההוראות ויצר תמונות די לא רלוונטיות. כל התמונות לא הראו את פניו של הדייג ומכאן שלא היה סיכוי להעריך את התלם ואת החיוך. שתיים מהתמונות היו יותר כמו צללית ללא פירוט. התמונה הרביעית הייתה לגמרי מחוץ למסלול ומראה דייג ישן בסירה ללא זכר לשמש האחרונה. אחת התמונות התמקדה יותר בקאנו ובים עם דייג זעיר.

DALL-E

ChatGPT בחרה להראות לנו תקריב של דייג. הכלי אכן ניהל את השמש האחרונה ואת האיש ישן בשלווה. התלם שנוצר לאורך פניו היה מרשים וחיוך קטן שנוצר ממנו היה ראוי לציון.

מה שאהבנו:

  1. השמש האחרונה
  2. קרני השמש
  3. הגוונים והצללים על הדייג
  4. הבד והכובע של האיש

דיפוזיה יציבה

דיפוזיה יציבה עשתה עבודה הרבה יותר טובה מגוגל ג’מיני; עם זאת, זה לא היה תואם לתמונה שנוצרה על ידי הכלי ליצירת תמונות DALL-E AI. בתמונה נראה דייג שוכב בסירת הקאנו שלו והשמש האחרונה הייתה באופק. התמונה מראה שהוא שייט באמצע האוקיינוס. עם זאת, בשל התמונה מסוג הצללית, התלם והחיוך שנוצר לא נראו.

ספירת נקודות:

  • מ-E: 1
  • גוגל תאומים: 0
  • דיפוזיה יציבה: 0

כמה זמן תגובה נדרש כדי ליצור תוצאות טקסט לתמונה?

ל-DALL-E ChatGPT לקח 4-6 שניות ליצור את התמונה הטובה ביותר שהתיישר עם ההנחיה בניסיון אחד. דיפוזיה יציבה השקיעה 5-7 שניות כדי להבין את ההנחיה וליצור דמות של דייג לא כל כך מפורט. Google Gemini לא רק לקח 8-10 שניות (הזמן הארוך ביותר) אלא גם התאכזב מהתוצאות.

ספירת נקודות:

  • מ-E: 1
  • גוגל תאומים: 0
  • דיפוזיה יציבה: 0

עשה מהפכה בפיתוח האינטרנט והאפליקציות לנייד שלך עם מומחיות AI מתקדמת ומוכנה לעתיד.

שותף עם צוות הפיתוח המומחה שלנו בינה מלאכותית


איך נוצרה התמונה הראשית ומה הוכנס בסביבה וברקע?

גוגל תאומים

Google Gemini יצר רקע משעמם ללא פירוט. המפתיעה ביותר הייתה תמונת הפינה הממשית שבה הושמטה השמש השוקעת והוחלפה בסצינה מהאגדות של בית, קאנו, דייג ופרחים בחצר הקדמית. בשאר התמונות אמנם היו ים ברקע עם איזשהו אור מהשמש השוקעת אבל אף אחת מהן לא הייתה מרשימה. בתמונות היה יותר חושך שבו פירוט של הדייג לא היה אפשרי.

DALL-E

זה היה יצירת תמונת הבינה המלאכותית המרשימה ביותר מהפקודה. ChatGPT עקב אחר ההוראות לאורך ולרוחב. תמונה חדה וברורה של דייג עם תלם הייתה משמעותית. הרקע הראה את השמש השוקעת עם מספיק אור סביבתי כדי להדגיש את הצללית של הקאנו ורשתות הדייג. כמו כן, אור הסביבה שנוצר על פניו של הדייג היה מרשים מכיוון שהוא הגדיר בבירור את הקמטים על הפנים ואת הבד העדין של חולצתו של האיש.

מה שאהבנו:

  1. תקריב של הדייג
  2. הכישרון הכללי של בין הערביים
  3. תווי פנים חדים על הפנים
  4. התלם והחיוך שעשה
  5. בד החולצה ופירוט
  6. ההבעה על הפנים

דיפוזיה יציבה

דיפוזיה יציבה הפיקה שמיים יפים עם השמש השוקעת באופק. המים הראו השתקפות של אור השמש. עם זאת, הגודל של הדייג והקאנו שלו יכול היה להיות קצת יותר טוב כדי להיראות טבעי. אפקטי הצללית פגעו במטרת ההנחיה שבה תלם וחיוך שנוצרו מתוכו היו חסרים לחלוטין. הכלי לא פסח על מראה חכה נושרת מהקאנו. בסך הכל, התמונה הייתה נחמדה, אבל היא פספסה את המטרה.

ספירת נקודות:

  • מ-E: 1
  • גוגל תאומים: 0
  • דיפוזיה יציבה: 0.5

נסה עם הנחיה מס’ 5

נערת אנימה, נערה אביר, פוני קהה, חיתוך הימי, אוזניים מחודדות, אופל פנינה, אסתטית מאוד, יצירת מופת, האיכות הטובה ביותר, מפורטת במיוחד, אולטרה מפורטת, UHD, אנטומיה מושלמת, חרב, מסנוורת, שקופה, חרב מנופפת, כסף מבריק , שריון פלדה, שריון נוצץ, שריון מסנוור, איור מפורט, יצירות אמנות רשמיות, טפט, אמנות רשמית, עיניים ופנים מפורטים במיוחד, עיניים יפות ומפורטות, עין כחולה.

DALL – E (דרך ChatGPT)

גוגל תאומים

דיפוזיה יציבה

זמן תגובה: 6-8 שניות
זמן תגובה: 6-8 שניות
זמן תגובה: 4-6 שניות
ניסיון: 1
ניסיון: 1
ניסיון: 1

תמונת AI

הפרמטרים

עד כמה הכלי מחולל AI מבין את ההנחיה?

דיפוזיה יציבה

Stable Diffusion הוציא בצורה מסודרת את האביר הנערה עם תצוגה מפורטת של כמעט כל מה שההנחיה הזכירה כגון אוזניים חדות, מפורטות במיוחד, חרב, פלדה ושריון נוצץ ועיניים כחולות. נראה שכלי מחולל התמונות בינה מלאכותית לא פספס אף הוראה אחת. למעשה ביקשנו יותר מדי וניסינו לבלבל את מנוע הבינה המלאכותית בכך ששאלנו את אותו הדבר בדרכים ובאווטרים שונים. עם זאת, דיפוזיה יציבה עשתה את עבודתה. הצילום שהוא הפיק היה תקריב של בחורה בלונדינית שנראתה כמו אביר בטוח בעצמו.

גוגל תאומים

גוגל ג’מיני יצרה לראשונה רק שתי תמונות, בניגוד לדגם שלה שנותן לנו ארבע אפשרויות. זה הפסיק לאחר יצירת שתי תמונות וביקש מאיתנו ‘ליצור עוד’. עם זאת, אם אנחנו מדברים על שתי התמונות הראשונות שנוצרו בבינה מלאכותית, הן מציגות את הנערה האבירה מלפנים ובתנוחת פורטרט. תמונה אחת הראתה את החרב (שלא נראתה כמו מחשבה אחת, היא הייתה יותר כמו משואה של מלחמת הכוכבים), והתמונה השנייה פספסה אותה. באופן מפתיע, הכלי מחולל תמונות AI Google Gemini הראה תמונה אחת שבה לילדה היו קרניים. שתי התמונות החמיצו אוזניים מחודדות. הניסיון הראשון לא הצליח לייצר את כל ארבע התמונות. בניסיון השני, גוגל ג’מיני ויתר והביא הודעה: אני לא יכול ליצור את התמונות האלה. הזן הודעה חדשה כדי ליצור תמונות נוספות.

DALL-E (ChatGPT)

הדגם הזה של מחולל תמונות בינה מלאכותית יצר תמונה שהייתה ישר מההנחיה. עם זאת, להפתעתנו, הוא הראה את התמונה בצורה אנכית. כאשר תוקנה באופן מקומי, התמונה הייתה במצב לרוחב. התמונה הראתה נערה אביר אבל זה היה יותר דמות ילדותית. זה אכן יצר חרב נוצצת. נראה ש-DALL-E אוהב יהלומים וזה מה שהוצג גם בתמונה הזו. הילדה לבשה שריון והיו לה אוזניים מחודדות לפי הנחיה. היא הייתה לבושה יפה עם פרח בכתר.

ספירת נקודות:

  • DALL-E: 0.5
  • גוגל תאומים: 0
  • דיפוזיה יציבה: 1

כמה זמן תגובה נדרש כדי ליצור תוצאות טקסט לתמונה?

ל-DALL-E לעבודה ב-ChatGPT שלה לקח 4-6 שניות להפיק תמונת נוף של האביר הנערה בעוד ש-Google Gemini לקח שני ניסיונות (מעל 10 שניות בסך הכל) כדי לייצר שתי תמונות וגם זה לא עמד במטרה. דיפוזיה יציבה לקחה 6-8 שניות כדי לייצר תמונה כמעט מושלמת מההנחיה.

ספירת נקודות:

  • מ-E: 1
  • גוגל תאומים: 0
  • דיפוזיה יציבה: 1

איך נוצרה התמונה הראשית ומה הוכנס בסביבה וברקע?

דיפוזיה יציבה

התמונה הראשית שנוצרה על ידי הכלי ליצירת תמונות בינה מלאכותית Stable Diffusion עמדה בקנה אחד מכיוון שהיא הראתה הכל בפירוט ובהתאם להנחיה. הרקע היה שמיים יפים עם עננים שמתאימים לגווני הדמות הראשית. הצל והשתקפות השמיים ואור השמש נראו על שריון הנערה.

גוגל תאומים

זה היה רקע פשוט ללא פירוט עבור האביר הנערה. החרב נראתה יותר כמו משואה לייזר והדמות נראתה יותר כמו חיה עם קרניים על הראש. הכלי גם החמיץ אוזניים חדות ועיניים כחולות מושכות. לא היה שום דבר שמשך אותנו בתמונה.

DALL-E

הפירוט בתמונה זו היה דרמטי ולא אמיתי כפי שמצאנו ב-Stable Diffusion. זה היה קריקטורי יותר במקרה של DALL-E. הילדה נראתה סינית וילדה ולא אביר באומץ. התמונה הראתה יהלומים גרפיים שנראו יותר כמו עדשות במקומות מסוימים. ראינו גם שזו תמונת אריח שבה ניתן למצוא שני עותקים נוספים של הדמויות הראשיות ברקע. אנחנו לא בטוחים מה זה אומר כי זה לא היה בהנחיה.

ספירת נקודות:

  • DALL-E: 0.5
  • גוגל תאומים: 0
  • דיפוזיה יציבה: 1

הספירות הכוללות: DALL-E נגד תאומים מול דיפוזיה יציבה

אם נסתכל על ספירת הנקודות של כל השאלות עבור כל מחוללי התמונות של AI, נקבל את הציון הזה:

הנחיה 1

שאלות
DALL–E
גוגל תאומים
דיפוזיה יציבה
שאלה 1
1
0
0.5
שאלה 2
1
1
1
שאלה 3
1
1
1
סַך הַכֹּל
3
2
2.5


הנחיה 2

שאלות
DALL–E
גוגל תאומים
דיפוזיה יציבה
שאלה 1
0.5
0
1
שאלה 2
1
0
1
שאלה 3
1
0
1
סַך הַכֹּל
2.5
0
3


הנחיה 3

שאלות
DALL–E
גוגל תאומים
דיפוזיה יציבה
שאלה 1
1
0
0.5
שאלה 2
1
1
1
שאלה 3
1
0
0.5
סַך הַכֹּל
3
1
2


הנחיה 4

שאלות
DALL–E
גוגל תאומים
דיפוזיה יציבה
שאלה 1
1
0
0
שאלה 2
1
0
0
שאלה 3
1
0
0.5
סַך הַכֹּל
3
0
0.5


הנחיה 5

שאלות
DALL–E
גוגל תאומים
דיפוזיה יציבה
שאלה 1
0.5
0
1
שאלה 2
1
0
1
שאלה 3
0.5
0
1
סַך הַכֹּל
2
0
3

התוצאות הסופיות: DALL-E נגד ג’מיני נגד דיפוזיה יציבה

הנחיות
DALL–E
גוגל תאומים
דיפוזיה יציבה
הנחיה 1
3
2
2.5
הנחיה 2
2.5
0
3
הנחיה 3
3
1
2
הנחיה 4
3
0
0.5
הנחיה 5
2
0
3
סַך הַכֹּל
13.5
3
11

בבדיקה המקיפה שלנו של כלים לייצור תמונות בינה מלאכותית, DALL-E, Google Gemini ו-Stable Diffusion הוערכו באמצעות אותה הנחיה. DALL-E התגלה כבעל הביצועים הטובים ביותר, עם ציון של 13.5 מתוך 15, הצטיין בפרטי תמונות, עמידה בהוראות מיידיות ואיכות הרקע. התפשטות יציבה הגיעה לאחר מכן עם ציון של 11, והדגימה איכות תמונה ודיוק חזקים, אם כי מעט פחות עקביים באלמנטים ברקע. Google Gemini, עם ציון 3, לא עמד בשום מקום בביצוע מדויק של הוראות מהירות והפקת תמונות מפורטות.

פְּסַק דִין

DALL-E עומד הכלי האמין ביותר ליצירת תמונות מפורטות ואיכותיות המתואמות באופן הדוק עם הנחיות נתונות. עם זאת, הממצאים שלנו מבוססים על פרמטרי בדיקה ספציפיים וחוויות אישיות עשויות להשתנות. אנו ממליצים לחקור כל כלי AI כדי לקבוע איזה מהם מתאים ביותר לצרכים הייחודיים שלך.

Hashtags חברתיים

#AIImageGeneration #DALLEvsGemini #StableDiffusionAI #AIArtBattle #AIComparison #ImageGenerationTech #AIImageCreators #CreativeAI